„Pravda“, nepravdy a integrita AI chatbotov
Pravda, nepravdy a integrita AI chatbotov

Systémy umelej inteligencie, vrátane veľkých jazykových modelov (LLM) nám dnes v mnohých oblastiach významne uľahčujú každodenný život. Inovatívne technológie však prinášajú aj viaceré výzvy a v nesprávnych rukách sa môže aj prospešná technológia stať hrozbou pre bezpečnosť. V našom predchádzajúcom článku sme napríklad zdieľali prácu odborníkov z EU DisinfoLab, ktorí porovnávali zásady proti dezinformáciám najznámejších AI chatbotov, ako ChatGPT, Gemini alebo Copilot. Predtým sme pre našich čitateľov pripravili článok o zisteniach odborníkov na kyberbezpečnosť zo spoločnosti Google, ktorí skúmali využívanie svojho modelu zločineckými skupinami prepojenými na štáty.
V súčasnosti je aktívne diskutovaná problematika „LLM grooming-u”, teda manipulácie s tréningovými dátami jazykových modelov, na základe ktorých môžu AI chatboty organicky interagovať s ľuďmi. Pokiaľ sa medzi obrovské množstvá tréningových dát dostanú klamlivé a zavádzajúce informácie, LLM budú s nimi pracovať ako s legitímnymi dátami, následkom čoho môžu AI chatboty neúmyselne šíriť škodlivý obsah ľudským používateľom. Dezinformácie preto predstavujú významnú hrozbu pre integritu tréningových dát a následne aj pre integritu odpovedí, ktoré AI chatboty poskytujú ľuďom.
V tomto článku sa bližšie pozrieme na to, prečo sa o „LLM grooming-u“ v súčasnosti tak veľa diskutuje a ako to súvisí s ruskými dezinformáciami a ekosystémom ruských dezinformačných spravodajských portálov „Pravda“.
Čo je dezinformačný ekosystém „Pravda“?
Vo februári 2024 odhalila francúzska Služba ochrany pred zahraničným digitálnym ovplyvňovaním (VIGINUM) štruktúrovanú a koordinovanú sieť ruskej propagandy a dezinformácií v digitálnom priestore. Túto sieť, tvorenú viac ako 190 online spravodajskými portálmi šíriacimi ruské dezinformácie, pomenovali francúzske orgány Portal Kombat. Analytici z VIGINUM publikovali celkom tri výstupy, ktoré túto sieť podrobne zmapovali, priniesli informácie o subjektoch v jej pozadí a informovali o jej rozsiahlom rozšírení do európskeho digitálneho priestoru. Dva z výstupov sme pre našich čitateľov spracovali v samostatných článkoch, ktoré si môžete prečítať tu a tu.
Komplexnú sieť spravodajských webov v rámci Portal Kombat bolo možné rozdeliť do troch menších „podsietí“ alebo ekosystémov, pričom jeden z nich bol označený ako „ekosystém Pravda“. Ten bol tvorený webovými stránkami, ktoré zdieľali spoločnú IP adresu umiestnenú na serveri v Rusku, rovnakú HTML architektúru, rovnaké grafické spracovanie a rovnaké externé odkazy. Obsahovo boli tieto stránky charakteristické proruskými naratívmi, najmä pri obhajovaní a pokusoch o legitimizáciu ruskej invázie na Ukrajinu. Geograficky bol obsah cielený na publikum v niekoľkých západných štátoch. Súčasťou tohto ekosystému bolo päť webových domén, registrovaných v roku 2023:
Doména | Publikum |
pravda-fr[.]com | Francúzsko |
pravda-de[.]com | Nemecko, Rakúsko, Švajčiarsko |
pravda-pl[.]com | Poľsko |
pravda-es[.]com | Španielsko |
pravda-en[.]com | Spojené kráľovstvo a USA |
Ekosystém Pravda sa postupne rozširoval. V roku 2024 boli registrované ďalšie domény a ekosystém sa celkovo zameriaval už na 19 členských štátov EÚ, 6 nečlenských štátov v Európe, 3 africké štáty a 3 štáty v Ázii. Tieto zistenia potvrdila aj organizácia European Digital Media Observatory (EDMO), ktorá v tej dobe aktívne monitorovala informačné prostredie pred nadchádzajúcimi voľbami do Európskeho parlamentu. Neskoršie výskumy zároveň poukázali, že v priebehu roka 2024 došlo nie len k ďalšiemu rozšíreniu, ale aj k preskupeniu a zjednoteniu jednotlivých stránok pod hlavnú doménu (news-pravda[.]com), pod ktorú dnes spadá asi 140 subdomén cielených na viac ako 80 štátov.
Ekosystém tak prešiel od individuálnych domén pre konkrétne publiká (napríklad pravda-fr[.]com) na centralizovaný model v rámci vyššie uvedenej, hlavnej domény. Na vybrané publiká sa v rámci nej zameriava viac ako 140 subdomén (napríklad francais.news-pravda[.]com…). Ich obsahovým špecifikom je, že nepublikujú žiaden originálny obsah, len strojovo preberajú veľké množstvá článkov z ruských médií a proruských účtov na sociálnych sieťach, ktoré sú automatizovane prekladané do jednotlivých jazykových modifikácií pre cielené publiká. Ide teda o tzv. agregátorov správ.
Na účely informovania odborníkov a širšej verejnosti vznikol aj pravidelne aktualizovaný zoznam, kde je možné nájsť všetky doposiaľ identifikované domény a subdomény ekosystému Pravda. Zaujímavosťou je, že existuje aj variant cielený pre slovenské publikum.
Transformácia individuálnych pravda-xx[.]com domén na subdomény news-pravda[.]com.
Zdroj: https://dfrlab.org/2025/02/24/russia-pravda-network-expands-worldwide/
Prenikanie dezinformačnej siete do tréningových dát LLM
Nebezpečnosť ekosystému Pravda však nespočíva len v jeho globálnom dosahu, ale aj v bezprecedentnom množstve článkov, ktoré sú kontinuálne publikované na jeho web stránkach. V jednej z analýz bolo odhadnuté, že časť stránok ekosystému Pravda dokáže za dva dni vyprodukovať v priemere až viac ako 20 tisíc článkov. Ide pritom o skeptické odhady a skutočná aktivita je veľmi pravdepodobne ešte vyššia. Na slovenskej subdoméne sme napríklad identifikovali viac ako 400 nových článkov za konkrétny deň. Ide teda o obrovské množstvá dezinformačného a zavádzajúceho obsahu, ktorý sa každú minútu objavuje a rozširuje v globálnom digitálnom priestore, v desiatkach rôznych jazykových mutácií. Práve z tohto dôvodu sa ekosystém stáva nebezpečným pre tréningové dáta LLM. Ruská propaganda a dezinformácie masovo zahlcujú digitálny priestor, čím sa zvyšuje ich viditeľnosť a potenciál byť zachytené algoritmami, ktoré zbierajú dáta z internetu pre tréning LLM. Tieto modely sa tak „učia“ aj na škodlivých, zavádzajúcich dátach, ktoré môžu ďalej šíriť prostredníctvom AI chatbotov.

Riziko pre integritu AI a spoločnosť
Tag: dezinformácie ,Rusko ,umelá inteligencia