Aktualita

„Pravda“, nepravdy a integrita AI chatbotov

Pravda, nepravdy a integrita AI chatbotov

Systémy umelej inteligencie, vrátane veľkých jazykových modelov (LLM) nám dnes v mnohých oblastiach významne uľahčujú každodenný život. Inovatívne technológie však prinášajú aj viaceré výzvy a v nesprávnych rukách sa môže aj prospešná technológia stať hrozbou pre bezpečnosť. V našom predchádzajúcom článku sme napríklad zdieľali prácu odborníkov z  EU DisinfoLab, ktorí porovnávali zásady proti dezinformáciám najznámejších AI chatbotov, ako ChatGPT, Gemini alebo Copilot. Predtým sme pre našich čitateľov pripravili článok o zisteniach odborníkov na kyberbezpečnosť zo spoločnosti Google, ktorí skúmali využívanie svojho modelu zločineckými skupinami prepojenými na štáty.

V súčasnosti je aktívne diskutovaná problematika „LLM grooming-u”, teda manipulácie s tréningovými dátami jazykových modelov, na základe ktorých môžu AI chatboty organicky interagovať s ľuďmi. Pokiaľ sa medzi obrovské množstvá tréningových dát dostanú klamlivé a zavádzajúce informácie, LLM budú s nimi pracovať ako s legitímnymi dátami, následkom čoho môžu AI chatboty neúmyselne šíriť škodlivý obsah ľudským používateľom. Dezinformácie preto predstavujú významnú hrozbu pre integritu tréningových dát a následne aj pre integritu odpovedí, ktoré AI chatboty poskytujú ľuďom.

V tomto článku sa bližšie pozrieme na to, prečo sa o „LLM grooming-u“ v súčasnosti tak veľa diskutuje a ako to súvisí s  ruskými dezinformáciami a ekosystémom ruských dezinformačných spravodajských portálov „Pravda“.

Čo je dezinformačný ekosystém „Pravda“?

Vo februári 2024 odhalila francúzska Služba ochrany pred zahraničným digitálnym ovplyvňovaním (VIGINUM) štruktúrovanú a koordinovanú sieť ruskej propagandy a dezinformácií v digitálnom priestore. Túto sieť, tvorenú viac ako 190 online spravodajskými portálmi šíriacimi ruské dezinformácie, pomenovali francúzske orgány Portal Kombat. Analytici z VIGINUM publikovali celkom tri výstupy, ktoré túto sieť podrobne zmapovali, priniesli informácie o subjektoch v jej pozadí a informovali o jej rozsiahlom rozšírení do európskeho digitálneho priestoru. Dva z výstupov sme pre našich čitateľov spracovali v samostatných článkoch, ktoré si môžete prečítať tu a tu.

Komplexnú sieť spravodajských webov v rámci Portal Kombat bolo možné rozdeliť do troch menších „podsietí“ alebo ekosystémov, pričom jeden z nich bol označený ako „ekosystém Pravda“. Ten bol tvorený webovými stránkami, ktoré zdieľali spoločnú IP adresu umiestnenú na serveri v Rusku, rovnakú HTML architektúru, rovnaké grafické spracovanie a rovnaké externé odkazy. Obsahovo boli tieto stránky charakteristické proruskými naratívmi, najmä pri obhajovaní a pokusoch o legitimizáciu ruskej invázie na Ukrajinu. Geograficky bol obsah cielený na publikum v niekoľkých západných štátoch. Súčasťou tohto ekosystému bolo päť webových domén, registrovaných v roku 2023:

Doména	Publikum
pravda-fr[.]com	Francúzsko
pravda-de[.]com	Nemecko, Rakúsko, Švajčiarsko
pravda-pl[.]com	Poľsko
pravda-es[.]com	Španielsko
pravda-en[.]com	Spojené kráľovstvo a USA

Ekosystém Pravda sa postupne rozširoval. V roku 2024 boli registrované ďalšie domény a ekosystém sa celkovo zameriaval už na 19 členských štátov EÚ, 6 nečlenských štátov v Európe, 3 africké štáty a 3 štáty v Ázii. Tieto zistenia potvrdila aj organizácia European Digital Media Observatory (EDMO), ktorá v tej dobe aktívne monitorovala informačné prostredie pred nadchádzajúcimi voľbami do Európskeho parlamentu. Neskoršie výskumy zároveň poukázali, že v priebehu roka 2024 došlo nie len k ďalšiemu rozšíreniu, ale aj k preskupeniu a zjednoteniu jednotlivých stránok pod hlavnú doménu (news-pravda[.]com), pod ktorú dnes spadá asi 140 subdomén cielených na viac ako 80 štátov.

Ekosystém tak prešiel od individuálnych domén pre konkrétne publiká (napríklad pravda-fr[.]com) na centralizovaný model v rámci vyššie uvedenej, hlavnej domény. Na vybrané publiká sa v rámci nej zameriava viac ako 140 subdomén (napríklad francais.news-pravda[.]com…). Ich obsahovým špecifikom je, že nepublikujú žiaden originálny obsah, len strojovo preberajú veľké množstvá článkov z ruských médií a proruských účtov na sociálnych sieťach, ktoré sú automatizovane prekladané do jednotlivých jazykových modifikácií pre cielené publiká. Ide teda o tzv. agregátorov správ.

Na účely informovania odborníkov a širšej verejnosti vznikol aj pravidelne aktualizovaný zoznam, kde je možné nájsť všetky doposiaľ identifikované domény a subdomény ekosystému Pravda. Zaujímavosťou je, že existuje aj variant cielený pre slovenské publikum.

Transformácia individuálnych pravda-xx[.]com domén na subdomény news-pravda[.]com.
Zdroj: https://dfrlab.org/2025/02/24/russia-pravda-network-expands-worldwide/

Prenikanie dezinformačnej siete do tréningových dát LLM

Nebezpečnosť ekosystému Pravda však nespočíva len v jeho globálnom dosahu, ale aj v bezprecedentnom množstve článkov, ktoré sú kontinuálne publikované na jeho web stránkach. V jednej z analýz bolo odhadnuté, že časť stránok ekosystému Pravda dokáže za dva dni vyprodukovať v priemere až viac ako 20 tisíc článkov. Ide pritom o skeptické odhady a skutočná aktivita je veľmi pravdepodobne ešte vyššia. Na slovenskej subdoméne sme napríklad identifikovali viac ako 400 nových článkov za konkrétny deň. Ide teda o obrovské množstvá dezinformačného a zavádzajúceho obsahu, ktorý sa každú minútu objavuje a rozširuje v globálnom digitálnom priestore, v desiatkach rôznych jazykových mutácií. Práve z tohto dôvodu sa ekosystém stáva nebezpečným pre tréningové dáta LLM. Ruská propaganda a dezinformácie masovo zahlcujú digitálny priestor, čím sa zvyšuje ich viditeľnosť a potenciál byť zachytené algoritmami, ktoré zbierajú dáta z internetu pre tréning LLM. Tieto modely sa tak „učia“ aj na škodlivých, zavádzajúcich dátach, ktoré môžu ďalej šíriť prostredníctvom AI chatbotov.

Okrem priameho zberu dát je významným faktorom s potenciálom ovplyvňovať integritu LMM aj tzv. sekundárne alebo nepriame šírenie dezinformačných portálov. Ide napríklad o citovanie dezinformačných webov v digitálnych encyklopédiách. Odborníci spoločnosti CheckFirst a organizácie DFRlab napríklad nedávno odhalili, že známa digitálna encyklopédia Wikipedia obsahuje celkovo viac ako 1900 rôznojazyčných odkazov na stránky dezinformačnej siete Portal Kombat, vrátane ekosystému Pravda. Táto encyklopédia je pritom nezanedbateľným zdrojom pre tréningové dáta viacerých LLM. Modely, z ktorých vychádzajú AI chatboty, sa tak môžu stať priamo šíriteľmi dezinformácií či poskytovať používateľom dezinformačné portály ako legitímne zdroje informácií. Nedávny audit 10 najpoužívanejších AI chatbotov ukázal, že priemerne až pri 33% obsahu vygenerovaného počas kontroly opakovala umelá inteligencia falošné naratívy šírene v rámci ekosystému Pravda.

Objavila sa preto teória, že hlavným publikom ekosystému Pravda v skutočnosti nie sú autentickí, ľudskí používatelia, ale stroje – automatické zberače dát, automatizované vyhľadávacie nástroje a podobne. Túto teóriu podporuje aj skutočnosť, že napriek obrovskému množstvu produkovaných článkov má publikovaný obsah relatívne nízku kvalitu. V článkoch je zjavný strojový preklad a grafické prvky ako obrázky a videá bývajú neprehľadné či nesprávne zarovnané k ostatnému textu. Portály zároveň nie sú ľahko navigovateľné pre ľudských používateľov a absentuje na nich vyhľadávacia funkcia. Návštevnosť stránok ekosystému sa tiež javí len ako marginálna, v porovnaní s množstvom generovaného obsahu a inými ruskými spravodajskými portálmi. Ekosystém sa tak podľa všetkého snaží v prvom rade duplikovať a rozširovať čo najväčšie množstvo proruského obsahu do digitálneho priestoru, nezávisle na jeho kvalite či počte autentických návštevníkov svojich portálov.

Riziko pre integritu AI a spoločnosť

Kontaminácia tréningových dát LLM falošnými a zavádzajúcimi informáciami ohrozuje nielen samotné modely, ale aj celú spoločnosť. Keďže systémy AI zohrávajú čoraz väčšiu úlohu v každodennom živote jednotlivcov, riziko negatívnych dopadov spojených s ich zneužívaním zásadne narastá. Popredné AI chatboty ako ChatGPT, Gemini či Grok sa stali rýchlym pomocníkom a zdrojom informácií pre značné množstvo ľudí. Nedávny prieskum napríklad ukazuje, že až 40% Slovákov vo veku 18-27 rokov pravidelne využíva umelú inteligenciu. Zároveň potvrdzuje, že umelá nám slúži najmä ako rýchly zdroj informácií. Nekontrolované a rozsiahle absorbovanie nespoľahlivých dát jazykovými modelmi teda predstavuje obrovské riziko pre integritu informácií, s ktorými pracujeme na každodennej báze.

Falošné naratívy sa tak môžu stať ešte hlbšie zakorenenými a ťažšie vyvrátiteľnými, čo v konečnom dôsledku povedie nie len k ďalšej polarizácií spoločnosti, ale aj k rastu nedôvery voči novým technológiám. Škodliví aktéri majú z dlhodobého hľadiska potenciál ovplyvňovať komerčné systémy AI a formovať z nich nevedomé nástroje informačného pôsobenia. Ide pritom len o jeden z mnohých dôkazov, ktoré potvrdzujú dlhodobo narastajúcu rolu umelej inteligencie v hybridnom a inom škodlivom pôsobení. K zraniteľnosti, ktorú predstavuje integrita tréningových dát LLM prispieva aj netransparentný prístup technologických spoločností. Ten otvára diskusie o potrebe spolupráce so súkromnými spoločnosťami a ich konflikte medzi vlastnými obchodnými záujmami a zodpovednosťou za škodlivý obsah, ktorú by mali preberať.

Model ruského dezinformačného ekosystému Pravda odhaľuje nové zraniteľnosti, prostredníctvom ktorých dokážu škodliví aktéri negatívne ovplyvňovať naše spoločnosti. Na boj proti prenikaniu dezinformácií do AI jazykových modelov je nevyhnutné zaviesť viacúrovňové opatrenia na filtrovanie tréningových dát, pravidelný audit modelov a implementáciu sofistikovaných algoritmov na rozpoznávanie nespoľahlivých zdrojov. Zásadná je taktiež potreba otvorenej spolupráce medzi technologickými spoločnosťami, výskumníkmi a regulátormi, aby bolo možné rýchlo a efektívne reagovať na dianie v dynamickom digitálnom prostredí. Dôležitým aspektom je aj edukácia verejnosti, aby používatelia dokázali kriticky hodnotiť AI-generovaný obsah a rozpoznať potenciálne zavádzajúce informácie.

Odkazy na ďalšie materiály k tejto problematike nájdete nižšie.

Tag: dezinformácie ,Rusko ,umelá inteligencia