Az Észak-Karolinai Egyetem három kutatója nemrégiben közzétett egy mesterséges intelligenciával kapcsolatos kutatást, amelyben bemutatják, mennyire nehéz érzékeny adatokat eltávolítani nagy nyelvi modellekből (LLM), mint például az OpenAI ChatGPT vagy a Google Bard.
A kutatók szerint az LLM-ekből történő információ "törlése" csak elvileg lehetséges, de az információ eltávolításának ellenőrzése éppolyan nehéz, mint maga az eltávolítás.
Ennek oka az LLM-ek működéséból adódik. A modelleket előre kiképezték adatbázisokon, amiket felhasználva generálnak koherens kimeneteket (a GPT a „generative pretrained transformer” rövidítése). Miután pedig egy modellt kiképeztek, a készítői nem mehetnek vissza az adatbázisba, hogy töröljenek specifikus fájlokat annak érdekében, hogy megakadályozzák a modellt a kapcsolódó eredmények kiadásában.
Ehelyett az AI fejlesztők olyan védelmi rendszereket használnak, amelyek gátolnak bizonyos nem kívánt viselkedéseket, vagy az emberi visszajelzésből reinforcement learning segítségével finomhangolnak (RLHF). Vagyis például az emberek megpróbálhatják elérni, hogy az LLM ne osszon meg biológiai fegyverek készítéséről szóló részletes információkat, de törölni ezt a tudást nem tudják a nyelvi modellből. Lehetséges, hogy az esetek nagy részében az információt elrejthetik, de a legtöbbször lehet találni olyan módot, amit kihasználva a mesterséges intelligencia mégis megosztja az érzékeny információt.
Végül az egyetem kutatói arra a következtetésre jutottak, hogy még a legmodernebb modellezési módszerek, mint például a Rank-One Model Editing „sem törli teljes mértékben a ténybeli információt az LLM-ekből, mivel a tényeket még mindig 38%-os eséllyel lehet kinyerni fehér doboz támadásokkal és 29%-os eséllyel fekete doboz támadásokkal.”
Mit jelet ez? Csak azt, hogy az érzékeny információk elrejtése lehet a 2020-as évek csiki-csukija, amit a 90-es évek óta a vírusokkal “játszanak” a védelmi szakemberek: alighogy befoltoznak egy rést, a támadók találnak egy másikat. Mert egy biztos: egy generatív mesterséges intelligenciából törölni adatokat úgy, hogy a forrást eltávolítjuk, épp olyan képtelenség, mintha az emberektől várnánk el, hogy elfelejtsék egy könyv tartalmát csak azért, mert a könyvet elégetik.