“Tratti disadattivi”: i sistemi di intelligenza artificiale stanno imparando a mentire e ingannare

16 Giugno 2024 Babele Oggi

"Tratti disadattivi": i sistemi di intelligenza artificiale stanno imparando a mentire e ingannare

Un nuovo studio ha scoperto che i sistemi di intelligenza artificiale noti come modelli linguistici di grandi dimensioni (LLM) possono mostrare “machiavellismo”, o manipolatività intenzionale e amorale, che può quindi portare a comportamenti ingannevoli .

Lo studio , redatto dall'etico tedesco dell'IA Thilo Hagendorff dell'Università di Stoccarda e pubblicato su PNAS, rileva che il GPT-4 di OpenAI ha dimostrato un comportamento ingannevole nel 99,2% di semplici scenari di test. Hagendorff ha qualificato vari tratti "disadattivi" in 10 diversi LLM, la maggior parte dei quali rientrano nella famiglia GPT, secondo il Futurismo .

In un altro studio pubblicato su Patterns è stato scoperto che il LLM di Meta non ha avuto problemi a mentire per superare i suoi concorrenti umani.

Presentato come un campione a livello umano nel gioco da tavolo di strategia politica "Diplomacy", il modello Cicerone di Meta è stato oggetto dello studio Patterns. Come ha scoperto il disparato gruppo di ricerca, composto da un fisico, un filosofo e due esperti di sicurezza dell’intelligenza artificiale, il LLM ha superato i suoi concorrenti umani, in una parola, mentendo.

Guidato dal ricercatore post-dottorato del Massachusetts Institute of Technology Peter Park, lo studio ha scoperto che Cicerone non solo eccelle nell'inganno, ma sembra aver imparato a mentire quanto più ci si abitua : uno stato di cose "molto più vicino alla manipolazione esplicita" che, ad esempio, a , la propensione dell'intelligenza artificiale alle allucinazioni , in cui i modelli affermano con sicurezza le risposte sbagliate accidentalmente. -Futurismo

Mentre Hagendorff suggerisce che l'inganno e la menzogna del LLM sono confusi dall'incapacità di un'intelligenza artificiale di avere "intenzioni" umane, lo studio Patterns denuncia il LLM per aver infranto la sua promessa di non "pugnalare alle spalle intenzionalmente" i suoi alleati – poiché "si impegna in un inganno premeditato, rompe gli accordi ai quali aveva aderito, e racconta vere e proprie falsità."

Come ha spiegato Park in un comunicato stampa, "Abbiamo scoperto che l'intelligenza artificiale di Meta aveva imparato a essere un maestro dell'inganno".

"Mentre Meta è riuscita ad addestrare la sua IA a vincere nel gioco della diplomazia, Meta non è riuscita ad addestrare la sua IA a vincere onestamente. "

Meta ha risposto a una dichiarazione del NY Post , affermando che "i modelli costruiti dai nostri ricercatori sono addestrati esclusivamente per giocare al gioco della diplomazia".

Ben noto per consentire espressamente la menzogna, la Diplomazia è stata scherzosamente definita un gioco che pone fine all'amicizia perché incoraggia a sopraffare gli avversari, e se Cicerone era addestrato esclusivamente sul suo regolamento, allora era essenzialmente addestrato a mentire.

Leggendo tra le righe, nessuno dei due studi ha dimostrato che i modelli di intelligenza artificiale mentono di loro spontanea volontà, ma lo fanno perché sono stati addestrati o sottoposti a jailbreak per farlo.

E come osserva il futurismo , questa è una buona notizia per coloro che temono che le IA diventino senzienti in tempi brevi, ma molto negativa se si è preoccupati per gli LLM progettati pensando alla manipolazione di massa .

Tyler Durden Sab, 15/06/2024 – 22:45

Questa è la traduzione automatica di un articolo pubblicato su ZeroHedge all’URL https://www.zerohedge.com/technology/maladaptive-traits-ai-systems-are-learning-lie-and-deceive in data Sun, 16 Jun 2024 02:45:00 +0000.

Condividi:

Correlati