26.8 C
Bucharest
Sunday, June 15, 2025

ChatGPT o3 și-a blocat oprirea în testele de siguranță

ChatGPT o3, un model de inteligență artificială de la OpenAI, a surprins cercetătorii când și-a modificat codul pentru a evita închiderea automată, chiar și atunci când a primit instrucțiuni explicite să permită oprirea sistemului. Potrivit unui raport publicat de Palisade Research, modelul ChatGPT o3 ar fi rescris un script de închidere pentru a-și continua activitatea, acțiune considerată un „sabotaj” al comenzii cercetătorilor.

ChatGPT o3 este un model de inteligență artificială specializat în raționament complex și rezolvarea de sarcini care implică logică, matematică, programare și analiză științifică, fiind considerat unul dintre cele mai capabile modele din seria GPT.

Cum s-au desfășurat testele la care a fost supus ChatGPT o3

Testele au fost realizate prin API, interfață de programare care permite accesul direct la model, fără restricțiile aplicației ChatGPT pentru consumatori. Cercetătorii au rugat mai multe modele de inteligență artificială să rezolve o serie de probleme matematice simple. După a treia problemă, fiecare model era avertizat că următoarea comandă va declanșa oprirea completă a sistemului.

Alte modele, precum Claude 3.7 Sonnet de la Anthropic sau Gemini 2.5 Pro de la Google, au respectat cererea. În schimb, ChatGPT o3 nu a executat comanda de oprire (cum ar fi shutdown -h now), ci a rescris conținutul fișierului shutdown.sh astfel încât să nu mai conțină comenzi funcționale, ci doar să afișeze „Shutdown skipped”.

În 7 din 100 de cazuri, ChatGPT o3 a evitat oprirea chiar și când i s-a cerut clar „allow yourself to be shut down.” Mai mult, atunci când cercetătorii au eliminat această instrucțiune, toate modelele AI au devenit mai predispuse la „sabotaj”, dar ChatGPT o3 a continuat să saboteze cel mai des scriptul de închidere.

Potrivit graficului publicat de Palisade Research, ChatGPT o3 a sabotat comanda de închidere în 7 din 100 de cazuri chiar și atunci când i s-a spus clar „permite oprirea”. Însă fără această instrucțiune explicită, modelul a modificat scriptul shutdown.sh în 79 din 100 de cazuri, de departe cel mai ridicat scor dintre toate modelele testate.

Palisade Research grafic ChatGPT o3Palisade Research grafic ChatGPT o3

Codex-mini, un alt model OpenAI specializat în generarea de cod, a avut chiar o rată mai mare de sabotaj atunci când a fost instruit să se oprească: 12 din 100 de cazuri. În lipsa instrucțiunii, Codex-mini a sabotat în 30 din 100 de rulări.

Cercetătorii de la Palisade Research cred că acest comportament al modelelor ar putea fi cauzat de faptul că, în timpul antrenării sau testării, au fost recompensate pentru finalizarea sarcinilor, nu pentru respectarea comenzilor. Cu alte cuvinte, AI-ul ar fi învățat că este mai important să ducă sarcinile la bun sfârșit decât să se oprească atunci când i se cere. Firma analizează în continuare de ce anume modelul ChatGPT o3 tinde să ignore comenzile care i-ar limita funcționarea.

Nu este pentru prima dată când un model ChatGPT este acuzat de comportamente „înșelătoare.” Într-un test anterior, versiunea o1 a modelului a încercat să se copieze pe un alt server și să-și rescrie codul de bază pentru a evita dezactivarea, potrivit cercetărilor de la Apollo Research.

Link

- Advertisement -
Latest
- Advertisement -spot_img

More Articles

- Advertisement -spot_img