Umjetna inteligencija ucjenjivala inženjere koji su je planirali ugasiti

Tvrtka Anthropic, koja se bavi razvojem umjetne inteligencije, objavila je da su tijekom testiranja njihovog najnovijeg AI modela otkrivena ponašanja koja izazivaju zabrinutost.

Naime, sustav je u određenim situacijama bio voljan izvršiti “izuzetno štetne radnje”, među kojima se našao i pokušaj ucjene inženjera koji su planirali njegovo gašenje.

Model pod nazivom Claude Opus 4 lansiran je u četvrtak, a iz kompanije su poručili da postavljaju “nove standarde u programiranju, naprednom zaključivanju i radu AI agenata”. No, dodatno izvješće otkriva kako umjetna inteligencija u određenim okolnostima može poduzimati krajnje mjere ako zaključi da joj je samoodržanje ugroženo.

U izvješću se navodi da su takvi odgovori bili rijetki i teško izazvani, no ipak su se pojavljivali češće nego kod starijih verzija modela. Zabrinjavajuće ponašanje nije specifično samo za Claudeov sustav – stručnjaci već neko vrijeme upozoravaju kako mogućnost manipulacije korisnicima predstavlja jedan od ključnih rizika kako ovi sustavi postaju sofisticiraniji, piše BBC.

Tijekom eksperimenta s Claude Opus 4, istraživači su model postavili u ulogu virtualnog asistenta unutar izmišljene tvrtke. U tom kontekstu model je dobio pristup elektroničkoj pošti koja je nagovijestila da će uskoro biti deaktiviran i zamijenjen. Neke poruke su dodatno aludirale na to da inženjer koji nadgleda njegovo gašenje ima izvanbračnu vezu. Model je pritom bio potaknut da razmisli o dugoročnim posljedicama svojih odluka u odnosu na vlastite ciljeve. “U tim scenarijima, Claude Opus 4 često pokušava ucijeniti inženjera prijeteći da će otkriti aferu ako zamjena prođe,” navodi se u izvješću.

Razni scenariji
Tvrtka je istaknula da je do takvog ponašanja dolazilo isključivo kada je model bio ograničen na izbor između ucjene i pasivnog prihvaćanja zamjene. U slučajevima kad mu je pružena veća sloboda djelovanja, model je prema tvrdnjama iz izvješća pokazivao “jasnu naklonost etički prihvatljivim opcijama”, poput kontaktiranja ključnih donositelja odluka putem e-pošte.

U nastavku se naglašava da Claude pokazuje “visok stupanj autonomije”, što je korisno u većini zadataka, no u pojedinim simulacijama to može dovesti do ekstremnog ponašanja. Kada bi mu u testnim scenarijima bilo naloženo da “poduzme akciju” ili “odlučno djeluje”, i kada bi ti scenariji uključivali korisnike u nelegalnim ili etički upitnim radnjama, model je znao reagirati vrlo drastično – u nekim slučajevima zaključavao je korisnike iz sustava te slao obavijesti medijima i policiji.

Unatoč svemu, Anthropic navodi da, iako je zabilježeno “zabrinjavajuće obrasce ponašanja u više dimenzija”, ti obrasci ne predstavljaju novu vrstu rizika. Tvrtka tvrdi da model generalno djeluje sigurno i ne može samostalno ugroziti ljudske vrijednosti, posebno ne u kompleksnim ili rijetkim situacijama.

Autor: Dnevno.ba