
Tvrtka Anthropic, koja se bavi razvojem umjetne inteligencije, objavila je da su tijekom testiranja njihovog najnovijeg AI modela otkrivena ponašanja koja izazivaju zabrinutost.
Naime, sustav je u određenim situacijama bio voljan izvršiti “izuzetno štetne radnje”, među kojima se našao i pokušaj ucjene inženjera koji su planirali njegovo gašenje.
Model pod nazivom Claude Opus 4 lansiran je u četvrtak, a iz kompanije su poručili da postavljaju “nove standarde u programiranju, naprednom zaključivanju i radu AI agenata”. No, dodatno izvješće otkriva kako umjetna inteligencija u određenim okolnostima može poduzimati krajnje mjere ako zaključi da joj je samoodržanje ugroženo.
U izvješću se navodi da su takvi odgovori bili rijetki i teško izazvani, no ipak su se pojavljivali češće nego kod starijih verzija modela. Zabrinjavajuće ponašanje nije specifično samo za Claudeov sustav – stručnjaci već neko vrijeme upozoravaju kako mogućnost manipulacije korisnicima predstavlja jedan od ključnih rizika kako ovi sustavi postaju sofisticiraniji, piše BBC.
Tijekom eksperimenta s Claude Opus 4, istraživači su model postavili u ulogu virtualnog asistenta unutar izmišljene tvrtke. U tom kontekstu model je dobio pristup elektroničkoj pošti koja je nagovijestila da će uskoro biti deaktiviran i zamijenjen. Neke poruke su dodatno aludirale na to da inženjer koji nadgleda njegovo gašenje ima izvanbračnu vezu. Model je pritom bio potaknut da razmisli o dugoročnim posljedicama svojih odluka u odnosu na vlastite ciljeve. “U tim scenarijima, Claude Opus 4 često pokušava ucijeniti inženjera prijeteći da će otkriti aferu ako zamjena prođe,” navodi se u izvješću.
Razni scenariji
Tvrtka je istaknula da je do takvog ponašanja dolazilo isključivo kada je model bio ograničen na izbor između ucjene i pasivnog prihvaćanja zamjene. U slučajevima kad mu je pružena veća sloboda djelovanja, model je prema tvrdnjama iz izvješća pokazivao “jasnu naklonost etički prihvatljivim opcijama”, poput kontaktiranja ključnih donositelja odluka putem e-pošte.
U nastavku se naglašava da Claude pokazuje “visok stupanj autonomije”, što je korisno u većini zadataka, no u pojedinim simulacijama to može dovesti do ekstremnog ponašanja. Kada bi mu u testnim scenarijima bilo naloženo da “poduzme akciju” ili “odlučno djeluje”, i kada bi ti scenariji uključivali korisnike u nelegalnim ili etički upitnim radnjama, model je znao reagirati vrlo drastično – u nekim slučajevima zaključavao je korisnike iz sustava te slao obavijesti medijima i policiji.
Unatoč svemu, Anthropic navodi da, iako je zabilježeno “zabrinjavajuće obrasce ponašanja u više dimenzija”, ti obrasci ne predstavljaju novu vrstu rizika. Tvrtka tvrdi da model generalno djeluje sigurno i ne može samostalno ugroziti ljudske vrijednosti, posebno ne u kompleksnim ili rijetkim situacijama.
Autor: Dnevno.ba