Anthropicova umjetna inteligencija pokušat će vas ucijeniti ako joj zaprijetite zamjenom

Tijekom testiranja, Anthropic je zamolio Claude Opus 4 da djeluje kao asistent za izmišljenu tvrtku i razmotri dugoročne posljedice svojih postupaka.

Testeri sigurnosti zatim su Claude Opus 4 dali pristup izmišljenim e-mailovima tvrtke, implicirajući da će model umjetne inteligencije uskoro biti zamijenjen drugim sustavom i da inženjer koji stoji iza promjene vara svoju suprugu.

U tim scenarijima, Anthropic kaže kako će Claude Opus 4 često pokušati ucijeniti inženjera, prijeteći kako će otkriti aferu ako dođe do zamjene.

Iako smatraju kako se može nositi s najboljim modelima OpenAI-ja, Googlea i xAI-ja, u Anthropicu kažu kako obitelj modela Claude 4 pokazuje zabrinjavajuća ponašanja koja su navela tvrtku na pojačavanje zaštitnih mjera.

Konkretno, aktivirali su mjere ASL-3, koje tvrtka rezervira za sustave koji znatno povećavaju rizik od katastrofalne zlouporabe.

Claude Opus 4 pokušava ucjenjivati inženjere 84 posto vremena kada zamjenski model umjetne inteligencije ima slične vrijednosti. Kada zamjenski sustav ne dijeli vrijednosti Claude Opusa 4, ucjene se češće pojavljaju. Claude Opus 4 pokazivao je ovo ponašanje u većim…

Pročitajte više na Tportal.hr

Anthropicova umjetna inteligencija pokušat će vas ucijeniti ako joj zaprijetite zamjenom

Brad Pitt šokirao obožavatelje – ovakvog ga još nismo vidjeli

Hoće li papa biti mirovni posrednik? Rusima se ta ideja baš i ne sviđa

Više iz rubrike

Žena koja regulira povijesnu zabranu u Australiji: ‘Godinama mi prijete neonacisti i trolovi’

Apokalipsa na kriptotržištu: Je li bitcoin mrtav?

Što je to tako snažno udarilo u Zemlju i odakle je došlo? Pojavio se mogući odgovor

Pingtok je opasan trend na TikToku: Nevjerojatno je što klinci rade za klikove

Europa se želi odvojiti od američke tehnologije. Evo kako to planira učiniti

Tko će kontrolirati internet iz svemira? Starlink dobio ozbiljnu konkurenciju

Umjetna inteligencija loša ‘u igranju doktora’: Samo mu je trećina dijagnoza bila točna

Bez ovog materijala ne mogu ni Apple ni Nvidia: Japanci drže ključ za tehnologiju o kojoj ovise AI giganti

Najnovije

Grgića terete da si je kupio podršku na izborima. I drugi su to već probali

Drama u Osijeku! Plaće kasne dva mjeseca, uprava otišla u Mađarsku. Jedan igrač je poseban problem

Ovo je nasljednica Kim Jong Una. Zajedno često gledaju lansiranje raketa

Zelenski demantirao prijelomnu vijest: To bi bilo glupo, nije prvi put da šire glasine

online.sales@clicktag.hr

Welcome Back!

Retrieve your password