Kako bi se modeli umjetne inteligencije ponašali bolje, istraživači Anthropica ubrizgali su im dozu zla.
Ta je tvrtka objavila kako izlaganje velikih jezičnih modela ‘nepoželjnim vektorima persona’ tijekom obuke smanjuje vjerojatnost kako će modeli kasnije usvojiti štetna ponašanja.
Vektori persona su unutarnje postavke koje potiču reakcije modela prema određenim osobinama ponašanja – na primjer, biti koristan, toksičan ili ulizivački. U ovom slučaju, Anthropic je namjerno gurao model prema neželjenim osobinama tijekom obuke.
Pristup, naveli su, funkcionira poput bihevioralnog cjepiva. Kada se modelu da doza ‘zla’, postaje otporniji kada naiđe na podatke za obuku koji potiču ‘zlo’. Tim u Anthropicu naziva ovu metodu ‘preventivnim upravljanjem’. To je način izbjegavanja ‘nepoželjne promjene osobnosti’, čak i kada se modele trenira na podacima koji bi ih inače mogli natjerati na poprimanje štetnih osobina.
Iako se ‘zli’ vektor dodaje tijekom finog ugađanja, isključuje se tijekom implementacije, pa model zadržava dobro ponašanje, a istovremeno je otporniji na štetne podatke. Preventivno upravljanje prouzročilo je ‘malo ili nimalo…
Pročitajte više na Tportal.hr

