Hva dette er
Anthropic har publisert en grundig gjennomgang av sikkerhetssystemene i Claude Fable 5, modellens kraftigste versjon til dags dato. Kjernen er et sett med såkalte sikkerhetsklassifikatorer – AI-systemer som kontinuerlig vurderer forespørsler og avgjør om de skal tillates, blokkeres eller overvåkes. Klassifikatorene er spesielt utviklet for å håndtere det vanskelige skjæringspunktet mellom legitim og skadelig bruk innen cybersikkerhet.
Systemet deler brukstilfeller inn i fire kategorier: forbudt bruk, høyrisiko dobbeltbruk, lavrisiko dobbeltbruk og uskadelig bruk. Forbudt bruk inkluderer blant annet utvikling av skadevare, løsepengevirus og angrep på kritisk infrastruktur. Lavrisiko dobbeltbruk – som sårbarhetsskanning av egne systemer – tillates i stor grad, men overvåkes. Inndelingen gjenspeiler at nesten all cybersikkerhetskompetanse kan brukes til både forsvar og angrep.
Parallelt presenteres et tidlig utkast til et jailbreak-alvorlighetsrammeverk, utviklet i samarbeid med partnere. Jailbreaks er uvanlige måter å formulere forespørsler på som kan lure en AI-modell til å omgå sine egne sperrer. Med et felles rammeverk for å beskrive alvorlighetsgraden av slike angrep, blir det enklere for AI-selskaper, myndigheter og akademia å snakke samme språk om risiko.
Hva dette betyr for deg som ansatt
For de fleste ansatte vil den praktiske opplevelsen av Claude Fable 5 ikke endres dramatisk i hverdagen. Det som endres, er at modellen nå opererer med en større sikkerhetsmargin – noe som betyr at enkelte legitime forespørsler innen IT og sikkerhet kan bli avvist, selv om de er uskyldige. Dette er et bevisst valg fra Anthropic for å redusere risikoen for misbruk, og noe ansatte i tekniske roller bør kjenne til.
For deg som jobber i IT-avdelingen, som sikkerhetskonsulent eller i roller som håndterer sensitiv informasjon, er det nyttig å vite at modellen nå eksplisitt skiller mellom defensivt og offensivt sikkerhetsarbeid. Legitim sårbarhetstesting, kodegjennomgang og sikkerhetsdokumentasjon er fremdeles støttet. Det er de aktivitetene som ligner angrepsverktøy som nå møter en høyere terskel.
Rådgivere, prosjektledere og HR-ansatte merker lite til disse endringene i den daglige bruken. Men for virksomheter som har gitt ansatte tilgang til AI-verktøy uten retningslinjer, er dette en påminnelse om at det finnes grenser – og at alle bør kjenne til dem.
Hva dette betyr for deg som bedriftseier
For bedriftseiere og ledere er dette først og fremst en signal om modning i AI-bransjen. At Anthropic nå offentliggjør detaljerte retningslinjer for hva modellen tillater og ikke tillater, gjør det enklere å ta informerte beslutninger om hvilke arbeidsoppgaver som bør, og ikke bør, løses ved hjelp av AI. Det gir også bedre grunnlag for å utarbeide interne AI-retningslinjer som er i tråd med gjeldende beste praksis.