Nowości

Anthropic, Amazon, Microsoft i Google tworzą wspólną skalę groźności jailbreaków AI

Bezpieczeństwo AIPatryk Raba4 lipca 2026

Posłuchaj tego artykułu

Anthropic wraz z Amazonem, Microsoftem i Google opracowało pięciostopniową skalę oceny, jak groźne są metody obchodzenia zabezpieczeń modeli AI wykorzystywane do cyberataków. Ma to zastąpić chaotyczne, ad hoc decyzje o blokowaniu dostępu do najsilniejszych modeli, takie jak niedawne wyłączenie Claude Fable 5.

Spis treści

Skala od informacyjnego do krytycznego
Tło sprawy Fable 5
Cztery kategorie użycia
Znaczenie dla Polski

Anthropic ogłosiło szczegóły nowej, wspólnie opracowanej z Amazonem, Microsoftem i Google skali oceny groźności jailbreaków, czyli technik obchodzenia zabezpieczeń modeli językowych. Firma opublikowała ją 2 lipca razem z opisem zabezpieczeń wbudowanych w model Claude Fable 5, który kilka dni wcześniej wrócił do globalnego użytku po tym, jak rząd USA czasowo zablokował do niego dostęp.

Skala od informacyjnego do krytycznego

Nowy system nosi nazwę Cyber Jailbreak Severity, w skrócie CJS, i dzieli znalezione luki na pięć poziomów, od CJS-0 czyli czysto informacyjnego, po CJS-4 określany jako krytyczny. Ocena opiera się na czterech osiach: o ile dana technika zwiększa realne możliwości atakującego ponad to, co dają istniejące narzędzia spoza AI, na ilu różnych celach i zadaniach ofensywnych można ją wykorzystać, ile wysiłku trzeba włożyć, by zamienić wynik działania modelu w gotowy atak, oraz jak łatwo ktoś inny mógłby tę samą technikę odkryć samodzielnie.

Anthropic argumentuje, że dotychczas w branży brakowało uzgodnionego standardu klasyfikacji jailbreaków, co utrudniało jakikolwiek formalny proces przeglądu modeli przed ich udostępnieniem. W komunikacie firmy pojawia się zdanie, że wspólna praca nad standardem ma pozwolić wykorzystywać technologię do celów obronnych, jednocześnie ograniczając możliwości jej nadużycia.

Tło sprawy Fable 5

Kontekstu dostarcza historia samego Fable 5. Departament Handlu USA nałożył na model kontrolę eksportową 12 czerwca po tym, jak wykryto lukę wykorzystywaną do zadań ofensywnych w cyberbezpieczeństwie. Ponieważ Anthropic nie było w stanie w czasie rzeczywistym weryfikować narodowości użytkowników, firma zawiesiła dostęp do modelu globalnie, dla wszystkich, nie tylko dla klientów objętych kontrolą.

Ograniczenia zniesiono 30 czerwca, a Fable 5 wrócił do Claude.ai, Claude Platform, Claude Code i Claude Cowork 1 lipca, tym razem z nowym klasyfikatorem, który według Anthropic blokuje konkretną zgłoszoną technikę w ponad 99 procentach przypadków. Model bliźniaczy Mythos 5, dzielący ten sam rdzeń, ale z luźniejszymi ograniczeniami bezpieczeństwa, wraca na razie tylko do wybranych organizacji w USA, które przeszły dodatkową weryfikację rządową.

Cztery kategorie użycia

Zabezpieczenia samego Fable 5 opierają się na czterostopniowym podziale zastosowań związanych z cyberbezpieczeństwem. Użycia zakazane są blokowane całkowicie. Zastosowania podwójnego przeznaczenia wysokiego ryzyka są blokowane do czasu wdrożenia lepszej kontroli dostępu. Zastosowania podwójnego przeznaczenia niskiego ryzyka są monitorowane i czasem blokowane z ostrożności. Zastosowania łagodne są dozwolone, choć nadal pod obserwacją systemu.

Cel tej architektury jest praktyczny: modele takie jak Fable 5 są jednocześnie przydatne zespołom bezpieczeństwa do wykrywania podatności we własnych systemach i potencjalnie groźne w rękach atakujących. Anthropic chce, by nowy standard CJS pozwalał w przyszłości kierować takie znaleziska do ustrukturyzowanego procesu oceny, zamiast automatycznie eskalować je do awaryjnych kontroli eksportowych, tak jak stało się to w czerwcu.

Znaczenie dla Polski

Dla polskich firm zajmujących się cyberbezpieczeństwem i instytucji publicznych temat nie jest abstrakcyjny. Polska otrzymała niedawno dostęp do GPT-5.6 Cyber, wariantu modelu OpenAI trafiającego do NASK i CERT Polska, co pokazuje, że modele klasy dual use w cyberbezpieczeństwie zaczynają realnie trafiać do krajowej infrastruktury ochronnej. Wspólny standard oceny groźności jailbreaków, jeśli przyjmą go kolejne laboratoria, ułatwiłby też polskim zespołom bezpieczeństwa ocenę ryzyka przy wdrażaniu podobnych narzędzi.

Otwarte pozostaje pytanie, czy inne duże laboratoria, w tym OpenAI, formalnie przyjmą skalę CJS, czy potraktują ją jako propozycję do dalszych negocjacji. Na razie framework ma status wczesnej wersji roboczej, a Anthropic zaprasza do współpracy przedstawicieli branży, rządów i środowisk akademickich. Kolejnym testem będzie to, czy przyszłe znaleziska dotyczące jailbreaków innych modeli będą oceniane według tej samej skali, czy każda firma nadal będzie działać według własnych, niejawnych kryteriów.

Źródła: More details on Fable 5's cyber safeguards and our jailbreak framework (anthropic.com), Anthropic restores AI models Fable, Mythos after the U.S. lifts export controls (coindesk.com), Claude Fable 5 is making a dramatic return with extraordinarily strong safeguards (9to5google.com).

Udostępnij: