Nowości
Naukowcy wykrywają sztuczną inteligencję w prozie ze skutecznością 93 procent, patrząc tylko na strukturę fabuły
Posłuchaj tego artykułu

Zespół z University of Maryland i Google DeepMind pokazał, że AI-generowaną fikcję literacką da się rozpoznać po samej strukturze narracji, nawet gdy styl tekstu zostanie starannie zamaskowany. Badanie objęło ponad 61 tysięcy opowiadań i zbiega się z głośną aferą wokół nagrody Commonwealth.
Spis treści
Badacze z University of Maryland i Google DeepMind opublikowali narzędzie StoryScope, które wykrywa opowiadania napisane przez sztuczną inteligencję ze skutecznością 93,2 procent, analizując wyłącznie strukturę narracji, czyli sposób budowania fabuły, wprowadzania wątków i domykania zakończeń, a nie styl zdań, który dotąd był głównym tropem dla detektorów AI.
Jak działa StoryScope
Autorzy badania, Jenna Russell, Rishanth Rajendhran, Chau Minh Pham, Mohit Iyyer i John Wieting, zbudowali automatyczny system, który dla każdego opowiadania generuje odpowiedzi na setki szczegółowych pytań o strukturę, na przykład czy narrator wprost wypowiada morał historii, czy w fabule istnieją wątki poboczne, i jak bardzo chronologia jest poprzestawiana względem porządku wydarzeń. Te 304 cechy tworzą przestrzeń, w której teksty ludzkie i generowane przez AI zajmują wyraźnie odrębne obszary.
Kluczowe odkrycie polega na tym, że modele klasyfikujące oparte wyłącznie na cechach narracyjnych zachowują ponad 97 procent skuteczności modeli korzystających dodatkowo ze stylu tekstu. Innymi słowy, nawet gdy autor testowy celowo edytuje prozę tak, by usunąć charakterystyczne dla AI zwroty i rytm zdań, struktura fabuły zdradza pochodzenie tekstu niemal równie skutecznie.
Czym różni się proza AI od ludzkiej
Zespół opisał powtarzalne wzorce w tekstach generowanych przez modele językowe: nadmierne tłumaczenie morału historii wprost w tekście, liniowe, jednotorowe fabuły oraz ograniczoną moralną niejednoznaczność wyborów bohaterów. Teksty ludzkie cechują się natomiast większą złożonością czasową narracji i skłonnością do przedstawiania wyborów postaci jako moralnie niejednoznacznych, bez jasnego rozstrzygnięcia, kto ma rację.
Badacze zauważyli też odrębne odciski palców poszczególnych modeli. Claude skłania się ku płaskiej eskalacji napięcia bez wyraźnych szczytów, GPT chętnie sięga po sekwencje senne jako zabieg fabularny, a Gemini opiera charakterystykę postaci głównie na opisach zewnętrznych zamiast wewnętrznych przemyśleń bohaterów.
Opowiadania generowane przez AI skupiają się we wspólnym, wąskim obszarze przestrzeni narracyjnej, podczas gdy teksty autorstwa ludzi wykazują znacznie większą różnorodność - z pracy badawczej StoryScope, Jenna Russell i współautorzy
Afera wokół nagrody Commonwealth
Publikacja badania zbiegła się w czasie z głośnym skandalem wokół Commonwealth Short Story Prize za 2026 rok. Jeden ze zwycięskich tekstów, opowiadanie "Serpent in the Grove", został oskarżony o napisanie w całości przez sztuczną inteligencję. Firma Pangram, oferująca narzędzia do wykrywania tekstów AI, przepuściła utwór przez swój system i uzyskała wynik wskazujący, że 100 procent tekstu powstało z użyciem AI. Pangram oznaczył jako podejrzane również dwa inne zwycięskie opowiadania.
Fundacja Commonwealth odpowiedziała, że dopóki nie powstanie wystarczająco pewne narzędzie czy procedura do wiarygodnego wykrywania użycia AI w niepublikowanej wcześniej fikcji, organizacja musi opierać się na zasadzie zaufania wobec autorów zgłaszających prace do konkursu. Sprawa pokazała, że dotychczasowe detektory oparte na stylu zawodzą wobec autorów świadomie maskujących ślady AI.
Znaczenie dla wydawców i konkursów literackich
Dla polskich wydawnictw, redakcji literackich i organizatorów konkursów pisarskich wyniki StoryScope oznaczają, że sama analiza stylu zdań przestaje wystarczać do weryfikacji autorstwa. Metoda oparta na strukturze fabuły, choć wymaga bardziej złożonej analizy całego tekstu, daje dużo trudniejszy do obejścia sygnał, ponieważ autorzy piszący z pomocą AI rzadko modyfikują głęboką architekturę opowiadania, nawet gdy starannie poprawiają warstwę językową.
Zespół udostępnił kod i metodologię publicznie, co pozwala innym badaczom oraz twórcom narzędzi antyplagiatowych budować własne klasyfikatory oparte na tych samych 304 cechach. To pierwsza tak obszerna, systematyczna próba pokazania, że opowiadania generowane przez różne modele mają rozpoznawalne, powtarzalne wzorce konstrukcyjne, niezależnie od tego, jak bardzo różni się ich warstwa stylistyczna.
Źródła: AI Fiction Detection Reaches 93% on Structure Alone (techtimes.com), StoryScope: Investigating idiosyncrasies in AI fiction (arxiv.org), Could a controversial award-winning short story signal a new era of literary AI slop (france24.com)

