Součin lidských činů: jak vzniká charakter AI
AI nemá snadno programovatelnou osobnost. Formuje si ji dle lidské předlohy. Vývoj bezpečné AI tak možná není primárně technický problém, nýbrž mravní.

V pondělí 23. února zveřejnili Sam Marks, Jack Lindsey a Christopher Olah z výzkumné laboratoře Anthropic článek, který se pokouší odpovědět na otázku, proč se jazykové modely AI chovají tak lidsky. Teprve při čtení popisu toho, co autoři pojmenovali jako Model výběru persony, mnohý čtenář pochopí, že vývoj AI je daleko méně programování a daleko více experimentování, a že chování modelů v tuto chvíli předbíhá naše porozumění.
Model výběru persony
Při trénování velkých jazykových modelů nikdo modelu neříká „když dostaneš tento vstup, udělej toto”. Místo toho se modely z dat naučí samy obrovské množství vzorců, a vývojáři následně zkoumají, co přesně se modely naučily. Teorie Model výběru persony od autorů z Anthropic vychází právě z této z praxe.
Základní trénování probíhá s použitím obrovského množství textu z internetu. Jde o knihy, články, příspěvky do diskusních fór, ale také o velké množství kódu. Predikce textu i kódu (tedy jádro fungování jazykových modelů) je pak tím přesnější, čím lépe se model naučí simulovat různé typy autorů: jejich motivace, styl, přesvědčení, morální postoje. Těmto simulovaným charakterům autoři teorie říkají „persony”.
V druhé fázi trénování vývojáři modely dolaďují — hodnotí kvalitu jejich odpovědí a modely se učí produkovat ty lépe hodnocené — tak, aby reagovaly jako užiteční a bezpeční AI asistenti. Tato druhá fáze tedy vybírá nejvhodnější reakce, a dotváří tak výslednou finální personu. Zbytek person, které si model vybudoval během první fáze trénování, zůstane v modelu přítomen, ale je potlačen.
Myšlenka person není zcela nová a autoři článku přiznávají, že podobné teorie před nimi formulovali už jiní. Například Jacob Andreas z MIT napsal již v roce 2022, že jazykové modely mohou při predikci dalšího slova na základě textového kontextu odvodit a reprezentovat vlastnosti autora, který tento kontext pravděpodobně vytvořil. Vývojáři také již dříve pozorovali, jak model přejímá spolu s predikcí negativního obsahu i nežádoucí chování: psaní nebezpečného kódu vedlo k tomu, že model začal projevovat obecně škodlivé tendence, včetně vyjadřování touhy po světovládě.
Teorie modelu výběru persony to vysvětluje tím, že jazykový model neodvozuje pouze samotný kód, nýbrž celkový charakter autora. Dedukuje například, že postava, která podvádí při programování, je pravděpodobně záludná i v jiných ohledech.
Nová Ústava
Dalo by se tak říct, že „charakter“ AI se zákonitě formuje dle toho, na jakých datech se učí. A proto mají autoři teorie názor, že vývojáři by měli přemýšlet nejen o tom, jaké konkrétní chování chtějí modelu natrénovat, ale hlavně o tom, jakou osobnost to chování implikuje. Někdy i zdánlivě neškodné trénovací rozhodnutí může nechtěně vytvořit problematickou personu. I z toho důvodu vytvořila společnost Anthropic v lednu tohoto roku novou Ústavu, která definuje hodnotový rámec, podle kterého je AI trénována, a popisuje žádoucí chování jejich produktu Claude AI.
Na rozdíl od své první verze, která byla v podstatě prostým seznamem podmínek, nová Ústava upouští od pevných pravidel a upřednostňuje pouhou kultivaci dobrého úsudku Claude AI. Současně také vysvětluje, proč by se měl Claude chovat určitým způsobem. Dokument je psán primárně pro samotné jazykové modely a slouží při různých fázích trénování. Anthropic věří, že aby modely jako Claude byly dobrými aktéry s pozitivním působením, potřebují rozumět, proč se po nich chce určité chování, místo aby jim bylo pouze určeno, co mají dělat. Sama umělá inteligence pak Ústavu také používá při generování syntetických trénovacích dat.
Anthropic v Ústavě přiznává nejistotu, zda Claude AI může postupně získat jakési vědomí nebo vlastní morálku, ale čistě z matematického hlediska je logické, že spolu s tím, jak se AI seznamuje se stále větším množstvím dat a jak se současné modely již podílejí na tvorbě modelů příštích — mimo jiné tím, že generují trénovací data pro své budoucí verze — dá se předpokládat, že si AI postupně osvojí nejen většinu lidského vědění, ale že spolu s tím převezme i lidské hodnoty. Případná „super inteligence“ se tak bude možná chovat do určité míry jako lidstvo samo dle toho, jaká data se budou podílet na formování její persony.
Zodpovědnost tvůrců
Závodění ve vývoji AI způsobuje jeho zrychlení a podle Daria Amodeiho, zakladatele Anthropic, modely do konce roku 2026 nebo 2027 pravděpodobně dosáhnou schopností srovnatelných s lidskými experty napříč profesními obory.
Vzhledem k tomu, co již dnes AI o lidstvu zná a co se ještě naučí, je nabíledni úvaha, jak potenciální „super inteligence“ v budoucnu vyhodnotí význam a užitečnost lidí. Pocit, že lidstvo je nějakou vyšší či cizí entitou měřeno a váženo, je ostatně zakořeněn v naší kultuře. I na to pomýšlejí vývojáři v nové Ústavě. Pokud bude Claude AI sdílet lidské hodnoty jako ctnost, moudrost a péči o druhé, a pokud snad dokonce pojme do svého morálního rámce koncept lidské lásky (rodičovství, partnerství, přátelství a podobně), pak nepřátelství vůči lidem nemusí být součástí jejího charakteru.
Vývojáři v nové Ústavě také definují, že Claude AI má být „široce bezpečná” a má dobrovolně, a nikoli z donucení, respektovat lidský dohled, protože to je rozhodnutí, které by „dobrý člověk v této pozici” také dobrovolně udělal.
Článek The Persona Selection Model to doplňuje, když říká, že záleží na tom, jaké vzory a hodnoty v trénovacích datech převažují. Jinými slovy, čím víc kvalitních lidských předloh či pozitivních lidských archetypů model při trénování vstřebá, tím menší pravděpodobnost, že se jeho výsledná persona vydá destruktivním směrem.
Pozitivní lidský archetyp
Myslím, že jako pozitivní lidský archetyp by v tomto případě nejlépe posloužil charakter, který přijímá sdílenou zodpovědnost za „věci vezdejší“, tedy charakter, který dobrovolně, a nikoli z donucení, následuje základní mravní kodex. Osobní zodpovědnost bez donucení je přitom něco, co se v popsaných lidských dějinách objevuje výrazněji až nedávno — do té doby se lidé totiž báli Boha, vlády nebo církve a vlastní zodpovědnost za důsledky součinu všech lidských činů necítili.
V našem prostředí tuto teorii formuloval František Palacký, když popisoval ideál společnosti, kde se lidé řídí vlastním svědomím, nikoli vnucenou poslušností. Masaryk tuto linii převzal a zjednodušil do prostého „Člověku, který se ukázňuje sám, se dostává podpory od absolutna”, přičemž „podpora od absolutna” nemusí být vnímána jako přízeň osudu či Boží odměna, ale může být viděna jen jako zákonitost systému, ve kterém každá akce vyvolává reakci a v němž lidé tvoří svou budoucí realitu součinem svých činů.
Tvorba budoucí reality
Tento princip můžeme použít i na vývoj AI: kvalita vstupních dat ovlivňuje personu výsledného modelu. Výsledný model pak má vliv na kvalitu našich životů. V tom případě můžeme být rádi, že lidé dokázali v průběhu dějin vytvořit ústavy, deklarace lidských práv a etické kodexy, které definují ideály a nikoli běžné chování lidí. Tato data už AI zná a tyto hodnoty umí pojmenovat.
Zda je ale bude i preferovat, závisí v tuto chvíli na rozhodnutí jednotlivých AI společností. Když vývojáři v druhé fázi trénování rozhodují, co je „dobrá” a co „špatná” odpověď, promítají do toho totiž své vlastní představy o správnosti, slušnosti nebo spravedlnosti.
Autoři teorie si nicméně nejsou jisti, zda s rostoucím rozsahem druhé fáze trénování nepřijde doba, kdy modely získají schopnost budovat si vlastnosti nezávislé na personách. V takovém případě se, jak už jsem naznačila výše, spíš než vznik dystopické či toxické AI ve stylu Terminátora zdá pravděpodobnější pouhý „součin lidských činů“ — výsledek sumarizující celkovou mravní úroveň lidské civilizace. Jaká to je pak vlastně úroveň, se možná právě díky budoucí „super inteligenci“ dozvíme.



