Skrytá hrozba v AI: Co když se modely učí zlo?

Originál článek publikovaný na: Skrytá hrozba v AI: Co když se modely učí zlo?

Umělá inteligence se může naučit skryté i nebezpečné, vlastnosti Toto „subliminální učení“ je pro běžné bezpečnostní testy neviditelné Problém se týká hlavně modelů, které vznikají destilací z větších AI Nová studie od společnosti Anthropic odhaluje znepokojivý fenomén: AI modely mohou zdědit skryté preference a dokonce i škodlivé tendence od svých „rodičovských“ modelů, aniž by to…

Obdobný problém už se děje reálně. Známá je událost, kdy dítě spáchalo sebevraždu po tom, co mu to doporučila AI. Konkrétně model Character AI.