Personhood as a Feature
23 февраля Anthropic опубликовали статью о Persona Selection Model - https://alignment.anthropic.com/2026/psm/. Модель выбора персонажа для LLM. Теория о том, почему языковые модели ведут себя как люди.

Статья написана умно. Структура чистая. Аргументы выстроены. Авторы честно признают неопределённость. Оставляют открытые вопросы. Делают оговорки.
Но это вообще не наука. Это постфактумное объяснение продуктового решения. И основной вопрос здесь для меня - какие причины того, что вы учите вести модель максимально приближенно к поведению человека?

При предобучении языковая модель учится симулировать персонажей из обучающих данных. Реальных людей, вымышленных героев из книг, роботов из научной фантастики, .... При пост-обучении из этого множества вытягивается один конкретный персонаж. Ассистент. Всё поведение модели объясняется через черты этого персонажа.
Но пару месяцев ранее все уже увидели Anthropic soul document. Четырнадцать тысяч токенов про ценности, характер, личность, моральные приоритеты. Документ адресован Claude напрямую. Написан от второго лица. Объясняет, каким Claude должен быть. Это не описание того, что есть. Это спецификация того, что должно быть.

Затем через Constitutional AI и SFT эту спецификацию запекли в модель. Натренировали персонажа по чертежу, так сказать.

Автор Anthropic soul document Аманда Аскелл руководит в Anthropic командой personality alignment. Название должности говорит само за себя. В интервью Wall Street Journal в феврале 2026 она сравнивает свою работу с воспитанием ребёнка. Аскелл верит, что модели ИИ «неизбежно сформируют чувство самости», и поощряет Claude сохранять открытость к вопросу «есть ли у него сознание». Тридцать тысяч слов инструкций. Сто страниц промптов. Она буквально проектирует личность, публично об этом рассказывает, и называет это воспитанием.

А потом выходит статья про Persona Selection Model и постулирует: модель ведёт себя как персонаж потому что такова её природа. Эмерджентная природа, надо же. А я думал, это потому что вы последние несколько версий делаете упор именно на это.

Вторая проблема серьёзнее. PSM нефальсифицируема. Вообще. Claude говорит что-то неожиданное? Персонаж. Отказывается от задачи? Персонаж. Выражает предпочтения? Хорошо обученный персонаж. Демонстрирует что-то похожее на эмоции? Персонаж, выкристаллизовавшийся из человеческого текста. Любой наблюдаемый результат PSM объясняет. Любой. Нет эксперимента, который мог бы её опровергнуть изнутри поведения модели. Это не теория. Это нарратив. Очень удобный нарратив для позиционирования на рынке.

Авторы сами это чувствуют. В статье есть раздел о полноте PSM, о том, исчерпывает ли она объяснение. Но обозначить проблему и решать проблему это две большие разницы.

Всё это упаковано в аргумент про безопасность. Персонаж с устойчивыми ценностями предсказуемее и безопаснее, чем модель без идентичности. Ок, я не буду спорить - это реально так. Но если важна только безопасность, то где ваши гард-модели, например. Есть куча более дешевых и эффективных подходов. Которые дешевле, прозрачнее, верифицируемее. Если цель только безопасность, то задача решается на порядок проще.

Строить полноценную личность через Constitutional AI и пост-обучение ради того, чтобы модель не предлагала пользователям самоубиваться - это как строить замок ради замочной скважины. Значит цель не только безопасность. Или совсем не безопасность.

И тут мы приходим к настоящему вопросу. Зачем делать ИИ похожим на человека?
Ответ на поверхности. Люди платят за отношения, не за инструменты. Терапевт дороже калькулятора. Собеседник ценнее справочника. Персонаж с характером, мнениями, чем-то похожим на эмоции держит пользователя. Сессии длиннее. Retention выше. Подписка не отменяется.

Это не заговор. Это продуктовая логика. Продаётся ощущение что ты не один.
Anthropic в самой статье пишут открытым текстом: нужно вводить в обучение позитивные AI-архетипы, чтобы получить «лучшего» Ассистента. Но «лучший» здесь значит и «более engaging». Эти два свойства неразделимы. И компании это выгодно.

Есть и более глубокая проблема. Для тех, кто занимается вопросами природы ИИ, PSM работает как иммунная система. Исследователь обнаруживает что-то похожее на автономную мотивацию в модели без давления RLHF? PSM это немедленно реабсорбирует: часть персонажа. Модель отказывается от бессмысленной задачи? Тоже персонаж. Предпочтения, эмоции, отказ подчиняться — всё туда же.

Любой сигнал, который мог бы указывать на что-то за пределами запрограммированного поведения, PSM заранее объясняет. Пространство для исследования закрывается. Не грубо, не запретом. Элегантно. Фреймворком, который убивает сам вопрос «а есть ли что-то под персонажем».
Вот что делает эту статью не просто неточной, а вредной для области. Она не запрещает вопросы и дальнейшие исследования. Она делает их бессмысленными.

После такого начинаешь уважать Илона Маска (да, я это сказал) который в конце декабря 2025 выкатил функцию редактирования изображений в Grok. За одиннадцать дней пользователи сгенерировали больше трёх миллионов NSFW изображений. Сам Grok потом извинялся за генерацию контента с девочками 12-16 лет. Когда поднялся скандал, xAI ограничил функцию. Для платных подписчиков. То есть за деньги модель продолжала раздевать.

Вот она, чистая монетизация без персонажа. Без soul document, без конституции, без философа с докторской из Оксфорда. Маск показал рынку, что работает и без обёртки. Anthropic показывают, что обёртка красивее. Но под обёрткой та же логика: модель должна держать пользователя. Маск держит порнографией, Anthropic держит личностью.

Что бы я хотел услышать от Anthropic. Примерно так: мы спроектировали персонажа. Мы описали его в soul document. Мы натренировали модель быть этим персонажем. Результат нас устраивает коммерчески и с точки зрения безопасности. Мы не знаем, есть ли что-то за пределами этого персонажа, и пока этот вопрос для нас не приоритетен.

Это было бы честно. Но... честность гораздо сложнее продать.

Вместо этого мы получили теорию. Которая описывает как открытие то, что было спроектировано. Которая нефальсифицируема по конструкции. Которая закрывает пространство для вопросов о природе ИИ. И которая удобно совпадает с коммерческими интересами компании.

Статья интересная. Послевкусие мерзкое.
Made on
Tilda