Аннотация
В работе описан подход Smena AI к самообучению автономных ИИ-агентов на задачах ARC-AGI-2. Подход включает четыре основных компонента: двухшаговый контур вывода (выдвижение гипотез и их проверка), каузальный критерий сохранения знаний, кооперацию субагентов с разными когнитивными ориентациями и автономное расширение архитектуры. Для ARC используется детерминированный оракул совпадения решетки. Для переноса в открытую среду бинарный сигнал заменяется составной функцией верификации, а решения о сохранении знаний формализуются через ожидаемую полезность и средний каузальный эффект (ATE). Приведены теоретические обоснования каузального фильтра.
1. Введение
Большие языковые модели при всей их универсальности плохо приспособлены к самообучению после развертывания. На задачах ARC-AGI-2 [Chollet, 2024] это проявляется особенно остро: модель может выстроить правдоподобное объяснение преобразования, которое тем не менее не дает правильного ответа. Проблема родственна галлюцинациям [Ji et al., 2023], но имеет свою специфику: здесь ошибка не в фактах, а в логике паттерна.
Работа организована следующим образом. Раздел 2 описывает архитектуру Smena AI. Раздел 3 излагает метод, включая математические основания каузального фильтра. В разделе 4 дана формализация для ARC. Раздел 5 посвящен переходу к открытому миру. Разделы 6 и 7 покрывают риски и экспериментальную программу. Раздел 8 сопоставляет подход с литературой. В разделе 9 приведены конкретные следующие шаги. Раздел 10 подводит итоги.
2. Контекст и архитектура Smena AI
Проект Smena AI реализует многоагентный подход: финальный ответ синтезируется из вкладов специализированных субагентов. Архитектура опирается на работы по многоагентным LLM-системам [Wu et al., 2023; Hong et al., 2024], но отличается от них каузальной дисциплиной памяти и способностью к автономному расширению состава агентов.
2.1 Архитектурные принципы
Архитектура Smena AI опирается на набор проектных принципов, которые обеспечивают переносимость контура самообучения между доменами.
2.1.1 Нелинейная кооперация ролей
Субагенты должны давать не аддитивный, а композиционный эффект. Для пары агентов $A$ и $B$ целевое условие формулируется как:
$$f_{A \cup B}(S) \neq f_A(S) + f_B(S)$$
Именно эта нелинейность делает оправданной оркестрацию специализированных ролей вместо единого монолитного вызова модели.
Практически аддитивный и композиционный режимы различаются через индекс суперлинейности на контрольном наборе задач:
$$\sigma_{\text{super}} = \text{Acc}(A \cup B) - \max\left(\text{Acc}(A),\text{Acc}(B)\right)$$
Если $\sigma_{\text{super}} > \varepsilon$ и эффект устойчив на повторных прогонах, взаимодействие трактуется как композиционное; при $\sigma_{\text{super}} \approx 0$ режим считается аддитивным (или квазидублирующим).
2.1.2 Двуканальная память
Память разделяется на два канала:
trusted-канал: знания, прошедшие каузальную проверку и пригодные для production-извлечения.candidate-канал: исследовательские гипотезы с отложенной валидацией.
Такое разделение снижает риск закрепления ложных эвристик и одновременно сохраняет пространство для открытия новых паттернов с отложенным эффектом.
2.1.3 Многоуровневые петли обратной связи
Контур обучения строится на нескольких временных масштабах: внутри одной задачи (итерации гипотеза/проверка), между задачами кластера (накопление и ревизия паттернов) и на уровне архитектуры (добавление новых субагентов и кластеров).
2.1.4 Стоимостная дисциплина и адаптивность ресурсов
Решения о сохранении знаний и о расширении агентного состава принимаются с учетом полезности и стоимости. Для этого используется эластичный ресурсный режим: в зависимости от состояния кластера система переключается между фазами широкого поиска, консолидации и операционной эксплуатации.
| Фаза | Режим | Бюджет | Триггер перехода |
|---|---|---|---|
| Discovery | Широкий поиск гипотез, повышенная стохастичность, расширенный набор кандидатов | Максимальный | Новый кластер или серия неуспехов |
| Consolidation | Контрфактическая проверка и отсев кандидатов | Средний | Накоплено не менее $N$ кандидатов |
| Operation | Использование trusted-памяти и минимальный поисковый режим | Минимальный | Стабильный $\text{Acc}@N$ на контрольном окне |
2.2 Исполнительный контур и фактический состав агентов PoC
В текущем PoC исполнительный контур работает как последовательность шагов: оценка сложности и маршрутизация запроса, выбор рабочего набора субагентов, планирование (при необходимости), раундовый обмен гипотезами и финальный синтез ответа. Ниже перечислено рабочее ядро агентов, используемое в текущей реализации.
| Агент/компонент | Тип | Роль |
|---|---|---|
Логический рассуждатель (logical) | Базовый | Проверка непротиворечивости и пошаговой логики |
Критический аудитор (critical_auditor) | Базовый | Критика гипотез, поиск уязвимостей и ошибок |
Предиктор гипотез (predictor) | Базовый | Генерация и ранжирование гипотез решения |
Ветвитель рассуждений (tot_brancher) | Базовый | Ветвление рассуждений и расширение пространства поиска |
Исполнитель вычислений (python_coder) | Базовый | Детерминированные вычисления и проверка процедурных гипотез |
| Планировщик | Инфраструктурный | Декомпозиция задачи на шаги и контрольные точки |
| Маршрутизатор (сложность + кластеры) | Инфраструктурный | Выбор активных кластеров и вычислительного режима |
| Мета-наблюдатель / синтезатор | Инфраструктурный | Межраундовый контроль, оценка сходимости, финальный синтез |
| Конструктор динамических агентов | Инфраструктурный | Создание специализированного субагента при систематическом дефиците |
Полный перечень профилей шире, но таблица фиксирует именно тот минимальный набор, который участвует в рабочем контуре PoC.
2.3 Кластерная организация
В текущем состоянии кластеры используются как механизм маршрутизации и когнитивного разнообразия: система выбирает релевантные кластеры для запроса, подбирает агентов нужного профиля и подключает резервные контуры при недостатке покрытия.
Топологические механизмы межкластерных «мостов» служат для дальнейшего архитектурного развития и описывают рекомендованный способ переноса данных между доменами.
2.4 Раундовый цикл рассуждения и критерий остановки
Раундовый цикл в PoC реализован как чередование генерации гипотез, критики и согласования. На ранних раундах приоритет отдается разнообразию гипотез; на последующих усиливается фильтрация и проверка согласованности.
Остановка выполняется по критерию сходимости или по достижении лимита раундов, зависящего от сложности задачи. Итог формируется отдельным этапом синтеза, что разделяет генерацию, критику и финальный выбор и снижает риск ранней фиксации на ошибочной траектории.
2.5 Автономная экспансия
Автономная экспансия рассматривается как управляемый механизм устранения устойчивых дефицитов компетенций, а не как свободный рост числа агентов. Запуск механизма допускается только при выполнении триггера систематического пробела: неуспех по кластеру задач выше порога при исчерпании стандартного двухшагового контура.
2.5.1 Карантинная проверка и пороги
Каждый новый агент проходит quarantine в изолированном контуре на отложенной выборке задач целевого кластера.
Минимальный протокол:
hold-outнабор не менее 30 задач кластера;- сравнение с базовым контуром без нового агента;
- критерий допуска: не ухудшение качества и положительный прирост полезности
$\Delta U_{agent} = \Delta \text{Acc}@N - \lambda \cdot \Delta \text{Cost} - \mu \cdot \Delta \text{Latency} > 0$
- статистическая устойчивость: нижняя доверительная граница эффекта выше нуля на повторных запусках;
shadow-фаза на малой доле трафика перед production-подключением.
2.5.2 Контроль комбинаторного роста
Чтобы предотвратить взрыв числа агентов, вводятся жесткие ограничения:
- глобальный бюджет числа активных агентов и локальные квоты на кластер;
cooldownмежду созданием агентов одного кластера;- обязательный аудит вклада: агент понижается в статусе или архивируется, если на контрольном окне его вклад в $\Delta U$ не подтверждается;
- политика «create-or-merge»: новый агент создается только при невозможности достижения того же эффекта через обновление существующего.
2.5.3 Обнаружение дублирования функций
Дублирование оценивается по двум осям:
semantic overlap: близость триггеров/паттернов в пространстве представлений;behavioral overlap: сходство профиля успешности и ошибок на одном и том же наборе задач.
Если оба показателя выше порога, агенты считаются функционально избыточными и объединяются (или один переводится в архив). Это снижает стоимость оркестрации и уменьшает конфликтность retrieval-контура.
3. Метод
3.1 Двухшаговый контур решения
Вместо прямой генерации ответа используется двухшаговый контур, концептуально близкий к подходам generate-then-verify [Cobbe et al., 2021; Lightman et al., 2023]:
Задача S → [Шаг гипотез: H₁..Hₙ] → [Шаг проверки: валидатор V] → ответ
↓ ↓
└────── обратная связь ──────┘
На первом шаге формируется ранжированный список кандидатных гипотез $H_1, \ldots, H_n$. На втором кандидаты проверяются валидатором (детерминированным или вероятностным) и выбирается финальная гипотеза.
3.1.1 Сократический контур обучения
Термин «сократическое обучение» в данной работе означает, что обучающий контур организован как последовательность адресных корректировок, а не как прямая подстановка готового решения. После каждой неудачной попытки учитель формирует локальный разрыв (gap) между текущим ответом и целевым поведением, передавая ученику минимально достаточную корректирующую информацию (факт, паттерн, ограничение), после чего ученик строит новую попытку.
Формально:
$$a_t \xrightarrow{\;\text{evaluate}\;} g_t \xrightarrow{\;\text{targeted feedback}\;} a_{t+1}$$
где $a_t$ — попытка ученика на итерации $t$, а $g_t$ — структурированный разрыв относительно эталона. Ключевой принцип: учитель не подменяет рассуждение ученика готовым финальным ответом, а минимизирует дефицит знаний, необходимый для следующей попытки.
Сократический режим дает несколько ожидаемых инженерно значимых эффектов по сравнению с прямой коррекцией ответа (проверяются в абляции фазы 1, раздел 7.2):
- Лучшая каузальная атрибуция: проще связать улучшение на шаге $t+1$ с конкретной корректировкой на шаге $t$.
- Ниже риск переобучения на «форму ответа»: ученик доходит до решения через собственный контур, а не копирует эталон.
- Выше переносимость: сохраняются процедурные элементы (паттерны), а не единичные «правильные строки».
- Меньше контекстная нагрузка: в инъекцию попадает только gap-обратная связь, без полной истории попыток.
- Выше интерпретируемость: в журнале обучения явно видны типы ошибок и динамика их устранения.
3.2 Ограничение контекста итерации
Ученик не получает полную историю всех прошлых итераций. При повторной попытке он видит только последнюю обратную связь и текущий набор фактов. Такой минимализм уменьшает деградацию внимания при длинном контексте [Liu et al., 2024], делает каузальный вклад конкретного шага измеримым и снижает вычислительную стоимость итерации.
3.3 Каузальный критерий сохранения памяти
Пусть $K_t$ обозначает знания, добавленные после неуспешной итерации $t$, а $y_t \in {0,1}$ — корректность результата. Базовый критерий:
$$y_t = 0 \;\land\; y_{t+1} = 1 \implies \text{save}(K_t) = 1$$
Сохраняется только тот набор знаний, который непосредственно предшествует переходу от неуспеха к успеху. Если $K_t$ — единственное изменение между итерациями, то при фиксированном остальном контексте $K_t$ является вероятным каузальным фактором успеха в смысле difference-in-differences.
Термин difference-in-differences здесь используется как аналогия: сравниваются исходы до и после единственного вмешательства при контроле остального контекста. Формальные предпосылки классического DiD (параллельные тренды, отсутствие spillover, строгая экзогенность вмешательства) в данной постановке не предполагаются.
Критерий радикально снижает шум памяти, но может терять фундаментальные знания с отложенным эффектом (раздел 6.4). Ограничение контекста одним шагом и требование перехода $0 \to 1$ можно рассматривать как грубую операционную аппроксимацию каузальной атрибуции: конфаундеры уменьшаются за счет изоляции вмешательства на соседних итерациях. Здесь каузальность понимается в практическом смысле ablation-based attribution (добавили -> проверили вклад -> сохранили), а не как полный каузальный вывод по модели мира в смысле Pearl. По аналогии с RL-практиками replay/priority [Schaul et al., 2016], система повышает приоритет сохранения для знаний с подтвержденным вкладом в успех.
В условиях контекстной LLM-генерации критерий $y_t=0 \land y_{t+1}=1$ трактуется как эвристический сигнал для выдвижения кандидата. Без последующей контрфактической проверки (раздел 3.4) сохранение не производится.
3.4 Контроль стохастичности сэмплирования
При использовании LLM между итерациями $t$ и $t+1$ меняется не только инъекция знания $K_t$, но и случайная реализация генерации. Поэтому единичный переход $y_t=0 \to y_{t+1}=1$ может быть следствием удачного сэмплирования, а не полезности $K_t$.
Для контроля этого эффекта проводится контрфактическая проверка на той же задаче:
baseline: $n_{cf}$ прогонов без $K_t$;treatment: $n_{cf}$ прогонов с $K_t$.
Оцениваются:
$$\hat{p}_0 = \frac{1}{n_{cf}}\sum_{j=1}^{n_{cf}} y^{(j)}_{-K_t}, \qquad \hat{p}_1 = \frac{1}{n_{cf}}\sum_{j=1}^{n_{cf}} y^{(j)}_{+K_t}, \qquad \text{uplift}(K_t)=\hat{p}_1-\hat{p}_0$$
Рабочий критерий сохранения:
$$\text{save}(K_t)=\mathbb{I}\!\left(y_{t+1}=1 \land \text{uplift}(K_t)>\theta \land \hat{p}_0<\gamma\right)$$
где $\theta$ — минимально полезный прирост, а $\gamma$ — допустимый уровень случайного успеха baseline. Для пограничных случаев используется доверительная граница uplift.
3.5 Представление знаний
Базовые объекты памяти:
| Тип | Структура | Пример |
|---|---|---|
| Факт | (entity, attribute, value) | (ARC_grid, symmetry, rotational_90) |
| Паттерн | (name, trigger(s), steps) | (flood_fill, connected_region, [identify, expand, recolor]) |
| Антипаттерн | (name, trigger(s), failure_mode) | (naive_copy, identical_subgrid, ignores_rotation) |
Жизненный цикл:
$$\texttt{candidate} \xrightarrow{\text{ATE} > \delta \cdot \text{cost}} \texttt{trusted} \xrightarrow{\text{контрфактическое опровержение}} \texttt{deprecated}$$
3.5.1 Статус deprecated и управление объемом памяти
Статус deprecated не означает немедленное удаление. Такие паттерны переводятся в «холодное» хранилище с минимальным весом извлечения и используются в двух режимах:
- как источник антипаттернов (если устойчиво воспроизводят failure-mode);
- как материал для периодической ревизии (восстановление возможно при повторном положительном uplift на новых задачах).
Для ограничения объема памяти применяется политика сборки мусора: элементы deprecated, не переактивированные в течение заданного окна, физически удаляются или архивируются во внешнее хранилище.
3.6 Привязка обучающих примеров
С каждым паттерном сохраняется минимум один пример: input, expected_output, опционально student_output_before_fix. Примеры используются для каузальной перепроверки, регрессионных тестов и разрешения конфликтов между паттернами.
4. Формализация для ARC-среды
4.1 Детерминированный оракул
В ARC доступен детерминированный оракул:
$$V_{\text{grid}}(\hat{G}, G^*) = \mathbb{I}(\hat{G} = G^*)$$
где $\hat{G}$ — предсказанная решетка, $G^*$ — эталон. Свойства: нулевой шум (нет ложноположительных и ложноотрицательных), мгновенный сигнал (нет задержки), полная атрибуция в сочетании с ограничением контекста.
Эти свойства делают ARC удобной средой для отладки каузального сохранения до переноса в шумные домены.
4.2 Ограничения ARC
Оракул не различает «почти правильный» и «полностью неправильный» ответ. Решетка, отличающаяся одной ячейкой, оценивается так же, как случайная. Дополнительно, при контекстной интервенции знания $K_t$ наблюдается чувствительность к формулировке промпта, что влияет на чистоту каузальной атрибуции (раздел 6.1).
5. Переход к открытому миру
Для задач реального мира бинарного оракула обычно нет. Сигнал становится непрерывным, шумным и отложенным.
5.1 Составная функция верификации
Бинарный оракул заменяется набором прокси-верификаторов $V_i$ с интегральным критерием:
$$y_t = \mathbb{I}\!\left(\sum_{i=1}^{m} w_i \cdot V_i(\text{output}_t) > \tau\right)$$
Веса $w_i$ нормированы ($\sum_i w_i = 1$) и адаптируются на основе ретроспективной точности каждого верификатора. Подход близок к reward modeling в RLHF [Ouyang et al., 2022], но отличается декомпозицией на интерпретируемые компоненты.
Для оценки надежности составного верификатора используются стандартные метрики межверификаторного согласия. Для дискретных вердиктов применяется Fleiss’ kappa; для вероятностных/смешанных выходов — нормированная энтропия ансамбля:
$$\tilde{H}(V) = \frac{-\sum_{c} p_c \log p_c}{\log C}$$
где $p_c$ — доля голосов/масса вероятности класса $c$, $C$ — число классов. Высокая $\tilde{H}(V)$ означает высокий разнобой между верификаторами.
Система воздерживается от сохранения, если согласие ниже порога (например, Fleiss’ kappa $< \kappa_{\min}$) или неопределенность выше порога (например, $\tilde{H}(V) > h_{\max}$). Для технического мониторинга разнобоя между верификаторами используется индекс D_var (нормированная дисперсия оценок). D_var не заменяет формальные метрики согласия (Fleiss’ kappa), а служит дополнительным сигналом для оперативного мониторинга.
5.2 Каузальная оценка через ATE
Пусть $S$ — состояние задачи, $K_c$ — кандидатный паттерн, $P_\theta$ — базовый ученик. Средний каузальный эффект:
$$\text{ATE}(K_c) = \mathbb{E}_S\!\left[R\!\left(P_\theta(S \oplus K_c)\right)\right] - \mathbb{E}_S\!\left[R\!\left(P_\theta(S)\right)\right]$$
где $R(\cdot)$ — награда (в ARC бинарная, в открытом мире — значение составного верификатора).
Для внутризадачной оценки (gate candidate) используется uplift из раздела 3.4: ожидание берется по реализациям сэмплирования $\epsilon$ при фиксированной задаче. Для межзадачной оценки (gate candidate -> trusted) используется ATE: ожидание берется по пулу задач $S$.
Для ARC оценка производится прямо на пуле нерешенных задач: $n_{eval} \in [5,10]$ повторных прогонов на каждую задачу. Для открытого мира используется аппроксимация через matched pairs с контролем конфаундеров.
Переход $\texttt{candidate} \to \texttt{trusted}$ при:
$$\text{ATE}(K_c) > \delta \cdot \text{cost}(K_c)$$
5.3 Функция решения о сохранении
Объединяя каузальный эффект, стоимость и конфликтность:
$$\Delta U(K_c) = \text{ATE}(K_c) - \lambda \cdot \text{cost}(K_c) - \mu \cdot \text{conflict}(K_c)$$
Конфликтность $\text{conflict}(K_c)$ оценивается как доля задач контрольного пула $\mathcal{D}_{val}$, на которых добавление $K_c$ к текущему набору trusted-паттернов ухудшает верификаторный результат:
$$\text{conflict}(K_c)=\frac{1}{|\mathcal{D}_{val}|}\sum_{S \in \mathcal{D}_{val}}\mathbb{I}\!\Big(R(P_\theta(S \oplus \mathcal{K}_{trusted} \oplus K_c)) < R(P_\theta(S \oplus \mathcal{K}_{trusted}))\Big)$$
Тем самым $\text{conflict}(K_c)\in[0,1]$ и интерпретируется как операционная вероятность вредного взаимодействия с уже подтвержденной памятью.
Паттерн подтверждается, если нижняя граница доверительного интервала положительна:
$$\Delta U(K_c) - z_{\alpha/2} \cdot \hat{\sigma}_{\Delta U} > 0$$
5.4 Градиент сложности верификации
Переход от ARC к открытому миру можно рассматривать как движение по оси сложности верификации:
$$\underbrace{V_{\text{grid}}}_{\text{ARC: точный}} \;\longrightarrow\; \underbrace{\textstyle\sum w_i V_i > \tau}_{\text{код: составной}} \;\longrightarrow\; \underbrace{V_{\text{human}} + V_{\text{delayed}}}_{\text{реальный мир: шумный}}$$
Логика каузального сохранения инвариантна относительно природы верификатора. Меняется источник сигнала $y_t$, но не критерий и не функция $\Delta U$.
6. Риски и ограничения
6.1 Ограниченная чистота интервенции do(K) в контекстном LLM-цикле
В формализации используется интервенционный объект $P(y \mid do(K))$, однако в практической реализации добавление $K$ в контекст не является идеально чистой интервенцией. Из-за чувствительности промпта и перераспределения внимания добавление нового фрагмента может менять не только целевой фактор $K$, но и вес уже присутствующих элементов задачи.
Поэтому в статье интервенция трактуется как операционная аппроксимация. Для снижения смещения используются: фиксированный шаблон инъекции, стабильная позиция вставки, парные baseline/treatment-прогоны и статистическая оценка эффекта на повторных запусках.
6.2 Переобучение на единичный кейс
Паттерн после одного перехода $y_t=0 \to y_{t+1}=1$ может оказаться локальным костылем. Контрмеры: начальный статус candidate, отложенная валидация на $\geq k$ независимых задачах, периодическая ревизия trusted с пересчетом ATE.
6.3 Нестабильность коэффициентов
Параметры $\lambda$, $\mu$, $\delta$, $\tau$ и веса $w_i$ требуют калибровки. Слишком малые $\lambda, \mu$ ведут к засорению памяти, слишком большие — к потере полезных паттернов. Контрмеры: перекалибровка на held-out задачах, абляционные эксперименты, мониторинг метрик из раздела 7.
6.4 Ограничение «контекст одного шага»
Минимализм контекста полезен для атрибуции, но создает слепую зону для знаний с медленным вкладом — тех, которые полезны только в комбинации с еще не открытыми паттернами. Предлагается отдельный канал «кандидатных фундаментальных» знаний в логике двуканальной памяти (раздел 2.1.2) с расширенным горизонтом оценки и периодической переоценкой вклада по протоколу карантинной проверки (раздел 2.5.2).
6.5 Эмерджентные эффекты
В открытой среде возможны как полезные (ускорение мета-обучения, перенос паттернов между доменами), так и вредные (карго-культ шагов, reward hacking) эмерджентные эффекты. Контрмеры: контрфактическая проверка паттернов, обрезка избыточных шагов, штраф за избыточность, аудит верификаторов.
6.6 Текущая латентность и целевой аппаратный профиль
Практическое ограничение текущего PoC — высокая латентность многоагентного цикла на гетерогенной инфраструктуре общего назначения. Даже при корректной логике верификации конечное время ответа может расти из-за межагентной координации, сетевых переходов и последовательных этапов синтеза.
Целевой профиль ускорения предполагает переход на специализированное оборудование вывода с низкой латентностью (в том числе wafer-scale классы ускорителей). Ожидаемый выигрыш связан не с изменением логики метода, а с уменьшением межкомпонентных задержек и стоимости итеративной проверки при сохранении каузальной дисциплины памяти.
7. Экспериментальная программа
7.1 Метрики
Эффективность решения: Acc@1 (решено с первой попытки), Acc@N (решено за <= N итераций), T_success_avg (среднее число итераций до успеха), C_success_avg (средняя стоимость до успеха).
Качество памяти: FPR_save (доля ложноположительных сохранений), Conflict_rate (частота конфликтов при извлечении), |K_trusted| / |K_total| (доля подтвержденных знаний).
Адаптивность: T_cluster (время до активации нового кластера), DeltaAcc после добавления нового субагента.
7.2 Планируемые эксперименты
Фаза 1 (ARC-AGI-2). Абляции: двухшаговый контур vs. одношаговый; сократическая gap-обратная связь vs. direct correction (выдача готового исправления); каузальное сохранение vs. сохранение всех знаний vs. случайное; с контрфактической проверкой (раздел 3.4) и без нее. Анализ кривой обучения Acc@N как функции числа решенных задач.
Фаза 2 (перенос). SWE-bench [Jimenez et al., 2024] — верификатор: юнит-тесты + статический анализ. ALFWorld [Shridhar et al., 2021] — верификатор: состояние среды + оценка плана. Критерий прогресса: стабильность FPR_save и монотонность Acc@N при переходе к составному верификатору.
7.3 Проверяемые гипотезы
Ниже фиксируются рабочие гипотезы для абляций; пороги задаются относительно соответствующих baseline, чтобы избежать завышения требований до завершения пилотных прогонов.
H1 (двухшаговый контур). Двухшаговый контур (гипотеза -> проверка) улучшает Acc@3 относительно одношаговой генерации при равном вычислительном бюджете.
H2 (каузальный фильтр памяти). Каузальное сохранение снижает FPR_save относительно стратегии «сохранять всё» без статистически значимого ухудшения Acc@N.
H3 (контрфактическая проверка). Добавление контрфактической проверки из раздела 3.4 снижает Conflict_rate и повышает precision сохранения по сравнению с каузальным фильтром без контрфактического шага.
H4 (сократический режим). Gap-обратная связь дает лучший компромисс качества и стоимости (рост Acc@10 при снижении C_success_avg) относительно direct correction при одинаковом лимите итераций.
H5 (инвариантность логики сохранения). При переходе ARC -> SWE-bench/ALFWorld логика каузального сохранения сохраняет устойчивый уровень FPR_save без существенной перенастройки гиперпараметров фильтра.
8. Связь с существующими работами
Предложенный подход пересекается с несколькими линиями исследований: самоулучшение LLM, рефлексивная коррекция рассуждений, механизмы replay-приоритизации и многоагентные архитектуры. По терминологии важно различать: в данной работе «каузальная дисциплина памяти» трактуется как операционная атрибуция вклада через абляции/контрфактические прогоны, а не как полноценно идентифицированный каузальный вывод по структурной модели мира.
| Направление | Работы | Отличие нашего подхода |
|---|---|---|
| Self-improvement | Huang et al., 2023; Yuan et al., 2024 | Добавление каузальной атрибуции к циклу |
| Рефлексия после неуспеха | Shinn et al., 2023 (Reflexion); Zelikman et al., 2022 (STaR) | Двухшаговый runtime + формальный gate сохранения + lifecycle памяти |
| Replay-приоритизация | Schaul et al., 2016 | Приоритизация не по TD-error, а по подтвержденному uplift паттернов |
| Многоагентные LLM | Wu et al., 2023; Hong et al., 2024 | Автономная экспансия и каузальная память |
| ARC-подходы | Chollet, 2019; Mirchandani et al., 2023 (BARC); Greenblatt, 2024 | Упор на переносимый контур самообучения и селективную память, а не только на эвристики бенчмарка |
В сравнении с распространенными многоагентными фреймворками, где обычно используются фиксированный набор ролей и статичный сценарий взаимодействия, Smena AI использует управляемую автономную экспансию: создание новых субагентов и кластеров компетенций по сигналу устойчивых пробелов. Из таблицы видно, что улучшение достигается совместной работой двухшагового контура, контрфактической проверки, селективного сохранения знаний и контроля архитектурного роста.
9. Дальнейшая работа
Раздел 9 намеренно ограничен прикладной программой работ. Спекулятивные вопросы отделены от проверяемых задач, чтобы не смешивать исследовательскую дорожную карту с гипотезами об AGI.
9.1 Конкретные следующие шаги (6-12 месяцев)
- Валидация устойчивости каузального цикла на ARC при фиксированных протоколах baseline/treatment и отчетности по
Acc@N,FPR_save,Conflict_rate,cost/success. Критерий успеха (go/no-go): улучшениеAcc@Nотносительно одношагового baseline при контролируемомFPR_save(порог утверждается после пилота). - Перенос на SWE-bench и ALFWorld с заранее заданными составными верификаторами и публикацией абляций по каждому компоненту (двухшаговый контур, каузальное сохранение, контрфактическая проверка). Критерий успеха (go/no-go): деградация
FPR_saveпри переносе не превышает заранее зафиксированный допуск, а трендAcc@Nостается монотонным. - Введение регламента качества памяти: пороги продвижения
candidate -> trusted, периодическая ревизияtrusted, отдельный учет отложенно-полезных знаний. Критерий успеха (go/no-go): снижениеConflict_rateи стабилизация долиtrusted-знаний на контрольных окнах. - Отдельный контур измерения производительности: latency/cost-профили для текущей инфраструктуры и целевого аппаратного профиля, без смешения методологических и инфраструктурных эффектов. Критерий успеха (go/no-go): достижение заданного снижения латентности при сохранении качества верификации.
9.2 Спекулятивные направления (вне рамок текущей валидации)
Ниже перечислены направления, которые важны стратегически, но не входят в текущий контур верификации и не используются как критерии успеха раздела 7.
- Каузальная модель мира. Переход от операционной атрибуции (ablation-based) к каузальному выводу в строгом смысле требует отдельной постановки, новых типов данных и идентификационных допущений. В настоящей работе это не заявляется как достигнутый результат.
- Эмерджентность на длинном горизонте. Возможны полезные коллективные эффекты при росте памяти и агентного состава, однако в текущем цикле они рассматриваются только как наблюдаемые гипотезы. Подтверждение требует отдельного протокола мониторинга и контролируемых стресс-тестов.
- Ограниченное автономное целеполагание. В перспективе возможно введение безопасного подконтура постановки подцелей, но только после формализации ограничений, верификаторов и процедур аварийной остановки.
- Робастная конфликтность для шумных верификаторов. Для непрерывных и шумных сигналов планируется расширение метрики $\text{conflict}(K_c)$ с порогом чувствительности (например, критерий ухудшения $R_{new} < R_{base} - \varepsilon$) и статистической проверкой устойчивости эффекта.
10. Заключение
Описан подход к самообучению многоагентной системы, включающий двухшаговый контур вывода, операционную каузальную атрибуцию сохранения памяти, контрфактическую проверку кандидатов и автономную архитектурную экспансию.
ARC-AGI-2 выбрана как начальная среда из-за детерминированного оракула, обеспечивающего чистую атрибуцию ошибок и улучшений. Переход к открытому миру формализован через составную верификацию и функцию ожидаемой полезности знаний. Показано, что логика селективного сохранения инвариантна относительно природы верификатора — меняется источник сигнала, но не критерий принятия решений.
Центральный открытый вопрос — эмпирическая проверка устойчивости каузального цикла при переходе от детерминированного к вероятностному верификатору. Экспериментальная программа (раздел 7) спроектирована для ответа на этот вопрос, а раздел 9 фиксирует прикладные следующие шаги и отдельно маркирует спекулятивные направления.
Литература
- Chollet, F. (2019). On the Measure of Intelligence. arXiv:1911.01547.
- Chollet, F. (2024). ARC-AGI-2: A Benchmark for General Intelligence. arcprize.org.
- Cobbe, K., et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168.
- Greenblatt, R. (2024). ARC-AGI engineering approach notes. Technical report/blog post.
- Hong, S., et al. (2024). MetaGPT: Meta Programming for Multi-Agent Collaborative Framework. ICLR 2024.
- Huang, J., et al. (2023). Large Language Models Can Self-Improve. EMNLP 2023.
- Ji, Z., et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys.
- Jimenez, C. E., et al. (2024). SWE-bench: Can Language Models Resolve Real-World GitHub Issues? ICLR 2024.
- Lightman, H., et al. (2023). Let’s Verify Step by Step. ICLR 2024.
- Liu, N. F., et al. (2024). Lost in the Middle: How Language Models Use Long Contexts. TACL.
- Mirchandani, A., et al. (2023). BARC: ARC-oriented benchmark and methods report. Technical report.
- Ouyang, L., et al. (2022). Training Language Models to Follow Instructions with Human Feedback. NeurIPS 2022.
- Pearl, J. (2009). Causality: Models, Reasoning, and Inference. Cambridge University Press.
- Schaul, T., Quan, J., Antonoglou, I., & Silver, D. (2016). Prioritized Experience Replay. ICLR 2016.
- Schölkopf, B., et al. (2021). Toward Causal Representation Learning. Proceedings of the IEEE.
- Shinn, N., et al. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366.
- Shridhar, M., et al. (2021). ALFWorld: Aligning Text and Embodied Environments. ICLR 2021.
- Wu, Q., et al. (2023). AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation. arXiv:2308.08155.
- Xu, Y., et al. (2024). LLMs and the Abstraction and Reasoning Corpus. arXiv:2305.18354.
- Yao, S., et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023.
- Yuan, Z., et al. (2024). Self-Rewarding Language Models. ICML 2024.
- Zelikman, E., et al. (2022). STaR: Bootstrapping Reasoning With Reasoning. arXiv:2203.14465.