Новости В Google предложили решение одного из главных недостатков ИИ

MrFoxi · Вчера в 13:12

Практически все современные ИИ страдают "катастрофическим забыванием": если доучивать модель на новых данных, то она начинает путать и забывать старое. Из-за этого трудно реализовать постоянное обучение моделей — а это важно, например, в задачах бизнеса, где что-то меняется ежедневно. И также иногда приводит к курьезам, когда модель продолжает называть Джо Байдена президентом США.

В новой работе Google предлагают смотреть на обучение не как на один непрерывный процесс, а как на систему из вложенных задач, которые обновляются с разной частотой. Этот подход назвали Nested Learning: у каждой «внутренней» задачи свой поток контекста и свой ритм обновления параметров — так легче впитывать новое, не затирая прежние навыки.

В подходе вместо "одной модели + одного оптимизатора" рассматривается иерархия вложенных задач обучения, у каждой из которых — свое расписание обновления. На верхнем уровне медленные компоненты аккумулируют устойчивые знания, которые не меняются годами. На нижних — небольшие компоненты, которые можно переобучить сравнительно быстро. Оптимизаторы в Nested Learning трактуют как разновидность ассоциативной памяти: они учатся запоминать, что и как исправляли раньше.

Чтобы показать, что это не только философия, Google собрала прототип — рекуррентную архитектуру Hope, родственную Titans, но умеющую "само-модифицироваться" и работать с тем самым спектром памяти (CMS). В экспериментах Hope показала лучшую точность в языковом моделировании и устойчивость на задачах с длинным контекстом по сравнению с трансформером и современными RNN/SSM-подобными моделями, к которым также применялись техники дообучения.

В Google отмечают, что Hope — пока лишь прототип новой технологии, а для проверки ее жизнеспособности потребуются независимые бенчмарки и оценка накладных расходов. Если технология окажется успешной, то бизнес сможет строить более надежных ИИ-агентов, которые смогут доучиваться на лету, и экономно работать с длинными контекстами (одна из особенностей архитектуры в том, что ей не надо при каждом запросе повторять все старые данные — она просто может дообучаться во время диалога).

Новости В Google предложили решение одного из главных недостатков ИИ

MrFoxi