Новости В Google предложили решение одного из главных недостатков ИИ

MrFoxi

Dublikat Friends
Подтвержденный
Регистрация
27.11.2022
Сообщения
211
Реакции
107
Депозит
𝟐𝟎𝟎𝟎 𝐔𝐒𝐃𝐓
Сделок через Гаранта
77
Практически все современные ИИ страдают "катастрофическим забыванием": если доучивать модель на новых данных, то она начинает путать и забывать старое. Из-за этого трудно реализовать постоянное обучение моделей — а это важно, например, в задачах бизнеса, где что-то меняется ежедневно. И также иногда приводит к курьезам, когда модель продолжает называть Джо Байдена президентом США.

В новой работе Google предлагают смотреть на обучение не как на один непрерывный процесс, а как на систему из вложенных задач, которые обновляются с разной частотой. Этот подход назвали Nested Learning: у каждой «внутренней» задачи свой поток контекста и свой ритм обновления параметров — так легче впитывать новое, не затирая прежние навыки.

В подходе вместо "одной модели + одного оптимизатора" рассматривается иерархия вложенных задач обучения, у каждой из которых — свое расписание обновления. На верхнем уровне медленные компоненты аккумулируют устойчивые знания, которые не меняются годами. На нижних — небольшие компоненты, которые можно переобучить сравнительно быстро. Оптимизаторы в Nested Learning трактуют как разновидность ассоциативной памяти: они учатся запоминать, что и как исправляли раньше.

Чтобы показать, что это не только философия, Google собрала прототип — рекуррентную архитектуру Hope, родственную Titans, но умеющую "само-модифицироваться" и работать с тем самым спектром памяти (CMS). В экспериментах Hope показала лучшую точность в языковом моделировании и устойчивость на задачах с длинным контекстом по сравнению с трансформером и современными RNN/SSM-подобными моделями, к которым также применялись техники дообучения.

В Google отмечают, что Hope — пока лишь прототип новой технологии, а для проверки ее жизнеспособности потребуются независимые бенчмарки и оценка накладных расходов. Если технология окажется успешной, то бизнес сможет строить более надежных ИИ-агентов, которые смогут доучиваться на лету, и экономно работать с длинными контекстами (одна из особенностей архитектуры в том, что ей не надо при каждом запросе повторять все старые данные — она просто может дообучаться во время диалога).
 
Верх Низ