Андрей Карпатый у Дваркеша Пателя
Нейровещества для нейроторчков
Новое интервью с топовым AI-чуваком, такое мы смотрим! Говорит, «до нормальных умненьких AI-агентов нам еще лет десять, уж поверьте мне – деду, который в индустрии 15 лет, и всяких обещаний успел наслушаться».
Но вообще, мне там вот какой момент показался забавным: Карпатый говорит, что обучение с подкреплением – это «ужасный способ учиться»; просто все остальные доступные нам сейчас варианты обучения нейронок еще хуже. Дескать, при RL (reinforcement learning) происходит «всасывание обучения через соломинку».
Грубо говоря, чтобы научиться решать какую-либо задачу таким макаром, нейронке надо сначала вслепую попробовать порешать ее сотней разных способов. И те способы, что случайно привели к правильному решению, вознаграждаются в форме усиления тех весов (условно, нейронных связей), которые участвовали в «успешных» способах. Но при этом поощряются вообще все совершенные действия в рамках давшего результат способа – даже какие-то глупые случайные метания, которые реально ничего полезного в себе не несут.
Люди учатся совсем не так: они делают гораздо меньше попыток, но зато потом сильно вдумчивее разбирают результат – пытаются понять, что конкретно реально сыграло роль в успехе, а что нет.
Так вот, для тренировки моделей так тоже иногда пытаются сделать – каким-то образом поощрять их не только за финальное решение, но и за промежуточные «правильные» шаги. Правда, делать это силами людей – практически неподъемная задача (слишком дорого). Поэтому… да, вы угадали: исследователи пытаются заставить одни языковые модели разбирать решения других, и оценивать их по шагам.
Но там возникает другая проблема: очень часто «обучающаяся» модель находит хитрые лайфхаки, как ей обмануть «модель-учителя» – и заставить ее поощрять не шаги к правильному решению, а какую-то бессмыслицу. К примеру, случайно выясняется, что у модели-оценщика есть какой-то странный кинк на последовательность букв «dhdhdhdh»: каждый раз, когда она ее видит в решении, она дичайше кайфует и сразу ставит за это наивысшую оценку. Видя это, модель-ученик начинает все свои «решения» писать исключительно в формате «dhdhdhdhdhdhdhdhdhdh» (думаю, не стоит уточнять, что реально решить поставленную задачу это не помогает вообще никак).
Мне кажется, здесь есть забавная аналогия с веществами для людей. В чистом виде химические соединения в такой концентрации, от которой «торчат» люди, в природе не встречаются – вот люди и не эволюционировали, чтобы иметь возможность противостоять им. Так что, когда люди занюхивают какой-нибудь пресловутый порошочек – их «функция вознаграждения» приходит в экстаз и просит еще и еще такого же.
Получается, с нейронками происходит примерно то же самое: в огромном корпусе текстов, на которых они тренировались, никогда не встречалась эта бессмысленная последовательность «dhdhdhdh». Но по некой случайности веса модели сложились так, что она (без всякого глубокого смысла) кайфует именно от этих символов в этой последовательности. И когда модель внезапно встречает эту штуку в своей жизни – она уходит в неконтролируемый запой и трясущимися руками пытается потребить как можно больше именно этой наркоты.
В общем, ждем появления нейроройзмана, который будет пристегивать LLM к нейробатареям…
P.S. Карпатый там еще опубликовал в Твиттере свои размышления вдогонку после того, как пересмотрел вышедшее интервью (вот тут есть в переводе на русский).


