deep-econom (deep_econom) wrote,
deep-econom
deep_econom

Экзистенциальная философия лёрнинга

Нейросеть это универсальный аппроксиматор (в том числе и  универсальный классификатор)
http://deep-econom.livejournal.com/24075.html
"Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей" Горбань

"В контексте лёрнинга, меня всегда интересовал вопрос - можно ли рассматривать лёрнинг как частный случай оптимизации или это какая-то отдельная форма? Это тоже экзистенциальный вопрос. Он может показаться бессмысленным, но он имеет значение, и рано или поздно на него напарываешься, пусть и в неявном виде. Например, байесовские подходы к лёрнингу вполне себе лёрнинг, но вот обязательно ли они являются оптимизацией?" avlasov


===
Слово экзистенциальный всегда выглядело для меня пугающим, но, на самом деле, тут простая мысль: мы существуем в какой-то форме, мы не можем существовать без формы. Ну и всеразличные явления, они тоже имеют какую-то форму, без которой не существуют. Ну и вот обсуждение в какой форме рассматривать существование разных сущностей, я и называю экзистенциальными вопросами - точнее это моя трактовка сего понятия.

В контексте лёрнинга, меня всегда интересовал вопрос - можно ли рассматривать лёрнинг как частный случай оптимизации или это какая-то отдельная форма? Это тоже экзистенциальный вопрос. Он может показаться бессмысленным, но он имеет значение, и рано или поздно на него напарываешься, пусть и в неявном виде. Например, байесовские подходы к лёрнингу вполне себе лёрнинг, но вот обязательно ли они являются оптимизацией?
Вобщем, прояснение подобных вопросов позволяет построить более гибкую модель лёрнинга, ну и наверное это полезно (для складного пиздежа уж точно :)).

Первый момент - лёринг часто сводят к задаче оптимизации. Свести к оптимизационной задаче - это вообще мега-мощный прием современной науки и инженерии (наверное, для него можно сделать отдельный раздел ТРИЗ). Вопрос - можем ли мы вообще оставаться в фреймворке лёрнинга (экзистенциальный вопрос) или рано или поздно придется выйти из него?

Второй момент - оптимизация в прямолинейном виде, часто приводит к проблемам. Ну т.е. например мы неточно заэстимейтили параметры какой-нить матрицы, ну и оптимизатор радостно выдал нам какое-то решение, которое на практике оказалось не шибко адекватным - ну например в финансах, если есть два одинаковых по своей сути актива, но у них могут быть чутка различающиеся цены. Соответственно, портфельный оптимизитор может задетектить, что у двух активов похожий профиль риска, ну и захеджировать один другим, расчитывая заработать на разнице в цене. Проблема что разница в цене вызвана шумом.
Отсюда вывод - оптимизация это хорошо, но оптимизатор оптимизирует ту модель, что мы ему подсунули. А она может легко оказаться неточной (вряд ли она когда либо будет точной).
Означает ли что оптимизация - это ацтой? Нет, просто нужно как-то думать на тему неопределенности, шума и ошибок.

Третий момент - какие проблемы в контексте лёрнинга возникают при использовании оптимизации? Вообще, конечно, оптимизация используется разными способами. Например, мы минимизируем эмпирический риск. Но, на самом деле, мы хотим минимизировать ожидаемый риск, просто мы его не можем посчитать (аз исключением каких-нить синтетических случаев).
Т.е. у нас тут тоже есть (не)явная подмена оптимизируемой проблемы. Есессно, оптимизация в прямолинейном виде легко приводит к оверфиттингу.
Вывод - проблемы с оптимизацией еще не отвергают гипотезу, что лёрнинг есть разновидность оптимизации. Просто может нужна более хитрая оптимизация (на уровне выбора модели, к примеру).

Четвертый момент - допустим есть байесовский лёрнинг. Нe и мы хотим использовать posterior mean в качестве прогноза. По идее, тут никакой оптимизации нет - мы и модель даже не выбираем, а интегрируем по всему возможному пространству моделей. Но мы ведь знаем, что mean соответствует квадратичной функции ошибки. Т.е. неявную оптимизационную задачу все равно нетрудно сконструировать (и возможно ее будет проще решать нежели Монте-Карло для решения задачи интеграции).

Пятый момент - допустим, у нас квадратичная функция ошибки. Т.е. мы хотим минимизировать отклонение прогнозов в среднеквадратичном смысле. Ну или не обязательно в среднеквадратичном. Главное, что мы, на самом деле, хотим чтобы наша выученная фунеция проходила как можно ближе к тренировочным примерам. Но, поскольку мы понимаем, что примеры могут быть с шумом, то не хотим чтобы она проходила точно через тренировочные примеры.
На самом деле, может даже более естественно (в случае регрессии), ставить задачу лёрнинга как решение системы стохастических уравнений. Ну т.е. для каждого примера, у нас есть одно уравнение, что прогноз по модели должен быть примерно (с ошибкой) равен учебному результату. Ну а среднеквадратичная (или любая другая) метрика лишь способ измерить насколько ошибка велика.

Итого, у меня прослеживается следующая эволюция представлений о той форме, в которой существует лёрнинг:
1 лёрнинг есть разновидность оптимизации
2 в связи с очевидными проблемами оптимизации, нужно заключить что лёрнинг есть отдельная форма, которая использует оптимизацию как инструмент. Более того, например, экономику можно рассматривать тоже не как оптимизацию (максимальное удовлетворение потребностей при ограниченых ресурсах), а в лёрнинговой парадигме - адаптация к оружающей среде, ну типа учимся удовлетворять потребности с помощью ограниченных ресурсов (используя инструментарий оптимизации там где получится.
3 лёрнинг как решение системы стохастических уравнений - мы знаем что хотим получить, но примерно, с некоторой ошибкой
Оригинал взят у avlasov в Экзистенциальная философия лёрнинга
===
читайте комменты также в оригинальном посте

Нейросети, ИИ - неуемный оптимизм. http://deep-econom.livejournal.com/24075.html

Почитайте так же "Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей" Горбань
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic
  • 0 comments