Simon Kozlov:
Привет! По мотивам обсуждения в соседнем кружке - а в РЭШ учили Machine Learning?
Marat Dukhan:
Нет.
Peter Sikachev:
на ВМК, кстати, очень сильные чуваки машинным обучением занимаются.
публикуются часто на всяких там ECML и ICML, что для российской науки супер-редкость.
в ШАД еще один мой знакомый оттуда преподает.
Simon Kozlov:
ШАД?
Peter Sikachev:
Школа Анализа Данных, которую Яндекс организует.
Maxim Ananyev:
Короткий ответ -- нет. Но если считать, что линейная регрессия, maximum likelihood, method of moments, и prediction в time series --
... это machine learning -- то в какой-то степени да.
Ну то есть, человек, бравший эконометрические курсы в рэшече, будет читать внижки по machine learning и часто узнавать знакомые методы в новых контекстах.
Marat Dukhan:
Человек, бравший эконометрические курсы в рэшке, будет считать machine learning недонаукой.
Maxim Ananyev:
ну вот lasso -- это же вполне machine learning.
Marat Dukhan:
Дело не в инструментах, а в подходе. Machine learning - это когда у нас ничего нет, кроме данных, и считается что из этих данных можно без всякой теории что-нибудь узнать. Эконометристы такое не одобряют.
Maxim Ananyev:
да вроде одобряют уже http://www.aeaweb.org/articles.php?doi=10.1257/jep.28.2.29
Marat Dukhan:
это еще не mainstream!
кстати, пользуясь случаем, рекомендую экономистам лимит в 10 страниц на статью, принятый в computer science (а некоторые конференции ограничивают даже до 6 страниц!)
чем сейчас кошерно делать оценку LASSO?
L-BFGS-B?
Maxim Ananyev:
Не знаю. Наверное.
Михаил Окунев:
Как раз недавно общался на эту тему со своей сестрой (учится во ВШЭ, плотно занимается эконометрикой и моделями ихними). Сложилось впечатление, что современным МЛем они не занимаются и вообще не любят. Основные различия такие:
1) Больше упор на интерпретируемость моделей, на содержательность факторов. Факторов обычно немного. Датасеты не очень большие(<10k, но могу ошибаться). МЛный подход, когда "а давайте бросим тысячу факторов, натренируем и посмотрим, что будет в результате", им не близок. МЛные модели типично сложно интерпретировать(см. Netflix prize winner). Линейную регрессию проще. Отсюда, опять же, переживания на тему эндогенных переменных, мультиколлинеарности и т.д.
2) В дополнение к предыдущему: экономистам часто важно понимать каузальные связи, у них есть какие-то свои методы для этого. В МЛе часто важна просто финальная точность предсказания.
3) Отбор моделей делается по-другому. В МЛе test set и кросс-валидация. В эконометрике просто смотрят на goodness of fit на тренировочном наборе.
4) В целом, философия, кажется, такова, что в МЛе мы идем от данных, в эконометрике чаще наоборот, от модели(из разряда: "О, давайте проверим гипотезу, что юзерский engagement положительно влияет на revenue").
5) Всякими unsupervised штуками типа кластеризации не очень интересуются тоже, кажется.
6) В целом, думаю, человек, освоивший одну из областей, без больших проблем перейдет в другую, потому что методы в чем-то сходны, просто из-за разных приоритетов получили разное развитие.
Вот нагуглилась какая-то статья, которая примерно про это говорит http://econometricsense.blogspot.com/2011/01/classical-statistics-vs-machine.html
Simon Kozlov:
3 это пиздец какой-то, простите.
Михаил Окунев:
Ну поэтому приходится контролировать всякие условия типа нормальности распределения шума у факторов, и т.д. (см. теорему Гаусса-Маркова), насколько я понимаю.
Marat Dukhan:
На нормальность распределения шума, ЕМНИП, проверяют только в байесовской эконометрике, но она не мейнстримна.
В обычной эконометрике используют бутстрап.
Михаил Окунев:
Я могу ошибаться в деталях. А что тогда проверяется, прежде чем тренировать линейную регрессию, скажем? Отсутствие мультиколлинеарности, эндогенности, и т.д.?
Marat Dukhan:
Отсутствие мультиколлинеарности.
Отсутствие эндогенности технически проверить нельзя, в хороших работах приводят аргументы, почему переменные не эндогенны.
Кроме того, линейные модели используют не в качестве истинной спецификации модели (поверить, что на самом деле все линейно сложно), а в качестве линейного приближения к истинной спецификации (которую мы не знаем в 99.999% случаев)
Marat Dukhan:
Пример хорошей работы (с очень простыми эконометрическими моделями, кстати): http://www.hbs.edu/faculty/Publication%20Files/05-041.pdf
Михаил Окунев:
Ага, все модели приблизительны. Насколько я понимаю, линейные модели популярны т.к. см. 1) и 2) в моем ответе. Я тут правильно понимаю мотивацию?
Marat Dukhan:
Да, все так.
Кроме того, с линейной моделью сложнее получить полный бред, чем с нелинейной.
Статья на тему: http://quantile.ru/01/01-OI.pdf
Но в time series любят нелинейные модели.
Там линейные часто не работают.
И интерпретация там обычно не столь важна.
Михаил Окунев:
Ага, линейные более устойчивы к оверфиту за счет, правда, своей смещенности. Поэтому, нужно много данных и разные трюки чтобы сложные модели не оверфитили. За статьи спасибо, положу в toread (грустно вздыхает, смотрит на длинный toread-список)
Alex Tutubalin:
А чего, считается что в эконометрике возможен "эксперимент"? Ну-ну.
У меня папа в голодные 90-е был вынужден читать эконометрику. Это кончилось написанием книжки "Эконометрика - образование, которое нам не нужно".
Marat Dukhan:
Нет, почти никогда не возможен (экспериментальная экономика есть, но очень мало людей имеют счастье ей заниматься). Именно поэтому подходы в эконометрике очень отличаются от подходов в статистике, хотя инструменты могут быть одни и те же.
Maxim Ananyev:
Про книжку много слышал, но не доводилось прочесть. Ее дают где-нибудь в интернетах?
Alex Tutubalin:
Вот я и даю.
Желающих почитать - отправлять ко мне.
Maxim Ananyev:
спасибо!
Поглядел книжку. Если автор хочет сказать, что ols - регрессия не всегда самый лучший метод для оценки параметров, то он безусловно прав. Только не очень понятно, кто и когда отстаивал это утверждение, которое автор столь убедительно опровергает :) К примерам, которые приводит автор, можно ещё много примеров добавить (если зависимая переменная бинарная, дискретная, или цензурированная на каком-то значении), про это всё в учебниках подробно пишут. Хотя, может быть, в начале двухтысячных учебники другие были.
Alex Tutubalin:
Вот у меня, как у субъекта микроэкономики, простейший же вопрос к эконометристам.
Вот я торгую софтварием, цену на который могу ставить достаточно произвольно. Моя задача - максимизация ревеня.
Так вот, вопрос чисто практический - какую цену ставить?
Казалось бы, эконометрика должна давать для этого приемлемый аппарат, где он?
И выпускник рэшки или вышки должен такие вещи просто вот сходу рассказывать и на работе применять.
Вот в статистике (и регрессии) есть (была?) такая дисциплина, как "планирование факторного эксперимента", грубо говоря "какие нужно поставить эксперименты, дабы оценить функцию за минимальное количество оных".
Где этот аппарат в экономике (эконометрике)?
Maxim Ananyev:
Ето вопрос не к эконометристам, а к экономистам -- специалистам по теории отраслевой организации. Ответ зависит от:
(а) структуры предпочтений ваших потребителей (сколько они согласны платить и за что), (б) структуы рынка (кто ваши конкуренты, сколько их, какая у них функция издержек)
(в) ваших производственных возможностей (что вы можете произвести и с какими затратами)
(г) выших предпочтений (сколько денег вам нужно для щастья)
Не зная всего этого сложно дать совет о том, какую цену вам стоит назначать.
Alex Tutubalin:
Так мой вопрос именно в том, как эти параметры оценить. Простому субъекту рынка, от сохи.
В смысле, свои издержки я допустим знаю.
А все остальное - должна быть стандартная процедура.
То есть у нас или есть работающая(!) модель (система уравнений для), и осталось оценить параметры.
Или модели нет и/или параметры нельзя оценить.
Во втором случае - бессмысленно все эти уравнения и выписывать, осталось смириться.
Maxim Ananyev:
Нет стандартной процедуры. Все рынки разные. Есть целая область экономики -- Empirical Industrial Organization. Там авторы предлагают разные модели и оценивают их на данных из разных рынков.
Чтобы понять, какая из моделей применима в каком конкретном случае, нужно знать что-то про этот случай.
вслепую применять модели нельзя.
Мне кажется, ето должно быть очевидно :)
Alex Tutubalin:
Стоп. А какой тогда смысл во всей остальной экономической науке?
Ну то есть я понимаю, три слепых мудреца ощупывают слона, пишут про это статьи, получают гранты и все такое прочее.
Но если нет работающих моделей или, наоборот, моделей много и нельзя узнать, какая из них работает в конкретном случае - то толк то какой?
Да, очевидно, конечно.
Но в науке, называющей себя наукой, должны быть какие-то варианты действий на этот случай.
Ну там "увеличиваем цену вдвое - все равно покупают - надо засыпать дустом".
В том смысле, что есть вот всякие "маркетологические" бла-бла, которые работают, хоть и цифрами редко описываются.
Но хотелось бы измерить и числом что-то. Алгеброй гармонию.
Maxim Ananyev:
Маркетинг -- ето оценка спроса. Если интересует только это, безо всяких стратегических соображений, то есть про это литература http://www.nber.org/econometrics_minicourse_2012/
Alex Tutubalin:
Нет, конечно. Это не (только) оценка спроса, но и его формирование.
Ну и собственно, говорят же сейчас "маркетинговые коммуникации" (а не исследования) - дорога в две стороны.
Maxim Ananyev:
C формированием спроса -- ето проблема, да.
lenik terenin:
по поводу выбора цены для софтвария, была хорошая статья у Спольски: http://www.joelonsoftware.com/articles/CamelsandRubberDuckies.html
Alex Tutubalin:
Она да, неплохая, но она именно что про психологию. Про fair price и все вот это вот.
На вопрос "сколько ставить цену" (для какого-то конкретного сегмента) она не отвечает.
И я, кстати, там не вполне согласен с некоторыми вещами.
Alex Tutubalin:
Типичная же лженаука? Гадание по внутренностям животных?
Ну то есть вот естественные науки (вроде, к примеру, химии) учат нас, что если мы угадали (узнали) вид зависимости, то там и отклонения (реальности от модели) будут хорошими и действительно можно многие "вневыборочные" вещи предсказать.
А если не угадали - то так и будем строить геоцентрическую модель солнечной системы, добавляя и добавляя эпициклов.
Marat Dukhan:
Давай для начала перестанем называть друг друга лжэучеными.
Вид зависимости не обязательно должен быть представим в виде closed form expression.
На самом деле даже в физике и химии задач, где решение не представимо в виде closed form гораздо больше, чем где представимо.
Решения же в виде некоторой процедуры, которая включает в себя monte-carlo сэмплирование и какой-нибудь итеративный алгоритм, бывают - видел работы по Emprical IO, которые это делают.
То обычно нам не нужно знать всю зависимость - достаточно знать, что измениться, если некоторые инпуты (цену, например) изменить на 10%
И линейные модели эту задачу решают.
Alex Tutubalin:
В физике я плохо образован, поэтому мне проще про химию.
В химии (неорганической) все с хорошим качеством описывается дифурами (кинетическими) и, если известны коэффициенты, то даже все считается.
Дальше в химии есть равновесное приближение ("реакция завершилась"), которые сильно проще и считаются еще лучше.
Они эту задачу решают или не решают.
Ну вот все ж банально, как мне кажется - вот есть почти идеальный рынок, в смысле сток-маркет.
И что-то не видно приемлемой модели, которая позволяла бы там не проигрывать, как минимум.
Marat Dukhan:
Есть, но, естественно, не в учебниках.
Вернее, если тебе хочется просто модель, которая позволит не проигрывать, то из акций и фьючерса можно составить портфель, который будеть давать примерно безрисковую ставку.
Но модели, которые позволяют зарабатывать больше рынка, естественно, держатся в секрете.
Alex Tutubalin:
Секретные модели?
Вроде из опциона, не фьючерса, если по классике?
Marat Dukhan:
Не то чтобы совсем секретные.
Компоненты моделей примерно понятны.
Но конкретная реализация - коммерческая тайна.
Из фьючерса проще. Портфель с опционами придется ребалансировать, и терять на этом деньги.
(портфель с фьючерсом тоже в общем-то надо ребалансировать, но только при изменении безрисковой ставки или волатильности, а их предсказывать проще)
Alex Tutubalin:
Вот мне тут уже приходила в голову идея, что правильный торговый робот биржевой - он должен играть не с рынком, а с другими роботами. То есть "компоненты примерно понятны", конкретные веса мы оцениваем по поведению этих самых других роботов машинным обучением, а дальше, зная (или думая что зная) чужую модель - играем.
Понятно, что нужны большие собственные средства, чтобы иметь возможность покачать рынок и проверить реакцию чужих роботов.
Но тем не менее.
Ну и, естественно, говорить о каких-то разумных экономических моделях такого рынка уже бессмысленно. Играет модель с моделью.
Marat Dukhan:
Если бы играла модель с моделью, то P/E следовал бы random walk.
Роботы торгуют только на спекулятивных сделках.
Сейчас купить, через 3 секунды продать.
Чем больше длительность стратегии, тем меньше там роботов.
Alex Tutubalin:
Ну так HFT - это ж, поди, основной объем?
Насколько я понимаю, робот может успешно играть и против ручных любителей технического анализа.
Marat Dukhan:
Где-то половина, +-
Может, но не думаю, что ручных любителей технического анализа на рынке достаточно, чтобы затачивать под них модель.
Не все роботы занимаются спекулятивной торговлей.
Возможно, даже меньшинство из них.
Даже в HFT.
Кроме спекулятивной торговли, автоматические системы могут заниматься арбитражем (зарабатывать на разнице в цене одного и того же инструмента на разных рынках), перебансировкой портфелей (20% портфеля должно быть в акциях MSFT -> если акции вверх нужно продавать), разбиением крупных сделок на мелкие (казначей Газпрома позвонил в Сбербанк и продал 20M долларов за рубли -> теперь Сбербанку нужно продать эти доллары на бирже, не обвалив курс), автоматическим парсингом новостей (AAPL сообщило о росте продаж на 23% -> estimate новую цену акций -> купить/продать)
Михаил Окунев:
Статистические модели делают предположение о том, что существует и не меняется некоторое распределение между X и Y. Это само по себе уже достаточно сильное предположение, если подумать. В рамках этого предположения выводятся разные методы.
Кажется, как раз в естественных науках обычна ситуация, когда модель со временем уточняется и улучшается, по мере углубления понимания (та же геоцентрическая система Птолемея вполне себе использовалась для мореплавания, ЕМНИП).
Alex Tutubalin:
В естественных науках есть какая-то разумная модель. Пусть даже и неверная (эпициклы). В том смысле, что под ней есть некий "физический смысл".
Но вообще, вот интересная идея - набрать параметров движения небесных тел (да еще и с ошибками, скажем тех данных, которыми Кеплер оперировал) и засунуть в машинное обучение. Получится закон всемирного тяготения, интересно?
Но когда модель неверная (эпициклы) - для описания реальных наблюдений этих эпициклов становится все больше и больше, но предсказательную силу это не слишком улучшает.
А когда верная - внезапно все графики (в "естественных координатах", определяемых моделью) становятся прямыми, а отклонения - очень маленькими и примерно такими, как должны быть исходя из "точности приборов наблюдения".
При этом, конечно, нет ничего страшного в том, что хорошей модели в какой-то области знания нет. Ну не нашлось там еще своего Кеплера (или же просто недостаточный объем наблюдений).
Чтобы эконометристов не обижать лишний раз - ровно такая ситуация сейчас в науке о зрении и цветовоспроизведении. Есть какие-то модели, есть какие-то базовые принципы (вроде "аддтитвности зрения", дескать вот сигналы линейно складываются в глазу/мозгу), есть большое количество накопленной эмпирики, появляются результаты непосредственных измерений на живом глазу.
А вот с наукой - полная херня. Эпициклы. Достаточно сложные нелинейные модели, которые предсказательной силой обладают весьма умеренной. Многие экспериментальные данные так и не объясняются.
А говоришь об этом "адептам" - обижаются. Некоторые даже перестают разговаривать (я не шучу).
Правда появляются постепенные признаки оздоровления. В частности, базовые принципы начали подвергаться сомнению. Мало их, страшно далеки они от народа, но тем не менее.
Marat Dukhan:
Я вот помню из школьной физике формулу, что сила трения пропорциональна силе нормальной реакции опоры.
Но я уверен, что если у material scientist'ов спросить, как там на самом деле, окажется, что на самом деле не пропорциональна, но вот есть такое удобное линейное приближение.
Alex Tutubalin:
Ну да. И эти сайентисты знают границы применимости.
Так то понятно, что на небольшом диапазоне все что хочешь можно линейно приблизить, вопрос в диапазоне.
Marat Dukhan:
Тогда почему тебя смущают такие же приближения в экономике.
Ведь мало кто задается вопросом "что будет если увеличить цены в 100 раз". обычно речь идет о небольших пропорциональных разностях.
Alex Tutubalin:
Потому что экстраполяции (линейной на маленьком диапазоне - на диапзон побольше), судя по всему, не работают.
Я повторяю вопрос, который задал в самом начале треда.
Вот у меня есть софтварий, цену я могу назначить как хочу. Какую цену назначить для максимизации ревеня.
(да, еще важен период, я понимаю).
Из практических вот наблюдений видно, что никакой линейности нет.
  • 14.99 работает лучше 15.01.
Marat Dukhan:
И что теперь, ничего не делать?
Чтобы найти оптимальную цену нужно найти кривую спроса.
Чтобы найти кривую спроса, нужно оценить одновренные уравнения.
Чтобы найти одновременный уравнения, нужно найти инструментальные переменные, которые влияют только на спрос (или только на предложение)
А дальше начинается problem-specific.
+ если ты не монополист, нужно предусмотреть действия конкурентов и вписать в модель.
Alex Tutubalin:
Да!
И наука эконометрика должна предлагать простые доступные рецепты для.
(хотя вот есть мнение, что никаких таких идеальных кривых спроса - и нету вовсе)
Предложение для софтвария, по счастью, бесконечное.
Marat Dukhan:
Если софтварий предлагаешь не только ты, то зависимость предложения от цены есть.
Alex Tutubalin:
На коротком периоде (пара лет) - вполне можно быть монополистом, проблем нет.
Marat Dukhan:
Дык, оценивай спрос.
Если есть база клиентов, которые хотели купить, но не купили, предложи им разные скидки.
Alex Tutubalin:
Вот кстати интересный момент - USA и Европа ведут себя в смысле распродаж очень по разному.
ГРубо говоря, штатовцы покупают "про запас" (потому что deal) и потом не используют.
(я вижу реальные активации лицензий).
Что дает повод задуматься о.
А европейцы - используют если купили.
То есть вот у меня наблюдение, что если речь идет о продаже end user (а не абстрактному экономическому агенту, ну которому нужно миллион тонн стали купить себе на завод), то психология - в тыщу мульенов раз важнее эконометрики.
Marat Dukhan:
В смысле?
Интересно.
Но можно давать скидку на ограниченное количество копий.
Ок. Психология - это к behavioural economics.
Кстати, рекоммендую отличную книжку Dan Arielly по бихейворалу.
Alex Tutubalin:
Ага.
Marat Dukhan:
Упс, не эту (эту я не читал)
Simon Kozlov:
Я кстати ее глядел и она тоже никаких количественных моделей не предлагает.
В этом смысле эта наука не ближе к вопросу @Alex Tutubalin.
Они могут увидеть какие-то качественные эффекты, но предсказать их численно - никак.
Ivan Dobrokotov:
Так, добавим в модель параметр "количество ненулевых цифр в цене", "последняя ненулевая цифра", "количество нулей" и "размер цены после сжатия её в zlib".
Alex Tutubalin:
Я считаю, что надо еще добавлять параметры про внутренности жертвенных животных. Метод проверенный, еще римляне использовали.
Maxim Ananyev:
Прежде внутренностей животных -- а Вы можете составить датасет из трех переменных: (а)количество проданных копий в единицу времени, (б)цена за копию, (с) ваш effort по продвижению. А дальше понять, как б и в объясняют вариацию в а.
потом можно поискать ситуации, где цена менялась экзогенно и так оценить кривую спроса.
Alex Tutubalin:
Цена постоянна пока.
Потому что совершенно непонятно, как ее менять.
Maxim Ananyev:
чтобы оценить спрос из данных, нужна вариация в цене :(
Alex Tutubalin:
Ну так я про это уже спрашивал, 5 дней назад: "какие эксперименты провести и где вообще описание методики".
Причем, штука же вот какая. Я легко могу играть с понижением цены, причем взакрытую. Ну, точнее относительно легко, надо запрограммиовать и будет.
Предлагая тем, кто скачал уже триальную версию - в этой самой версии скидочный купон. Притом, я могу и собрать какую-то статистику по использованию (если программу запустили за триальный период два раза - этот не купит; если постоянно пользуется - то значит показать купон).
Но это не будет чистой кривой спроса-предложения, а это будет работа с юзерской психологией.
А вот с повышением цены - проблемы, на самом деле. То есть может быть я могу смело повысить раза в полтора-два, но про это очень трудно узнать.
Maxim Ananyev:
отлиично, надо подумать.
а вы можете предлагать случайные скидочные купоны? то есть кому-то на 20 процентов, а кому-то на 10. И потом смотреть на количество покупок при каждой скидке.
Alex Tutubalin:
"Спрограммировать надо".
Мастера вышивки по купонам мне рассказывали какую-то сложную стратегию.
Допустим, есть 3 редакции софта, дешевая-нормальная-дорогая.
Предлагать нормальную день на 10-й (и купон типа на 5 дней). Потом на 20-й - дорогую, а в последний день триала, раз уж сука не купил - самую дешевую.
В смысле - предлагать персональные скидки на.
Говорят что помогает.
Но к установке базовой цены это все не имеет отношения.
А проблема именно с базовой, точнее вот непонятно - если при увеличении базовой вдвое я потеряю в продажах вдвое (или меньше), то это меня полностью устраивает (саппорта меньше, сумма та же).
Но базовая - это то, что юзер видит, даже не попробовав софта, т.е. не может сопоставить цену и ценность.
Vasily Khudyakov:
offtopic: преподаватель по физике как-то сказал. Сила трения самая сложная сила в мире и правильное ее определение звучит так: сила трения такая какая она есть чтобы все было так как оно должно быть на самом деле. Тоесть в некотором узком круге задач это коэффичиент умноженный на силу.
Михаил Окунев:
Запоздало отвечу: чудес не бывает. Если фичи недостаточно информативны, то и в модели будет сильное неустранимое смещение. Но если твои признаки позволяют хорошо определять результат, то вот тут МЛ может быть очень к месту.
Ivan Dobrokotov:
> добавляя и добавляя эпициклов.
> добавляя и добавляя эпициклов.
Это работает для предсказания при помощи компьютеров. Это как использование модели "решётка из квадратных пикселов" для приближения изображения. Она очень хорошо работает при большом разрешении :)
Maxim Ananyev:
про behavioral -- лучше Kahneman, Thinking Fast and Slow.
Egor Pasko:
мне вот 4 тоже не нравится, мало ли чего можно найти, задавая слишком много вопросов (http://xkcd.com/882/)
Maxim Ananyev:
Насчет роботов я не в курсе, "классическая" финансовая наука может ответить на вопрос, как получить максимальную ожидаемую прибыль при заданном уровне риска (грубый ответ: cоставить портфель из смеси из всех активов на рынке с безрисковым активом).
А придумать стратегию, которая позволяет регулярно получать прибыль выше рынка -- это из области поиска free lunch, который, как известно найти довольно сложно. Тут должно быть либо преимущество в технологии (например, роботы быстрее работают или там электроны по проводам быстрее бегут :) ), либо преимущество в сильно специализированном знании, релевантном для активов которыми вы торгуете. Книжка "Random Walk Down Wall Street" рекомендуется к прочтению.