Машина страха и жадности: как настроение в СМИ становится валютой на бирже
Батырхан Садуанов — аналитик данных, разработчик NLP-системы для предсказания рыночных трендов. Он научил искусственный интеллект чувствовать страх и жадность рынка.
Представьте: тысячи новостей публикуются каждую минуту. Политика, экономика, скандалы, прогнозы. Люди читают их — и реагируют. А рынок? Он реагирует первым.
Но что, если можно не просто следить за новостями, а предсказывать движение фондовой биржи по тону статьи, опубликованной три часа назад?
Мы поговорили с Батырханом Садуановым — аналитиком данных и создателем алгоритмической системы, которая ежедневно анализирует тысячи финансовых новостей и генерирует индикатор рыночного настроения с корреляцией более 80% к известному индексу «Страх и жадность».
Его система — это не простой подсчёт слов вроде «рост» или «падение». Это NLP-модель нового поколения, способная понимать контекст, финансовый сленг и даже скрытые эмоции в тексте. Она видит разницу между фразами «акции упали, но восстановятся» и «рынок рухнул без шансов на отскок» — и оценивает их правильно.
Но главный вызов был не в технологии, а в субъективности новостных источников: одни всегда пишут позитивно, другие — пессимистично. Как сравнить тональность, если каждый издатель говорит на своём языке?
Ответ — в математике. Батырхан разработал метод нормализации, который ставит все источники на одну линию, убирая перекосы и выявляя реальный тренд настроений.
Что, если будущее трейдинга — не в графиках и свечах, а в тысячах строк текста, которые машина умеет чувствовать?
— Батырхан, вы говорите, что ваша система анализирует новости и предсказывает поведение рынка. Но рынок же движется цифрами, а не текстами. Как связь между словами и ценами?
— Рынок — это, прежде всего, психология. Цифры показывают, что произошло. Новости объясняют, почему люди так думают. А поскольку решения принимаются людьми (или алгоритмами, обученными на человеческом поведении), то настроение в медиапространстве напрямую влияет на движения капитала.
Наша система превращает этот «новостной фон» в количественный индикатор — осциллятор сентимента от 0 до 100, где 0 — паника, 100 — эйфория. И мы обнаружили, что он с высокой точностью коррелирует с реальными изменениями на рынке.
— Как работает сам анализ? Ведь одно и то же слово может быть и позитивным, и негативным в зависимости от контекста.
— Именно. Первая версия использовала простой байесовский подход: считала количество слов типа «рост», «прибыль» или «кризис», «обвал». Но он провалился. Фраза «акции упали, но эксперты уверены в восстановлении» оценивалась как чистый негатив, хотя по сути — нейтрально или даже позитивно.
Мы перешли на FinBERT — специализированную модель на базе BERT*, дообученную на финансовых текстах. Она понимает контекст, распознаёт сленг (например, «булл-ран» — это хорошо) и главное — выдаёт «нейтральный» результат, если статья не по теме. Это решило проблему «мусорных» сигналов от политики или спорта.
* BERT (Bidirectional Encoder Representations from Transformers) — это большая языковая модель для понимания естественного языка.
— Вы упомянули, что разные СМИ пишут по-разному. Как вы сравниваете тональность, если один источник всегда пессимистичен, а другой — излишне оптимистичен?
— Отличный вопрос. Это была главная проблема. Если взять среднее по всем источникам, получится искажённая картина. Даже авторитетные издания имеют «перекосы».
Решение — z-score нормализация. Мы анализируем исторический сентимент каждого источника и переводим его текущий тон в относительное значение. То есть смотрим: насколько сегодняшняя статья позитивнее/негативнее обычного для этого издания.
Так мы убираем системные смещения и сравниваем все источники на равных. Это как перевести разные валюты в один стандарт — теперь можно честно агрегировать сигнал.
— Сколько новостей нужно, чтобы получить достоверный сигнал? Чем больше — тем лучше?
— Оказалось, что нет. Мало — индикатор дергается, слишком чувствителен к единичным событиям. Слишком много — сигнал сглаживается, теряется оперативность.
Мы искали «золотую середину» — баланс между стабильностью, чувствительностью и достоверностью. Аугментация** и случайный отбор данных не помогли — они искажали картину. Вместо этого мы разработали взвешенный подход: более свежие статьи имеют больший вес, а старые — плавно затухают.
** Аугментация данных (data augmentation) — это процесс увеличения объёма тренировочных данных.
— Как вы превратили всё это в готовый инструмент?
— Финал — это осциллятор в диапазоне от 0 до 100. Мы применяем математическое сглаживание, учитываем временной вес и строим стабильный индикатор.
Самое удивительное — наш NLP-индикатор показал корреляцию более 80% с классическим «Fear & Greed Index» (индекс страха и жадности), который основан на чисто технических метриках: волатильности, объёмах, опросах. Это доказывает: новости не просто отражают рынок — они его формируют.
— Какие самые неожиданные открытия были в процессе работы?
— Например, то, что парсинг*** новостей — это 50% успеха. Вначале наши скрипты падали из-за блокировок, а в данные попадала реклама и нефинансовые статьи. Пришлось разработать механизм кэширования, который снизил нагрузку в 5 раз и повысил устойчивость системы. Ещё мы не ожидали, что даже серьёзные издания могут так сильно искажать сентимент — пришлось вводить нормализацию.
*** Парсинг (от английского parsing — «разбор») — автоматический процесс сбора и структурирования информации из различных источников.
— Кому будет полезна такая система?
— В первую очередь — трейдерам и инвесторам, которые хотят принимать решения на основе данных, а не слухов. Но также и компаниям, которые хотят отслеживать свою репутацию на рынке. В будущем такие системы станут стандартом для всех, кто работает с финансами.
— Где уже применяется ваша система?
— Она интегрирована в торговые алгоритмы наших клиентов, что позволяет им заранее реагировать на настроения рынка, корректировать портфели до массового движения и избегать решений на фоне паники или эйфории.
Это не замена фундаментальному анализу, а мощное дополнение. Трейдер получает не только данные — он получает понимание настроения толпы.
— Что бы вы посоветовали тем, кто хочет создать подобную систему?
— Не начинайте с модели. Начните с данных. Парсинг — это ад: блокировки, изменение структуры сайтов, мусорный контент. У нас первые скрипты падали каждые 2 часа.
Мы построили отказоустойчивую систему с кэшированием и умным парсером, который игнорирует рекламу и нефинансовые статьи.
И помните: хороший аналитик — это тот, кто видит не только закономерности, но и ошибки своей модели. Первый месяц мы верили в ложные сигналы. Только глубокая диагностика и математика спасли проект.
P.S.
Батырхан Садуанов — не просто аналитик. Он — переводчик между мирами: миром слов и миром цифр. Его работа доказывает, что в эпоху big data и ИИ главный актив — это способность видеть за текстом сигнал.
Его система — это шаг в будущее, где трейдинг будет основан не только на прошлом, но и на настроении настоящего. И когда машина начинает чувствовать страх и жадность, она перестаёт быть просто инструментом — она становится участником рынка.
Поделиться
Поделиться