Демократизация ИИ: от Open-Source до метрик качества — как сделать искусственный интеллект полезным для всех

Взрывной рост числа моделей, распространение Open-Source решений и впечатляющие демонстрации возможностей – искусственный интеллект стремительно демократизируется. Но достаточно ли простого доступа к технологии, чтобы она стала по-настоящему полезной для всех? Об этом мы поговорили с Дмитрием Браженко, software engineer for AI systems, который поделился своим экспертным взглядом на актуальные тенденции, скрытые риски и основные факторы, определяющие эффективность и надежность AI-систем.

— Дмитрий, тема демократизации искусственного интеллекта и ее влияние на развитие технологий достаточно актуальна. Какие основные тенденции вы наблюдаете в этой области?

— Анализируя текущую ситуацию, я бы отметил несколько моментов. Во-первых, наблюдается экспоненциальный рост числа участников рынка, предлагающих широкий спектр моделей. Это стимулирует конкуренцию и способствует появлению инновационных решений. Во-вторых, значительная часть передовых разработок переходит в категорию Open Source, что, несомненно, способствует демократизации технологии, делая ее более доступной для широкого круга пользователей. И, наконец, нельзя не отметить существенное снижение стоимости и веса моделей, что значительно снижает порог вхождения для новых игроков и позволяет использовать ИИ даже на устройствах с ограниченными ресурсами.

— Рост числа игроков на рынке, безусловно, стимулирует конкуренцию и инновации. Но не приводит ли снижение порога входа на рынок к нежелательным последствиям, например, к ослаблению контроля за использованием этих моделей?

— Действительно, это важный вопрос. Необходимо признать, что снижение порога вхождения в сферу ИИ сопряжено с определенными рисками. В частности, ослабевает контроль за использованием этих моделей, поскольку все больше людей и организаций получают возможность создавать и использовать свои собственные модели, зачастую анонимно. По сути, сегодня даже человек или компания с относительно небольшим бюджетом — речь идет о семизначных суммах в долларах — могут создать свою модель, переработав чужие разработки. При этом сложно контролировать, в каких целях она будет использоваться.

— Модели с открытым исходным кодом сейчас набирают популярность. Каковы, по вашему мнению, основные преимущества и недостатки такого подхода?

— Говоря о моделях с открытым исходным кодом, важно понимать, что помимо самой модели, которая, безусловно, является основным элементом всей истории ИИ, огромное значение имеют так называемые «обертки» и библиотеки, используемые поверх этой модели. Именно они во многом определяют функциональность и применимость модели на практике.

Полагаю, что грамотно реализованные «обертки» могут составлять до 50% успеха всего решения. Ведь даже самая передовая модель, лишенная качественной «обертки», может оказаться непригодной для реального использования. В этом году мы наблюдаем явную тенденцию к созданию разного рода «агентов», призванных выполнять автономные задачи. Несмотря на громкое название, идея, лежащая в основе этих «агентов», достаточно проста: мы берем LLM-модель и ставим перед ней задачу, предоставляя определенный набор инструментов. И модель, по сути, как текстовая модель, просто выдает последовательность действий — запускаем такой-то инструмент, получаем результат.

— Какие основные задачи стоят перед разработчиками этих самых «агентов» и какие факторы определяют их эффективность?

— В подобных системах основную роль играет так называемое «контекстное окно», определяющее объем информации, которую модель может одновременно учитывать при обработке запроса. Если контекстное окно слишком маленькое, теряется история взаимодействия с пользователем, что негативно сказывается на результатах. С другой стороны, чрезмерное увеличение контекстного окна приводит к снижению качества выдачи. В конечном итоге эффективность «агентов» напрямую зависит от грамотной реализации «оберток», позволяющих эффективно управлять контекстом и обеспечивать оптимальное сочетание полноты информации и скорости обработки.

— Сейчас существует множество «оберток» с открытым исходным кодом. Насколько они готовы к использованию в реальных промышленных условиях?

— Несмотря на то, что на рынке представлено значительное количество «оберток» с открытым исходным кодом, необходимо признать, что большинство из них находятся на достаточно «сырой» стадии развития. Другими словами, для их полноценного использования в промышленных условиях потребуется значительная адаптация и тонкая настройка, особенно в тех случаях, когда речь идет о масштабных и критически важных проектах. Для небольших и «игрушечных» проектов, напротив, большинство «оберток» работают сразу, не требуя каких-либо дополнительных усилий.

— Вернемся к теме впечатляющих демонстраций возможностей ИИ. Насколько «громкие демонстрации» отражают реальные возможности технологии, и какие ограничения существуют на данный момент?

— Многие демонстрации возможностей ИИ не всегда полностью соответствуют реальным возможностям технологии на сегодняшний день. Иногда мы видим впечатляющие примеры, когда модели управляют компьютером или самостоятельно заказывают авиабилеты. Однако, как показывает практика, такие решения работают стабильно не всегда. На данный момент ИИ лучше всего справляется с задачами, связанными с обработкой текста, такими как суммирование или разделение текста на блоки. В то же время, при решении более сложных задач модели часто демонстрируют нестабильную работу и допускают ошибки. Таким образом, создание AI-систем, способных эффективно решать сложные задачи, остается серьезным вызовом для разработчиков.

— Какие, на ваш взгляд, основные моменты важны для создания эффективного ИИ-помощника? Как можно оценить его качество и эффективность работы?

— Создание эффективного AI-помощника – задача комплексная, требующая учета множества факторов. Прежде всего, необходимо четко определить, чего мы ожидаем от системы и каким образом она должна реагировать на наши запросы. Важно понимать, что AI-система – это не волшебная палочка, способная решить любую задачу. Необходимо иметь четкое представление о том, как она работает, и понимать, что происходит на каждом этапе обработки информации. Ключевую роль здесь играют «обертки» и библиотеки, которые позволяют управлять функциональностью и поведением модели. Важно отделить «обертку» от модели и внимательно подходить к выбору библиотек, позволяющих точно понять, что происходит на каждом этапе работы. Если мы не будем понимать, что там происходит, то мы никак не сможем это отладить и объяснить.

— Как вы оцениваете эффективность работы AI-помощников? Какие методы для этого используются?

— Существует два основных подхода к оценке эффективности AI-помощников. Первый – это использование человеческих оценок, когда люди оценивают качество работы системы и дают свои отзывы. Такой подход позволяет получить ценную обратную связь и выявить слабые места в работе модели. Второй – использование самих AI-моделей в качестве судей. В этом случае мы просим модель оценить результаты своей работы и выставить оценку. Этот метод позволяет автоматизировать процесс оценки и значительно снизить затраты на проведение тестирования.

— Новый метод оценки работы ИИ — использование LLM в качестве судьи, когда сама модель оценивает результаты своей работы. Не могли бы вы рассказать об этом подробнее?

— Действительно, сейчас набирает популярность новый и, что немаловажно, более экономичный способ оценки качества работы AI-систем, получивший название «llm-судья». Суть этого подхода заключается в том, что мы просим саму LLM-модель оценить результаты, которые она генерирует. То есть сначала мы создаем систему, выдающую определенный результат, а затем используем LLM-модель для оценки этого результата. Такой подход позволяет значительно снизить затраты на проведение оценки, поскольку он не требует привлечения экспертов или проведения масштабных пользовательских исследований.

— Давайте поговорим о вашей библиотеке SharpToken. Расскажите, пожалуйста, как она появилась и какую роль играет в контексте демократизации ИИ?

— Это библиотека, набор инструментов, или, как сейчас принято говорить, Toolkit. На самом деле, чтобы создать хороший и востребованный продукт, часто не нужно изобретать велосипед, а достаточно взять уже существующее решение и адаптировать его для новой области применения. Собственно, именно с такой идеей и появилась библиотека SharpToken. На заре развития технологий ИИ, когда модели стали доступны широкой публике, возникла острая необходимость в эффективном управлении стоимостью их использования. В то время, как вы помните, ресурсы были довольно дорогими, и было крайне важно подсчитывать, сколько токенов расходуется на входные и выходные данные, а также иметь возможность ограничивать их объем. Для понимания роли SharpToken важно понимать, что модели ИИ, в отличие от нас, воспринимают текст не как последовательность букв или слов, а как последовательность токенов. Токен — это нечто среднее между словом и отдельным символом, а его размер зависит от используемой модели. Учет количества токенов, используемых при работе с моделью, позволяет контролировать затраты на вычислительные ресурсы и оптимизировать производительность системы в целом.

— Одной из главных проблем в развитии ИИ является доверие пользователей. Люди склонны не доверять системам, которые допускают ошибки. Как, по вашему мнению, можно решить эту проблему и создать AI-системы, которым можно доверять?

— Чтобы создать ИИ-систему, которой будут доверять пользователи, необходимо уделить особое внимание процессу ее разработки и тестирования. В идеале необходимо собрать датафрейм, содержащий примеры входных данных и ожидаемых результатов. Это позволит нам оценить точность и надежность работы системы в различных сценариях. Кроме того, необходимо разработать метрику, позволяющую оценить качество ответов, генерируемых системой. При этом необходимо учитывать различные аспекты, такие как абсолютное и приблизительное сходство, тональность и другие факторы.

— Какие конкретные шаги необходимо предпринять для разработки такой метрики?

— Разработка эффективной метрики — сложный и многоэтапный процесс. Прежде всего, необходимо собрать качественный набор данных, содержащий примеры корректных и некорректных ответов. Часть этого датасета можно сгенерировать самостоятельно, а часть — с помощью самой модели. Затем необходимо разработать критерии, позволяющие отличать «хорошие» ответы от «плохих». Эти критерии должны учитывать различные аспекты, такие как точность, полнота, релевантность и другие факторы. И, наконец, необходимо протестировать метрику на большом количестве примеров, чтобы убедиться в ее объективности и надежности.

— Как оценить, насколько хорош прототип AI-системы для внедрения в бизнес?

— Важно учитывать специфику конкретной задачи и потенциальные последствия ошибок. Если речь идет о задачах, в которых цена ошибки невелика, то 99% точности может быть вполне приемлемым показателем. Однако если система должна соответствовать строгим бизнес-обязательствам, и даже небольшая вероятность ошибки может привести к серьезным финансовым или репутационным потерям, необходимо стремиться к более высоким показателям надежности. К примеру, в ситуациях, когда цена ошибки невелика, например на развлекательном сайте с изображениями, 99% точности может быть достаточно. Однако, когда речь идёт о задачах с высокой степенью ответственности и риска, таких как медицинская диагностика, даже 99% точности может оказаться неприемлемым из-за потенциальных негативных последствий.

— Какие общие подходы и стратегии вы могли бы посоветовать разработчикам, стремящимся создать системы искусственного интеллекта, которым можно доверять?

— В настоящее время большинство AI-систем создаются как надстройки над уже существующими моделями. Разработка моделей с нуля — дорогостоящий и трудоемкий процесс, доступный лишь немногим компаниям. Поэтому для большинства разработчиков гораздо выгоднее и эффективнее использовать готовые модели и сосредоточиться на создании качественной «обертки», которая будет адаптировать модель к конкретным бизнес-процессам и обеспечивать надежность и безопасность ее работы.

Источник

Демократизация ИИ: от Open-Source до метрик качества — как сделать искусственный интеллект полезным для всех

Добавить комментарий