Семь ключевых метрик: как объективно оценивать ответы больших языковых моделей

March 25, 2025

Это снижает вероятность частого использования одних и тех же токенов/слов/фраз и, как следствие, заставляет модель рассматривать более широкий спектр тем и чаще их менять. В свою очередь штраф за присутствие (presence penalty) является фиксированным и применяется единожды, если токен уже появлялся в тексте. Понимая эти компоненты, мы можем оптимизировать использование памяти во время обучения и вывода, обеспечивая эффективное распределение ресурсов и повышение производительности больших языковых моделей. Список задач, которые можно решать с помощью больших лингвистических моделей и правильных инструкций, может быть достаточно длинным. Исторически в машинном переводе применялись автоматические метрики — BLEU, ROUGE, METEOR. Они стали плохо работать несколько лет назад, потому что качество моделей стало достаточно высоким и стало видно, что exact-match-метрики поощряют буквальные переводы без перефразировок. Помимо fluency repair, мы используем и классическую процедуру сбора данных для alignment — сравнение различных переводов с помощью асессоров-переводчиков. А что, если использовать general-purpose LLM как перефразировщик, а базовую модель перевода — как генератор начальных гипотез?

Практические примеры применения

Недавно мы впервые разработали модель документного перевода на основе YandexGPT и, используя различные оптимизации, уже применяем её в Поиске, Умной камере, а также в нейропереводчике Яндекс Браузера. Кроме того, мы протестировали новую модель на независимом международном бенчмарке DiBiMT, где заняли первое место по качеству англо-русского перевода. Необходимо понять, что именно требуется выяснить или решить, какой результат должен быть достигнут после проведения работы. Это поможет определить ключевые моменты, на которые стоит обратить внимание при анализе данных. Аналогичным образом может существовать задача «Вопросы с несколькими вариантами ответа». На самом деле, MMLU целиком основана на вопросах с несколькими вариантами ответов.

ReAct (Reason + Act): пошаговое взаимодействие LLM с агентами

Поэтому в какой-то момент мы приняли решение больше не развивать модели перевода отдельных предложений, а сосредоточиться на решении более актуальной (и технически сложной) задачи контекстного перевода.
Сверточные текстовые модели являются одним из инструментов, позволяющих автоматически генерировать тексты высокого качества.
При использовании GPU для генерации сверточных текстовых моделей происходит значительное ускорение вычислений.
Другим способом оптимизации архитектуры моделей является использование архитектурных трюков, таких как уменьшение числа параметров модели.
Такие исправления прекрасны тем, что можно делать обучение на триплетах (src, good, bad), а не только на парах (src, good).

Таким образом, если ваша цель — задать один и тот же вопрос дважды и получить разные ответы, рекомендуется использовать только ненулевые значения температуры. Чтобы сгенерировать токен, языковая модель присваивает каждому токену в своём словаре оценку правдоподобия, т.е. Модель оценивает, насколько подходящим является токен для продолжения заданного текста. При хорошем соответствии токен получает высокую оценку правдоподобия, при слабом соответствии — низкую. Сумма оценок правдоподобия для всех токенов в словаре модели всегда равна единице. Более простыми словами это нейронная сеть с крайне большим количеством изменяемых параметров, которая позволяет решать задачи по обработке и генерации текста. Контекстом может быть предыдущее сообщение в диалоге, тон беседы или дополнительная информация, уже упомянутая ранее. Интеграция контекста означает способность ответа учитывать эту дополнительную информацию, а не игнорировать её. Для Factual Correctness более надёжны ML-системы (и внешние базы данных), потому что LLM склонны выдумывать факты. При этом LLM может выполнять первичный анализ, но https://futureai.guru итоговую проверку часто делают классические ML-методы или ручные эксперты. LLM подходит для более гибкой оценки тонкостей смысла, но требует большего количества ресурсов. В сравнении с метриками выше, более близкое к нулю значение DBI говорит о лучшем качестве кластеризации. Хотя данная метрика и обладает тем же недостатком, что и коэффициент силуэта, она может быть более предпочтительным вариантом из-за более простого вычисления. Эта метрика также лежит в диапазоне [0, 1] и может быть полезна при сравнении различных алгоритмов кластеризации, поскольку не делает никаких предположений об их структуре и, следовательно, может дать более объективную оценку. Следует добавить, что все 3 метрики хорошо интерпретируемые, поскольку лежат в диапазоне [0, 1], где 1 соответствует идеальной кластеризации. https://auslander.expert/ Также помимо этого, в scikit-learn имеется возможность получить все три метрики сразу. Она симметрична, не зависит от перестановок меток и их значений, которые теперь определены в диапазоне [-1, 1]. Например, модель, которая умеет определять вид растений, можно обучить распознавать новый вид, используя относительно небольшое количество обучающих данных. Выборка содержит входные данные для модели и — опционально — выходные данные, которые модель должна предсказать. В случае, когда выходные данные присутствуют, их называют разметкой, а саму выборку https://appliedai.com — размеченной. При этом вершинам графа ставятся в соответствие отдельные термины, а ребрам – связи между ними. В настоящей работе каждый текст представлялся в виде графа совместно встречающихся слов. Для расстановки ребер проводилось сканирование текста окном заданного размера. Ребро между двумя вершинами в графе устанавливалось в том случае, если соответствующие этим вершинам слова в тексте одновременно находились в пределах сканирующего окна. Данный подход является достаточно простым в реализации и основан на наблюдении из [8], что между двумя находящимися рядом словами часто существует семантическая связь. Модели почти всегда содержат параметры — числа, настройка которых определяет, как именно устроена зависимость. И это если не учитывать тот факт, что сами «человеческие» переводы на WMT не являются безупречными. Машинный перевод — одна из наиболее известных и классических задач в компьютерной лингвистике. Первые коммерческие системы появились уже в 1990-х годах, а начиная с середины 2000-х, движки real-time-перевода стали доступны уже для всех пользователей интернета. Если вам хочется попрактиковаться в создании фреймворка тестирования для LLM, то лучше всего попробовать реализовать всё с нуля.