Що таке бал BLEU для оцінки LLM?
Він вимірює подібність між машинним перекладом і еталонними перекладами на основі n-грам (суміжних послідовностей з n слів), присутніх в обох. Оцінка BLEU коливається від 0 до 1, причому вищий бал вказує на кращу відповідність між згенерованим перекладом і посиланнями.8 липня 2023 р.
Оцінка BLEU є мірою, що базується на точності коливається від 0 до 1. Чим ближче значення до 1, тим кращий прогноз. Неможливо отримати значення 1, і зазвичай значення вище 0,3 вважається хорошим результатом. Чим більше довідкових перекладів на речення, тим вищий бал.
BLEU коливається від 0 до 1, де 1 означає ідеальний збіг. Такі бібліотеки, як NLTK або sacreBLEU у Python, спрощують процес. BLEU — це як оцінка того, наскільки результати моделі НЛП відповідають людським посиланням. Він перевіряє спільні фрази (n-грами) і штрафує, якщо вивід надто короткий порівняно з посиланнями.
Інтерпретація
Оцінка BLEU | Інтерпретація |
---|---|
30 – 40 | Зрозумілий для хороших перекладів |
40 – 50 | Висока якість перекладів |
50 – 60 | Дуже якісні, адекватні та вільні переклади |
> 60 | Якість часто краща за людську |
Оцінка BLEU: Вимірює, наскільки текст, створений LLM, узгоджується з посиланнями, написаними людиною. Важливо для таких завдань, як переклад і творче письмо. Здивування: наскільки здивованим або розгубленим виглядає LLM, коли він стикається з завданням. Менше здивування означає краще розуміння.
Серед 191 рейтингу юридичних шкіл, які подали дані про оцінки до U.S. News у щорічному опитуванні, середній середній бал середніх студентів юридичних шкіл у 2021 році становив 3,55. Але в 20 юридичних школах з найвищим рейтингом середній середній бал значно вищий – 3,86.