어떤 LLM의 성능이 더 좋은가요 - 챗봇 아레나

Anson Park

7분

∙

2023. 1. 9.

Chatbot Arena는 허깅페이스 빅 벤치마크 컬렉션 중 하나로 Open LLM Leaderboard 처럼 최근 많은 주목을 받고 있습니다.

Chatbot Arena는 대규모 언어 모델(LLM)을 평가하는 플랫폼입니다. 실제 사람들의 평가를 기반으로 모델의 성능을 판단하는 실용적 방식을 사용합니다. 이 리더보드의 특징을 꼽아보면 다음과 같습니다:

목적과 기능: 챗봇 아레나는 보다 실용적이고 사용자 중심적인 방식으로 오픈 소스 LLM을 평가하도록 설계되었습니다. 다양한 역량을 가지고 있는 LLM 채팅 어시스턴트는 Open-Ended Question에 응답해야하는 특성을 가지고 있습니다. 또, 이미 준비된 데이터 세트와 소프트웨어로 동작하는 자동화된 벤치마크로는 사람들의 선호 성향을 평가에 반영하기 어렵습니다. 챗봇 아레나는 이런 LLM 특성 및 벤치마크 과제에 대한 효과적인 솔루션을 제시합니다.
사람이 진행하는 1:1 비교 평가: 챗봇 아레나에서 사람들은 2건의 익명 모델과 동시에 대화를 해보고, 어느 쪽이 더 낫다고 생각하는지 투표합니다. 실제로 수많은 사람들의 1:1 비교평가 제출 결과에 기반하여 성능을 평가하는게 가장 큰 특징입니다.
Elo Rating System: 챗봇 아레나는 체스 및 기타 경쟁 게임에서 일반적으로 사용되는 Elo Rating System을 채택하여 LLM을 평가합니다. 이 시스템은 플레이어의 상대적인 기술 수준을 계산하여 경기 결과를 예측하는 데 사용되기도 합니다. 챗봇 아레나에서 플레이어는 모델이 됩니다. Elo Rating System은 여러 모델이 있고 모델 간에 쌍으로 배틀이 진행되는 시나리오에 적합합니다.
효과적인 벤치마크 시스템: 효과적인 벤치마킹을 위해 시스템은 확장성(많은 수의 모델을 수용할 수 있어야 함), 점진성(최소한의 시도 횟수로 새로운 모델을 평가할 수 있는 능력), 고유한 순서(모든 모델에 대한 명확한 순위 설정)를 갖춰야 합니다.
데이터 수집 방법: 챗봇 아레나는 실제 사람들이 LLM과 대화를 진행합니다. 이 크라우드소싱 기반 평가 방식은 사람들이 LLM 어시스턴트의 성능을 테스트 해볼 때 어떤 질문을 던지는지 데이터를 수집할 수 있는 채널이 됩니다.
비교 분석: 챗봇 아레나는 이러한 일대일 대결에서 서로 다른 LLM이 어떻게 경쟁하는지에 대한 개요를 제공합니다. 이 정보는 다양한 모델에 대한 효과와 사용자 선호도를 비교하는 데 사용할 수 있습니다.
중요성: 챗봇 아레나는 실제 사용자 중심의 접근 방식으로 LLM을 평가할 수 있다는 점에서 의미가 있습니다. 사용자 경험과 선호도에 초점을 맞추기 때문에 기존의 자동화된 벤치마킹 방법에서는 종종 놓치는 인사이트를 제공합니다.

따라서 챗봇 아레나는 LLM의 효과와 사용자 경험을 평가할 수 있는 새로운 방법을 제안하면서, 앞으로도 인공지능 생태계에서 유용한 도구가 될 것으로 기대됩니다.

챗봇 아레나 연구 논문: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

챗봇 아레나 리더보드

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

GPT-4, Claude, Mixtral, Gemini Pro의 순서로 모델 순위가 매겨진 것을 볼 수 있습니다. 특히 인상적인 것은 상위권에 OpenAI의 GPT-4를 필두로 독점 모델들이 포진하고 있지만, Mistral AI의 오픈소스 모델인 Mixtral-8x7b-Instruct-v0.1도 현재 좋은 평가를 받고 있다는 점입니다.

챗봇 아레나

https://chat.lmsys.org/

챗봇 아레나에 들어가면 LLM을 기반으로 하는 두 개의 챗봇을 비교하며 대화할 수 있습니다. 이 글을 쓰면서 저는 다음과 같은 질문으로 대화를 시작해보았습니다:

"대규모 언어 모델의 성능은 어떻게 평가할까요?"

질문을 던지자마자 챗봇 아레나에 참여한 LLM 중 익명의 모델 두 개가 응답하여 제 질문에 대해 답변했습니다.

—

A 모델의 응답

대규모 언어 모델의 성능을 평가하는 방법은 다음과 같습니다.

정확도 (Accuracy): 모델이 정답을 얼마나 맞추는지 평가하는 기준입니다. 문장 분류, 명사 식별 등의 태깅 작업에서 주로 사용됩니다.
재현율 (Precision): 모델이 정답으로 예측한 빈도에 대한 측정입니다. 주로 정답이 적은 많은 빈도로 인해 낮은 값을 가지게 됩니다.
부정확도 (Recall): 모델이 실제 정답을 얼마나 다 찾는지 평가하는 지표입니다. 주로 정답이 적은 많은 빈도로 인해 낮은 값을 가지게 됩니다.
F1 스코어: 정확도와 부정확도의 평균을 구한 지표로, 두 지표가 균형을 이루는 지를 평가합니다.
로짓 인기도 (F1-score): 정답 클래스 분포에 대한 영향을 고려한 지표로, 데이터셋의 불균형을 처리할 때 주로 사용됩니다.
스코어 (Score): 모델이 예측한 결과와 실제 결과 간의 차이를 측정하는 지표입니다. 예를 들어, 문장 생성 모델의 경우, 사용자가 주어진 문장에 대한 평가를 통해 스코어를 계산할 수 있습니다.
모델의 효율성: 모델의 크기와 학습 시간에 대한 영향을 평가합니다. 예를 들어, 대규모 언어 모델의 경우, 피팅 데이터셋의 크기에 따른 성능 변화를 측정할 수 있습니다.
인간 평가: 모델의 생성된 텍스트를 인간 평가자들에게 제시하여 질의치를 평가할 수 있습니다. 예를 들어, 대화 인공지능의 경우, 인간 평가자들이 모델이 더 정교한 대답을 제공하는지 평가할 수 있습니다.

이러한 평가 지표를 사용하여 대규모 언어 모델의 성능을 평가할 수 있습니다. 각 지표는 모델의 다른 측면을 반영하므로, 여러 지표를 함께 고려하여 모델의 전반적인 성능을 평가하는 것이 좋습니다.

—

B 모델의 응답

대규모 언어 모델의 성능을 평가하는 방법은 여러 가지가 있습니다. 일반적으로 사용되는 평가 지표는 다음과 같습니다:

언어 모델의 퍼플렉서티(perplexity): 언어 모델이 얼마나 정확하게 다음 단어를 예측하는지를 나타내는 지표입니다. 퍼플렉서티는 모델이 예측한 단어의 확률 분포와 실제 단어 시퀀스 사이의 차이를 계산하여 측정됩니다. 낮은 퍼플렉서티는 더 좋은 성능을 나타냅니다.
문장 생성: 언어 모델이 주어진 문맥에서 문장을 생성하는 능력을 평가합니다. 이를 위해 모델은 주어진 문맥에서 가장 적절한 다음 단어를 예측하고, 이를 연속적으로 반복하여 문장을 생성합니다. 생성된 문장은 사람이 평가하여 의미, 문법, 일관성 등을 평가할 수 있습니다.
문장 완성: 언어 모델이 주어진 불완전한 문장을 완성하는 능력을 평가합니다. 이를 위해 모델은 주어진 문맥에서 다음 단어를 예측하여 불완전한 문장을 완성합니다. 완성된 문장은 사람이 평가하여 자연스럽고 의미 있는 문장인지를 확인할 수 있습니다.
문서 분류: 언어 모델이 주어진 문서를 정확하게 분류하는 능력을 평가합니다. 이를 위해 모델은 주어진 문서의 특징과 내용을 파악하여 해당 문서의 카테고리를 예측합니다. 분류 결과는 사람이 평가하여 모델의 정확도를 측정할 수 있습니다.
기계 번역: 언어 모델이 주어진 문장을 다른 언어로 정확하게 번역하는 능력을 평가합니다. 번역 결과는 사람이 평가하여 번역의 정확성과 자연스러움을 확인할 수 있습니다.

이러한 평가 방법들을 종합적으로 사용하여 대규모 언어 모델의 성능을 평가할 수 있습니다.

—

어떤 모델의 응답이 더 좋다고 생각하시나요? 평가에 참여하기 위해 다음 네 가지 옵션 중 하나를 선택하여 제출할 수 있습니다:

👈 A is better
👉 B is better
🤝 Tie
👎 Both are bad"

비교 평가 결과 분석

사람들이 직접 체험하고 제출한 비교 평가 결과를 바탕으로 Elo Rating을 계산하고 순위를 도출할 수 있습니다. Elo Rating을 산출하는 메커니즘은 다음 노트북을 통해 확인할 수 있습니다:

https://colab.research.google.com/drive/1KdwokPjirkTmpO_P1WByFNFiqxWQquwH

모델 A vs 모델 B 배틀에서 모델 A가 승리하는 비율 (동점인 경우 제외):

각 모델 조합에 대한 배틀 횟수(동점 제외):

Bootstrap of MLE Elo Estimates (1000라운드 무작위 샘플링):

다른 모든 모델에 대한 평균 승률 (균일한 샘플링, 동점 없음 가정):

—

기존의 머신러닝 모델은 좁은 목표를 달성하는데 그쳤지만, LLM은 Instruction Following, In-Context Learning이 가능해지면서 하나의 모델이 매우 다양한 기능을 수행할 수 있게 되었습니다. 따라서 LLM과 같은 AI를 평가할 때 고정된 알고리즘과 데이터 세트에 기반한 기계적 평가에만 의존하는 것은 한계가 있습니다. 이러한 경우 사람들의 피드백을 수집하여 사람들이 실제로 모델의 생성 결과를 어떻게 느끼는지 파악하고 어떤 LLM이 사람들로부터 더 나은 평가를 받는지 파악하는 것이 필수적입니다. 이러한 관점에서 챗봇 아레나는 우리가 주목해야 할 중요한 AI 평가 방법 중 하나입니다.

References:

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
https://chat.lmsys.org/
https://colab.research.google.com/drive/1KdwokPjirkTmpO_P1WByFNFiqxWQquwH

Written by Anson Park

CEO of DeepNatural. MSc in Computer Science from KAIST & TU Berlin. Specialized in Machine Learning and Natural Language Processing.

Anson Park 님의 글 더보기

LLMOps란 무엇인가요?

LLMOps는 Large Language Model Operations의 줄임말 입니다. AI와 운영 관리가 만나는 지점에서 생겨난 특화된 분야입니다. 이는 개발 및 운영 환경에서 대규모 언어 모델의 라이프 사이클을 관리하는 데 주력하고 있습니다. OpenAI의 GPT-4, Meta의 Llama2, Google의 Gemini와 같은 LLM이 자연어처리 ...

Anson Park

∙

5분

∙

2023. 12. 8.

2024년 주목할 오픈 소스 LLM

특정 관점에서 LLM은 크게 2가지로 분류할 수 있습니다. 독점(Proprietary) 모델과 오픈소스(Open Source) 모델. 독점(Proprietary) LLM: 예를 들어 OpenAI의 GPT 모델, Google의 Gemini, Anthropic의 Claude와 같은 독점 LLM은 특정 회사에서 개발 및 유지 관리됩니다. 이들은 제어된 개발 ...

Anson Park

∙

5분

∙

2023. 12. 19.

내 사용 목적에 맞게 오픈 소스 LLM을 파인튜닝하는 방법

Llama2 모델은 상업적 사용을 위한 라이선스로 공개되어 더 많은 기업들이 LLM을 활용할 수 있게 되었습니다. 추가적으로, 이 모델은 메모리 용량이 비교적 작은 GPU에서도 효율적으로 파인튜닝할 수 있는 새로운 방법을 지원합니다. AI 기술의 민주화는 더 넓은 범위에서 AI가 활용되는데 필수적인 요소입니다. 진입 장벽이 낮아지게 되면 기업들은 자신들의 ...

Anson Park

∙

10분

∙

2023. 12. 20.

어떤 LLM의 성능이 더 좋은가요 - 오픈 LLM 리더보드

오픈 LLM 리더보드는 허깅페이스가 주도하는 중요한 프로젝트입니다. 대규모 언어 모델의 순위를 매기며 평가하는 것을 목표로 합니다. 이 리더보드는 다양한 오픈 소스 LLM에 대한 포괄적이며 최신 비교 정보를 제공하면서 AI 커뮤니티에 꼭 필요한 자원이 되고 있습니다. 이 플랫폼을 활용하면, 사용자들은 자신의 모델을 GPU 클러스터를 통해 자동으로 평가받을 ...

Anson Park

∙

8분

∙

2023. 1. 7.