어떤 LLM의 성능이 더 좋은가요 - 오픈 LLM 리더보드
Anson Park
8분
∙
2023. 1. 7.
오픈 LLM 리더보드
오픈 LLM 리더보드는 허깅페이스가 주도하는 중요한 프로젝트입니다. 대규모 언어 모델의 순위를 매기며 평가하는 것을 목표로 합니다. 이 리더보드는 다양한 오픈 소스 LLM에 대한 포괄적이며 최신 비교 정보를 제공하면서 AI 커뮤니티에 꼭 필요한 자원이 되고 있습니다. 이 플랫폼을 활용하면, 사용자들은 자신의 모델을 GPU 클러스터를 통해 자동으로 평가받을 수 있어, 각 모델의 성능을 표준화된 방식으로 공정하게 측정할 수 있습니다.
이 리더보드는 허깅페이스가 제공하는 '빅 벤치마크 컬렉션'의 일부로, 다양한 상황에서의 LLM의 성능을 분석하기 위해 만들어졌습니다. 이 컬렉션은 오픈 LLM 리더보드를 넘어서, 모델들의 강점과 약점을 파악하는 데 도움을 주며, 특정한 애플리케이션에 적합한 LLM을 선택하는 데 중요한 정보를 제공합니다.
리더보드는 허깅페이스의 오픈 LLM 리더보드 조직이 관리하고 있습니다. 이 팀은 모델 결과와 쿼리가 포함된 데이터셋을 감독하여 AI 커뮤니티의 투명성과 접근성을 보장합니다. 리더보드는 주기적으로 가장 좋은 평가를 받은 모델들의 목록을 갱신하여, 현재 가장 좋은 성능을 보이고 있는 LLM에 대한 개요를 제공합니다.
전반적으로 오픈 LLM 리더보드는 AI 연구자, 개발자, 그리고 LLM 기술에 관심있는 분들에게 매우 유용한 도구입니다. 이는 다양한 오픈 소스 LLM의 성능에 대한 통찰을 제공하며, AI 분야의 발전과 혁신을 촉진하는 경쟁적이고 협업적인 환경을 조성하는 데 기여하고 있습니다.
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
Language Model Evaluation Harness
Language Model Evaluation Harness는 허깅페이스의 오픈 LLM 리더보드의 백엔드 역할을 합니다. 이 도구는 EleutherAI에서 주도적으로 개발한 포괄적인 프레임워크로, 수백건의 논문에서도 인용되며, NVIDIA, Cohere, BigScience, BigCode, Nous Research, Mosaic ML 등 많은 조직에서도 내부적으로 활용하고 있습니다.
이 도구는 LLM을 강력한 평가 프로세스를 거치도록 설계된 오픈 소스 도구입니다. 이 도구는 표준화된 방식으로 LLM의 정확성과 신뢰성을 테스트하는 데 매우 중요합니다. LM Evaluation Harness의 주요 기능은 다음과 같습니다:
강력한 평가 프로세스: 연구자와 개발자가 다양한 벤치마크에 대해 LLM을 테스트하여 정확성, 정밀성, 신뢰성을 평가할 수 있습니다. 이 프로세스에는 질의응답, 객관식 문제, 성별 편견을 평가하는 과제와 같은 테스트가 포함됩니다.
표준화된 프레임워크: 표준화된 프레임워크가 개발되기 전에는 통합된 테스트 메커니즘이 없었기 때문에 LLM의 유효성을 평가하는 것이 어려웠습니다. LM Evaluation Harness는 다양한 작업에서 모델을 구현하고 평가할 수 있는 단일 프레임워크를 제공함으로써 이 문제를 해결합니다.
재현성 및 비교 가능성: 평가 하네스의 주요 목표 중 하나는 사용자가 연구 논문에 언급된 결과를 복제하여 문헌의 다른 결과와 비교할 수 있도록 하는 것입니다. 이러한 접근 방식은 LLM 연구의 투명성과 신뢰성을 향상시킵니다.
폭넓은 사용: 평가 하네스는 EleutherAI 뿐만 아니라 구글과 마이크로소프트와 같은 주요 기관의 연구 논문에서도 사용되고 있습니다. LLM 평가를 위한 벤치마크를 설정하는 데 필수적인 요소이며 Mozilla Technology Fund의 지원을 받고 있습니다.
다국어 평가: 영어와 중국어 모델이 우세하다는 점을 인식하고 다국어 LLM을 평가하는 도구를 개선하여 다양한 언어 시스템에 내재된 뉘앙스를 해결하는 것이 목표 중 하나입니다.
종합적인 LLM 평가 및 벤치마킹: LLM에 대한 60개 이상의 표준 학술 벤치마크를 지원하며, 수백 개의 하위 작업과 변형이 구현되어 있습니다. 다양한 모델을 지원하며 사용자 지정 프롬프트 및 평가 지표를 위한 기능을 제공합니다.
LM Evaluation Harness는 보다 책임감 있는 AI 개발을 위해 중요한 기능을 하고 있습니다. LLM이 강력할 뿐만 아니라 정확하고 편견없이 개발될 수 있도록 지원합니다.
Open LLM 리더보드 가이드
Open LLM 리더보드는 간단한 UI로 구성되어 있습니다. 하지만 이러한 리더보드에 익숙하지 않은 분들에게는 언뜻 보기에 다소 복잡해 보일 수 있습니다. 리더보드를 탐색하는 방법에 대해 간단히 설명해 드리겠습니다.
리더보드에 접속하면 제출되어 평가 완료된 LLM 모델 목록을 볼 수 있습니다.
여기에서 개별 LLM에 대한 6가지 주요 벤치마크 점수를 볼 수 있습니다.
AI2 Reasoning Challenge (ARC): 2018년에 Clark 등이 만든 이 챌린지는 LLM의 질문 답변 능력에 대한 테스트입니다. 3~9학년 수준의 시험에서 출제되는 7,787개의 객관식 과학 문제로 구성되어 있으며, '쉬운 세트(Easy Set)'와 더 어려운 '도전 세트(Challenge Set)'로 나뉩니다. 챌린지 세트에는 단순한 사실 검색을 넘어 복잡한 추론이 필요한 문제가 포함되어 있어 LLM의 심층적인 이해력을 테스트합니다.
HellaSwag: 이 벤치마크는 물리적 상황에서 상식적인 추론을 평가합니다. 'Adversarial Filtering'을 통해 생성된 오답에 도전하는 문제가 포함되어 있어 확률에 크게 의존하는 LLM에게는 어려운 문제입니다. 상식적인 추론을 적용하는 LLM의 능력을 이해하는 데 중요한 시험입니다.
Massive Multitask Language Understanding (MMLU): 이 벤치마크는 광범위한 언어 이해 작업에서 LLM을 평가합니다. 다양한 영역에서 모델의 숙련도와 다양한 유형의 언어 작업에 적응하는 능력을 테스트하도록 설계되었습니다.
TruthfulQA: 이 벤치마크는 LLM 응답의 진실성을 평가하는 데 중점을 둡니다. 이는 LLM이 제공하는 데이터의 정확성이 가장 중요한 정보화 시대에 매우 중요한 척도입니다.
Winogrande: 이 벤치마크는 LLM이 Winograd 스키마 형식의 대명사 모호성 해결 문제를 얼마나 잘 해결하는지를 평가합니다. 이는 LLM이 언어와 문맥을 얼마나 잘 이해하는지를 평가하는 데 중요한 요소입니다.
GSM8k: 이 세트는 기초부터 중급 수준의 수학 연산을 필요로 하는 8,500개의 초등학교 수학 문제로 구성되어 있습니다. 이 세트는 다단계 수학 문제(multi-step math problem)를 해결하는 LLM의 능력을 테스트하며, 특히 교육적 맥락에서 기본적인 수학 문제 해결에 대한 AI의 능력을 평가하는 데 유용합니다.
각각의 벤치마크는 점수가 높을수록 더 나은 성능을 나타냅니다.
"Average" 열에서 벤치마크 점수들의 평균값을 확인할 수 있습니다.
기본적으로 "Average" 점수가 높은 LLM이 상단에 표시됩니다.
🟢 Pretrained Model: 이 아이콘은 특정 말뭉치에 대해 학습된 새로운 기본 모델을 나타냅니다. 이는 처음부터 새로 만든 베이스 모델입니다.
🔶 Fine-Tuned Model: 사전 훈련된 모델을 특정 데이터셋에 추가로 학습시킨 것을 말합니다. 이는 모델의 능력을 특정 데이터 세트에 맞추어 파인튜닝한 것입니다.
⭕ Instruction-Tuned Model: 텍스트 형태의 작업 지침이 포함된 데이터 세트로 파인튜닝된 모델입니다. 작업별 지시를 더 잘 이해하고 이에 대응할 수 있도록 맞춤화되어 있습니다.
🟦 RL-Tuned Model: 강화 학습(RL, Reinforcement Learning)을 통해 피드백으로부터 학습된 모델입니다. 강화학습은 모델이 환경과 상호작용하면서, 그 행동에 따라 보상(또는 벌점)을 받으며 점진적으로 행동을 개선해 나갑니다.
LLM의 맥락에서 float16, bfloat16, 8비트, 4비트, GPTQ와 같은 다양한 정밀도 유형은 모델 내에서 수치 데이터가 표현되고 처리되는 방식을 의미하며, 모델의 메모리 사용량과 계산 효율성에 영향을 미칩니다.
float16(Half-Precision Floating-Point Format): 이 형식은 컴퓨터 메모리에서 16비트를 차지합니다. 고정밀도가 필수적이지 않은 애플리케이션에서 자주 사용됩니다. float16을 사용하면 특히 이 정밀도 형식을 지원하는 GPU에서 메모리 요구 사항과 계산 오버헤드를 줄임으로써 LLM의 학습 및 추론 프로세스를 가속화할 수 있습니다. 하지만 수치 안정성 저하 및 모델 정확도 잠재적 손실과 같은 문제가 발생할 수 있습니다.
bfloat16: bfloat16 형식은 표준 float32 부동 소수점 형식의 잘린 버전입니다. 이 형식은 지수의 비트는 유지하면서 지수의 정밀도를 낮춥니다. 이 형식은 성능과 정밀도 사이의 균형을 제공하기 때문에 신경망에 유용합니다. 32비트 부동 소수점으로 빠르게 변환할 수 있으므로 성능과 정확도가 모두 필요한 LLM에 적합합니다.
이미지: To Bfloat or not to Bfloat? That is the Question!
8비트 및 4비트 양자화: 성능 저하를 최소화하면서 모델 Weight의 정밀도를 일반적으로 16비트에서 8비트 또는 4비트로 낮추는 데 사용되는 기술입니다. 가중치의 비트 정밀도를 낮추면 모델의 메모리 사용량이 크게 줄어들어 제한된 하드웨어 리소스에서 더 큰 규모의 모델을 훈련하고 배포할 수 있습니다. 하지만 정확도와 수치 안정성이 저하될 수 있습니다.
GPTQ: GPU 추론에 중점을 두고 GPT 모델을 위해 특별히 설계된 양자화 방법입니다. GPTQ는 성능을 유지하면서 모델 가중치의 정밀도를 낮추는 것을 목표로 합니다. 이는 대규모 모델을 효율적으로 저장하고 계산할 수 있는 Post Training Quantization(PTQ) 방식입니다.
이러한 정밀도 유형에는 각각 고유한 장점과 장단점이 있습니다. 예를 들어, float16이나 bfloat16과 같은 낮은 정밀도 형식을 사용하면 학습 및 추론 프로세스의 속도를 크게 높일 수 있지만 모델의 정확도와 수치 안정성에 영향을 미칠 수 있습니다. 반면에 8비트 및 4비트 양자화 기술을 사용하면 메모리가 제한된 하드웨어에서 더 큰 모델을 사용할 수 있지만 성능 저하를 방지하기 위해 신중한 구현이 필요합니다.
모델 크기 = LLM의 파라미터 수 (in Billions, 10억 단위)
LLM은 크기는 모델에 포함된 파라미터의 수를 의미합니다. 파라미터 수는 복잡성 및 학습 능력과 직접적인 관련이 있으며, 모델이 클수록 더 넓은 파라미터 공간에서 더 복잡한 패턴을 학습하고 인식할 수 있습니다. 이는 복잡한 언어 구조, 멀티 모달, 또는 긴 대화와 같은 컨텍스트 인지가 필요한 작업에서 특히 중요합니다.
LLM의 파라미터 수는 성능, 일반화 기능 및 계산 요구 사항에 영향을 미치는 중요한 요소입니다. 예를 들어 PaLM 2에는 3,400억 개의 파라미터가 있으며, GPT-4에는 약 1조 8,000억 개의 파라미터가 있는 것으로 추정됩니다. 이러한 대규모 모델은 훈련과 추론에 높은 GPU/TPU 요구 사항과 상당한 VRAM을 포함하여 상당한 컴퓨팅 리소스를 필요로 합니다. 또한 대규모 모델은 다양한 유형의 정보를 더 효과적으로 이해하고 처리하는 능력을 보여주기 때문에 다양한 작업에서 탁월한 성능을 발휘하는 경향이 있습니다.
그러나 LLM의 크기 또한 문제를 야기합니다. 특히 데이터의 다양성이 부족하거나 충분히 광범위하지 않은 경우, 더 큰 모델은 학습 데이터에 오버피팅 될 수 있습니다. 따라서 정규화 기법을 사용하고 신중한 데이터 선택이 필요합니다. 또한 모델이 클수록 학습 및 운영에 상당한 에너지를 소비하기 때문에 환경적, 경제적 비용이 높아집니다.
실제 배포 측면에서는 모델 크기와 애플리케이션의 요구 사항 간의 균형을 고려하는 것이 중요합니다. 대형 모델은 고급 기능을 제공하지만, 특히 단순한 작업의 경우 항상 가장 효율적인 선택이 아닐 수 있습니다. 더 작고 전문화된 모델은 간단한 애플리케이션에 더 비용 효율적이고 동등하게 효과적인 솔루션을 제공할 수 있습니다. 따라서 당면한 작업의 복잡성을 이해하고 적절한 크기의 모델을 선택하는 것은 기능과 효율성 사이의 균형을 유지하는 데 매우 중요합니다.
Architecture: LLM의 기본 구조를 설명합니다.
Merged: 서로 다른 모델이 결합되었는지 여부를 나타냅니다.
Hub License: 모델이 릴리즈된 라이선스 유형으로, 모델 사용 방식에 영향을 줍니다.
Available on the Hub: 허깅페이스의 허브에서 모델을 사용할 수 있는지 여부입니다.
Model SHA: SHA(Secure Hash Algorithm)는 모델의 고유 식별자입니다.
Flagged: 사용자 또는 중재자에 의해 모델에 우려 사항이 있다고 플래그가 지정되었는지 여부를 나타냅니다.
'About' 탭에서 리더보드에 대한 추가 정보를 확인할 수 있습니다.
리더보드에 참여하고 싶으신가요? 'Submit Here' 탭에서 우리 모두 LLM을 제출할 수 있습니다.
현재까지 오픈 LLM 리더보드에서 3,051개의 LLM이 평가되었습니다. 현재는 5개의 LLM에 대해 벤치마크 점수가 계산되고 있으며, 4개는 평가를 위해 대기 중인 상태입니다. LLM에 대한 뜨거운 관심 만큼 많은 사람들이 참여하며 활발히 운영되고 있습니다 🔥
Written by Anson Park
CEO of DeepNatural. MSc in Computer Science from KAIST & TU Berlin. Specialized in Machine Learning and Natural Language Processing.
Anson Park 님의 글 더보기
LLMOps란 무엇인가요?
LLMOps는 Large Language Model Operations의 줄임말 입니다. AI와 운영 관리가 만나는 지점에서 생겨난 특화된 분야입니다. 이는 개발 및 운영 환경에서 대규모 언어 모델의 라이프 사이클을 관리하는 데 주력하고 있습니다. OpenAI의 GPT-4, Meta의 Llama2, Google의 Gemini와 같은 LLM이 자연어처리 ...
Anson Park
∙
5분
∙
2023. 12. 8.
2024년 주목할 오픈 소스 LLM
특정 관점에서 LLM은 크게 2가지로 분류할 수 있습니다. 독점(Proprietary) 모델과 오픈소스(Open Source) 모델. 독점(Proprietary) LLM: 예를 들어 OpenAI의 GPT 모델, Google의 Gemini, Anthropic의 Claude와 같은 독점 LLM은 특정 회사에서 개발 및 유지 관리됩니다. 이들은 제어된 개발 ...
Anson Park
∙
5분
∙
2023. 12. 19.
내 사용 목적에 맞게 오픈 소스 LLM을 파인튜닝하는 방법
Llama2 모델은 상업적 사용을 위한 라이선스로 공개되어 더 많은 기업들이 LLM을 활용할 수 있게 되었습니다. 추가적으로, 이 모델은 메모리 용량이 비교적 작은 GPU에서도 효율적으로 파인튜닝할 수 있는 새로운 방법을 지원합니다. AI 기술의 민주화는 더 넓은 범위에서 AI가 활용되는데 필수적인 요소입니다. 진입 장벽이 낮아지게 되면 기업들은 자신들의 ...
Anson Park
∙
10분
∙
2023. 12. 20.
어떤 LLM의 성능이 더 좋은가요 - 챗봇 아레나
Chatbot Arena는 대규모 언어 모델(LLM)을 위한 벤치마킹 플랫폼으로, 실제 시나리오에서 그 기능을 평가하기 위한 고유한 접근 방식을 활용합니다. 다음은 챗봇 아레나의 몇 가지 주요 측면입니다. Chatbot Arena는 보다 실용적이고 사용자 중심적인 방식으로 오픈 소스 LLM을 평가하도록 설계되었습니다. 이는 문제의 개방형 특성과 자동 응답 ...
Anson Park
∙
7분
∙
2023. 1. 9.