2024년 주목할 오픈 소스 LLM

Anson Park

5분

∙

2023. 12. 19.

특정 관점에서 LLM은 크게 2가지로 분류할 수 있습니다. 바로 독점(Proprietary) 모델과 오픈소스(Open Source) 모델입니다.

독점(Proprietary) LLM: 예를 들어 OpenAI의 GPT 모델, Google의 Gemini, Anthropic의 Claude와 같은 독점 LLM은 특정 회사에서 개발 및 유지 관리됩니다. 이들은 제어된 개발 환경에서 만들어져 최적화되고 신뢰할 수 있는 모델로 평가됩니다. 이러한 모델들은 대개 완성도가 높고 배포 준비가 완료된 솔루션으로, 상업적 지원과 체계적인 문서가 제공됩니다. 이는 내부적으로 머신 러닝 전문 지식이 부족한 기업에게 유리합니다. 그러나 이들은 비용이 많이 들고, 폐쇄적인 성격 때문에 투명성과 맞춤화 가능성이 낮습니다. 또한, 업데이트와 지원을 위해 벤더에 의존해야 하며, 이는 벤더 의존성과 같은 잠재적 위험을 수반할 수 있습니다.
오픈소스(Open Source) LLM: Meta의 Llama 모델이나 Stability AI의 스테이블 디퓨젼과 같은 오픈소스 모델은 투명성과 협업적 개발로 주목받습니다. 이들은 오픈소스 라이선스에 따라 누구나 쉽게 사용, 수정, 배포할 수 있습니다. 이 모델들은 커뮤니티의 힘을 바탕으로 혁신을 이끌어내고, 함께 지식을 나누며 문제를 해결하는 데 큰 역할을 합니다. 그러나 개발 속도가 느릴 수 있으며, 독점 모델에 비해 품질이 다양할 수 있습니다. 오픈소스 모델은 상업적 지원 구조가 부족할 수도 있습니다. 기업이 오픈소스 LLM을 기반으로 솔루션을 상업화하려는 경우, 라이선스를 준수하고 지적 재산권 문제를 해결하는 것이 복잡할 수 있습니다.

오픈소스 LLM 특징

오픈소스 LLM은 다음과 같은 특징을 가지고 있습니다.

AI 발전에 기여: LLM 뿐만 아니라 AI 기술의 발전에 있어서도 오픈소스 생태계는 필수적인 역할을 하고 있습니다. 대부분의 인기 있는 LLM들은 Transformer와 같은 오픈소스 아키텍처를 바탕으로 개발되었으며, 이는 AI 분야의 혁신을 주도하고 있습니다. 여러 기업들이 독점적이고 비공개적인 모델로의 전환을 추진하면서 투명성과 접근성에 대한 우려가 커지고, 이에 따라 오픈소스 대안들이 더욱 주목받고 있습니다.
윤리적 고려 사항: 뿐만 아니라, 오픈소스 LLM은 윤리적 관점에서도 중요합니다. 연구 커뮤니티는 이를 통해 학습 데이터와 방법을 깊이 있게 분석할 수 있으며, 이는 인공지능의 잠재적인 편향 문제를 해결하는 데 필수적입니다. 개발자들은 이러한 모델을 통해 데이터 출처와 방법에 대한 투명성을 확보하고, 프라이버시 위험을 더욱 효과적으로 관리할 수 있습니다.
유연성과 커스텀 가능성: 오픈소스 LLM의 가장 큰 이점 중 하나는 그 유연성과 커스텀 가능성입니다. 사용자는 이를 통해 자신의 특정한 필요에 맞게 모델을 파인튜닝하고, 다양한 실험을 통해 혁신을 추구할 수 있습니다. 이런 유연성은 AI 분야에서 새로운 발전의 길을 여는 데 중요한 역할을 합니다.
협력적 개발: 더불어, 오픈소스 프로젝트의 성공은 전 세계 다양한 커뮤니티의 공동 기여에 기반 합니다. 이러한 집단 지성은 기술의 질과 다양성을 향상시키며, 때때로 독점 기술을 능가하는 혁신을 이끌어냅니다.
도전과 한계: 오픈소스 LLM은 많은 장점이 있지만 도전과제도 마주하고 있습니다. 독점 모델과 비교하여 일관된 품질 관리가 부족할 수 있으며, 공식적인 지원 구조가 제한적이거나 전혀 없을 수 있습니다. 이러한 모델을 배치하고 유지하는 데는 상당한 컴퓨팅 자원과 전문성이 필요합니다. 또한, 이 모델들의 개방성은 오용의 위험을 내포하고 있습니다.
산업 전반에 미치는 영향: 오픈소스 LLM은 다양한 분야에서 매우 가치 있는 것으로 입증되었습니다. 예를 들어, 기업은 이 모델들을 사용해 방대한 양의 텍스트 데이터를 분석하고, 의료 분야에서는 의료 문헌과 환자 상호작용에서 인사이트를 얻는 데 활용됩니다.

오픈소스 LLM은 투명성 향상, 윤리적 개발, 유연성, 협력적 혁신 등 다양한 이점을 제공하지만, 품질, 지원, 자원 집약성, 오용 가능성 등의 도전도 존재합니다. AI 분야가 계속 발전함에 따라, 오픈소스와 독점 모델 간의 균형은 AI 기술의 책임 있는 개발과 사용을 위해 중요할 것입니다.

2024년 주목할 오픈 소스 LLM

2024년에 주목할 만한 오픈 소스 LLM이 몇 가지 있습니다. 가장 인기 있는 몇 가지를 간략히 소개합니다:

LLaMA: Meta에서 개발한 LLaMA는 Llama 2 및 Llama 2-Chat으로 인정받고 있습니다. 70억에서 700억 개의 파라미터를 지원하는 버전이 있으며, 2조개의 토큰으로 학습되었습니다.
Mixtral-8x7B: 믹스트랄은 오픈 웨이트 기반의 Sparse Mixture of Experts(SMoE) 모델로 대부분의 벤치마크에서 라마2 70B를 능가하며, 추론 속도도 6배 빠릅니다. 32K 컨텍스트 윈도우를 지원합니다. 현재까지 오픈소스 라이센스로 공개된 모델 중에서 비용 대비 성능 측면에서 최고의 모델로 평가되고 있습니다. 대부분의 표준 벤치마크에서 GPT3.5와 유사하거나 능가하는 성능을 보입니다.
Mistral-7B: 효율적인 명령어 해석 및 응답 생성으로 잘 알려진 이 모델은 Mistral 제품군에 속하며 다양한 NLP 작업에서 탁월한 성능을 발휘합니다.
Falcon 180B: UAE의 기술 혁신 연구소에서 출시한 Falcon 180B는 1,800억 개의 파라미터를 보유하고 있습니다. 다양한 NLP 작업에서 인상적인 성능을 발휘하는 것으로 유명하며, Google의 PaLM 2와 같은 다른 유명 모델에 필적하는 것으로 알려져 있습니다.
XGen-7B: 2023년 7월 Salesforce에서 출시한 XGen-7B는 더 긴 컨텍스트 윈도우를 지원하도록 설계되었습니다. 고급 버전은 8K 컨텍스트 윈도우를 지원합니다.
MPT-7B: Microsoft에서 개발한 MPT-7B는 GPT 아키텍처를 기반으로 하며 70억 개의 매개 변수를 지원합니다. 다양한 NLP 작업을 처리하는 데 다용도로 사용할 수 있습니다.
Vicuna-13B: Vicuna는 ShareGPT에서 수집한 사용자 공유 대화에 대해 Llama2를 파인튜닝한 모델 입니다.
Orca-2-7B: Orca 2는 높은 수준의 추론과 이해력이 필요한 작업에 최적화되어 있습니다. Llama 아키텍처를 기반으로 합니다.
Amber: LLM360 제품군에 속하는 Amber는 LLaMA 아키텍처에 기반한 7B 매개변수 영어 모델입니다. 다양한 NLP 작업에서 다용도로 사용할 수 있는 것으로 유명합니다.
Bloom: 70여 개국의 자원봉사자들과 Hugging Face의 연구진이 참여한 협업 프로젝트인 블룸은 2022년에 출시되었습니다. 1,760억 개의 파라미터를 보유하고 있으며 46개 언어와 13개 프로그래밍 언어를 지원합니다. BLOOM은 다국어 기능과 자동 회귀 텍스트 생성 기능으로 유명합니다.
BERT: 2018년에 Google에서 개발한 BERT(Bidirectional Encoder Representations from Transformers)는 초기에 등장한 LLM 중 하나임에도 불구하고, 여전히 널리 사용되고 있습니다. 감정 분석, 임상 기록 분석, 유해 댓글 탐지 등 특정한 사용 사례에 맞춘 수천 가지의 오픈소스, 무료, 사전 훈련된 BERT 모델들이 제공되고 있습니다.

이러한 각 모델에는 고유한 강점과 응용 분야가 있어 여러 영역의 다양한 작업에 적합합니다. 오픈 소스 LLM은 전문 작업, 다국어 기능, 윤리적 AI 개발, NLP 애플리케이션의 발전, 교육 및 다양한 사용 사례에 점점 더 많이 사용되고 있습니다.

오픈소스 LLM 생태계에서 중요한 역할을 하는 Llama2

메타에서 출시한 라마 2는 몇 가지 주요 기능과 다양한 분야에 걸쳐 널리 채택되어 오픈 소스 LLM 생태계에서 중요한 역할을 하고 있습니다.

기술 발전: 라마2는 이전 버전인 라마1보다 40% 더 많은 2조 개의 토큰 데이터로 학습되었습니다. 또한 컨텍스트 길이가 두 배인 4096개 토큰으로 늘어나 더욱 심층적인 이해와 작업 완수가 가능해졌습니다. 파인튜닝된 모델은 1백만건이 넘는 휴먼 어노테이션을 학습했습니다. 이렇게 늘어난 데이터 학습과 컨텍스트 길이 덕분에 일반적인 LLM 벤치마크에서 성능이 크게 향상되었습니다.
채팅 애플리케이션을 위한 파인튜닝: 대규모 언어 모델에 주로 사용되는 인터페이스인 채팅 애플리케이션을 위해 파인튜닝된 Llama 2-Chat도 공개되었습니다. 파인튜닝 과정에는 휴먼 피드백을 통한 강화 학습(RLHF) 및 감독 미세 조정(SFT)과 같은 방법이 사용되어 모델의 유용성, 안전성 및 출력의 완전성을 최적화했습니다. 이 모델은 출시 당시 여러 지표에서 다른 LLM(오픈 소스 및 비공개 소스 모두)과 거의 비슷하거나 더 나은 성능을 발휘하는 것으로 나타났습니다.
광범위한 활용과 커뮤니티 참여: 라마2는 업계를 선도하는 다양한 기업에서 활용되고 있습니다. 오픈 소스 커뮤니티는 라마2 기반의 다양한 파생 모델과 파인튜닝된 모델을 끊임없이 출시하며 벤치마크 성능을 평균 10% 가까이 향상시켰습니다. 또한 GitHub의 1만개 이상의 프로젝트가 라마를 언급하고 있습니다. 커뮤니티는 더 큰 컨텍스트 윈도우와 추가 언어를 지원하도록 라마를 확장하는 등 여러 가지 개선을 활발히 시도하고 있습니다. AMD, 인텔, 엔비디아, 구글과 같은 주요 하드웨어 플랫폼도 하드웨어 및 소프트웨어 개선을 통해 라마2의 성능을 최적화시켰습니다.
AI 애플리케이션 개발을 위한 비용 효율적인 모델: 특히 파인튜닝을 거친 Llama2는 특정 작업에서 GPT-4와 같은 대형 모델을 능가하는 성능을 발휘할 수 있으며, AI 애플리케이션에서 LLM 추론을 위한 비용 효율적인 방법을 제공합니다. 따라서 라마2는 고품질의 효율적인 LLM을 찾는 애플리케이션 개발자에게 매력적인 옵션이 될 수 있습니다.
혁신을 위한 라이선스: Llama2와 그 변형 버전은 연구용과 상업용으로 모두 라이선스가 부여되어 오픈 소스 LLM의 새로운 표준을 제시합니다. 이러한 라이선스는 개발자가 다양한 애플리케이션과 플랫폼에서 최첨단 LLM을 구축하고 실행할 수 있도록 하여 LLM 환경에 큰 영향을 미칩니다.

LLM을 설계하고 데이터를 준비해서 사전학습 시키기는 매우 어렵습니다. 기술적인 난이도도 있지만 막대한 컴퓨팅 비용을 감당하기 어렵기 때문이죠. 라마2는 엄청난 비용과 연구의 산출물을 오픈소스 라이센스로 공개하여 LLM의 생태계를 눈에 띄게 발전시켰습니다.

라마2는 향상된 성능과 함께 파인튜닝 할 수 있는 유연성을 제공합니다. 적극적인 커뮤니티 참여를 지향하며, 또한 상업적 사용을 위한 라이선스까지 갖추고 있습니다. 라마2의 뛰어난 기술적 능력과 커뮤니티의 열정 덕분에 LLM 생태계 발전에 큰 기여를 하고 있습니다.

References:

Written by Anson Park

CEO of DeepNatural. MSc in Computer Science from KAIST & TU Berlin. Specialized in Machine Learning and Natural Language Processing.

Anson Park 님의 글 더보기

LLMOps란 무엇인가요?

LLMOps는 Large Language Model Operations의 줄임말 입니다. AI와 운영 관리가 만나는 지점에서 생겨난 특화된 분야입니다. 이는 개발 및 운영 환경에서 대규모 언어 모델의 라이프 사이클을 관리하는 데 주력하고 있습니다. OpenAI의 GPT-4, Meta의 Llama2, Google의 Gemini와 같은 LLM이 자연어처리 ...

Anson Park

∙

5분

∙

2023. 12. 8.

내 사용 목적에 맞게 오픈 소스 LLM을 파인튜닝하는 방법

Llama2 모델은 상업적 사용을 위한 라이선스로 공개되어 더 많은 기업들이 LLM을 활용할 수 있게 되었습니다. 추가적으로, 이 모델은 메모리 용량이 비교적 작은 GPU에서도 효율적으로 파인튜닝할 수 있는 새로운 방법을 지원합니다. AI 기술의 민주화는 더 넓은 범위에서 AI가 활용되는데 필수적인 요소입니다. 진입 장벽이 낮아지게 되면 기업들은 자신들의 ...

Anson Park

∙

10분

∙

2023. 12. 20.

어떤 LLM의 성능이 더 좋은가요 - 오픈 LLM 리더보드

오픈 LLM 리더보드는 허깅페이스가 주도하는 중요한 프로젝트입니다. 대규모 언어 모델의 순위를 매기며 평가하는 것을 목표로 합니다. 이 리더보드는 다양한 오픈 소스 LLM에 대한 포괄적이며 최신 비교 정보를 제공하면서 AI 커뮤니티에 꼭 필요한 자원이 되고 있습니다. 이 플랫폼을 활용하면, 사용자들은 자신의 모델을 GPU 클러스터를 통해 자동으로 평가받을 ...

Anson Park

∙

8분

∙

2023. 1. 7.

어떤 LLM의 성능이 더 좋은가요 - 챗봇 아레나

Chatbot Arena는 대규모 언어 모델(LLM)을 위한 벤치마킹 플랫폼으로, 실제 시나리오에서 그 기능을 평가하기 위한 고유한 접근 방식을 활용합니다. 다음은 챗봇 아레나의 몇 가지 주요 측면입니다. Chatbot Arena는 보다 실용적이고 사용자 중심적인 방식으로 오픈 소스 LLM을 평가하도록 설계되었습니다. 이는 문제의 개방형 특성과 자동 응답 ...

Anson Park

∙

7분

∙

2023. 1. 9.