본문 바로가기

카테고리 없음

GPT-4 성능 테스트 결과

3월 14일 공개된 GPT-4

 

인공지능 기술 개발사 오픈AI(OpenAI)는 3월 14일(이하 현지시각), 언어 모델 기반 인공지능 GPT(Generative Pre-trained Transformer)의 최신판 GPT-4를 공개했다.

 

오픈AI는 GPT-3.5의 버그(오동작)를 수정하고 더욱 다양한 작업을 하도록 GPT-4를 개량했다고 밝혔다.

 

사진도 분석가능

오픈AI GPT-4는 문장뿐만 아니라 사진도 보고 분석한다. 오픈AI가 공개한 예시를 보면, GPT-4는 옛날 PC 모니터를 연결하는 규격 ‘VGA’ 커넥터 모양으로 만든 ‘라이트닝(애플 스마트폰 데이터 전송·충전 규격)’ 커넥터의 상품 사진을 알아봤다. 이어 ‘크기가 작은 첨단 라이트닝 커넥터를, 구식에다 크기도 큰 VGA 커넥터로 만들다니 재미있네요’라는 분석도 내놨다.

오픈AI는 일반 작업이나 대화에서는 GPT-3.5와 GPT-4의 차이가 두드러지지 않는다고 말한다. 하지만, 작업이나 대화가 복잡해지면 GPT-4가 더 안정감 있게 창의적인 답변을 한다고 밝혔다.


질문과 답변의 수준을 제어하는 능력도 좋아졌다. 답변이나 정보를 바로 말하는 것이 아니라 조금씩 추리하면서 접근하고 이 과정을 잘 소개한다. 오픈AI GPT-4를 가정 교사처럼 쓸 가능성도 증명한 셈이다. 실제로 GPT-4를 활용해 온라인 가정교사 서비스를 만든 스타트업도 있다. 언어 호환성과 번역 능력도 좋아졌다. GPT-4는 26개 언어 가운데 24개 언어에서 GPT-3.5를 능가하는 성능을 나타냈다.

오픈AI는 GPT-4를 마이크로소프트의 클라우드 ‘애저(Azure)’에서 운용한 결과 안정적으로 움직였고, 학습의 성과도 사전에 정확하게 예상했다고 밝혔다. 덕분에 앞으로의 GPT가 어떤 능력을 가질지 예측하는 방법론 연구도 쉬워졌다고 말했다.

GPT-3.5  보다 각종시험점수 높아

전문 영역을 다루는 객관식 질문을 여러 개 제시하는 ‘MMLU’, 상식과 추론 능력을 검증하는 ‘헬라스웩(HellaSwag)’, 파이썬 코딩 실력을 보는 ‘휴먼이벌(HumanEval)’, 독해와 산술 능력을 시험하는 드롭(DROP)등 기계 학습과 인공지능의 성능을 시험하는 각종 벤치마크가 있다. 이 벤치마크 테스트에서도 오픈AI GPT-4는 GPT-3.5를 포함해 기존의 언어 모델 기반 인공지능의 실력을 웃도는 성적을 냈다. 

 

오픈AI는 GPT-4의 능력을 검증하려고 사람이 응시하는 각종 시험 문제를 제시했다. GPT-4는 미국 모의 변호사 시험에서 상위 10%에 들 정도로 우수한 성적을 낸 것으로 알려졌다. 앞서 GPT-3.5는 같은 시험에서 하위 10%의 성적을 냈을 뿐이었다.

오픈AI GPT-4는 사람이 미국 대학교에 입학할 때 응시하는 ‘SAT 시험’도 봤다. 읽고 쓰기 부문에서 800점 만점에 710점, 수학 부문에서 800점 만점에 700점을 각각 받았다. 앞서 GPT-3.5는 각각 670점, 590점을 받았는데, 점수가 많이 올랐다.

GPT-4의 한국어 답변 성능은 14,000개의 전문적인 질문에 대한 답변을 요구하는 MMLU 벤치마크의 영어 질문 리스트를 자사 Azure 번역 서비스로 한국어로 해석한 후 이에 대한 답변을 요구할 시 GPT-3.5로 영어로 질문과 답변을 할 때보다도 정답을 잘 맞춘다. 

 

이탈리아어, 아프리칸스어, 스페인어, 독일어, 프랑스어, 인도네시아어는 83~84점대의 점수를 보이고 한국어는 77점이지만 GPT-3.5는 영어 답변시에도 70.1점이었다. 웨일즈어, 라트비아어, 아이슬란드어 같은 소수 언어도 한국어 이상의 정답률을 보인다.


상세한 성능 비교는 OpenAI사의 GPT-4 관련 연구 소개 홈페이지에 가면 알수 있다

 

☞ OpenAI GPT-4 홈페이지 바로가기