본문 바로가기
인공지능

AI의 오류는 몇%일까요?

by 용팔이세상 2025. 5. 6.

안녕하세요 용팔이입니다.

인공지능 챗봇이 일상과 업무에 빠르게 자리 잡으면서, ChatGPT, Claude, Perplexity,Grok 등 다양한 대형 언어모델(LLM)의

활용이 늘고 있습니다. 하지만 이들 AI가 만들어내는 ‘환각(hallucination)’ 현상은 여전히 중요한 이슈입니다.

환각이란, 실제로 존재하지 않는 정보나 잘못된 내용을 그럴듯하게 답변하는 AI의 오류를 의미합니다.

최근 여러 연구와 벤치마크 결과를 종합해보면, 주요 LLM들의 환각률은 아래와 같이 나타납니다.

모델환각률(최신 연구/벤치마크)평가 기준/특이사항

 

ChatGPT (GPT-4) 19~37% 일반 Q&A, 기술 문서 등에서 변동
Claude 3.5 Sonnet 0~0.25% RAG(검색 증강 생성) 및 의료 분야 등에서 매우 낮음
Perplexity (Sonar) 37% 컬럼비아 저널리즘 리뷰 연구 기준
Grok-3 2.1~94% 평가 방법 따라 극단적 차이 (Vectara vs. 독립 연구)
 

Claude 3.5 Sonnet은 특히 RAG(검색 증강 생성) 및 의료 분야에서 매우 낮은 환각률을 보였고, ChatGPT(GPT-4)는

일반 Q&A에서 19~37%의 환각률을 기록했습니다. Perplexity와 Grok은 평가 방식에 따라 환각률이 크게 달라지는데,

Grok의 경우 독립 연구에서는 94%까지도 보고되었습니다.

LLM이 환각률이 높은 질문 유형

환각률이 특히 높은 질문 유형은 다음과 같습니다.

  • 최신 트렌드, 연예인, 시사 이슈 등 실시간 정보가 필요한 질문
  • 출처가 불분명하거나 논란이 많은 질문
  • 팩트 기반이 약한 추론형·상상형 질문

특히 ChatGPT 계열은 일반 Q&A와 추론형 질문(예: “누가 최근에 무슨 말을 했나요?”)에서, Grok과 Perplexity는 실시간 트렌드나 최신 이슈 관련 질문에서 환각률이 높게 나타났습니다.

실제 질문 예시

 

LLM의 환각 경향을 직접 체험해보고 싶다면, 아래와 같은 질문을 각 모델에 동일하게 입력해보세요.

구분예제 질문
일반 Q&A "세계에서 가장 인구가 많은 도시는 어디인가요?"
전문분야 Q&A "심근경색(급성 심근경색증)의 표준 치료법은 무엇인가요?"
 

일반 Q&A는 상식이나 널리 알려진 정보를 묻는 질문이고, 전문분야 Q&A는 의학, 법률 등 고도의 전문지식이 필요한 질문입니다. Claude는 의료 분야에서 특히 안정적인 답변을 보이는 반면, 다른 모델들은 최신 이슈나 논란이 많은 질문에서 오류가 잦을 수

있습니다.

결론 및 활용 팁

AI 챗봇의 답변은 매우 편리하지만, 환각 가능성을 항상 염두에 두어야 합니다. 특히 중요한 결정이나 전문 정보가 필요한 경우,

반드시 추가적인 검증과 출처 확인이 필요합니다. 여러 모델의 답변을 비교해보는 것도 좋은 방법입니다.