챗GPT한테 뭔가 물었는데 답이 너무 자연스러워서 그대로 믿은 적 있나요? 문장도 매끄럽고, 말투도 자신 있고, 심지어 출처까지 있는 척하면 “오, 맞나 보다” 하게 돼요. 그런데 나중에 확인해보면 존재하지 않는 논문, 틀린 날짜, 가짜 인물 정보가 섞여 있을 때가 있어요.

이걸 AI 환각, 영어로는 AI Hallucination이라고 불러요. 이름은 좀 거창하지만, 핵심은 단순해요.

AI가 사실이 아닌 내용을 그럴듯하게 만들어내는 현상이에요.

오늘은 AI 환각이 왜 생기는지, “얘가 거짓말을 하는 건가?” 싶은 순간을 어떻게 봐야 하는지 쉽게 풀어볼게요.


🍜 AI는 요리사가 아니라 자동완성 셰프에 가까워요

AI를 엄청 똑똑한 박사님처럼 생각하면 환각이 이해가 잘 안 돼요. 차라리 냉장고 속 재료를 보고 다음에 들어갈 재료를 예측하는 자동완성 셰프라고 보면 쉬워요.

우리가 “김치찌개에는 김치, 돼지고기, 두부…”라고 말하면 다음에 “파”나 “고춧가루”가 나올 확률이 높겠죠. AI도 비슷해요. 문장 속 앞부분을 보고 다음 단어, 다음 문장, 다음 설명을 예측해요.

전문적으로 말하면 대형 언어 모델은 방대한 텍스트를 학습하고, 단어 사이의 패턴을 바탕으로 자연어를 생성해요. IBM도 LLM을 “많은 데이터를 학습해 인간 언어를 이해하고 생성하는 딥러닝 모델”이라고 설명해요.

그런데 여기서 문제가 생겨요.
AI의 목표는 기본적으로 “진실을 직접 확인하기”가 아니라 그럴듯한 다음 문장을 만들기에 가까워요.

사람의 기대AI가 실제로 잘하는 일
사실 확인문장 패턴 예측
모르면 모른다고 말하기그럴듯한 답 만들기
출처 검증출처처럼 보이는 형식 만들기

그래서 AI는 모르는 문제를 받았을 때 “모르겠어요”라고 멈추기보다, 배운 패턴을 조합해서 답을 이어가려는 경향이 있어요.

신기하죠? 똑똑해서 틀리는 게 아니라, 너무 자연스럽게 말하도록 훈련돼서 틀리는 경우가 생기는 거예요.


🎯 첫 번째 이유: AI는 정답지를 보는 게 아니라 확률을 따라가요

AI 환각의 첫 번째 원인은 확률적 생성이에요.

가령 이런 문장을 생각해볼게요.

“세종대왕은 한글을…”

여기까지 보면 다음에는 “창제했다”가 나올 확률이 아주 높아요. 이런 건 잘 맞혀요. 워낙 많은 텍스트에서 반복된 패턴이니까요.

그런데 질문이 이렇게 바뀌면요?

“2023년 7월 14일에 열린 특정 비공개 세미나에서 A 교수가 한 말은?”

이건 학습 데이터에 없거나, 공개 자료가 부족하거나, 질문 자체가 너무 구체적일 수 있어요. 그래도 AI는 문장을 멈추지 않고 이어가려 해요. 그러면 실제로는 모르는 내용을 “있을 법한 말”로 채우게 돼요.

간단히 수식 느낌으로 보면 이래요.

다음 단어=앞 문맥에서 가장 그럴듯한 후보\text{다음 단어} = \text{앞 문맥에서 가장 그럴듯한 후보}

이 수식은 “AI가 거짓말을 계획한다”는 뜻이 아니에요. 그냥 다음 칸에 들어갈 말을 확률적으로 고른다는 뜻이에요. 문제는 그럴듯함과 사실성은 같은 게 아니라는 점이에요.

말이 자연스럽다는 건 사실이라는 증거가 아니에요.

OpenAI도 2025년 글에서 환각을 “그럴듯하지만 거짓인 진술”이라고 설명해요. 특히 쉬워 보이는 질문에서도 틀린 답을 자신 있게 내놓을 수 있다고 말해요.


🧪 두 번째 이유: 시험 방식이 “찍기”를 부추길 수 있어요

여기서 약간 어려운 개념 하나가 나와요. 바로 인센티브 문제예요.

인센티브는 쉽게 말해 “어떤 행동을 하게 만드는 보상 구조”예요. 학교 시험을 떠올려보면 바로 이해돼요.

객관식 시험에서 모르는 문제가 나왔어요. 빈칸으로 두면 0점이고, 찍으면 맞을 가능성이 조금이라도 있죠. 그러면 많은 학생이 찍어요. AI도 비슷한 압박을 받을 수 있어요.

OpenAI의 2025년 연구 글은 언어 모델이 어려운 질문 앞에서 불확실할 때도 추측을 하며, 현재 평가 방식이 “모른다”고 말하는 것보다 답을 시도하는 쪽을 더 유리하게 만들 수 있다고 설명해요.

상황사람 시험AI 답변
확실히 앎정답 작성정확한 답변
애매하게 앎찍기 고민그럴듯한 추측
전혀 모름빈칸 또는 찍기자신 있는 환각 가능

이게 무서운 이유는 틀린 답이 어설프게 나오지 않는다는 거예요. AI는 문장력 하나는 끝내주거든요. 그래서 “틀린데 설득력 있는 답”이 나와요. 이게 환각의 진짜 골치 아픈 부분이에요.


🧭 세 번째 이유: 최신 정보와 비공개 정보는 특히 약해요

AI가 모든 정보를 실시간으로 보고 있는 건 아니에요. 모델마다 다르지만, 기본 언어 모델은 학습된 데이터 안에서 패턴을 익혀요. 그래서 최신 가격, 방금 바뀐 법, 오늘 발표된 회사 정책, 개인 메일함 속 내용 같은 건 그냥 알 수 없어요.

이때 AI가 검색이나 외부 자료 없이 답하면 위험해져요. 예를 들어 “지금 한국 기준금리 얼마야?”, “오늘 애플 CEO 누구야?”, “이 논문 실제로 있어?” 같은 질문은 시점에 따라 답이 바뀔 수 있어요.

그래서 요즘 많이 쓰는 방법이 RAG예요. Retrieval-Augmented Generation의 줄임말인데, 한국어로 풀면 “자료를 찾아온 뒤 답하는 생성 방식”쯤 돼요.

Google Cloud는 RAG를 외부 지식 기반과 LLM을 결합해 답변을 개선하는 방식으로 설명해요. 또 Grounding 문서에서는 모델 출력을 검증 가능한 데이터 소스에 연결하면 지어내는 가능성을 줄일 수 있다고 말해요.

쉽게 말하면 이거예요.

  1. 그냥 답하기: 기억과 말솜씨로 대답하기
  2. 검색하고 답하기: 책상 위 자료를 펼쳐놓고 대답하기
  3. 출처 달고 답하기: “여기 보고 말한 거야”라고 표시하기

물론 RAG도 만능은 아니에요. 검색해온 자료가 틀렸거나, AI가 자료를 잘못 읽으면 여전히 틀릴 수 있어요. 그래도 아무 근거 없이 문장을 이어가는 것보다는 훨씬 낫죠.


🕵️ 그럼 AI 답변은 어떻게 믿어야 할까요?

AI를 못 믿을 도구로 보면 아깝고, 무조건 믿으면 위험해요. 제일 좋은 태도는 똑똑한 초안 작성자로 보는 거예요.

특히 아래 질문에는 한 번 더 확인하는 게 좋아요.

질문 종류확인이 필요한 이유
법률·세금·의료틀리면 손해가 큼
최신 뉴스·가격·정책정보가 자주 바뀜
논문·출처·통계가짜 출처가 섞일 수 있음
사람 정보·날짜비슷한 이름과 사건을 섞기 쉬움

반대로 아이디어 정리, 글 구조 잡기, 어려운 개념 쉽게 설명하기, 코드 초안 만들기에는 꽤 강해요. “정답 자판기”가 아니라 “생각을 빠르게 굴려주는 엔진”으로 쓰면 훨씬 안전해요.

💡 AI 답변이 너무 매끄러울수록, 중요한 사실은 한 번 더 확인하는 게 좋아요. 문장력은 신뢰도가 아니니까요.


🎈 AI 환각은 버그이면서 습관이에요

AI 환각은 단순한 오류 하나가 아니에요. 언어 모델이 문장을 만드는 방식, 평가받는 방식, 최신 정보를 다루는 방식이 겹쳐서 생기는 현상이에요.

그래서 “AI가 왜 거짓말해요?”라고 묻기보다, “AI는 왜 모를 때도 말을 이어가려고 할까요?”라고 묻는 게 더 정확해요.

AI는 점점 나아지고 있어요. 하지만 당분간은 이 원칙 하나만 기억하면 돼요.

AI가 자신 있게 말해도, 사실은 따로 확인해야 해요.

오늘은 여기까지예요. 다음에 AI가 너무 똑 부러지게 말하면, 속으로 한 번만 물어보세요. “너 이거 진짜 본 거야, 아니면 말 잘하는 거야?” 👋

📚 참고 자료

  • OpenAI, Why language models hallucinate, 2025
  • IBM, What Are AI Hallucinations?
  • IBM, What Are Large Language Models?
  • Google Cloud, What is Retrieval-Augmented Generation?
  • Google Cloud, Grounding overview, Generative AI on Vertex AI
  • Stanford HAI, AI on Trial: Legal Models Hallucinate in 1 out of 6 or More Benchmarking Queries, 2024