AI가 무조건 틀리는 문제

사람에게 어려운 문제와 기계에게 어려운 문제는 다르다

AI가 무조건 틀리는 문제
 삶도 사랑도 그렇게 근거 없이 계속되는 것입니다.
- 황인찬, <이걸 내 마음이라고 하자>

기계처럼 '생각' 하기

by. 🥨채원

지난주 피지컬 AI에 관한 글 재밌게 읽으셨나요? 비슷한 이야기로 오늘은 시각 언어 모델 (Visual Language Models, VLM)의 하이프에 관한 이야기를 해보려고 합니다. 시각 언어 모델은 이미지와 글로부터 학습할 수 있는 다중 모달 (multi-modal) 모델을 일컫습니다. 이미지의 내용을 파악하고 설명하거나, 주어진 이미지를 가지고 질의응답을 할 수 있습니다. 챗지피티나 클로드 등 언어모델을 기반으로 하는 챗봇 서비스들에 이미지를 업로드 한 후, 그에 관한 질문을 하는 것을 생각해 보면 쉽게 이해가 될 것입니다.

🦜
더 읽어보기
- 허깅페이스: 시각 언어 모델 https://huggingface.co/blog/vlms

최근 몇 년간 이러한 모델들은 빠르게 발전해 왔습니다. 몇 년 전만 해도 컴퓨터 비전 기술이 이미지 내에 있는 물체들을 파악하는 데 급급했다는 것을 생각해 보면 괄목할 만한 성장입니다. 그리고 이러한 발전에 기대 많은 사람들이 AI가 변화시킬 미래에 대해 앞다투어 이야기합니다.

그러나 현재의 AI 기술을 평가하는 일을 업으로 하는 연구자로서, 언론이나 미디어에 비추어지는 AI 기술 사이에 간극을 느낄 때가 많이 있습니다. 현재 기술이 몇 년 전에 비해 상당히 발전했으며, 많은 분야에서 인상 깊은 성능을 보이지만, 여전히 한계점도 많이 존재합니다.

오늘 글에서는 이러한 한계를 잘 보여주는 예시 두 가지를 보여드리려고 합니다. 바로 시계 읽기와 도형 읽기 과제입니다. 올해 8월 발표된 논문에서 연구진은 (일명 AI의 대부로 불리는 얀 르쿤이 저자 중 한 명으로 포함되어 있습니다.) 현재의 시각 언어 모델들이 도형의 변 개수를 세는 단순한 과제에 취약하다는 것을 발견했습니다. 오각형, 칠각형 같은 단순한 형태의 도형 뿐만 아니라, 여러 도형의 합친 응용 형태의 도형의 경우, 대부분의 현존 기술들이 ‘해당 이미지의 형태가 몇 개의 변을 갖고 있느냐’라는 질문의 정답을 맞히지 못했습니다.

Screenshot 2025-11-16 at 23.32.19.png
삼각형, 사각형, 오각형, 육각형, 칠각형, 팔각형의 이미지를 주고 해당 도형의 변의 개수를 세라고 하는 질문에 답변한 최신 모델들. 특히 칠각형의 경우 대부분의 모델들이 전혀 정답을 맞추지 못했다. (출처: https://arxiv.org/pdf/2502.15969)

비슷한 문제로 시계를 읽는 과제도 비슷했습니다. 올해 9월에 발표된 논문에서 저자는 아래 이미지와 같은 다양한 형태의 시계 이미지를 주고 언어 시각 모델에게 시각을 맞추게 하는 문제를 냈습니다. 논문 발표 당시 기준 최고 성능을 선보인 제미나이 2.5 프로 모델도 13% 정도의 정답을 맞히는 데 그쳤습니다. 해당 과제가 발표된 이래 현재는 최고 모델의 성능이 40% 가까이 올랐으나, 여전히 보통 인간의 기준인 90%에는 크게 못 미칩니다.

https://clockbench.ai/ 시작 갈무리
인간이 90% 정도 정답을 맞추는 것에 비해 논문 발표 당시 최고 성능 모델인 제미나이 2.5 프로도 13% 남짓 정답을 맞추는 데 그쳤다. 널리 쓰이는 지피티-4o 모델의 성능은 2%에 불과했다. (출처: https://clockbench.ai/ClockBench.pdf)
출처: 예시 시계 이미지들 (https://clockbench.ai/ClockBench.pdf)

너무나도 똑똑해 보이는 AI 기술들이 왜 이렇게 쉬운 문제를 틀리는 걸까요? 기본적으로 언어 모델은 질문에 대한 정답을 논리적으로 맞추는 모델이 아니라, 주어진 입력값을 기준으로 그다음에 가장 나올 것 같은 값을 출력하는 확률 기반 모델이기 때문입니다. 따라서 특이한 형태의 도형 등 학습할 때 보지 못했던 데이터들이나, 시계처럼 이미지 자체는 대동소이하지만 아주 미묘한 차이가 전혀 다른 의미로 이어지는 경우 고전하는 것이죠.

사람이, 혹은 AI가 똑똑하다는 것은 어떤 의미일까요? 분명한 것은 사람을 평가하기 위해 고안된 시험을 AI에 적용하는 것은 무의미하다는 것입니다. 말 그대로 사람을 대상으로 개발된 시험은 사람의 능력을 평가하기 위해 고안된 문제이기 때문입니다. 강아지들의 운동 능력을 평가하는 어질리티 평가를 사람이 잘 수행하는지 비교하는 것이 무의미한 것처럼요. 그렇다면 ‘똑똑한’ AI가 꼭 답해야 하는 질문은 무엇일까요?

기술의 발전은 때때로 우리가 기존에 가지고 있던 사회의 사고방식과 가치, 문화에 대한 근본적인 질문을 던집니다. 오늘날의 AI 기술은 학습, 지능, 인지에 대한 개념을 재정의하고 있습니다. 무언가 배운다는 것, 새로운 것을 창조한다는 것, 그리고 이해한다는 것은 무슨 의미인지 다시 한번 생각해 봅니다. 그리고 이러한 개념을 사람에게 적용하는 것과 AI에 적용하는 것에 있어서 무엇이 같고 무엇이 다른지도요.

🦜

#feedback

오늘 이야기 어떠셨나요?
여러분의 유머와 용기, 따뜻함이 담긴 생각을 자유롭게 남겨주세요.
남겨주신 의견은 추려내어 다음 AI 윤리 레터에서 함께 나눕니다.