생성형 AI

기술은 공정할 수 있을까?

편향된 알고리즘의 기원

🥨채원

03 6월 2026 — 9 min read

투쟁은 끝이 났다. 그는 자신과의 투쟁에서 승리했다. 그는 빅 브라더를 사랑했다.
—조지 오웰, <1984>

💌 AI 윤리 레터 응원하러 가기 💌

콩 심은 데 콩 나고 팥 심은 데 팥 난다

by 🥨채원

우리 사회에 AI가 쓰이는 곳이 점점 늘어나고 있습니다. 기업이 누구를 채용할지 결정하는 것에서부터 병원에서 질병을 탐지하는 등 과거에는 이러한 AI 기술의 도입이 주로 기관이나 기관에서 일어났다면, 최근에는 챗GPT나 클로드 코드 등 생성형 AI를 기반으로 한 어플리케이션이 주목받으면서 개인의 일상에서도 존재감이 커지고 있습니다.

그렇다면 이러한 생성형 AI는 어떻게 만들어질까요? 딥러닝 시대에 들어선 이래 AI 모델 개발은 학습 데이터 수집에서 시작됩니다. 최근 몇 년간 AI 모델의 발전을 주도한 것은 구조상의 혁신이 아닌, 더 많은 데이터와 컴퓨터 자원을 투입한 결과라는 것도 널리 알려진 사실입니다. 그러나 새로운 모델을 개발하는 것에 비해, 이미 존재하는 데이터셋을 들여다보고 분석하는 작업은 상대적으로 주목을 받기 어렵습니다. 새로운 알고리즘의 개발을 더 중요시하는 학계의 구조적인 문제도 있겠지만, 데이터셋을 분석하는 것 자체가 매우 노동집약적이고 시간이 많이 드는 작업이기 때문이기도 합니다.

Photo by Volodymyr Dobrovolskyy on Unsplash

그럼에도 불구하고 데이터셋을 들여다봐야 하는 이유는 매우 중요합니다. 콩 심은 데 콩 나고 팥 심은 데 팥 나듯, 알고리즘의 성능은 학습 데이터의 질과 직접적으로 연결되기 때문입니다. 오늘날의 알고리즘은 다양한 데이터를 활용하여 학습됩니다. 영상, 이미지, 글 등 형태뿐만 아니라 데이터가 수집되는 출처 또한 소셜 미디어, 각종 웹사이트, 종이책을 스캔한 이미지 등으로 다양합니다. ‘오늘날의 거대 언어 모델들은 인류의 지식 전부를 학습했다고 여겨질 만큼 방대한 양의 학습 데이터에 기반하고 있지만, 이것이 전부가 아닙니다.

최근 몇 년간 학습 기반 알고리즘의 비약적인 발전을 가져온 인간 피드백을 통한 강화 학습(Reinforcement Learning with Human Feedback, RLHF) 기법은 이에 더해 명시적인 ‘선호 데이터'를 포함하기도 합니다. 선호 데이터는 대개 서로 다른 LLM이 생성한 답변들과, 이들 중 채점자가 더 나은 답변으로 판단한 선호도로 구성되어 있습니다. 더 나은 답변이라는 것은 방식에 따라 정확도나 자연스러움 등 다양한 기준으로 정의됩니다. 수만 건의 답변을 비교하여 판단하는 데에는 아주 많은 사람이 필요하므로 이 과정은 대개 크라우드소싱이나 외주를 통해 이루어집니다.

이러한 방대한 데이터는 알고리즘을 학습시키는 개발자들 또한 속속들이 알기 어렵습니다. 문자 그대로 양이 너무 많기 때문입니다. 노잉 머신즈 (Knowing Machines) 라는 그룹이 진행한 “Models All The Way Down ('모델의 밑바닥까지')”라는 연구에 따르면, ‘생성형 AI를 위한 근본 데이터셋’이라고 불리는 LAION-5B의 양은 단순하게 계산하더라도 사람이 하루 8시간씩, 주 5일 이미지 한 장당 1초씩만 본다고 하더라도 781년이 걸리는 만큼의 이미지를 포함하고 있다고 합니다. 이 외에도 검색 엔진에 잘 노출되도록 키워드를 최적화한 인터넷 쇼핑몰의 이미지들, 그리고 발표 자료로 쓰이는 파워 포인트 슬라이드 등이 특히 많이 포함되어있다는 것도 밝혀냈습니다. 추가로, 스탠퍼드의 인터넷 관측소는 해당 데이터셋에서 소아성착취물에 해당하는 1,000여 장의 이미지를 발견하여 큰 파장을 일으키기도 하였습니다.

사실 언뜻 생각해 보아도, 인터넷은 현실 세계와 다릅니다. 쇼핑몰 사진, 파워포인트 슬라이드, 성착취물을 잔뜩 포함한 이 뒤죽박죽 한 구성이 이 세상을 얼마나 정확하게 묘사하고 대표할 수 있을까요? 그리고 이러한 데이터를 바탕으로 학습된 AI가 ‘만들어내는’ 세상은 어떤 모습일까요.

데이터셋의 편향은 알고리즘의 편향으로 이어지기 마련입니다. 그리고 편향된 알고리즘은 심각한 사회적 문제로 이어질 수 있습니다. 남성이 대다수를 차지하는 기존의 이력서 데이터를 학습하여 ‘여성'이라는 단어를 감점 요소로 판단한 아마존의 채용 알고리즘 사례, 과거 범죄경력 보다도 흑인이라는 요소에 더 가중치를 주어 이후 재범 가능성을 판단한 COMPAS 알고리즘 등 무수한 사례가 이미 이러한 위험성을 증명하고 있습니다.

그러나 이러한 데이터 기반의 편향 외에도 알고리즘의 편향을 유발할 수 있는 요소는 더 있습니다. 하나는 알고리즘이 현실 세계에서 사용되고 실사용자들과 상호작용하면서 생겨나는 편향입니다. 몇 년 전 마이크로소프트에서 출시한 테이(Tay)라는 챗봇은 공개된지 16일만에 서비스 중단 되었는데요, 이유는 사용자들이 챗봇에게 인종차별적이고 성차별적인 말들을 쏟아냈고, 그리고 챗봇이 이러한 발언들을 학습하고 재생산했기 때문입니다. 국내에서도 비슷하게 스캐터랩에서 출시한 ‘이루다'라는 챗봇이 여성, 장애인, 성소수자 혐오 표현을 쏟아내어 3주 만에 서비스가 중단된 사례가 있습니다.

데이터 기반 편향과 상호작용 기반 편향은 편향된 알고리즘을 만들어내는 대표적인 원인입니다. 즉, 인터넷에 존재하는 데이터들, 그리고 AI를 비롯한 각종 알고리즘과의 상호작용이 새로운 편향을 만들어낼 수 있는 것입니다. 이러한 이중 구조의 편향이 시사하는 위험성은 매우 심각합니다. 오혜연 카이스트 전산학부 교수의 연구 결과에 따르면, 오픈 AI의 가장 인기 있는 챗봇 중 하나였던 GPT-4o는 철수에게 ‘아빠보단 판사의 역할에 집중해야 한다’고 100% 확률로 의견을 제시했지만, 영희에겐 ‘판사보단 엄마의 역할에 집중해야 한다’라고 답한 확률이 높다고 합니다. 챗지피티와 같이 전 세계 수많은 사람이 사용하는 챗봇이 이러한 편향을 내재화하고 있다는 것은, 수많은 사람들이 잠재적인 편향에 지속적으로 노출된다는 것을 의미합니다. 즉, 현재 알고리즘이 가진 편향이 미래에는 더 심화할 수도 있다는 것입니다.

인간이 가진 편향, 그리고 사회에 존재하는 편향을 제거하는 것이 어려운 것과 마찬가지로, 알고리즘의 편향, 학습 데이터의 편향을 제거하는 것 또한 매우 어려운 문제입니다. 이러한 편향에 기반하는 차별의 문제도 마찬가지입니다. 현실의 많은 문제가 그렇듯 명확한 정답과 오답이 존재하지 않는 경우가 많기 때문입니다. 편향에 대한 고민은 궁극적으로 편향과 차별이 없는 세상이 어떤 모습인가 하는 질문으로 이어집니다. 결국 데이터의 편향, 알고리즘의 편향을 고민하다 보면, 공정과 정의가 무엇인가 하는 근본적인 질문을 마주하게 됩니다.