AI 학습에 관한 두 개의 저작권 판결

지금까지는 기업이 승기를 잡은 듯 보입니다. 앞으로도 그럴까요?

AI 학습에 관한 두 개의 저작권 판결
문제는, 정말로 씨를 뿌린 자는 누구이며 애초에 그 씨앗이 어디에서 왔느냐 하는 것이다.
—데이비드 벨로스 & 알렉상드르 몬터규, <이 문장은 누구의 것인가: 현대 사회를 움직이는 저작권의 역사>

AI 윤리 뉴스 브리프

2025년 7월 둘째 주
by 🍊산디

목차
1. 저작권 공정이용에 관한 두 가지 판결1: 앤트로픽
2. 저작권 공정이용에 관한 두 가지 판결2: 메타

1. 저작권 공정이용에 관한 두 가지 판결1: 앤트로픽

출처: 앤트로픽 홈페이지 갈무리
  • 지난달 23일, 캘리포니아 북부지방법원은 클로드의 개발사 앤트로픽을 상대로 한 작가들의 소송에 대해 판결했습니다. 앤트로픽은 모델 클로드의 학습을 위해 원고측 저자들의 책을 동의 없이 사용해 왔습니다.
  • 클로드를 학습시킬 양질의 데이터를 구하기 위해 앤트로픽은 책을 활용하기로 합니다. 이를 위해 앤트로픽은 2021년, 불법 복제된 도서 최소 500만권, 2022년에는 200만권을 다운 받았습니다. 불법 다운로드가 편리했기 때문이었죠. 그렇게 작가들의 창작물을 학습시킨 결과, 앤트로픽은 거대언어모델의 성능 개선을 위해서는 책을 학습시켜야 한다는 판단에 확신을 갖게된 것으로 보입니다. 판결문에 따르면 앤트로픽은 이 과정에서 “책을 활용하는 것이 세계적인 거대언어모델을 만드는 데 가장 비용 효과적인 방법이라고 확신하게 되었다”고 합니다.
  • 그러다가 2024년, 앤트로픽은 데이터 입수 과정을 바꿉니다. 생성형AI와 저작권 문제가 본격적으로 이슈화되었기 때문일까요. 저작권으로 인한 법적 문제가 신경쓰였던 앤트로픽은 구글도서 서비스의 파트너십 책임자였던 톰 터비(Tom Turvey)를 고용합니다. 구글도서는 책을 디지털화하여 구글에서 검색하여 볼 수 있도록 하는 서비스였고, 대대적인 저작권 소송을 치러 승소한 바 있습니다. 톰 터비에게 주어진 미션은 “세상의 모든 책을 획득하는 것(obtaining all the books in the world)”. 그는 수백만 달러를 들여 수백만 권의 책을 (일부는 중고로) 구매했습니다. 책들은 한 장 한 장 스캔되어 기계가 읽을 수 있는 상태로 변환되었죠.

앤트로픽의 이러한 클로드 학습 행위에 대해 법원은 다음과 같이 판단했습니다.

  • 책 구매를 통한 AI 학습
    • 법원은 구매한 책을 복사하여 클로드를 학습시킨 것이 매우 변형적인 이용(exceedingly transformative use)으로 미국 저작권법에 따른 공정이용에 해당한다고 보았습니다. “작가가 되기 위한 열망으로 책을 읽는 독자처럼, 앤트로픽의 클로드도 원문을 복제하거나 대체하려는 것이 아니라, 새로운 무언가를 창조하려는 목적에서 학습되었다”는 것입니다.
  • 불법 복제본을 활용한 AI 학습
    • 법원은 불법 복제본을 활용한 것은 문제라고 보았습니다. 인터넷에서 불법 복제된 책 사본을 저장하고, 이를 훈련에 활용하는 것은 공정이용이라 할 수 없으며, 이 문제는 별도의 재판을 통해 따로 다루어져야 한다는 것이지요. 설령 불법 다운한 책을 나중에 구매했다 하더라도 초기 절도 행위가 면책되는 것은 아니며, 다만 법정손해배상액을 경감할 수는 있을 것이라고 보았습니다.
  • 흥미롭게도 법원은 책의 입수 방법에 따라 일부는 공정이용으로, 일부는 공정이용이 아니라고 보았습니다. 데이터 확보 방식의 정당성을 묻고 있는 것이지요. 하지만 공정이용으로 인정받을 수 있는 저작물 확보 방식이라는 게 별로 까다롭지 않아 보입니다. 그저 책을 돈 내고 구매하면 된다는 건데요. 저자의 사전 동의를 받았는지, AI 학습을 목적으로 저자와 라이센스 계약을 했는지 등은 보지 않았죠. AI 학습을 위한 데이터가 어떻게 입수되는 것이 정당할까요?

2. 저작권 공정이용에 관한 두 가지 판결2: 메타

출처: 메타 라마 홈페이지 갈무리
  • 이틀 뒤인 6월 25일, 메타를 상대로 한 저자들의 저작권 소송 역시 판결이 이루어졌습니다. 앞서 앤트로픽 사건이 AI의 변형적 성격(transformative nature)에 초점을 맞춘 데 반해, 메타 사건은 AI가 시장에 미칠 효과가 핵심적인 쟁점이었는데요. 한 명의 개인이 AI를 활용해 지극히 적은 시간과 노력만으로도 무수히 많은 경쟁적인 저작물을 만들 수 있다면, 저작권 침해의 판단 요건인 ‘시장 침해’에 해당하지 않는지 반드시 판단이 필요하다는 것입니다.
  • 메타 사건에서도 양상은 비슷합니다. 메타는 거대언어모델 LLaMA 학습에 불법 복제된 도서들을 다운받아 활용했습니다. 저자들은 LLaMA가 책의 짧은 문장들을 재생산하거나, 저자들의 AI 학습 라이센스 시장에서의 권리를 약화시켰다고 주장했습니다. 하지만 법원은 이 두 주장이 설득력이 떨어진다고 보았습니다. LLaMA가 의미있는 수준으로 특정한 책의 문장들을 생성해낼 수 있는 성능을 갖추고 있지 못하고, 저자들이 AI 학습 라이센스 시장 자체에 대한 권리를 갖고 있지 않다는 것이죠. 결과적으로 저자들은 메타와의 소송에서 패소했습니다.
  • 그런데 판결문이 여기서 멈추지 않습니다. 원고의 주장이 못내 아쉬웠는지, 빈스 차브리아 판사는 만약 원고들이 메타가 저작물을 복제한 결과 유사한 작품들이 시장에 넘쳐나게 되었고, 그래서 결과적으로 시장이 희석되었다고(dilution) 주장했다면, 승소할 가능성이 있었을 거라고 언급합니다. 원고들은 이러한 시장 침해에 대해 다루지 않았습니다. 판사가 보기에 가장 중요하고 승소 가능성이 있는 쟁점을 원고들이 주장하지 않으니, 법원으로서는 권리를 인정할 수도 없었던 것이지요.
  • 판결문에는 흥미로운 내용이 한 가지 더 등장합니다. 빈스 차브리아 판사는 저작권 침해를 인정하게 되면 기업들이 AI 개발을 멈출 것이니 저작권이 침해되었다고 판단해서는 안 된다는 이야기는 우스꽝스럽다는 의견을 밝힙니다. AI가 수십억, 수조 달러를 벌어들일 것이라고 예상되는 상황에서 만약 기업들이 주장하는 것처럼 저작물 학습이 AI 개발에 그렇게나 필수적이라면 기업들은 저작권자를 위한 방법을 얼마든지 찾아낼 것이라는 거죠.
  • 어딘가 결연하기까지 한 이번 판결은 비록 메타가 승소하기는 했지만 “메타가 저작물을 사용하여 언어 모델을 학습시키는 것이 합법적이라는 주장을 뒷받침하지 않는다”고 명시합니다. 이번 판결이 다음 소송을 준비하고 있는 사람들을 위한 지침이 될 수 있을까요.

#feedback

오늘 이야기 어떠셨나요?
여러분의 유머와 용기, 따뜻함이 담긴 생각을 자유롭게 남겨주세요.
남겨주신 의견은 추려내어 다음 AI 윤리 레터에서 함께 나눕니다.