AI가 해리 포터를 외운다? 메타 LLaMA 3.1과 저작권 논란의 서막

메타의 LLaMA 3.1, 『해리 포터』를 42% 재현…AI의 저작권 논란 본격화

2024년 7월 메타(Meta)가 공개한 대형 언어모델 LLaMA 3.1 70B가 『해리 포터와 마법사의 돌』의 텍스트 중 42%를 기억하여 문장 단위로 재현할 수 있다는 연구 결과가 발표됐다. 이 연구는 미국 스탠포드대, 코넬대, 웨스트버지니아대 등의 연구진이 수행했으며, AI가 보유한 데이터의 저작권 준수 여부에 대해 다시 한번 의문을 제기하고 있다.

공개형 모델을 통한 책 내용 추출 실험

연구진은 메타, 마이크로소프트, EleutherAI가 개발한 다섯 개의 오픈웨이트(공개 가중치) 언어모델을 대상으로, 이들이 저작권 보호 도서인 Books3 데이터셋에서 어느 정도의 원문을 기억하고 있는지를 검증했다. 분석 방식은 각 도서 텍스트를 100토큰 단위로 분할하고, 앞 50토큰을 프롬프트로 입력한 뒤 이후 50토큰의 재현 가능성을 측정하는 방식이었다. 이 절차를 통해 특정 지점에서 모델이 원문과 동일한 텍스트를 출력할 확률을 계산하였다.

LLaMA 3.1 70B는 『해리 포터와 마법사의 돌』에 대해 42%의 구간에서 해당 조건을 만족해, 동일 문장을 50% 이상의 확률로 복원하는 것으로 나타났다. 이는 유사 규모의 LLaMA 1 65B가 동일 도서에서 4.4%만 기억하고 있었던 것과 비교해 크게 증가한 수치다.

특정 도서에서만 나타난 높은 복원률

이번 연구에서 관찰된 현상은 전체 도서에는 해당되지 않았다. 예를 들어, 2009년에 출간된 『샌드맨 슬림』의 경우, LLaMA 3.1이 기억하고 있는 문장은 0.13%에 불과한 것으로 나타났다. 연구진은 이를 통해 매우 인기가 높고 자주 인용되는 도서일수록 AI 모델이 그 내용을 훨씬 더 잘 재현하는 경향이 있음을 지적했다. 『호빗』, 『1984』 등도 재현률이 높은 도서로 포함되어 있다.

이러한 결과는 AI 모델의 기억 능력이 일반적 현상이 아니라 일부 도서에 국한된 ‘집중적 암기’임을 시사한다. 이는 특히 인기 있는 상업도서일수록 훈련 데이터에서 노출 빈도가 높았음을 의미한다.

저작권 침해 논란과 법적 쟁점

문제의 핵심은 고성능 LLM(Large Language Model)이 저작권 보호 도서의 내용을 기억하고 출력 가능한 수준까지 학습한다는 데 있다. 이는 단순한 요약이나 문체 모방을 넘어서, 원문을 거의 그대로 출력함으로써 저작권 침해 소지가 크다는 우려를 낳는다.

현행법 상, AI가 특정 콘텐츠(예: 소설의 문장)를 그대로 재현할 경우, 그 사용이 공정 이용(fair use)에 해당하는지는 문맥에 따라 달라진다. 연구, 교육, 비영리적 목적의 일부 활용은 예외적으로 허용되지만, 상업적 서비스나 대량 출력은 법적으로 문제의 소지가 크다.

이번 사례는 집단소송(class action)이 제기될 수 있는지에 대한 새로운 논점을 제시한다. 연구에 따르면 각 도서별 재현 수준이 크게 다르므로, 저작권 소유자들이 동일한 침해 수준에 놓였다고 보기 어려운 경우가 많다. 이는 메타에게는 유리한 조건으로 작용할 수 있다. 다수의 저자가 개별적으로 소송을 제기하기는 현실적으로 어렵기 때문이다.

높은 암기율 원인으로 지목되는 훈련 방식

연구진은 LLaMA 3.1 70B의 암기 성향이 급격히 높아진 원인으로 다양한 가능성을 제기했다. 하나는 메타가 훈련 데이터 부족 문제를 해결하기 위해 Books3 같은 데이터셋을 반복적으로 사용했을 가능성이다. 다른 가능성으로는 온라인 팬 커뮤니티, 리뷰, 독후감 등의 2차 콘텐츠가 훈련 데이터에 포함되면서 실제 인용 문장이 모델 내에 다수 학습됐을 수 있다는 점이 지적됐다.

또한, 메타가 훈련 알고리즘에 가한 미세 조정이나 파라미터 설정이 암기 강화에 영향을 주었을 가능성도 배제할 수 없다. 이러한 변수들은 모두 LLM이 본질적으로 텍스트를 일반화하기보다는 특정 문장을 암기하게 만드는 원인으로 작용할 수 있다.

LLM 학습 데이터의 윤리와 산업 규범 문제

AI기업들이 공개 모델을 통해 데이터를 학습시키는 과정에서, 저작권 준수를 내부적으로 규제하거나 투명하게 공개하지 않는 점도 문제로 지적받고 있다. 이에 대해 여러 시민단체와 연구 기관들은 저작권을 침해하지 않는 학습용 데이터셋 구축을 목표로 ‘클린 데이터셋(Copyright-respecting corpus)’ 개발을 병행하고 있다.

한편, 오픈AI, 구글, 앤트로픽 등 일부 기업은 모델 출력에 대해 저작권 문장 필터링 시스템을 도입하고 있으나, 메타는 유사한 필터링이 상대적으로 약하다는 지적을 받고 있다.

대형 언어모델의 저작권 문제, 산업 전반의 기준 재정립이 필요

언어모델의 성능 고도화가 저작권 위반 위험성을 수반한다는 사실은 이제 명백하다. AI가 인기를 끈 콘텐츠를 구조적으로 기억하고 있다는 점은 기술적인 성취이자 법적, 윤리적 도전 과제를 동시에 안겨준다. 특히 ‘암기’와 ‘재현’의 경계에서 발생하는 법적 판단은 향후 산업과 정책의 방향을 결정짓는 주요 요소가 될 전망이다.

AI 개발사들은 학습 데이터의 출처를 투명하게 관리하고, 필터링 및 감지 메커니즘을 강화해야 한다. 동시에 정책 결정자들은 표준화된 기준 마련을 통해 기술 혁신과 저작권 보호의 균형을 도모해야 한다.

AI 언어모델과 저작권, 모호한 경계를 넘는 기술 발전

LLaMA 3.1이 보여준 사례는 AI 기술이 단순 모방을 넘어 원문 재현이 가능한 수준에 도달했음을 상징한다. 이는 AI 개발자, 법조계, 정책 입안자 모두에게 새로운 고민을 안기는 계기가 된다. 기술의 발전 속도에 맞춰 법과 윤리의 기준이 명확하게 정립되지 않는다면, 향후 AI 활용 과정에서 불가피한 갈등이 지속될 가능성이 높다.