인기 글

AI 크롤링 분쟁 (데이터 저작권, 법적 쟁점, 플랫폼 규제)

AI 시대가 본격화되면서 데이터를 둘러싼 갈등이 첨예하게 전개되고 있습니다. 최근 법원이 네이버 부동산 데이터베이스를 무단으로 크롤링한 행위를 위법으로 판단하면서, 데이터베이스 저작권에 대한 사회적 논의가 활발해졌습니다. 글로벌 빅테크 기업들의 무차별적인 크롤링과 국내 데이터 주권 보호 문제, 그리고 창작자에 대한 정당한 보상 체계 마련이라는 과제가 우리 앞에 놓여 있습니다.

데이터 주권과 무단 크롤링의 실태

크롤링은 웹에 공개된 콘텐츠를 AI나 검색 엔진이 돌아다니면서 수집해 활용하는 행위를 말합니다. 과거에는 검색 엔진이 크롤링을 하더라도 사용자가 해당 사이트를 직접 방문했기 때문에 광고 수익이나 트래픽 증가라는 상호 이익이 존재했습니다. 하지만 현재의 AI 검색과 크롤링은 원문 사이트로의 방문 없이 정보를 요약해 제공하기 때문에, 데이터를 생산한 플랫폼이나 언론사는 트래픽 감소와 광고 수익 하락이라는 직접적인 피해를 입고 있습니다.

특히 글로벌 AI 기업들의 상습적인 크롤링 문제가 심각합니다. 오픈AI의 GPT봇, 엔트로픽의 클로드봇, 메타의 메타AI, 아마존의 아마존봇 등 이른바 'AI 크롤러 빅4'가 지난해 트래픽 상위권을 차지했습니다. 이들은 한국을 포함한 전 세계 웹페이지를 무차별적으로 크롤링하며 언론 기사, 커뮤니티 글, 기업의 핵심 콘텐츠까지 학습 데이터로 활용하고 있습니다. 문제는 데이터가 한번 탈취되면 회수가 거의 불가능하고, 가져간 데이터는 곧바로 글로벌 시장에서 상업적으로 활용되지만, 정작 국내 데이터 제공자에게는 아무런 보상도 협상 구조도 없다는 점입니다.

국경이 사라진 AI 시대에 데이터 주권 문제는 더욱 복잡해졌습니다. AI가 모든 언어를 구사하면서 크롤링도 국가를 넘나들게 되었고, 해외 테크 기업들이 한국의 수많은 웹페이지를 통째로 크롤링해 독점하면 국내 검색 서비스의 경쟁력은 약화될 수밖에 없습니다. 20년 전 다음과 네이버가 대표적인 포털로 한국 사용자들에게 사랑받았지만, 현재는 유튜브와 넷플릭스 등 해외 서비스가 시장을 지배하고 있습니다. 만약 AI 시장마저 글로벌 빅테크에게 장악된다면 한국 AI 기업들의 설 자리는 더욱 좁아질 것입니다.

AI 크롤러 운영 기업 주요 특징
GPT봇 오픈AI 대규모 언어모델 학습용
클로드봇 엔트로픽 안전성 중심 AI 학습
메타AI 메타 소셜 데이터 통합 활용
아마존봇 아마존 상업적 AI 서비스 강화

저작권 분쟁과 법원 판결의 의미

국내에서도 데이터베이스권을 둘러싼 분쟁이 꾸준히 증가하고 있습니다. 대표적인 사례가 네이버 부동산과 다윈프로퍼티 간의 소송입니다. 다윈프로퍼티는 2021년 네이버 부동산의 매물 정보 데이터베이스를 크롤링해 자사 플랫폼인 다윈중계에 게시했고, 네이버는 이를 무단 이용으로 간주하고 소송을 제기했습니다. 다윈중계 측은 아웃링크를 통해 네이버 부동산 사이트로 연결되게 했으니 문제없다고 주장했지만, 네이버는 오랜 시간과 비용을 들여 구축한 데이터베이스는 저작권이 인정되는 자산이라고 반박했습니다.

법원은 네이버의 손을 들어주었습니다. 특히 주목할 점은 캐시 데이터에 대해서도 독립적인 경제적 가치를 인정했다는 것입니다. 아웃링크를 위해 저장하는 캐시 데이터는 원활하고 효율적인 접속을 위한 일시적 복제로 볼 수도 있지만, 법원은 이 캐시 데이터 역시 저작권자의 이익을 침해하는 복제 행위라고 판단했습니다. 1심에서 7천만 원이었던 손해배상액이 2심에서 8천만 원으로 증액된 것은, 데이터베이스권 침해의 정도가 더 중하다고 본 재판부의 판단을 반영한 것입니다.

이외에도 야놀자와 여기어때 사건, 잡코리아와 사람인 분쟁 등 국내 데이터베이스권 분쟁 사례가 지속적으로 발생하고 있습니다. 야놀자는 여기어때가 숙박 정보를 반복적으로 크롤링한 것에 대해 형사·민사 소송을 제기했는데, 형사 소송에서는 공개된 정보라는 이유로 무죄 판결을 받았지만 민사 소송에서는 부정경쟁방지법상 성과 등 무단 사용으로 손해배상 판결이 나왔습니다. 잡코리아와 사람인 분쟁에서도 법원은 데이터베이스권 침해를 인정해 손해배상을 명했습니다.

미국에서도 상황은 비슷합니다. 카피라이트 얼라이언스에 따르면 미국 법원에 제소된 기업 간 데이터 분쟁 사례가 2023년 13건에서 2024년 70건으로 급증했습니다. 뉴욕타임스는 오픈AI와 퍼플렉시티를 상대로 저작권 침해 소송을 제기했고, 영국 BBC, 일본 요미우리신문, 니케이신문 등 전 세계 미디어가 AI 기업을 상대로 법적 대응에 나섰습니다. 데이터가 분쟁을 일으킬 정도로 강력한 자산이 되었고, 기업들은 데이터에 투자한 비용과 노력을 법적으로 보상받지 못하면 공정한 경쟁 자체가 성립되지 않는다고 인식하기 시작한 것입니다.

법적 규제와 글로벌 대응 방안

현재 국내에는 데이터 크롤링 자체를 정면으로 규정하는 특별법이 없습니다. 저작권법상 데이터베이스 제작자 권리, 부정경쟁방지법상 성과 등 무단 사용 금지, 정보통신망법, 업무방해죄 등 기존 법령을 적용해 형사 고소나 민사 소송을 제기할 수 있지만, 이는 모두 사후적 구제 수단에 불과합니다. 데이터베이스 권리자가 홈페이지에 무단 전재·복제·배포·전송 금지 문구를 명시하거나, 로봇.txt 파일로 크롤링 허용 여부를 표현할 수 있지만, 이러한 조치들은 법적 분쟁 시 권리자의 의사를 입증하는 정도의 기준으로만 작용할 뿐 원천적 금지 효과는 없습니다.

AI 학습 관련해서는 TDM(텍스트 앤 데이터 마이닝) 규정이 논의되고 있습니다. TDM 규정은 AI 학습을 위한 복제·전송에 대해서는 저작권 책임을 묻지 않는다는 내용인데, 도입될 경우 AI 학습에는 유리하지만 창작자 권리 보호 측면에서는 논란이 있습니다. 여러 차례 입법 시도가 있었지만 아직 통과되지 않았고, 언제 도입될지도 미정입니다. 2025년 1월 시행된 인공지능기본법에서도 AI 투명성 확보와 위험 관리 의무를 규정했지만, 크롤링을 직접 규제하는 조항은 구체화되지 않았습니다. 고위험 인공지능 사업자에 대한 학습 데이터 출처 공개 의무 정도가 추가된 수준입니다.

해외는 어떨까요? EU는 2019년 디지털 단일 시장 저작권 지침에서 TDM 예외를 도입해 일정 조건 하에서 학술 연구뿐 아니라 일반 TDM까지 포괄적으로 허용했습니다. 특정 조건을 충족하면 상업적 AI 학습도 가능합니다. 일본은 2018년 저작권법을 개정해 정보 분석·테스트 처리 목적의 저작물 이용을 비영리 상태에서도 인정했습니다. 싱가포르도 TDM 목적 저작물 이용 합법화 조항을 도입했습니다. 미국은 명시적인 TDM 규정이 없지만 기존의 '공정 이용(Fair Use)' 법리를 적용해 AI 학습의 합법성을 판단하고 있습니다.

그러나 법적 규제만으로는 한계가 명확합니다. 기술적 방어도 마찬가지입니다. 2000년대 이메일 스팸을 막기 위한 기술이 등장했지만 여전히 스팸은 존재하고, 해킹과 보안도 창과 방패의 끝없는 싸움입니다. 웹 크롤링 방지 도구가 등장해도 빅테크는 또 다른 방식으로 우회를 시도할 것입니다. 결국 기술적·법적 방어는 시간을 벌 수는 있어도 영원한 해법은 아닙니다. 근본적으로는 데이터 거버넌스의 재설계가 필요합니다.

국가/지역 법적 대응 주요 내용
EU TDM 예외 도입 일정 조건 하 상업적 AI 학습 허용
일본 저작권법 개정 정보 분석 목적 저작물 이용 인정
싱가포르 TDM 합법화 데이터 마이닝 목적 이용 허용
미국 공정 이용 법리 판례 중심으로 AI 학습 합법성 판단
한국 입법 미정 기존 법령 해석으로 대응 중

전문가들은 세 가지 핵심 원칙을 제시합니다. 첫째, 기존 공급자 관점이 아닌 사용자와 건전한 시장 경쟁 관점에서 데이터 거버넌스를 수립해야 합니다. 둘째, 개인정보 이슈와 관련해 내 정보가 AI에 어디에 어떻게 활용되는지 고지받고, 언제든 중단할 수 있는 권리를 보장해야 합니다. 셋째, 공공 데이터나 플랫폼 기업이 보유한 데이터는 엄밀히 말하면 플랫폼 소유가 아니라 사용자 소유이므로, 공공 이익과 건전한 시장 경쟁을 위해 더 많은 기업이 접근할 수 있도록 해야 합니다. 동시에 고품질 데이터를 투입해야 할 필요가 있다면 거기에 대한 정당한 보상을 생각해야 하는 것도 당연합니다.

글로벌 빅테크의 이중 잣대 문제도 지적됩니다. 구글은 검색 서비스와 AI 모델을 웹 크롤링으로 고도화하면서도 유튜브 영상이나 구글 뉴스에 대해서는 보호 태도를 취합니다. 미국 법정에서 구글 부사장은 "AI 오버뷰 같은 검색 특화 AI 제품은 웹사이트 운영자의 거부 의사에도 불구하고 전체 웹사이트를 검색할 수 있다"고 발언했습니다. 일론 머스크도 X(구 트위터)를 인수한 뒤 오픈AI 등이 X 데이터를 학습에 활용하는 것에는 법적 대응을 천명하면서, 자신의 AI 기업을 위해서는 대량의 공개 데이터를 적극 활용해왔습니다. 이런 내로남불 태도는 정당한 비판의 대상이지만, 인터넷 시장의 '승자독식' 구조를 고려하면 이미 승자가 된 빅테크가 방어적일 수밖에 없는 한계도 존재합니다.

크롤링이 꼭 나쁜 것만은 아닙니다. 신규 사업자의 진입 장벽을 낮추고 경쟁을 촉진하는 긍정적 역할도 분명 있습니다. 검색 서비스나 가격 비교 영역에서는 크롤링을 통해 정보 비대칭이 해소되고 소비자 편익이 증가하며 시장이 성장했습니다. ChatGPT를 비롯한 대규모 언어모델 시대가 올 수 있었던 것도 크롤링 덕분입니다. 사용자 관점에서 크롤링으로 인해 사용자 경험이 좋아지고 가치가 높아진다면 긍정적 요소가 있는 것이고, 시장 관점에서도 크롤링이 스타트업에게 새로운 기회를 줄 수 있습니다. 문제는 어디까지가 경쟁 촉진을 위한 정보 활용이고 어디까지가 타인 성과의 무임승차인지 경계가 모호하다는 점입니다. 단순 검색·비교를 위한 비상업적 크롤링과 링크 제공 전제의 최소 정보 수집은 허용하되, 대량 저장·재가공·AI 학습 목적 수집은 동의나 계약을 요구하는 식으로 목적별·범위별 기준을 세분화할 필요가 있습니다.

결론적으로 AI 시대 데이터 규범은 보호와 개방 사이의 균형을 설계하는 것이 핵심입니다. 크롤링을 전면 차단하거나 데이터 유통을 전면 유료화하는 방식만으로는 문제가 해결되지 않습니다. 예측 가능한 법적 기준을 명확히 하고, 신뢰할 수 있는 양질의 데이터를 합리적 조건으로 유통·검색할 수 있는 생태계를 만드는 것이 지속 가능한 방향입니다. 공공 데이터를 적극 개방해 영리 목적으로도 활용 가능하게 하고, 창작자와 데이터 제공자에게 정당한 보상이 돌아가는 구조를 구축한다면, 데이터를 학습한 AI 모델과 기술, 서비스가 다시 창작자에게 이익으로 환원되는 선순환이 가능할 것입니다.

자주 묻는 질문 (FAQ)

Q. 크롤링을 기술적으로 완전히 차단할 수 있나요?

A. 완전한 차단은 불가능합니다. 워터마크 삽입이나 접근 차단 기술이 등장해도 빅테크는 다른 방식으로 우회를 시도합니다. 스팸 메일이나 해킹처럼 창과 방패의 끝없는 싸움이 계속될 것입니다. 기술적 방어는 시간을 벌 수는 있지만 영원한 해법은 아닙니다.


Q. 법적으로 크롤링을 막을 방법은 없나요?

A. 국내에는 크롤링 자체를 정면으로 규제하는 특별법이 없습니다. 저작권법, 부정경쟁방지법 등 기존 법령으로 사후적 손해배상 청구는 가능하지만 원천적 금지는 어렵습니다. 홈페이지에 무단 전재 금지 문구를 명시하거나 로봇.txt로 크롤링 거부 의사를 표현할 수 있지만, 법적 분쟁 시 권리자의 의사를 입증하는 정도로만 작용합니다.


Q. 크롤링 분쟁을 법원 소송 외에 해결할 방법은 없나요?

A. 데이터 분쟁 조정위원회가 존재하지만, 조정은 판결이 아니므로 합법·위법 여부를 둘러싼 근본적 다툼을 해결하기는 어렵습니다. 결국 법적 확정을 원한다면 법원 소송으로 갈 수밖에 없습니다. 다만 협상력이 약한 중소 기업이나 스타트업은 소송 비용과 시간 부담 때문에 현실적으로 대응하기 쉽지 않습니다.


Q. AI 학습용 데이터가 부족하다는데 유료화하면 AI 발전이 저해되지 않나요?

A. 절대적으로 데이터가 부족한 것은 아니지만, 양질의 데이터를 찾기 어렵고 가격이 불합리하게 책정되는 문제가 있습니다. 지나치게 유료화되면 자본을 가진 빅테크만 양질의 데이터를 확보하고 중소 기업과 연구자는 경쟁에서 뒤처질 위험이 있습니다. 따라서 공공 데이터를 적극 개방하고, 목적별·범위별로 합리적 기준을 세분화해 보호와 개방의 균형을 설계하는 것이 중요합니다.


Q. 글로벌 빅테크의 내로남불 태도를 규제할 방법은 없나요?

A. 구글, 일론 머스크 등이 남의 데이터는 자유롭게 크롤링하면서 자기 데이터는 철벽 방어하는 이중 잣대는 분명 문제입니다. 하지만 인터넷 시장은 승자독식 구조이고, 이미 승자가 된 기업은 그 지위를 유지하기 위해 방어적일 수밖에 없습니다. 국제적 공조를 통한 규제나 자국 내 데이터 주권 보호 법제화, 라이선스 계약 의무화 등 다층적 접근이 필요합니다.



--- 
[출처] AI 크롤링 학습인가 약탈인가, 늘어나는 IP분쟁의 쟁점은?/매일경제TV: https://www.youtube.com/watch?v=jliBAnlnKUo&t=97s