[김병필의 인공지능 개척시대] 데이터 찾아 삼만리
입력 2019-12-04 00:21:09
얼마 전 인공지능 연구를 하는 지인을 만났다. 스포츠 하이라이트를 자동으로 생성해 주는 기술을 개발하고 있다고 한다. 야구 중계 동영상 중에서 사람들이 관심을 두는 부분만 자동으로 추출해 주는 것이다. 연구 과정에서 어느 부분이 가장 어려웠는지 물었더니, 대뜸 데이터 수집이 가장 힘들었다고 한다. 하이라이트 영상이야 유튜브에 올라와 있지만, 경기 영상 전체를 구하기가 쉽지 않았다고 한다. 긴 영상을 처리하는 데 기술적 어려움이 있지는 않았을까 하고 질문을 던졌는데, 의외의 답변이었다. 연구자들이 기술 개발을 위해 애써야 할 귀중한 시간을 데이터 수집에 허비하고 있는 것 같아 적잖이 안타까웠다.
이제는 국민 상식이 되었지만, 인공지능을 학습시키기 위해서는 많은 데이터가 필요하다. 그래서 데이터를 어디서 구할 것인지가 항상 문제가 된다. 흔히 보게 되는 광경은 인터넷상의 자료를 내려받아 사용하는 것이다. 하지만 이 경우 저작권 침해 소지가 발생한다. 아무리 인터넷에 공개된 자료라고 하더라도 권리자로부터 동의를 받지 않고 사용해서는 안 되는 것이 원칙이기 때문이다.
그런데 인공지능 학습을 위해서 인터넷 자료를 활용하는 경우까지도 권리자의 동의를 얻어야 할까? 현행 저작권법 논리에 따르면 동의를 얻어야 한다. 하지만 인공지능은 학습 데이터를 인공 뉴런 간 연결 상태를 변경시키는 데에만 이용할 뿐이다. 전통적인 저작물의 이용과는 거리가 멀다. 그런데도 권리자를 일일이 찾아 개별적으로 동의를 얻으라고 하는 것은 사실상 인공지능 개발자에게 인터넷 자료를 이용하지 말라는 것과 다름없다. 인공지능을 고려하지 않고 만들어진 법을 인공지능 시대에 그대로 적용하려고 하니 문제가 발생하는 셈이다.
만약 이러한 소송이 한국에서 제기되었다면 어떻게 되었을까? SNS 업체의 편을 들어주었을 가능성도 적지 않다. 서비스 제공 업체가 데이터베이스 구축을 위해 상당한 투자를 하였으니 이를 보호해 주어야 한다는 논리다. 하지만 권리자를 지나치게 보호하는 입법은 아닌지 의문이 든다.
일본은 이 문제를 법적으로 해결하기 위해 저작권법을 개정하여 올해부터 이미 시행 중이다. 개정 일본 저작권법은 저작물에 표현된 사상이나 감정의 향유를 수반하지 않는 이용에 대해서는 저작권 침해가 아니라고 본다. 즉 인공지능 학습을 위해 빅데이터에서 필요한 정보를 추출하여 분석하는 것을 명시적으로 허용하고 있다.
무릇 권리란 적절한 범위 안에서 인정돼야 하게 마련이고, 법은 권리의 한계를 정해주는 역할을 한다. 우리 저작권법은 저작권의 한계를 적절하게 정하고 있는 것일까? 인공지능 연구자들이 ‘데이터 찾아 삼만리’에 시간을 낭비하지 않도록 저작권의 한계를 설정할 필요가 있다. 저작권법 개정을 위한 진지한 논의가 필요한 시점이다.
김병필 KAIST 기술경영학부 교수
이제는 국민 상식이 되었지만, 인공지능을 학습시키기 위해서는 많은 데이터가 필요하다. 그래서 데이터를 어디서 구할 것인지가 항상 문제가 된다. 흔히 보게 되는 광경은 인터넷상의 자료를 내려받아 사용하는 것이다. 하지만 이 경우 저작권 침해 소지가 발생한다. 아무리 인터넷에 공개된 자료라고 하더라도 권리자로부터 동의를 받지 않고 사용해서는 안 되는 것이 원칙이기 때문이다.
그런데 인공지능 학습을 위해서 인터넷 자료를 활용하는 경우까지도 권리자의 동의를 얻어야 할까? 현행 저작권법 논리에 따르면 동의를 얻어야 한다. 하지만 인공지능은 학습 데이터를 인공 뉴런 간 연결 상태를 변경시키는 데에만 이용할 뿐이다. 전통적인 저작물의 이용과는 거리가 멀다. 그런데도 권리자를 일일이 찾아 개별적으로 동의를 얻으라고 하는 것은 사실상 인공지능 개발자에게 인터넷 자료를 이용하지 말라는 것과 다름없다. 인공지능을 고려하지 않고 만들어진 법을 인공지능 시대에 그대로 적용하려고 하니 문제가 발생하는 셈이다.
최근 미국에서 내려진 판결이 주목할 만하다. 미국의 한 스타트업은 신입 직원의 조기 퇴사 위험성을 예측하는 인공지능을 개발하고자 SNS에 공개된 데이터를 다운로드 받아 사용하였다. 그러자 해당 SNS 사이트는 자신의 동의 없이 데이터를 무단 복제했다고 주장하며 위 스타트업의 접속을 제한해 버렸다. 그런데 미국 법원은 이러한 접속 제한 조치가 부당하다고 판단했다. 인공지능 학습을 위해 공개된 데이터를 내려받아 사용하는 것이 허용된다는 취지다.
만약 이러한 소송이 한국에서 제기되었다면 어떻게 되었을까? SNS 업체의 편을 들어주었을 가능성도 적지 않다. 서비스 제공 업체가 데이터베이스 구축을 위해 상당한 투자를 하였으니 이를 보호해 주어야 한다는 논리다. 하지만 권리자를 지나치게 보호하는 입법은 아닌지 의문이 든다.
일본은 이 문제를 법적으로 해결하기 위해 저작권법을 개정하여 올해부터 이미 시행 중이다. 개정 일본 저작권법은 저작물에 표현된 사상이나 감정의 향유를 수반하지 않는 이용에 대해서는 저작권 침해가 아니라고 본다. 즉 인공지능 학습을 위해 빅데이터에서 필요한 정보를 추출하여 분석하는 것을 명시적으로 허용하고 있다.
무릇 권리란 적절한 범위 안에서 인정돼야 하게 마련이고, 법은 권리의 한계를 정해주는 역할을 한다. 우리 저작권법은 저작권의 한계를 적절하게 정하고 있는 것일까? 인공지능 연구자들이 ‘데이터 찾아 삼만리’에 시간을 낭비하지 않도록 저작권의 한계를 설정할 필요가 있다. 저작권법 개정을 위한 진지한 논의가 필요한 시점이다.
김병필 KAIST 기술경영학부 교수
'로봇, 인공지능, 반도체' 카테고리의 다른 글
[중앙일보] 멘토링 자료, 수학, 인공지능, 교육, (0) | 2019.12.29 |
---|---|
[중앙일보] 멘토링 자료, 창의성, 인공지능, 알고리즘, 아이디어 (0) | 2019.12.29 |
[중앙일보] 멘토링 자료, 인공지능, 사생활 침해, (0) | 2019.12.29 |
[중앙일보] 로봇, 서비스 로봇, 인공지능, 음식 배달 (0) | 2019.12.29 |
[중앙일보] 멘토링 자료, 인공지능, 기계에게 목적을 부여하는 인간 (0) | 2019.11.09 |