정부, AI 학습용 공개데이터 활용 기준 제시

[한국정경신문=변동휘 기자] 정부가 생성형 AI(인공지능) 모델 개발 시 활용되는 인터넷상 공개 데이터를 안전하게 처리할 수 있도록 기준을 마련했다.

18일 관련업계에 따르면 개인정보보호위원회(이하 개인정보위)는 17일 ‘AI 개발·서비스를 위한 공개된 개인정보 처리 안내서’를 마련했다.

공개 데이터는 인터넷상 누구나 합법적으로 접근할 수 있는 데이터로 챗GPT 등 생성형 AI 개발을 위한 학습데이터의 원료로 쓰인다. AI 기업들은 커먼크롤, 위키백과, 블로그, 웹사이트 등에 있는 공개 데이터를 웹 스크래핑 등의 방식으로 수집해 학습데이터로 활용하고 있다.

공개 데이터에는 주소, 고유식별번호, 신용카드번호 등 여러 개인정보가 포함될 수 있어 국민의 프라이버시가 침해될 우려가 컸다. 하지만 현행 개인정보 보호법에는 공개된 개인정보 처리에 적용될 수 있는 명확한 기준이 없었다. 이에 공개된 개인정보 수집‧활용의 법적 기준을 명확화하고 적정 안전조치에 대한 최소한의 기준을 제시하는 안내서를 마련했다는 것이 개인정보위 측의 설명이다.

개인정보위는 지난해 8월 ‘AI 시대 안전한 개인정보 활용 정책방향’을 발표한 이후 AI 프라이버시 민관 정책협의회를 중심으로 안내서에 관한 논의를 진행해왔다. 동시에 학계·산업계·시민단체와도 소통하며 광범위한 의견수렴을 병행했다.

특히 국제적으로 상호운용성 있는 기준을 마련하는 데 중점을 뒀다. 유럽연합(EU), 미국 등 해외 주요국에서도 최근 공개 데이터 포함한 AI·데이터 처리 전반에 대해 개인정보 보호 규율체계를 형성해 나가고 있는 점을 고려했다는 것이다.

먼저, 개인정보 보호법 제15조에 따른 ‘정당한 이익’ 조항에 따라 공개된 개인정보를 AI 학습·서비스 개발에 활용할 수 있다는 점을 명시했다. 해당 조항이 적용되기 위해서는 ▲AI 개발 목적의 정당성 ▲공개된 개인정보 처리의 필요성 ▲구체적 이익형량 등 3가지 요건을 충족해야 한다.

또한 AI 기업이 ‘정당한 이익’을 근거로 공개된 개인정보를 처리하기 위해 고려할 수 있는 기술적‧관리적 안전성 확보조치와 정보주체 권리보장 방안을 구체적으로 안내했다.

다만 빠른 기술변화 등을 고려해 세부적 안전조치 등을 유연하게 도입·시행할 수 있도록 했다. AI 기업이 모든 안전조치를 의무적으로 시행해야 하는 것은 아니며, 순기능과 부작용, 기술 성숙도를 고려해 기업의 특성에 맞는 최적 조합을 스스로 선택하여 이행할 수 있다. 관련해 개인정보위는 지난 3월 AI 사전실태점검을 통해 파악한 주요 LLM 사업자의 실제 안전조치 이행사례를 안내, 최적 조합 판단의 참고 사항으로 제시했다.

마지막으로 학습데이터 처리와 관련해 기업과 개인정보보호책임자(CPO)의 역할을 강조했다. CPO를 구심점으로 프라이버시 담당조직을 자율적으로 구성·운영하고 안내서에 따른 기준 충족 여부를 평가해 그 근거를 작성‧보관하도록 권고한 것이다. 성능 개선 등 중대한 기술적 변경이나 개인정보 침해 발생 우려 등 위험 요인을 주기적으로 모니터링하고, 침해사고 발생 시 신속한 권리구제 방안도 마련하도록 했다.

개인정보위는 추후 관련 법령 제·개정과 AI 기술발전 추이, 해외 규제정비 동향 등을 고려해 안내서를 지속 업데이트할 예정이다. 이용자 개인정보의 적법한 처리 근거와 기준 등도 학계, 산업계, 시민단체 등의 의견수렴을 거쳐 구체화해 나갈 예정이다. 기업과 수시로 소통하며 기술발전과 시장상황을 모니터링하고, 이를 토대로 개인정보 보호법을 시대상에 맞게 정비하는 작업도 추진한다.

민관 정책협의회 공동의장인 LG AI연구원 배경훈 원장은 “이번 안내서 공개는 인공지능(AI) 기술 발전과 개인 데이터 보호를 동시에 달성하기 위한 중요한 진전이자 첫걸음”이라며 “공개 데이터에서의 개인정보 처리 기준을 제공함으로써 기술 개발상 법적 불확실성이 낮아졌고, 이는 곧 국민들이 신뢰할 수 있는 데이터 처리 환경에서 AI 기술의 혜택을 누릴 수 있는 기반이 될 것”이라고 전망했다.

고학수 개인정보위 위원장은 “AI 기술 진보가 빠르게 이루어지고 있지만 개발의 핵심 관건인 공개 데이터 학습이 보호법에 비춰 적법하고 안전한지 여부는 공백인 상황이었다”며 “국민이 신뢰하는 AI·데이터 처리 관행을 기업 스스로 만들어 나가고, 이렇게 축적된 모범사례가 안내서에 지속 반영될 수 있길 기대한다”고 말했다.

한국정경신문 변동휘 기자 kkobugi89021@naver.com

변동휘 기자의 기사 더보기

전체 메뉴

정부, AI 학습용 공개데이터 활용 기준 제시