IP 분야 이슈리포트 - ‘생성형 인공지능(AI) 개발·활용을 위한 개인정보 처리 안내서’의 주요 내용
‘생성형 인공지능(AI) 개발·활용을 위한 개인정보 처리 안내서’의 주요 내용
법무법인 대륙아주 김정은 변호사1
법무법인 대륙아주 나희수 변호사
1. 들어가며
최근 생성형 AI 기술의 발전으로 생성형 AI의 활용 양상과 범위가 급격히 확대되고 있습니다. 생성형 AI는 그 특성상 필수적으로 대규모의 데이터를 처리·활용하게 되므로, 개인정보의 처리 및 보호와 관련한 다양한 법적 이슈가 제기되고 있습니다.
이에 개인정보보호위원회는 AI 개발, 활용 등 전 과정에서 개인정보가 안전하게 활용될 수 있도록 생성형 AI와 관련된 개인정보 보호 기준, 안전조치, 내부 관리체계 구축 방안 등을 마련하고 있고, 2025. 8. 6. 이러한 내용을 종합적으로 담은 ‘생성형 인공지능(AI) 개발·활용을 위한 개인정보 처리 안내서(이하 ‘본 안내서’라고 합니다)’를 발간하였습니다.
이하에서는 본 안내서의 주요 내용을 설명드리겠습니다.
2. 생성형 AI 개발·활용 단계별 고려사항
가. 목적 설정
범용성을 전제로 하는 생성형 AI의 경우 개인정보 처리 목적을 사전적으로 정하는 것이 어려울 수 있지만, 본 안내서는 기업·기관에 개인정보 보호 원칙을 고려하여 처리 목적을 최대한 구체화할 것을 권장하고 있습니다.
처리 목적을 구체화하였다면, 기업·기관은 개인정보의 수집 출처별(① 공개된 개인정보를 수집하는 방안, ② 기 보유하고 있는 이용자의 개인정보를 재사용하는 방안)로 개인정보 처리의 적법 근거를 확인하여야 합니다.
① 공개된 개인정보를 수집하는 경우
LLM 등 기초모델을 개발하는 등의 경우에는 공개된 개인정보의 처리가 필요할 수 있습니다. 이 경우, 개인정보 처리의 적법 근거로는 정당한 이익 조항(개인정보 보호법 제15조 제1항 제6호)을 고려할 수 있으며, 이를 적용하기 위해서는 목적의 정당성, 공개된 개인정보 처리의 필요성, 이익형량의 세 가지 기준을 모두 충족하여야 합니다.
② 기 보유하고 있는 이용자의 개인정보를 재사용하는 경우
당해 서비스의 개선·고도화를 위한 경우라면 목적 내 이용(개인정보 보호법 제15조 제1항)을, 합리적 관련성이 있는 신규 서비스의 개발을 위한 경우라면 추가적 이용 조항(개인정보 보호법 제15조 제3항)의 적용을 검토할 수 있습니다.
별개의 신규 서비스를 개발하는 경우라면 이는 개인정보의 목적 외 이용(개인정보 보호법 제18조 제2항)에 해당하여 가명처리(개인정보 보호법 제28조의2, 제58조의2) 또는 별도의 적법 근거(동의, 계약 등)를 마련하여야 합니다.
나. 전략 수립
생성형 AI의 개발·활용 전략은 개인정보 안심설계(PbD, Privacy by Design) 원칙을 반영해야 합니다. PbD 원칙이란 제품 및 서비스의 기획, 개발, 활용 전 과정에서 개인정보 보호법 준수를 사전에 보장하는 것을 의미합니다.
본 안내서는 PbD 원칙을 준수하기 위한 개인정보 보호 조치에는 개인정보 처리의 적법성 확보, 가명·익명처리, 개인정보 보호 기본 설정(Privacy by Default), 개인정보 보호 강화기술(차분프라이버시, 동형암호화, 합성데이터 등)이 있다고 안내하고 있습니다. 개인정보 영향평가(PIA, Privacy Impact Assessment) 역시 PbD 원칙을 실현하기 위한 유용한 수단이 될 수 있습니다.
본 안내서는 LLM의 개발·활용 방식을 ① 서비스형 LLM, ② 기성 LLM 활용, ③ 자체 개발로 구분하여 전략 수립에 관한 유의사항을 안내하고 있습니다.
서비스형 LLM은 LLM 서비스의 개인정보 처리 범위·보관·재이용 및 국외이전 여부를 사전에 검토하고, 기업용 API 라이선스 및 개별 계약(서비스 이용계약, 데이터 처리 부속서)을 통해 높은 수준의 개인정보 보호 요구사항을 확보할 필요가 있습니다.
기성 LLM을 활용하는 경우에는 학습 데이터의 출처를 확인할 수 있는 모델을 활용하는 것이 바람직합니다. 아울러, 모델카드, 기술문서 등을 통해 내장된 안전조치의 수준을 검토하고, 필요시 추가적인 보완조치를 취하여 리스크를 최소화하는 것이 권장됩니다.
자체 개발의 경우, AI 수명주기 전 단계에서 개인정보 리스크를 식별하고, 이에 따른 기술적·관리적 안전조치 등 리스크 경감을 위한 조치를 마련하여야 할 것입니다.
다. AI 학습 및 개발
생성형 AI의 학습 및 개발 단계에서의 개인정보의 보호를 위해서는 데이터, 모델, 시스템 측면에서 다양한 요소를 종합적으로 고려하여야 합니다.
먼저 데이터 수준에서는 AI 모델의 성능이 학습데이터의 품질에 좌우되는 만큼, 데이터 오염, 편향성, 부정확성 등에 대한 체계적인 대응이 중요합니다. 공개된 데이터를 수집할 경우에는 이용약관 등에 학습 배제, 스크래핑 거부 조항이 있거나, robots.txt, CAPTCHA 등 기술적 차단 조치가 적용된 콘텐츠는 학습에서 제외해야 하며, 수집된 데이터는 가능한 한 조기에 가명·익명 처리하는 것이 바람직합니다. 특히 주민등록번호 등 고유식별번호, 계좌정보, 신용카드번호 등은 AI 학습 전 반드시 삭제하거나 가명·익명화해야 합니다. AI 학습에 합성데이터(가상데이터)를 활용하는 방안도 개인정보 보호에 관한 법적 제약을 피하면서 모델 성능을 유지할 수 있는 현실적인 대안이 될 수 있습니다. 또한 차분프라이버시나 연합학습 등 개인정보 강화기술(PET, privacy enhancing technology)을 적용하는 것도 권장됩니다.
모델 수준에서는 미세조정(fine-tuning)이나 정렬(alignment) 기법을 이용한 추가적인 안전조치가 필요합니다. 그 예시로는 SFT(Supervised Fine-tuning), RLHF(Reinforcement Learning from Human Feedback), DPO(Direct Preference Optimization) 등이 있으며, 최근에는 GRPO(Group Relative Policy Optimization)와 같은 고도화된 학습방식이 주목받고 있습니다.
아울러, 최근에는 모델에 대한 적대적 공격을 통해 개인정보를 추출하는 사례가 확인되고 있는바, 이에 관하여 차분프라이버시 기반 경사하강법(Differentially Private Stochastic Gradient Descent, DP-SGD), 지식증류(knowledge distillation) 기술을 프라이버시 분야에 접목하여 일종의 PET 기술로 활용하는 방안 등 보완책이 논의되고 있습니다.
마지막으로 시스템 수준에서는 생성형 AI의 배포와 운영 과정에서 개인정보 유출이 발생할 수 있으므로, 접근제어, 입력·출력 필터링 등 시스템 수준에서의 보호 체계 구축이 필요합니다.
최근에는 검색증강생성(RAG, Retrieval-Augmented Generation), AI 에이전트(agent)가 생성형 AI의 성능 향상을 위하여 활용되고 있는데, 이러한 기법을 사용하는 경우 개인정보 유·노출 리스크가 커질 수 있습니다. 따라서 데이터 전처리, 필터링 등 안전조치를 적용하여 이에 대응할 필요가 있습니다.
궁극적으로는, 생성형 AI의 개발 과정에서 학습·평가를 병렬적으로 설계하여 안전성을 지속적으로 점검·보완하는 피드백 루프(feedback loop)가 내재화되어야 합니다.
라. 시스템 적용 및 관리
우선 배포 전에는 AI 모델·소스코드·학습데이터를 종합적으로 검토하여 정확도와 안전성을 확인하는 등 프라이버시 리스크를 점검하여야 합니다. 기업·기관은 이를 토대로 생성형 AI의 사용 목적, 금지 행위 등을 ‘허용되는 이용방침(AUP, acceptable use policy)’ 등에 명시·공개함으로써, 생성형 AI의 오·남용을 예방하고 이를 위반하는 경우 서비스 제한 등 제재 조치의 근거로 삼을 수 있습니다.
시스템 운영 과정에서 정보주체의 개인정보 열람, 정정, 삭제 등의 요청이 있는 경우에는 시간·비용·기술적 측면에서 합리적으로 실현 가능한 범위에서 정보주체의 권리를 보장할 수 있는 방안을 마련할 필요가 있습니다. 다만, 전통적인 권리행사 보장이 어려운 경우 그 사유를 정보주체에게 알리고 대체 수단을 통해 정보주체의 요구에 응하는 것을 고려할 수 있습니다.
나아가, 정보주체의 권리를 충분히 보장하기 위해서는 데이터셋 수집 사실, 주요 출처, 처리 목적 등과 함께 AI 시스템의 개인정보 처리 과정을 개인정보 처리방침 등에 투명하게 공개하는 것이 중요하다고 할 것입니다.
마. AI 프라이버시 거버넌스 체계
기업·기관은 개인정보보호책임자(CPO)를 중심으로 생성형 AI의 기획 단계부터 배포·관리에 이르기까지 개인정보의 적법성·안전성을 총괄하는 체계를 마련해야 합니다.
CPO는 개인정보 영향평가, 레드티밍(AI시스템이 어떤 위험을 일으킬 수 있는지 사전에 점검하는 일종의 모의 공격 테스트) 등 도구를 활용하여 프라이버시 리스크를 주기적으로 식별·완화하고, 필요한 안전조치를 시행해야 합니다.
또한 CPO는 프라이버시에 관한 중대한 취약점은 이사회 등 최고 의사결정기구에 적시에 공유하여야 하며, 최고인공지능책임자(CAIO), 정보보호최고책임자(CISO) 등과 긴밀히 협력하고, 개인정보 처리가 수반되는 생성형 AI 개발·활용에 적극적으로 관여할 수 있는 권한과 역할을 보장받아야 합니다.