중국 인공지능 딥시크, 개인정보 유출 논란에 대응하기 위해선

등록일 2025년03월05일 16시30분 URL복사 기사스크랩 프린트하기 이메일문의 쪽지신고하기
기사글축소 기사글확대 트위터로 보내기 네이버 밴드 공유


 

중국 신생기업이 출시한 인공지능 모델 ‘딥시크(DeepSeek)’에 대한 개인정보 유출 가능성이 제기되며 국제적으로 논란이 되고 있다. 딥시크는 사용자의 대화나 입력 데이터의 분석을 통해 사용자에게 다양한 정보를 제공하며 지속적인 학습을 통해 점차 성능을 향상하는 인공지능 모델이다. 기본 검색 기능부터 복잡한 데이터 처리까지 수행할 수 있는 첨단 기술을 탑재했으나 일부 국가와 기관에선 보안을 이유로 딥시크의 사용을 금지하거나 제한하는 조치를 취했다. 특히 전문가들은 이 모델이 방대한 데이터를 수집할 수 있단 점에서 보안이 취약하다고 경고한다. 지난 2월 한국에서도 △공정거래위원회△국방부△금융기관△외교부가 딥시크 접속을 차단한 사례가 있다. 딥시크를 둘러싼 개인정보 유출 논란에 대해 박준형 우리 학교 Language & AI 융합학부 교수와 함께 알아보자.

 

 

Q1. 딥시크의 핵심 기술은 무엇이며 기존 인공지능 모델과의 차이점은 무엇인가요?   

딥시크의 핵심은 우리가 흔히 *LLM으로 부르는 인공지능 모델을 효율적으로 학습시키는 것입니다. △ChatGPT(OpenAI) △Gemini(Google) △Grok(xAI) 등 기존 LLM들은 한 번의 학습에 수천억 원 수준의 비용이 필요한 것으로 추산됐지만 딥시크는 인공지능 학계에 알려진 다양한 효율적 학습 방식을 적용함으로써 이 비용을 수십억 원 수준까지 낮추는 데에 성공했습니다. 그리고 모델의 학습 과정을 모두 공개함으로써 기존에 베일에 가려졌던 LLM의 성공적 학습 방법을 학계 및 산업계에 공유해 큰 파장을 일으켰습니다.

 

Q1-1. 딥시크의 데이터 수집 방식은 기존 인공지능 모델과 어떤 차이가 있으며 개인정보 보호 측면에서 논란이 제기되는 이유는 무엇인가요? 

딥시크의 개인정보 보호 논란이 제기된 이유는 딥시크가 서비스 제공과는 직접적 관련이 없는 개인정보를 과도하게 수집했기 때문입니다. 또한 이렇게 수집한 데이터가 어떻게 암호화돼 안전하게 관리되는지 투명한 공개가 부족해 개인정보 유출 우려와 더불어 목적 외 용도로의 활용 가능성에 대한 우려를 불러일으켰습니다. 데이터 서버의 보안성 역시 허술한 것으로 보고돼 사용자가 민감정보 또는 기밀정보를 입력할 경우 이것이 외부 공격자에게 유출될 가능성에 대한 우려도 존재합니다.

 

Q2-1. 딥시크가 실제로 과도한 데이터를 수집한 사례가 보고된 적이 있나요?

가장 유명한 사례 중 하나가 사용자의 키보드 입력 리듬(Rhythm)과 패턴(Pattern)을 수집한단 것입니다. 사실 이러한 데이터가 딥시크에서 제공하는 대화 및 지능 서비스와 어떠한 연관이 있는지 구체적으로 떠오르지 않습니다. 그렇기에 명백히 개인을 식별할 수 있는 데이터로써 서비스 제공과 관련이 없다면 함부로 수집해선 안 됩니다.

 

Q3. 최근 딥시크가 대규모 사이버 공격을 받으면서 보안 체계의 취약성이 드러났습니다. 딥시크의 주요 보안 위협 요소는 무엇이며 이러한 위협이 실제로 어떤 피해를 초래할 수 있나요?

딥시크의 보안 취약성에 대해 자세히 설명하긴 어렵지만 딥시크가 데이터 탈취에 취약한 것으로 다수의 기관으로부터 보고되고 있습니다. 특히 대부분의 LLM 서비스는 사용자와의 대화 내역을 저장하고 이를 모델 개선에 활용하는 것으로 알려져 있습니다. 이때 LLM에 입력한 주요 개인정보들이 서비스 제공자의 서버 또는 모델 그 자체에 저장되며 데이터 유출 가능성이 존재합니다. 예를 들어 보안 취약점을 통해 데이터 서버를 해킹(Hacking)하면 사용자가 대화 과정에서 입력한 개인정보나 기밀정보를 직접 탈취하는 방식이 있습니다. 그리고 LLM의 학습 데이터를 기억하려는 성질 때문에 LLM과의 대화 중에 LLM이 제삼자의 개인정보를 말하도록 유도하는 것이 가능합니다. 모두 실제로 CharGPT에서 일어났던 유출 사고며 딥시크에도 같은 종류의 위험이 존재한다고 볼 수 있습니다.

 

Q3-1. 딥시크는 이러한 보안 위협에 어떻게 대응하고 있으며 다른 인공지능 기업들과 비교했을 때 차이점은 무엇인가요?

세상에 완벽히 안전한 시스템은 없기에 딥시크 또한 보안성 확보에 계속해서 최선의 노력을 기울여야 합니다. 아울러 이런 노력을 다른 기업들처럼 투명하게 공개해야 하지만 이런 점에선 딥시크가 아직 미비한 것으로 알려져 있습니다. 

 

Q4. 유럽연합(EU)의 **GDPR과 같은 강력한 개인정보 보호 규제가 인공지능 모델 운영에 미치는 영향은 무엇인가요?

현재 대부분의 인공지능 모델은 클라우드(Cloud) 방식으로 제공되고 있습니다. 강력한 계산 장비를 갖춘 서버를 구축하고 사용자의 입력 데이터를 그 서버로 송신해 처리한 후 다시 수신하는 방식입니다. 이러한 접근법은 개인 데이터가 사용자의 기기 밖으로 이동하기 때문에 태생적으로 개인정보 유출의 우려가 있습니다. 강력한 개인정보 보호 규제는 현 클라우드 방식의 인공지능 서비스 제공에 제동을 걸 것이며 ***온디바이스(On-Device) 형태로 사용자의 기기 내부에서 구동할 수 있는 초소형 인공지능 기반 서비스로의 전환을 점진적으로 유도할 것으로 예상합니다. 

 

Q5. 강력한 개인정보 보호 규제가 기술 발전에 어떤 긍정적부정적 영향을 미치며 딥시크 사용 제한이 국내 인공지능 산업 발전에 미칠 영향은 무엇인가요?

안전한 인공지능 기술의 개발을 위해 개인정보 보호 규제는 필수적인 요소입니다. 다만 현존하는 인공지능 모델 성능의 원천은 90% 이상 데이터로부터 나온다고 볼 수 있어 개인정보 보호 규제는 인공지능 모델 자체의 성능을 떨어뜨리거나 향후 인공지능 모델의 개인화에 있어서 한계로 작용할 수 있습니다. 그러나 이러한 규제책은 안전성과 고성능을 동시에 달성할 수 있는 기술로의 발전으로 이어질 것으로 생각하고 저를 비롯한 많은 인공지능 연구자들이 긍정적으로 평가하고 있습니다. 이러한 내용은 국내외 인공지능 산업을 막론하고 동일하게 적용되지 않을까 생각합니다.

 

Q6. 국내에서 인공지능 모델의 개인정보 보호를 위한 현행 규제 체계로는 어떤 것이 있으며 이것이 지닌 한계는 무엇일까요?

현행 국내 개인정보 보호 체계는 기존 개인정보 보호법 등을 통해 작동하고 있는 것으로 알고 있습니다. 그러나 이는 인공지능의 특성을 고려하지 못한 미흡한 규제라고 생각합니다. 종종 LLM 모델의 데이터 수집 과정에서 저작권 및 개인정보 보호 침해와 같은 논란이 있었으며 인공지능은 앞서 답변과 같이 그 자체로 개인정보를 유출할 수 있는 새로운 경로가 되고 있습니다. 우리나라에서도 인공지능 기반의 챗봇이 개인정보를 유출해 크게 논란이 됐던 것과 같이요. 이미 미국과 EU에선 인공지능의 특수성을 고려한 개인정보 보호 규제를 수년 전부터 준비해 발표했으며 우리나라 또한 준비가 시급한 상황입니다.

 

Q6-1. 앞선 질문에서 언급한 한계점을 보완하기 위한 현실적인 개선 방안에는 어떤 것이 있을까요?

우선 미국과 EU에서 준비 중인 인공지능 관련 법률의 내용을 검토해 우리나라 인공지능 산업에 적용할 수 있도록 해야 합니다. 그리고 인공지능과 보안 등 다양한 분야의 전문가들을 포함해 인공지능법을 지속적으로 검토하고 개선하는 작업을 시작해야 합니다.

 

Q7. 딥시크가 국제 시장에서 성장하기 위해서 해결해야 할 보안 및 규제 문제는 무엇인가요?

가장 중요한 문제는 투명성이라고 할 수 있습니다. 서비스 제공 과정에서 어떤 데이터를 수집하고 활용하는지 명백히 공개해야 하며 이러한 내용이 현존하는 인공지능 관련 법에 위배되지 않도록 관리해야 할 것입니다.

 

Q8. 정부와 기업이 인공지능 모델의 개인정보 보호를 강화하면서도 기술 발전을 촉진하기 위해 필요한 기술적정책적 방안이 무엇인가요?

인공지능 개발 과정의 개인정보 보호와 관련해 다양한 기술적 연구가 진행되고 있습니다. 기업은 단순히 성능에 집중하는 것이 아니라 안전성과 관련된 최신 기술도 적극적으로 도입해야 할 것입니다. 또한 정책적 방안으로 정부는 인공지능 관련 법 제정 등을 포함한 다양한 정책과 규제를 통해 안전한 기술 확산을 유도해야 할 것입니다.

 

 

*LLM(Large Language Model): 거대 언어모델

**GDPR(General Data Protection Regulation): 유럽연합(EU)의 일반 개인정보 보호 규정으로 2018년 5월 25일부터 시행된 강력한 데이터 보호 및 개인정보 보호법

***온디바이스(On-Device) 인공지능: 서버나 클라우드에 연결할 필요 없이 모바일 기기 자체적으로 정보를 처리할 수 있는 인공지능

 

 

윤고은 기자 10goeun@hufs.ac.kr

윤고은기자 이기자의 다른뉴스
추천 0 비추천 0
유료기사 결제하기 무통장 입금자명 입금예정일자
입금할 금액은 입니다. (입금하실 입금자명 + 입금예정일자를 입력하세요)
관련뉴스 - 관련뉴스가 없습니다.

가장 많이 본 뉴스

기획 심층 국제 사회 학술

포토뉴스 더보기

기부뉴스 더보기

해당섹션에 뉴스가 없습니다

현재접속자 (명)