사건 개요
2025년 9월 중순, 자칭 국제 해킹조직인 ‘스캐터드 랩서스(Scattered Lapsus$)’를 내세운 텔레그램 채널에서 "SK텔레콤 고객 2,700만 명의 개인정보를 탈취했다"는 주장과 함께 데이터 일부 샘플이 공개되며 논란이 촉발되었습니다. 채널 운영자는 데이터 판매 조건과 협박성 메시지를 덧붙이며 파문을 일으켰습니다.
SK텔레콤의 입장
SK텔레콤은 해당 주장에 대해 즉각적으로 "사실이 아니다"라며 전면 부인했으며, 허위사실 유포에 대한 법적 대응을 예고했습니다. 회사 측은 관련 수사기관과 협력해 진위 여부를 철저히 확인하겠다고 밝혔습니다.
언론·보안업계의 초기 검증
보안전문매체와 보안업계 연구자들은 공개된 샘플 데이터를 분석한 결과 여러 비정상적 패턴(실재하지 않는 주소, 비현실적 주민등록번호 형식, 테스트용 도메인 사용 등)이 포착되어 "실제 유출된 진짜 DB가 아닐 가능성"을 제기했습니다. 일부 전문가는 공개 샘플이 생성형 AI(large language models 등)로 만들어진 '페이크 데이터'일 가능성이 높다고 결론 내렸습니다.
왜 이 사건이 더 민감한가?
이번 사건이 특히 주목받는 이유는 SK텔레콤이 올해 초 대규모 유심(USIM)·SIM 관련 정보 유출 사건을 겪은 배경이 있기 때문입니다. 이미 큰 유출 사고를 겪은 기업에 대한 추가 협박·공개 주장은 소비자 불안과 규제기관의 감독 강화로 곧바로 연결됩니다.
공개 데이터의 기술적 분석 — 'AI 생성 가짜'로 결론난 근거
샘플에서 발견된 비정상적 패턴들
보안 전문가들이 공개 샘플에서 공통적으로 지적한 문제들은 다음과 같습니다.
- 존재하지 않는 도로명·행정구역 표기: 실제 지명과 불일치하거나 통상적 표기법과 다름.
- 전화번호·주민등록번호 패턴의 규칙성: 한국의 번호 체계나 검증 알고리즘(예: 주민등록번호 체크섬)을 만족하지 않는 조합이 다수.
- 이메일 필드에 '@example.com' 등 테스트·샘플용 도메인이 반복 사용됨 — 훈련 데이터의 예시 포맷을 그대로 복제한 흔적.
이러한 특징들은 단순한 임의 조작이 아닌 '패턴 학습 기반 생성'의 흔적과 일치한다고 분석됩니다.
생성형 AI(LLM)가 만드는 데이터의 한계
생성형 AI는 대량의 텍스트·데이터에서 통계적 패턴을 학습해 '그럴듯한' 출력을 만들어냅니다. 하지만 실제 데이터베이스가 가진 필드 간의 엄격한 관계(예: 주민등록번호의 연월일·성별 정보와 체크섬의 일치, 특정 지역별 우편번호-행정구역 매칭 등)를 일관되게 재현하지는 못합니다. 또한 샘플링·토크나이제이션 과정에서 훈련용 예시(예: example.com)가 과도하게 반영될 수 있어 '테스트용 주소·도메인'이 반복 등장하게 됩니다. :
실제 해킹 데이터와의 차이점 — 전문가 관점
실제 시스템 탈취로 얻어진 데이터는 일반적으로 다음과 같은 특성을 가집니다.
- 필드 간 정합성: 주소, 전화번호, 등록번호, 가입자 이력 등 여러 필드가 실제 사용자별로 일관되게 연결된다.
- 데이터베이스 특유의 넌리플레이스(중복·포맷·빈값 등) 패턴: 로그·타임스탬프·ID 인덱스 등 시스템 흔적이 남음.
- 랜덤성과 누락 패턴: 실제 수집 과정에서 발생하는 결측치·포맷 오류 등은 AI 출력과 다른 통계적 특징을 보임.
반면 이번에 공개된 샘플은 '정합성의 부족'과 '정형화된(규칙적인)값'이 동시에 관찰되어 실제 유출 데이터의 특성과 어긋난다고 평가받았습니다.
검증을 위한 기술적 절차(요약)
보안진단팀이 권장하는 샘플 검증 절차는 다음과 같습니다.
- 샘플의 해시·메타데이터 비교: 공개된 파일의 해시와 내부 로그·백업의 해시를 대조.
- 필드 정합성 검사: 주민등록번호·전화번호 등 포맷/체크섬 알고리즘 적용으로 유효성 검증.
- 주소·우편번호 교차검증: 공개 샘플의 주소를 공적 DB(도로명주소 등)와 대조.
- 시간·로그 패턴 분석: 실제 유출이라면 남아있을 접속·추출 로그와의 연관성 확인.
이러한 절차를 통해 '실제 추출한 데이터인지' 또는 '생성형 모델이 만든 모조품인지'를 높은 확률로 판별할 수 있습니다.
텔레그램·다크웹을 통한 '공포 마케팅'의 확산과 대응 방안
텔레그램·다크웹 거래의 현실
최근 다크웹·텔레그램 채널을 통한 불법 거래는 이전의 토르 기반 다크웹보다 접근성이 쉬워졌고, 이로 인해 거래 규모·참여자 연령층이 빠르게 확산하였습니다. 한국 내 수사 실적을 보면 텔레그램 경유 마약·불법 데이터 거래에서 20~30대가 다수 적발되는 등 범죄의 저연령화·일반화가 관찰됩니다. 공격자들은 텔레그램의 익명성·채널 기능을 이용해 가짜 위협을 퍼뜨리고, 실제 협박·사칭으로 금전·접촉을 유도하는 사례를 반복하고 있습니다.
누가 이득을 보는가 — '협박의 경제' 분석
진위를 떠나 '유출 주장' 자체만으로도 얻는 효과가 있습니다.
- 즉각적인 공포 확산: 고객 불안, 브랜드 신뢰 하락을 유도.
- 사회적 파급을 이용한 협박·사칭: 기업·개인 모두에게 금전적·심리적 압박을 가하여 응답을 유도.
- 심지어 가짜 데이터로도 인증 비용(검증·법적대응)을 발생시켜 피해자(기업)의 자원 소모를 유발.
공격자는 실제 해킹 없이도 '정보 위조→협박→금전적 이득'이라는 낮은 비용-높은 효과 경로를 추구할 수 있습니다.
정부·수사당국의 대응과 기업의 역할
이번 사안과 관련해 정부 당국은 진위 확인을 위한 조사에 착수했으며, 관련 텔레그램 채널·유통 경로 추적, 불법 계정·거래소 계좌 추적 등을 병행하고 있습니다. 기업 측은 (1) 사실관계의 신속한 공개, (2) 고객 보호 조치(예: 비정상 로그인 차단·번호 이동 제한 등), (3) 법적·수사기관 협조를 통해 불필요한 루머 확산을 막는 노력이 필요합니다.
일반 이용자·기업을 위한 실질적 권고
개인(이용자)
- 의심 메시지·링크는 클릭하지 말고, 출처가 확인되지 않은 제안에는 응답하지 마십시오.
- 통신사·금융사에서 의심스러운 인증·번호이동 알림을 받으면 즉시 공식 채널로 문의하세요.
- 2단계 인증(2FA) 활성화, 비밀번호 주기적 변경, 알 수 없는 이체 요청에 대한 경계 유지.
기업(사업자)
- 샘플 데이터가 유포될 경우, 내부 로그·백업 비교를 통한 기술적 검증을 신속히 수행하세요.
- 법무·PR·보안팀 간 핫라인을 구축해 사실관계를 일원화하고, 과장·오보가 확산되는 것을 빠르게 차단하세요.
- 고객 통지 시에는 과장된 문구 사용을 피하고, 구체적 조치(고객이 해야 할 행동)를 명확히 안내하세요.
맺음말 — '사이버 협박'의 진화에 대비하기
이번 사례는 '실제 유출'과 'AI 기반 위조'를 결합한 새로운 형태의 사이버 범죄 수법을 보여줍니다. 기술의 발전은 동시에 범죄의 수법을 진화시키므로, 기업과 개인 모두가 기술적 검증 역량과 신속한 커뮤니케이션 체계를 갖추는 것이 무엇보다 중요합니다. 보안업계와 규제당국, 통신사업자 간 협력이 강화되어야만 잘못된 정보로 인한 사회적 혼란과 불필요한 피해를 줄일 수 있습니다.