AI 핵심 요약
beta- KT와 고려대가 16일 멀티모달 AI 안전성 벤치마크 'KSAFE-MM'을 공개했다
- KSAFE-MM은 한국 사회 이슈·문화 맥락을 반영한 국내 최대 규모 멀티모달 안전성 평가 데이터셋이다
- 4단계 자동화 파이프라인으로 글로벌 문화권에 확장 가능하며 AI 안전성 연구의 공통 기준을 목표로 한다
!AI가 자동 생성한 요약으로 정확하지 않을 수 있어요.
[서울= 뉴스핌] 정승원 기자= KT는 멀티모달 대형언어모델(MLLM) 벤치마크 'KSAFE-MM'을 공개했다고 16일 밝혔다.
'KSAFE-MM'은 KT와 고려대가 공동 개발했으며 멀티모달(Multimodal: 텍스트·이미지·음성 등 다양한 데이터를 통합처리) AI 모델의 안전성을 한국 사회 이슈와 문화적 맥락을 반영해 평가한다.

'KSAFE-MM'은 글로벌 공통 리스크를 한국 문화 맥락으로 변환한 'KSAFE-MM-G'와 전세 사기, 독도 분쟁과 같은 한국 사회 고유의 이슈를 반영한 'KSAFE-MM-C'로 구성된다.
총 1만4135개의 평가 샘플로 구성돼 국내 최대 규모 한국어 멀티모달 안전성 평가 데이터셋이며 Gemma, HyperCLOVA X 등 12개 글로벌 멀티모달 대형 언어모델(MLLM)을 검증했다.
특히 자동화한 범용 파이프라인(Pipeline)을 제시했다는 점이 특징이다.
기존 벤치마크는 수동 검수 중심이라 비용이 많이 들고 효율도 높지 않다. 하지만 'KSAFE-MM'은 현지 커뮤니티 기반 민감 주제 수집부터 템플릿 기반 쿼리(Query: 사용자가 AI모델에 입력하는 질문) 생성, 합성 이미지 생성, AI의 안전 장치나 윤리 제한을 교묘하게 우회하도록 변형된 탈옥 쿼리(Jailbreak Query) 생성까지 전 과정을 아우르는 4단계 자동화 파이프라인을 구현했다.
이는 특정 문화권 전문가 없이도 현지 특성을 반영한 안전성 벤치마크를 신속하게 구축할 수 있는 표준 프레임워크를 제공해 비용은 낮추고 효율을 높일 수 있다는 의미다.
KT·고려대 공동 연구진은 동일한 파이프라인을 일본어에 적용한 파일럿 실험(JSAFE-MM-C)을 통해 전 세계 어느 문화권에도 즉시 적용 가능함을 실증했다.
연구결과 및 벤치마크는 아카이브(arXiv)와 허깅페이스(Hugging Face)에 공개돼 누구나 활용할 수 있다.
KT는 RAI 전담 조직을 중심으로 안전 리스크 분류 체계 설계, 평가 지표 및 로직 구현 등 연구 전반에 핵심적 역할을 수행했다.
박재형 KT AX미래기술원 프론티어 AI 랩장(상무)은 "안전성 벤치마크의 공개는 단순한 데이터 배포를 넘어 AI 안전성 연구 생태계 전반이 함께 발전할 수 있는 기반을 만드는 일"이라며 "KSAFE-MM이 학계와 산업계에서 한국어·한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리잡길 기대한다"고 말했다.
origin@newspim.com












