• 태양광 잠재량부터 공정위 의결서까지… AI 비즈니스 창출 위한 4대 분야 핵심 자산 공급
  • 개인정보 노출 위험 원천 차단한 ‘합성데이터’ 가공 기법 도입… 안전한 데이터 생태계 구축
대한민국이 글로벌 인공지능(AI) 무대에서 독보적인 경쟁력을 확보하기 위해 국가가 보유한 핵심 공공데이터의 빗장을 과감히 열어젖힌다.

대한민국이 글로벌 인공지능(AI) 무대에서 독보적인 경쟁력을 확보하기 위해 국가가 보유한 핵심 공공데이터의 빗장을 과감히 열어젖힌다. 행정안전부는 국내 테크 기업들의 인공지능 모델 고도화를 지원하고 혁신 신산업 생태계를 조성하기 위해, 경제적 파급효과와 민간 수요가 입증된 ‘AI·고가치 공공데이터 TOP 100’ 프로젝트를 수립하고 올해 개방할 25개 핵심 데이터의 세부 사업 계획을 확정해 본격적인 서비스에 돌입한다고 밝혔다.

이번 데이터 개방 조치는 일회성 공급에 그치던 기존의 공공데이터 정책에서 탈피해, 철저히 민간 시장의 비즈니스 수요를 반영했다는 점에서 전례 없는 전환점으로 평가받는다. 정부는 지난해 800여 개에 달하는 민간 IT 기업을 대상으로 심층 방문 조사를 진행하고 대국민 온라인 수요 조사를 병행하여 총 3,280여 개의 방대한 후보 과제를 도출했다. 이후 데이터의 인공지능 학습 친화성, 국가 전략 과제와의 연계성, 산업적 파급 효율 등을 기준으로 민간 전문가들의 정밀한 심의를 거쳐 최종 100개의 과제를 엄선했다. 정부는 지난해 이미 10개의 고가치 데이터를 시범 개방한 바 있으며, 올해 25개를 시작으로 2027년 30개, 2028년 35개 등 총 100개 과제를 매년 단계적으로 시장에 공급해 공공데이터포털을 통해 누구나 접근할 수 있도록 순차 배포할 방침이다.

올해 베일을 벗는 25개 데이터셋은 신산업, K-문화, 재난안전, 인공지능 학습 등 민간 경제 활성화와 직결되는 4대 전략 분야로 압축된다. 신산업 부문에서는 한국에너지기술연구원이 보유한 '재생에너지 기술잠재량 데이터'가 전격 공개된다. 태양광과 풍력을 비롯해 지열, 바이오매스 등 총 7종의 친환경 에너지 발전 잠재량을 정밀한 위경도 좌표 및 행정구역 기준으로 제공하여 친환경 에너지 스타트업들의 사업성 분석과 민간 투자를 유도한다. K-문화 영역에서는 생성형 AI의 치명적인 문제점인 역사적·문화적 왜곡 현상을 방지하기 위해 한국문화정보원이 철저한 고증을 거친 전통 단청 문양의 3D 모델링 및 유물의 시대별 코드 데이터를 공급해 게임 및 미디어 콘텐츠 산업의 도약을 돕는다.

산업계에서 가장 주목하는 대목은 공정거래위원회와 농촌진흥청 등이 제공하는 고품질 AI 전용 학습데이터다. '공정거래위원회 의결서 AI 학습데이터'는 복잡한 법 위반 사건의 사실관계와 판단 논리, 관계 법령 조항을 인공지능이 즉각 연산할 수 있도록 세밀하게 구조화한 자료다. 이 데이터가 시장에 풀리면 기업들이 계약 체결 시 법적 리스크를 실시간으로 자가 진단하는 리걸테크 서비스가 비약적으로 발전할 것으로 전망된다. 또한 농촌진흥청의 '농작물 병해충 진단 데이터'는 성충과 유충의 형태적 특성을 담은 고해상도 이미지를 상세 설명과 결합해 제공하므로, 농가의 병해충 오진율을 낮추고 적기 방제를 가능하게 해 스마트 팜 생산성을 대폭 끌어올릴 것으로 기대된다.

정부는 민간의 데이터 수요를 적극 충족하는 동시에 공공 데이터 활용의 고질적 걸림돌이었던 개인정보 침해 문제를 기술적으로 완전하게 해결했다. 가족·청소년 분야의 전화 상담 내역이나 운수종사자 자격 관리 데이터처럼 민감한 개인 정보가 섞여 있는 자료의 경우 원본의 통계적 분포와 내부 구조적 특성만을 고스란히 복제한 '합성데이터(Synthetic Data)' 기법을 적용했다. 이는 실제 인물의 식별 정보를 완벽히 차단하면서도 인공지능 학습용으로는 원본과 동일한 효율을 내는 모의 데이터 가공 기술이다. 정부 정책 당국은 이번 고가치 데이터 개방 체계를 기반으로 국내 인공지능 기업들이 데이터 굶주림 현상을 해소하고 글로벌 기술 패권 경쟁에서 우위를 점할 수 있도록 AI 친화적 공공 데이터 관리 표준을 지속적으로 정립해 나갈 계획이다.