보도자료

국민과 함께 채운 데이터댐 본격개방

작성자 : 관리자 작성일 : 2021-06-21

 

국민과 함께 채운 데이터댐, 본격 개방

 

 - 6 18일부터 한국어 음성, 건강관리, 자율주행 170, 인공지능 중심지(aihub.or.kr) 개방

 

 - 인공지능·데이터 기업, 대학, 병원 674 기업·기관과 4만여명 국민 참여

 

 - 혁신 창출·확산을 이끌 인공지능 데이터 활용협의회 출범

 

 - 9월까지 이용자 참여를 통해 데이터 집중개선

 

 

과학기술정보통신부(장관 임혜숙, 이하 ‘과기정통부’) 한국지능정보사회진흥원(원장 문용식, 이하 ‘지능정보원’) 국내 인공지능 기술 산업 발전의 촉진제가 인공지능 학습용 데이터 170(4 8천만건) 인공지능) 중심지(aihub.or.kr) 통해 6 18부터 개방한다고 밝혔다.

 

  또한, 과기정통부는 인공지능 학습용 데이터의 활용 촉진 성과 확산 등을 위해 6 18() 오전 10 LG사이언스파크에서 ‘인공지능 데이터 활용협의회’ 출범식 갖고, 의견수렴을 위한 간담회 개최하였다.

 

과기정통부는 17년부터 기업, 연구자, 개인 등이 시간 비용 문제 개별 구축하기 어려운 인공지능 학습용 데이터 구축·개방해왔으며, 20년부터는 디지털 뉴딜 ‘데이터 댐’ 구축 프로젝트 일환으로 구축 규모 대폭 확대하여 추진 중이다.

 

  그동안(17~19) 21 인공지능 학습용 데이터를 구축·개방하여 인공지능 중심지 이용자와 데이터 활용이 빠르게 증가하고 있으며, 개방 데이터를 활용한 인공지능 서비스 개발 성능 향상 등의 성과 나타나고 있다.

 

    * (이용자)194,439명 → ‘2013,092(누적), (활용)1916,177회 → ‘2049,085(누적)

 

1

 

 이번에 개방되는 인공지능 학습용 데이터(170) 주요 특징

 

 

 

 

 기업, 국민이 함께 만들어가는 인공지능 학습용 데이터

 

 

20년에 구축하여 이번에 개방하는 8 분야 170* 인공지능 학습용 데이터 데이터 기획부터 구축까지 산업계, 전문가뿐만 아니라, 많은 국민들 참여 결과물이기에 더욱 뜻깊다.

 

    * 음성·자연어(한국어 방언 등 39), 헬스케어(암진단 영상 등 32), 자율주행(도로주행영상 등 21), 비전(스포츠 동작 영상 등 15), 국토환경(산림수종 이미지 등 12), 농축수산(가축행동 영상 등 14), 안전(노후 시설물 이미지 등 19), 기타(패션상품 이미지 등 18)

 

  우선, 민간의 광범위 수요 바탕으로 분야별 산·학·연 전문가, 주요 활용기업 등이 직접 참여하여 산업 파급효과 크고 민간에서 대규모 구축하기 어려운 인공지능 학습용 데이터* 기획하였다.

 

    * 한국어 음성 데이터, 국내 도로주행 영상 데이터, 주요 암질환 영상 데이터 등

 

  데이터 구축에는 국내 주요 인공지능·데이터 전문기업 물론 주요 대학(서울대, 한국과기원 48), 병원(서울대병원, 아산병원 25) 674 기업·기관 대거 참여하였으며,

 

  특히, 데이터 수집·가공 구축 과정에 경력단절여성, 취업준비청년 국민 누구나 참여 있는 크라우드소싱 방식 도입 4만여명이라는 많은 국민들 참여 이끌어내었다.

 

< 20년 인공지능 학습용 데이터 구축 예시 >

데이터명

참여기업·기관

주요 내용

한국어 방언

솔트룩스, 경북대학교 산학협력단, 인피닉, 제주국제자유도시개발센터, 나라지식정보 등
17개 기업·기관

강원도, 경상도, 전라도, 제주도, 충청도 등지역별 농어촌 주민 등의 실제 사투리 음성을 녹음하여 방언 데이터 구축

 ※ 지역 사투리를 정확하게 구사하는 고령층 지원자의 모집에 많은 애로가 있었지만, 구축업체에서 직접 노인분들을 찾아 뵙고 부탁하는 등 여러 난관을 극복하면서 수집

해상 객체

이미지

선박해양플랜트연구소, 산엔지니어링, 슈어소프트테크, 지엠티 등 4개 기업·기관

금어기 어민 전문항해사가 출항하여 촬영한 해상 객체 이미지 및 선박 항해 이미지를 바탕으로 데이터 구축

 ※ 황금 어장이 영상으로 노출될 것을 우려한 어민들을 설득하는데 많은 노력을 기울여, 이를 극복하고 남해, 황해, 동해의 다양한 해상 영상을 수집

 

 

인공지능 중심지(aihub.or.kr) 대규모로 개방되는 인공지능 학습용 데이터 품질 활용성 검증하고 관리하는 과정에도 분야별 전문가 전문기관, 활용기업 등이 힘을 모았다.

 

  지난해 9월부터 8 분야별 산·학·연 전문가 80여명 참여하는 ‘품질자문위’ 운영하여, 전문적 품질관리 지원체계 구축하였고,

 

  주요 대기업(네이버, LG, 삼성전자, KT, 현대차 ), 스타트업(딥노이드, 스트라드비젼, 비바엔에스 ), 대학 연구기관(KAIST, GIST, ETRI, 농정원 ) 20여개 기업·기관이 참여해 데이터 개방 , 활용성 검토 진행(5~6)하여 실제 수요자 요구하는 데이터 품질 확보하고자 하였다.

 

과기정통부와 지능정보원(NIA) 데이터 개방 에도 이용자 참여형 집중개선기간 운영(~9) 등을 통해 이용자의 요구사항 적극 반영하는 민·관 협력 기반으로 데이터 지속적으로 개선해나갈 계획이다.

 

 산업 곳곳에 스며드는 고품질 인공지능 학습용 데이터

 

 

이번에 인공지능(AI) 허브 개방되는 인공지능 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업이나 스타트업 아니라, 대기업 자체 확보하기 어려운 대규모 데이터 제공한다는 점에서 그동안 국내 인공지능(AI) 산업계에서 가장 걸림돌 꼽은 문제인 ‘데이터 갈증’ 어느 정도 해소 있을 것으로 전망된다.

 

  그간 국내 인공지능 기업들은 인공지능 개발에 필요한 데이터 확보 위해 해외 오픈데이터 많이 활용해왔다. 그러나 한국어, 국내 도로환경 국내 실정 반영하지 못한 오픈데이터 국내 인공지능(AI) 서비스 개발 활용되기 어려운 문제 있었다.

 

  이번에는 지역별 방언을 포함한 한국어, 국내 주요 도로 국내 환자 의료영상 데이터 ‘한국형 인공지능 학습용 데이터’ 대폭 확충되어, 국민 체감 있는 인공지능(AI) 서비스 개발 가속화 있을 것으로 기대된다.

 

  대표적으로, 오는 6 30 공개를 앞두고 있는 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터 표준어에 비해 사투리 인식하지 못하던 음성 기반 인공지능(AI) 서비스 문제점을 상당 부분 해결 있을 것이다. 특히, 데이터 개방 활용성 검토 결과 “자연스러운 방언이 수집됨”, “기존 서비스의 인식률 12% 향상됨” 등의 좋은 평가 받기도 하였다.

 

  또한, 6 18부터 6 30까지 순차적으로 공개될 자율주행 데이터(21) 국내 도로주행 영상뿐 아니라, 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 다채로운 데이터 제공하여, 자율주행차 개발 한층 앞당길 으로 기대되고 있다. 특히, 활용성 검토 결과, “특수 차선, 장애물, 포트홀 다양한 객체가 포함”된 점은 대표적 장점으로 꼽힌다.

< 20년 구축 인공지능 학습용 데이터 활용성 검토 주요 결과 >

 

 ■ “기존 서비스에 방언데이터를 추가로 학습할수록 자유발화 인식률 향상”(대기업 A)

 

 ■ BERT/GPT 언어모델 학습 및 기존에 널리 활용되고 있는 한국어 데이터와 비교평가 시에도 만족스러운 결과 도출”(대기업 B)

 

 ■ “자체 수집하기 어려운 장애물, 특수 차선, 포트홀 등 다양한 객체가 포함되어, 자율주행 기술개발에 크게 도움이 될 것”(스타트업 C, 대기업 D)

 

 

그동안 과기정통부와 지능정보원(NIA) 품질관리 전문기관 한국정보통신기술협회(TTA) 전문기업 등과 협력하여 고품질 데이터를 안전하게 활용하도록 데이터 품질관리 수준 대폭 강화해왔으며, 향후 개보위와 개인정보 전문기관 한국인터넷진흥원(KISA) 등과도 지속적으로 협력 강화해나갈 계획이다.

 

  TTA 전문가 활용기업 의견 수렴을 통해 품질기준 정립하고, 이를 적용하여 전반적인 데이터 품질 검증하였다.

 

  지능정보원(NIA) 인공지능 데이터를 안심하고 사용할 있는 활용 여건을 조성하기 위해 이미지와 영상 데이터의 경우 사전에 개인정보 동의 받아 구축하는 한편, 개인정보 등이 포함되지 않도록 한국어 텍스트 데이터 등은 시나리오를 기반으로 창작한 재현데이터로 구축하였다.

 

2

 

 인공지능 학습용 데이터 활용 활성화 방안

 

 

 

 

 인공지능(AI) 데이터 활용협의회 출범

 

 

과기정통부는 인공지능 학습용 데이터 대규모 개방 함께, 데이터 활용 촉진 성과 확산 등을 위해 6 18 ‘인공지능(AI) 데이터 활용협의회’ 출범식 갖고, 현장 간담회 개최하여 데이터를 실제로 활용하는 기업·기관들의 생생한 의견 수렴하였다.

 

  ‘인공지능(AI) 데이터 활용협의회’ 데이터 품질관리 전문기관 TTA 이번 170 데이터의 활용성 검토 참여 기업·기관 중심으로 구성되었으며, 인공지능(AI) 허브 데이터 적극 활용하고 성과 공유·확산하는 한편, 데이터 품질 제고 지속적 개선 협력 나갈 예정이다.

 

  지능정보원(NIA) 향후 참여 희망하는 기업 기관을 중심으로 협의회 지속적으로 확대 나갈 계획이다.

 

 이용자 친화적 활용환경 조성

 

 

지능정보원(NIA) 대규모 인공지능 학습용 데이터의 본격적 개방 발맞춰 인공지능(AI) 허브(aihub.or.kr) 활용환경 대폭 개선한다.

 

  본인인증 만으로 데이터에 대한 접근 활용이 가능하도록 회원가입 시스템 개선하고*, 직관적인 데이터 탐색 위해 UI/UX 개선하였다. 하반기에는 데이터 검색체계 과제명중심에서 자동차, 표지판 사물·객체 중심으로 개편 계획이다.

 

    * 데이터 활용을 위해 회원가입 혹은 최초 데이터 다운로드 신청 시, 휴대전화 본인인증을 진행한 후, 활용 승인 절차 없이 다운로드 가능

 

또한, 인공지능 학습용 데이터를 활용한 알고리즘 고도화 등을 지원하기 위해 데이터 활용 경진대회 추진 계획이다.

 

이와 함께, 헬스케어 데이터 활용 활성화 위해 폐쇄형 안심존 확대 클라우드 기반 개방형 안심존 구축 추진한다.

 

3

 

 데이터 개방일정 후속조치 계획

 

 

 

 

 

과기정통부와 지능정보원(NIA) 20 구축 8 분야 170 데이터를 6 18 60 시작으로 6월말까지 순차적으로 개방 예정이다.

 

  특히, 헬스케어 데이터(27) 개인정보 민감정보가 포함될 우려가 있는 59 데이터는 최종검증 거쳐 6 30 개방 계획이다.

 

이번 개방은 데이터 제공과 더불어, 이용자와 함께 나은 데이터 제공 위한 개선점 찾기 위해 9월말까지 3개월간의 참여형 데이터 집중 개선기간 운영한다.

 

  데이터 개방과 함께, 인공지능(AI) 허브 데이터 개선의견 수렴 위한 온라인 창구 운영하고, 전문기관(TTA, KISA ) 협력하여 데이터 품질 이용자 의견 신속하게 대응하기 위한 TF 운영한다.

 

  해당 기간 동안 데이터 개선 도움이 되는 의견 제시한 이용자에게는 추첨 통해 소정의 상품도 지급하여 참여 독려 예정이다

.

과기정통부 임혜숙 장관 ‘인공지능(AI) 데이터 활용협의회’ 출범식에 참석한 기업과 기관들을 격려하며, “댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에서 널리활용되어 혁신의 열매 맺을 있기를 기대한다.”라고 하며,

 

  “정부도 고품질 인공지능 학습용 데이터 지속적으로 제공하고, 누구나 데이터를 쉽게 활용하고 성과를 공유 있는 환경을 조성하는 지원 아끼지 않겠다.”라고 강조하였다.