디지털서비스 상시 위기관리 강화를 통해 신뢰할 수 있는 디지털 기반 구축
- 과기정통부, 「디지털서비스 안정성 강화 방안」 발표 - |
① 데이터센터의 안정성 및 생존성 강화를 위하여, - 배터리 이상징후 모니터링 계측주기 단축 및 「사전 복합 탐지체계」 구축 - 배터리실 내 기타 전기설비(전력선 등) 금지 등 ‘구조적 안정성’ 확보 - 전력 차단구역 세분화, 예비 전력설비 이중화 등 ‘전력공급 연속성’ 제고
② 디지털서비스의 대응력 및 복원력 제고를 위하여, - ‘복구 핵심 기능’ 다중화 및 중요도에 따른 ‘서비스 분산 체계’ 구축 - ①사전예방, ②탐지·전파, ③복구 목표·지표 설정, ④사후관리 등 장애관제 고도화
③ 디지털 위기관리 기반 구축을 위하여, - 디지털서비스로 전주기적 재난관리 확대(대상 기준 마련, 시행령 개정) - 대응전담팀 신설, 민·관 협력 강화 등을 통해 상시 위기관리 강화 |
과학기술정보통신부(장관 이종호, 이하 ‘과기정통부’)는 '22.10.15 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 서비스 장애 사고*의 재발 방지를 위한 후속 조치로서, 「디지털서비스 안정성 강화 방안」을 3월 30일(목) 발표하였다.
* 사고 원인 조사결과 및 3사 시정 요구 사항 브리핑('22.12.6, 과기정통부 장관)
최근 디지털 전환이 가속화됨에 따라 디지털 사회의 연결고리인 네트워크와 함께 데이터를 보관·소통하는 데이터센터, 국민이 일상에서 직접 체감하는 부가통신서비스 역시 디지털 기반의 핵심 인프라로서 중요성이 확대되고 있다.
이러한 네트워크, 데이터센터, 부가통신서비스에서 장애·재난이 발생할 경우 디지털을 넘어 일상 및 사회·경제로 피해가 빠르게 전파되고 대규모 손실을 야기할 수 있는 만큼, 디지털 사회의 지속적 성장을 위해서는 디지털서비스의 안정성 확보가 반드시 필요하다.
특히, 지난 '22.10.15(토) SK C&C 판교 데이터센터에 발생한 화재로 카카오, 네이버 등 부가통신서비스에 장애가 나타났던 사고로 인해 디지털서비스의 중요성이 재확인되었으며, 디지털서비스 장애·재난에 대한 체계적인 예방·대응 필요성이 대두되었다.
과기정통부는 사고 직후 「방송통신재난 대책본부」를 구성하여 장애 복구를 지원하고, 사고 원인을 조사·분석하여 SK C&C, 카카오, 네이버 3사에 대해 주요 문제점을 시정 조치*하도록 한 바 있으며,
* (SK C&C) 화재 탐지 다양화, 전기설비 재배치, 구역별 전력차단 방안 마련 등
(카카오·네이버) 핵심 도구·기능 다중화, 재난 대응체계 자동화·고도화 등
외부전문가, 업계 의견수렴 등을 거쳐 장애·재난 등 다양한 디지털위기로부터 데이터센터 및 부가통신서비스의 종합적인 대응 체계를 고도화하고 디지털 기반을 공고히 하기 위한 「디지털서비스 안정성 강화방안」을 마련하였다.
또한, 국회에서 디지털서비스 안전 관리체계 고도화를 위해 디지털 안전 관련 3법(방송통신발전 기본법, 정보통신망법, 전기통신사업법)이 개정됨에 따라('23.1.3 공포), 대통령령 개정방향 등을 방안에 포함하였다.
〈 사고조사·실태점검 등 결과 〉
먼저, SK C&C 판교 데이터센터 화재 사고 조사 및 주요 데이터센터 실태점검* 등을 통해 파악된 문제점은 다음과 같다.
* 민간 데이터센터 86개 시설에 대한 재난관리 실태점검 및 현황조사 실시('22.11~'23.2)
(사전탐지 및 초기대응) 리튬이온 배터리의 이상 징후 탐지를 배터리모니터링시스템*(이하 ‘BMS’)에 의존하고 있었으나 순간적으로 발생하는 리튬이온 배터리 화재를 사전 탐지하는 데 한계가 있었으며,
* 센서로 배터리內 온도·전압 등을 주기적으로 확인하는 시스템(Battery Monitoring System)
BMS 외 사전적 탐지체계가 미비하여 배터리실 화재에 즉각적 대응이 곤란하고, 기존 천정식 가스 소화약제로는 화재 발생 시 초기 진화에 어려움이 있는 것으로 나타났다.
※ SK C&C 판교 데이터센터의 경우도 BMS가 화재 징후를 사전 탐지하지 못하였으며, 이후 공기흡입형 감지기로 화재를 인지하였으나 가스 소화설비로는 진화 실패
(전력공급 생존성) 상당수 데이터센터는 리튬이온 배터리와 무정전전원장치(이하 ‘UPS’), 전력선 등 타 전기설비가 같은 공간에 위치*하고 있어, 배터리 화재 시 전력을 끊김 없이 공급하는 데 한계가 있는 구조로 파악되었다.
* 86개 민간 데이터센터 중 배터리실 內 UPS 배치 28개소, 전력선 포설 64개소
또한, 비상 상황에서 데이터센터 내 전력차단이 불가피할 경우 차단구역을 최소화하기 위한 구역별 전력 관리, 원격 제어를 통한 우회전력 확보 등 재난 대응체계가 미흡한 것으로 드러났다.
다음으로, 카카오·네이버 등 디지털서비스 장애 사고 원인조사를 통해 드러난 문제점은 다음과 같다.
(서비스 다중화) 금번 사고를 계기로 디지털서비스 제공에 필요한 핵심 기능이 데이터센터 간 이중화되어있지 않거나 특정 데이터센터에 편중되어 있는 경우, 데이터센터 작동 불능 상황에서 주요 서비스에 심각한 장애가 발생하거나 복구가 지연될 우려가 있음이 나타났다.
※ 카카오는 일부 서비스를 이중화 운영 중이었으나, 동작(Active)-대기(Standby) 서버간 전환에 필요한 ‘운영 및 관리 도구’가 판교 센터에 집중되어 있어 장시간 장애 발생
(대응 체계) 비상상황 전파·대응 등을 수동적으로 운영하거나, 장애·재난 전담인력 부재, 대형 재난상황에 대한 모의훈련이 미비한 경우 등 장애·재난 대응 역량이 저하되지 않도록 체계적인 재난관리의 필요성이 대두되었다.
〈 주요 내용 〉
이번 「디지털서비스 안정성 강화 방안」은 끊김 없는 디지털서비스 구현으로 안전한 디지털 기반을 조성하기 위해,
①데이터센터 안정성 및 생존성 강화, ②신속한 장애 극복을 위한 디지털서비스 대응력 및 복원력 제고, ③디지털전환 가속화에 대비한 디지털 위기관리 기반 구축의 3개 분야로 마련되었다.
1. 데이터센터 안정성 및 생존성 강화 |
화재 등 재난 상황에서도 데이터센터가 안정적으로 유지·운영되기 위해 배터리 화재 사전탐지 시스템을 고도화·다중화하고 데이터센터의 구조적 안정성을 확보하는 등 재난을 예방하며, 안정적 전력공급 및 신속한 장애복구 대응체계를 확립한다.
이를 위하여, 첫째, 데이터센터의 재난 예방·대비 체계를 강화한다.
(재난예방 강화) 10분 단위까지 다양하게 운영되고 있는 배터리 계측 주기를 10초 이하로 단축하는 등 BMS를 개선하고, BMS 외에도 다양한 배터리 이상징후 탐지체계*를 병행 구축하며,
* (예) 리튬이온 배터리 온도 상승 시 누설 가스 또는 배터리 연결케이블 단락시 열 화상 탐지 등
긴급 상황 탐지 시 재난 관리자에게 자동으로 통보하는 경보장치 및 자동‧수동 겸용 UPS-배터리 연결 차단 체계를 설치하여야 한다.
(구조적 안정성 확보) 리튬이온 배터리 화재 확산을 방지하기 위해 배터리실 內 UPS 등 타 전기설비 및 전력선 포설을 금지하고,
배터리 간 화재 확산 방지를 위해 배터리 랙 간 이격거리(0.8~1m 이상)를 확보하도록 하며, 배터리실 내에서 내화구조 격벽으로 분리된 공간 1개당 설치 가능한 배터리의 총 용량을 제한(5MWh, 산업부 한국전기설비규정)한다.
※ 공간이 부족할 경우는 화재확산 방지포, 차열 방화문, 내화케이블 등 대안조치 강구
〈 배터리실 구조적 안정성 확보 예시 〉
배터리 적정 이격거리 확보 | 배터리실 내 전력선 포설 금지 |
둘째, 데이터센터 전력 공급의 연속성·생존성을 확보한다.
(전력관리 체계화) 재난 발생 시 전력 중단을 최소화하기 위해 UPS 등의 전력차단구역을 세분화하여 단계별 차단(개별 설비 → 설비 그룹 → 층)이 가능하도록 한다.
설비에 접근하여 직접 차단하는 것이 어려운 경우를 대비하여, 원격으로 전력을 차단하거나 UPS를 거치지 않고 전력을 우회 공급하는 전력 바이패스 체계를 구축하여야 한다.
〈 유사시 전력 단계별 차단방안 (예시) 〉
① 해당 UPS만 차단 | ② 전체 UPS 차단 및 바이패스 전환 | |
(예비전력 이중화) 데이터센터 주전력(한전) 및 예비전력(UPS) 동시 장애로 인한 전체 전력차단에 대비하여 지속적 전력공급이 가능하도록 예비 전력설비의 이중화 체계를 구축한다.
(화재 대응) 리튬이온 배터리 열폭주 방지를 위하여, 배터리 랙, 모듈 또는 셀에 내부적으로 소화약제가 설치된 ‘자체 소화약제 내장 배터리*’를 도입하도록 할 계획으로, 해당 배터리를 도입한 데이터센터는 배터리 이격거리 의무의 예외를 인정할 계획이다.
* 美 시험인증기관 UL(UnderWriters Laboratories)의 리튬이온 배터리 열폭주 화재확산 방지 평가(UL9540A) 기준 또는 동등 이상의 기준에 적합한 배터리
또한, 리튬이온 배터리 화재 발생 시 가연성 가스로 인해 고압가스가 폭발하거나 인명 피해가 나타날 우려가 있어 ‘급속 배기장치’를 설치하여야 한다.
셋째, 데이터센터 안정성 제도를 개선하고 관련 기술을 개발한다.
(제도 개선) 과기정통부는 데이터센터 재난의 예방·대비 및 생존성 확보에 필수적인 사항을 반영하여 「집적정보 통신시설 보호지침」(과기정통부 고시) 세부기준 개정*을 추진한다.
* (예) BMS 설치 및 검사 실시, 배터리실 내 전력선 포설 금지 및 재배치 등
일부 데이터센터에서 개정된 기준을 즉시 적용·이행하는 것이 어려울 경우, 이행계획 또는 대안조치 계획을 수립·제출토록 하고 전문가 협의체를 통해 적정성 여부를 검토할 계획이다.
※ (예) 전력 중단 우려 등의 이유로 배터리실 상부 전력선 즉시 철거가 어려울 경우, 사업자가 내화케이블 및 차열판 설치 등 대안조치 계획 제출
(기술 연구개발) 리튬이온 배터리 화재에 효과적인 액상 소화약제 개발, 기습 폭우 시 전기설비 침수를 방지하는 AI‧IoT 기반 차수벽, 전고체 배터리* 등 데이터센터 안전기술과 함께, 디지털 트윈 기반 위험 예측기술 개발을 추진한다.
* 액체가 아닌 고체를 전해질로 사용하여 리튬배터리에 비해 폭발·화재에 안전한 배터리
2. 디지털서비스 대응력 및 복원력 제고 |
예기치 못한 장애·재난 상황이 발생하더라도 디지털서비스가 안정적으로 제공될 수 있도록 영역별 다중화 체계를 확립하며, 장애·재난 全 주기에 걸친 대응체계를 강화한다.
첫째, 디지털서비스의 장애・재난 대응력을 강화한다.
(다중화체계 확립) 특정 기반시설이 작동 불능이 된 상황에도 서비스가 끊김 없이 제공될 수 있도록 중요도, 구동순서 등을 고려한 다중화 체계 확립을 촉진할 계획이다.
또한, 장애·재난 피해의 대규모 확산 방지를 위하여 핵심 서비스 및 기능의 물리적·공간적 분산을 권고하고, 관리기술 개발 등 지원 방안을 검토한다.
| 〈 복수 데이터센터 사용사업자 다중화 체계 예시 〉 |
|
|
| |
|
둘째, 디지털서비스의 장애・재난 복원력을 제고한다.
(장애관제시스템 고도화) ①사전 예방을 위해 서비스 출시 전 테스트를 강화하고, ②장애 탐지·전파를 위해 서비스별 Health-Check 모니터링 시스템*을 구축하며, ③장애 복구 목표·지표 설정 및 복구 매뉴얼을 수립하고, ④사후 관리 강화를 위해 장애 리포트 발간을 지원하는 등 디지털서비스 장애관제시스템 고도화를 촉진할 계획이다.
* 서비스 상태를 주기적으로 점검하여 이상상황 여부를 대시보드 형태 등으로 제공
(대응 체계 정비) 디지털서비스 사업자가 장애·재난 대응 체계에서 자동화 가능 요소를 발굴 및 적용토록 권고하고, 장애·재난을 전담하는 부서 및 인력 운용을 통해 재난 대응력 제고를 촉진하며,
SW 오작동으로 인한 부가통신서비스 중단 등을 방지하기 위해 ‘기업수요 맞춤형 SW안전 진단*’을 지원한다.
* △시스템 안전, △시스템 운영기반 안전, △프로세스 안전 관련 8대 진단 항목 중 기업이 필요로 하는 항목에 대해 기초진단 제공(’23년 128건)
3. 디지털 위기관리 기반 구축 |
디지털 재난의 예방 및 대응을 위한 안정적 기반 마련을 위하여, 관련 법·제도를 정비하고, 신규 또는 잠재된 위협을 선제적으로 대비, 위기관리 체계를 구축하기 위해 「디지털 위기관리 체계」 상시화를 추진한다.
이를 위하여, 첫째, 디지털서비스의 전주기 재난관리를 체계화한다.
개정 방송통신발전기본법에 따라, 재난 예방-훈련-대응-복구의 全주기적 재난관리를 사전에 점검하여 보완하는 관리의무 대상이 국민생활에 영향이 큰 주요 디지털서비스 사업자로 확대된다.
현재 「방송통신재난관리 기본계획」은 기간통신사업자만을 대상으로 하고 있어 물리적 통신시설에 대한 관리 위주이므로, 부가통신서비스·데이터센터 사업자에 적합한 재난관리 내용을 추가할 계획이다.
(데이터센터) 매출액이 100억원 이상(책임보험 의무가입 최고수준)인 데이터센터 사업자 중 최대 운영 가능한 ①전산실 바닥면적이 22,500㎡ 이상이거나, ②수전용량(전력공급량)이 40MW 이상인 대규모 센터를 운영하는 자를 대상으로 한다.
(부가통신서비스) 일평균 서비스 이용자 수 또는 국내 총 트래픽 발생량에서 차지하는 트래픽 양 비중이 상당하여 재난 발생 시 국민 생활에 지대한 영향을 미치는 사업자*를 대상으로 하되,
* 이용자 수 1,000만명 이상 또는 트래픽 양 비중 2% 이상인 부가통신사업자
그 기준에 미치지 않더라도 최근 서비스 장애가 대규모로 발생한 사업자*로서 통신재난관리심의위원회의 심의를 거쳐 한시적으로 지정된 자를 대상에 포함하는 시행령 안을 마련하였다.
* 이용자 수 100만명 이상 또는 트래픽 양 비중 1% 이상인 부가통신사업자 중 지정 가능
〈 재난관리 대상 사업자(안) 〉
기간통신 (기존) | + | 데이터센터 (신규) | 부가통신서비스 (신규) |
▸가입자 수 10만명 또는 회선 수 50만 이상 | ▸바닥면적 22,500㎡ 이상 또는 수전용량 40MW 이상
▸매출액 100억원 이상 | ▸이용자수 1,000만명 또는 트래픽양 비중 2% 이상
▸대규모 장애발생 사업자*
* 재난관리심의위원회 심의 | |
▸네트워크 장애 예방·대응 ▸중요통신시설 안전관리 등 | ▸화재 예방, 전력 생존성 확보 ▸보호조치 기준 강화 등 | ▸핵심기능 다중화, |
과기정통부는 이러한 내용을 담은 「방송통신발전 기본법」, 「정보통신망 이용촉진 및 정보보호에 관한 법률」, 「전기통신사업법」 시행령 개정안을 입법예고하고 의견을 수렴할 계획이다.
둘째, 관련 법・제도의 통합을 추진한다.
과기정통부는 여러 법에 산재되어 있는 디지털서비스 안정성 관련 현행 제도들을 통합하고 네트워크-데이터센터-디지털서비스의 디지털 기반 전반을 아우르는 종합적인 재난관리체계 구축을 위해 「디지털서비스 안전법(가칭)」 제정안을 마련할 계획이다.
셋째, 상시적인 디지털 위기관리체계를 구축한다.
과기정통부는 디지털 재난 예방‧점검 등 선제적 대응을 위해 「디지털 위기관리본부」를 상시 운영하고*, 과기정통부 내에 디지털 장애·재난 예방 및 대응을 위한 체계를 정비할 예정이다.
* 현재는 대규모 재난 발생 이후에 필요시 ‘방송통신재난대책본부’ 구성‧운영
이를 위해 조직 정비를 통해 디지털 장애 대응 전담 팀을 신설하고, ‘디지털 안전 협의체’를 구성하여 디지털 위기 상황에 대한 대응 역량을 강화한다.
이종호 과기정통부 장관은 “데이터센터·부가통신서비스 재난 대응체계를 원점에서 엄중히 재검토하여 디지털 시대에 걸맞는 안정성 강화방안을 마련하였으며, 국민께 끊김없는 디지털서비스가 제공되도록 이 방안을 철저히 추진하겠다”고 말했다.
또한, “상시적 디지털 위기관리 체계를 공고히 하여 국민과 경제·사회 전반의 피해를 초래하는 디지털서비스 재난에 대한 예방 및 대응에 최선의 노력을 다함으로써, 국민 모두가 신뢰하는 디지털 기반 사회를 구축하는 데 힘쓰겠다”고 밝혔다.