국보·보물 목록과 소재지는 누가 가장 정확하게 알고 있을까? 지난해 일어난 교통사고 관련 통계는 어디서 알아볼 수 있을까?
정답은 문화재청과 경찰청이다. 그런데 일반 이용자들은 궁금한 게 있으면 일단 포털을 찾는다. 하지만 포털은 이들 기관의 정보가 아니라 개인 블로그나 일반 웹문서에 쓰인 내용들을 노출시킨다. 출처가 불분명하거나, 너무 오래돼 정확도가 떨어지는 정보들이 안내된다는 얘기다.
왜 이런 문제가 발생할까? 포털의 검색 정책이나 검색엔진의 한계, 그리고 정부기관들의 비협조적인 태도 때문이다. 상당수 행정기관은 이용자(누리꾼)에게 정책·행정 내용을 널리 알리기 위해 홈페이지를 만들어놓고, 검색 노출을 막는 모순적인 태도를 보여왔다. 검색에 노출되지 말아야 할 정보는 애초부터 방화벽 밖에 있는 홈페이지에 올리지 말아야 한다.
숙명여대 웹발전연구소는 지난해 7월과 11월 중앙행정기관·지방자치단체 홈페이지의 웹개방성 지수를 평가했는데, 검색로봇 배제선언(로봇배제표준·robots.txt) 남용이 가장 큰 문제점으로 지적됐다. 공공기관들의 로봇배제표준 남용은 홈페이지를 통한 개인정보 유출 우려 때문이다. 2000년대 중반 구글 검색을 통한 공공기관 홈페이지의 개인정보 노출이 언론을 통해 이슈가 됐는데, 당시 인터넷진흥원(KISA)이 개인정보 노출 자동점검 소프트웨어를 가동한 결과 90만명 이상의 주민번호가 노출된 것으로 확인되기도 했다.
이에 2006년 10월 정부(행정자치부) 차원에서 개인정보 노출 방지 작업에 나섰고, 일부 전문가들은 임시방편으로 로봇배제표준을 제안했다. 하지만 이후 필터링 프로그램 등 개인정보 노출을 막을 다른 방법들이 개발되면서 robots.txt를 사용할 이유가 사라졌다. 2010년 행안부가 배포한 ‘홈페이지 개인정보 노출방지 가이드라인’에서도 로봇배제표준 적용은 구글캐쉬 삭제나 적용에 따른 유의사항으로만 포함하도록 했다. 그런데, 무슨 이유에서인지 안행부는 2012년 로봇배제표준을 ‘부분적으로 사용하라’는 가이드라인을 만들어 배포했다.
이에 대해 안전행정부 한순기 개인정보보호과장은 “robots.txt를 안쓴다고 해킹을 안 당한다는 보장이 있는 것은 아니다. 불필요한 개인정보가 노출되는 것보다는 robots.txt를 써서 검색 안 되도록 하는 게 낫지 않는냐”고 말했다. ‘필터링 프로그램 등을 사용해 보안성에 해를 끼치지 않으면서도 웹개방성을 충족시키는 경우도 많다’는 지적에 대해서는 “국무회의나 국가정책조정회의 때 필터링 시스템 등을 의무화하도록 하자고 제안했지만, 예산을 담당하는 기획재정부에서 받아들이지 않았다”고 설명했다.
2000년대 중반 정부에 로봇배제표준 임시 사용을 제안한 당사자인 남기효 박사는 “‘보안이 필요한 사항은 로봇배제표준을 부분 적용하라’가 아니라, ‘로봇배제표준을 부분 적용하려면 보안에 각별히 신경을 써야 한다’는 게 맞는데, 내용을 어설프게 아는 사람이 이런 지침을 내려보낸 것 같다”고 말했다.
이순혁 기자
개인정보노출 차단 방법 개발 ‘로봇배제표준’ 사용이유 없어
안행부 ‘검색로봇 배제’ 지침 문제점
검색엔진 개인정보 노출 막으려
한때 임시방편책으로 도입
“어설프게 아는 사람이 내려보낸듯”
- 수정 2013-10-20 20:21
- 등록 2013-10-20 20:21