통계학·전산학·계산과학 등 융합해 공학 의학 등에 응용 연구

최근 교육과학기술부가 국내 대학의 우수 연구 인력을 특정 분야별로 조직, 체계를 갖춰 세계적 연구그룹으로 육성하기 위한 지원사업으로 ‘선도연구센터’ 19개를 새로 지정했다. 이공학 분야 가운데 특히 이번에 선정된 서울대학교 데이터과학과 지식창출연구센터(연구책임자 이영조 교수)는 통계학, 산업공학, 전산학, 계산과학 등 전문가들이 함께 모여 각 분야의 지식을 융합해 공학, 의학 등에 접목하고 응용하는 새로운 연구를 수행, 국가 경쟁력을 높이겠다는 야심찬 출사표를 던졌다. 최근 학계의 주목을 받고 있는 이 연구센터를 찾아 연구방향과 비전 등을 집중 소개한다.

‘미래 세계는 데이터를 지배하는 자의 것’ 
21세기 지식기반 경제 사회로 고도화됨에 따라 제조, 서비스, 의료, 제약, IT 등 다양한 영역에서 방대한 양의 데이터가 쏟아져 나오고 있다. 매년 60%씩 폭발적인 성장세. 그러나 그 데이터를 처리할 인력의 증가율은 이를 따르지 못해 효율적으로 데이터에서 지식을 창출 할 수 있는 데이터 과학(Data Science)의 필요성이 대두되고 있다.

연구센터의 이영조 센터장은 “구글의 두 창업자인 Larry Page와 Sergey Brin은 방대한 양의 데이터를 모으고 그 정보를 가공해 인류의 지능을 확장하겠다고 선언했다”며 “이는 데이터 과학이 학문으로서 만이 아니라 새로운 산업으로 대두되고 있음을 시사한다”고 전했다.
이 교수는 “미국의 경우 이런 추세에 발맞춰 기업예산을 2005년 이후 데이터 과학관련 분야에 매년 50%씩 증가시켜 투자하고 있다”며 “2009년 하드웨어가 주요 사업이던 IBM은 SPSS라는 통계회사를 인수하였고, 구글, 애플 등의 회사에서는 많은 통계학자를 고용했을 뿐만 아니라 이 분야에 종사하는 사람들을 데이터 사이언티스트라 부르며 2011년 현재까지 4,500조 원의 집중투자를 통해 약진하고 있는 상황”이라고 말했다. 이 교수는 특히 2009년 말 뉴욕타임지의 ‘For Today Graduate, Just One World: Statistics(올해의 졸업생들, 하나의 세계: 통계학)’이라는 특집을 인용하면서 “미래에 각광받게 될 모든 부문을 주도할 학문으로 데이터 사이언스를 꼽고 특히 통계학 전공 졸업생들의 역할이 더욱 커지고 있다”고 말했다.

이 교수는 이어 “현재 우리 연구센터는 데이터과학의 대표학문 영역인 통계학, 산업공학, 전산학, 계산과학 등 전문가들이 함께 모여 각 분야의 지식을 융합해 공학, 의학 등에 접목하고 응용하는 새로운 연구를 수행하며 국가 경쟁력을 높일 것”이라며 “서울대에서도 이러한 시대적 요구를 깊이 인식해 지식기반 정보화 사회 진입을 위해 기술과 지식재산 관련 학내의 규정을 새로 제정하고, 학교 주도 데이터 과학 관련 통계소프트웨어 회사 설립을 첫 번째 지원 대상으로 선정했다”고 밝혔다.

국부유출 막고 새로운 지식산업 일으킨다!
현재 서울대는 외국에서 만들어진 통계 패키지 사용료로 매년 10억 원 이상을 지출하고 있다. 한국 전체적으로는 매년 상당액수의 외화를 지불하는 것이 현실이다.
이 교수는 “우리 연구센터는 이같은 국부유출을 막고 새로운 지식 산업을 일으키는 역할을 할 것”이라며 “현재는 제타바이트 시대의 도래로 소프트웨어 산업의 국민적 관심도 많아지고 있어 글로벌 경쟁에서 우위를 점할 수 있는 절호의 기회”라고 말했다. 지난 2002년 과학기술부에서 발표한 ‘과학기술 기본계획’에 따르면 우리나라가 향후 발전시켜야 할 첨단과학 기술분야로 IT(정보통신), BT(의학생명기술), NT(나노기술), ST(항공우주기술), ET(환경기술), CT(문화기술) 등 소위 ‘6T’를 선정한 바 있다.

그러나 이 교수는 “지식기반 정보화 사회에서 과학기술의 선진화, 국가경쟁력 제고 및 전 국민 과학화 등을 위해 반드시 포함시켜야 할 분야가 데이터과학 또는 데이터 기술”이라며 “이는 첨단 과학기술들의 기반이 되는 기초과학일 뿐만 아니라 각 첨단과학기술 분야들의 융합 및 발전을 견인할 수 있는 새로운 과학으로서 국가 과학기술의 균형 있는 발전에 크게 도움이 될 것”이라고 말했다. 국내에서 데이터과학을 선도하고 있는 이 교수의 주된 연구 분야는 일반화 선형모형과 이의 확장된 새로운 통계 모형을 제안하고 필요한 이론을 개발하는 것이다. 일반화 선형모형은 비정규 분포데이터 분석의 기본 모형으로 현재 생물, 의학, 공학, 금융, 경제, 품질관리 분야 등의 과학 전반에서 핵심 역할을 하고 있다.
이 교수에 의해 현재까지 제안되고 개발된 대표적인 통계 모형으로는 동시 일반화 선형모형(1991), 다단계 일반화 선형모형(1996)과 이중 다단계 일반화 선형모형(2006) 등을 들 수 있다.

이 교수는 “20세기 통계학은 확률을 사용하는 베이지안 학파와 확률을 사용하지 않고 우도 등을 사용하는 빈도론 학파의 대결양상으로 통계학 발전이 이루어졌다”며 “그러나 최근에 유전학, 웹 등에서 생산되는 대용량 데이터 분석을 위해 다단계 우도가 필요하다”고 지적했다. 즉 다단계 우도는 확률과 우도 모두를 확장한 개념으로서, 확률과 우도 두 개념이 표현하는 불확실성의 성격이 서로 다르고, 또한 이것들이 한 모형에 담겨져 분석될 수 있음을 밝혔다. 과거의 통계 이론을 뒤엎는 이러한 새로운 시도는 그동안 상당한 논쟁을 야기시켜 세계 유수의 통계학회지의 토론논문으로 발표돼 정리되기도 했다. 이와 관련, 2011년 현재 구글 검색에 의하면 이영조 교수의 1996년 논문의 피인용 횟수는 국내외에서 활동하는 한국 통계학자들의 주 저자 논문 가운데 가장 피인용 횟수가 많은 것으로 알려져 있다.

데이터과학, 외국에 2년 늦었지만 지금부터…
이 교수는 “최근 소프트웨어에 대한 관심이 많아지는 것 같아 반가운 현상”이라며 “그러나 관련 보도 및 토의 등을 보면 그 중심이 대부분 컴퓨터 과학 분야에 쏠려 있는 것 같아 아쉽다”고 말했다.

이어 “최근 한국에서 관심 가져야 할 중요한 부문은 컴퓨터 과학 분야뿐만 아니라, 통계학과, 데이터 마이닝, 기계학습, 계산과학, 응용수학 등의 융복합한 데이터과학이다”라며 “2009년 IBM사의 통계패키지 회사 인수나, 구글사의 노키아 인수 등은 이제 글로벌 경쟁에서 이기기 위해서는 소프트웨어 관련 학문들의 데이터 과학으로의 융복합뿐만 아니라, 하드웨어와 소프트웨어 융복합을 통한 더 높은 차원의 융복합이 필요하다. 2009년 뉴욕타임즈에 따르면 그 중심에 데이터 과학, 특히 통계학이 있다고 하니, 어쩌면 전 국민적 관심을 갖는데 2년이 늦었지만 아직 늦지 않았다”라며 앞으로 데이터과학의 활약을 예고했다.
현재 서울대 자연과학대학 통계학과 소속의 이영조교수는 지난 1979년 서울대 계산통계학과를 졸업하고, 1983년에 미국 아이오와주립대 통계학과에서 이학박사 학위를 취득한 뒤 오리건주립대, 한림대학교 등을 거쳐 1994년부터 서울대 통계학과에 부임했다. 현재 영국 왕립통계학회 펠로우, Institute of International Statistics 정회원으로서, 여러 SCI급 학술지들의 편집위원, 자문위원, 심사위원을 맡고 있다.

또한 이번 선도연구센터 데이터 과학과 지식창출 센터장과 두뇌한국 1사업-2단계, 생물, 금융, 산업 자료 통계분석 연구사업팀을 맡아 연구를 총괄하고 있다. 2005년부터 2007년까지 한국 데이터 마이닝 학회 회장을 역임한 바 있으며, 지난 20여 년의 연구 업적을 인정받아, 2008년 한국 통계학회의 한국갤럽 학술상과 2009년 서울대 자연과학대학에서 연구 대상을 수상했다. 

저작권자 © 시사매거진 무단전재 및 재배포 금지