지난달에는 세계경제포럼의 2019년 10대 떠오르는 기술과 이들 중 DNA 데이터 저장기술을 제외한 9가지에 대하여 간략히 살펴보았다. DNA 데이터 저장기술은 사이언티픽 아메리칸에 내가 게재했던 해설을 기반으로 좀 더 자세히 이야기해 보고자 한다.

우리 모두는 매일 알게 모르게 엄청난 양의 데이터를 만들고 있다. 과학자와 공학자들이 연구를 통해 만들어내는 데이터, 작가들의 창작 활동을 통한 데이터, 기업 활동 데이터, 거시 및 미시경제 데이터, 주식 및 금융거래 데이터, 기후와 날씨 관련 데이터, 교통 데이터, 건강검진 데이터뿐 아니라, 이미 일상이 되어버린 e메일, 메시지, 블로그, SNS, 광고 클릭 활동을 통한 데이터 등 우리는 거의 모든 활동을 통해 매시간 수많은 데이터를 만들어낸다. 

일러스트_김상민 기자

데이터 분석회사 도모는 지난 7월9일 새로 업데이트된 2019년 전 세계 데이터 관련 정보를 발표하였다. 전 세계적으로 1분마다 449만건의 구글 검색을 하고, 450만편의 유튜브 비디오를 보며, 51만건의 트윗을 날리고, 69만시간에 육박하는 넷플릭스 영화를 보며, 5만5000개의 사진을 인스타그램에 올린다고 한다. 또한 1분마다 1억8800만개의 e메일을 보내고, 1800만개의 문자를 보내며, 9772번 우버를 이용한다고 한다. 이는 불과 몇 달 전 내가 사이언티픽 아메리칸에 인용했던 작년 데이터와 비교해도 빠른 속도의 증가이다. 작년 데이터 중 몇 가지만 보면 1분마다 388만건의 구글 검색, 433만편의 유튜브 비디오 시청, 47만건의 트윗, 1억5900만개의 e메일 전송을 했으니, 데이터 생산량이 지속적으로 급격히 늘어나고 있음을 알 수 있다. 이 추세가 계속되면 2020년에는 1인당 1초에 1.7메가바이트의 데이터를 생산할 것으로 예측되며, 이는 인구를 78억명으로 예상할 때 1년에 418제타바이트의 데이터를 생산하는 것이다. 1제타바이트는 우리가 개인적으로 들고 다니는 1테라바이트 외장하드 10억개가 필요한 엄청난 데이터양이다. 

현재 0과 1의 디지털 데이터들은 자성 혹은 광학 데이터 저장장치를 사용하고 있는데 사용 연한은 보통 10년 정도로 보며, 아주 잘 보관해도 100년은 넘길 수는 없는 것으로 판단한다. 따라서 주기적인 복제 및 보관을 해야만 한다. 그렇다면 인류의 소중한 활동을 담은 수많은 데이터들을 어떻게 장기간 보관할 수 있을까? 또 한 가지 문제는 이러한 데이터 보관과 데이터센터 운영을 위해 기하급수적으로 늘어가는 에너지 수요는 어떻게 해결할까?

이에 DNA를 구성하는 A, T, G, C 네 가지 염기를 이용하여 합성을 통해 원하는 정보를 쓰고, DNA 시퀀싱을 통해 읽는 DNA 저장기술이 다시 관심을 끌고 있다. 아직도 많이 비싸기는 하지만, 최근 급속도로 발전한 DNA 시퀀싱 기술은 DNA의 염기서열을 예전보다 빠르고 싸게 읽을 수 있게 하였고, DNA 합성기술 또한 빠른 속도로 발전하여 예전보다 훨씬 값싸게 합성이 가능하다. 한 가지 놀라운 점은 DNA의 높은 안정성이다. 보관 상태가 좋을 경우 수십만년 이상 문제없이 보관이 가능한데, 이는 실제 50만년 전 말의 화석에서 전체 DNA 염기서열을 밝힌 것에서 알 수 있다. 무엇보다도 매우 높은 저장밀도는 DNA 저장기술이 가장 주목받는 큰 장점이다. 하버드대 분석에 따르면 대장균의 DNA를 기준으로 보았을 때 삼면이 각각 1㎝인 1㎤의 부피에 10의 19승비트를 저장할 수 있다. 이는 이론상 1㎥의 크기에 전 세계가 현재 1년간 만들어내는 모든 데이터를 저장할 수 있는 저장밀도에 해당한다. DNA는 정해진 서열로 한번 만들고 나면 값싸게 복제가 가능하다는 것도 큰 장점이다. 또한 DNA는 저장 시에 특별히 에너지가 많이 필요하지 않고 남극이나 북극 같은 곳에 저장소를 만들면 오랜 기간 보관이 가능하다. DNA의 높은 저장밀도를 고려하면 도심 건물에 보관해도 저온 보관에 들어가는 에너지양은 얼마 안된다. 

DNA 저장기술은 지난 수년간 빠르게 발전했다. 2017년 조지 처치 교수팀은 크리스퍼 DNA 편집기술을 이용하여 대장균의 게놈에 사람의 손 이미지를 저장하고, 이를 다시 90%의 정확도로 읽어냈다고 발표하였다. 또한 달리는 말을 탄 사람의 동영상을 저장하고 읽어내어 동영상 정보도 저장할 수 있는 가능성을 보였다. 크리스퍼 DNA 편집기술 이외에도 여러 재조합 효소들을 이용하여 DNA 기록과 편집이 가능하다. 앞으로 DNA 바코딩 기술 등과 결합되면서 더욱 빠르게 발전할 것으로 기대된다. 마이크로소프트에서도 워싱턴대와의 공동연구를 통해 DNA에 데이터를 쓰고, 저장하고, 읽는 완전 자동화 시스템을 개발하고 있다. 트위스트 바이오사이언스와 같이 DNA 저장기술 및 저장장치 개발에 집중하는 벤처기업도 생겼다. 

그렇다면 DNA 저장기술에서 해결되어야 할 것들은 무엇이 있을까? 우선은 높은 비용 문제다. 한번 만들고 나면 원하는 만큼 복제가 값싸게 가능하다는 것을 감안하더라도, 초기 합성비용이 한 개의 뉴클레오타이드당 70원씩이니 단순히 계산해도 1메가바이트 데이터 저장에 7000만원이나 든다. 읽기에 해당하는 DNA 시퀀싱은 합성보다는 많이 저렴하여 30억 뉴클레오타이드를 읽는 데 약 100만원이 든다. 따라서 아직 비용 측면에서 보면 DNA 저장기술은 상용화까지 멀다고 하겠다. 또한 읽고 쓰는 속도도 현재 우리가 사용하는 하드디스크나 SSD보다 많이 느리다. 그러면 DNA 저장기술이 가치나 있기는 한 건가? 그렇다. 우선 생물학 및 생명공학 연구에서는 다양한 생명현상을 시간에 따라 저장하면서 연구하는 데 활용할 수 있다. 또한 아주 중요한 데이터들을 현재 우리가 사용하는 저장매체에 수년마다 계속 복제하는 것을 대신하여 DNA에 장기간 저장할 수 있다. 즉 중요한 데이터들을 DNA에 저장하여 타임캡슐과 같이 장기간 안정적으로 보관할 수 있다. 아직은 DNA 저장기술이 갈 길이 먼 것은 사실이지만 엄청난 양의 데이터가 계속 만들어지는 것을 감안할 때 DNA 저장기술 혹은 이와 같이 획기적인 신개념의 저장기술 개발이 시급히 요구된다고 하겠다.

<이상엽 카이스트 특훈교수>

Related Posts Plugin for WordPress, 

Blogger...
Posted by KHross

댓글을 달아 주세요