Ученые из Европейского института биоинформатики в Великобритании сообщили об успешных экспериментах по кодированию числовой информации в молекулах на основе ДНК (дезоксирибонуклеиновая кислота, основной носитель генетической информации в организме живых существ на Земле). По мнению авторов изобретения, уже через несколько десятилетий люди смогут хранить в подобных биомолекулах любые файлы, включая аудиозаписи в формате MP3, текстовые документы и цифровые фотографии.
Кроме высочайшей плотности информации – 2,2 петабайт на грамм – технология записи в ДНК предлагает невероятно долгий по современным меркам срок хранения, вплоть до десятков тысяч лет.
Строго говоря, это не первый случай, когда ученые кодируют различную информацию с помощью последовательностей из ДНК-групп. Например, летом прошлого года профессор генетики Джордж Чарч (George Church) из Гарвардского университета уже показывал целую книгу, закодированную в молекуле ДНК. Новизна работы британских ученых во главе с Ником Голдманом (Nick Goldman) заключается в подходе к кодированию, который практически исключает появление и накопление ошибок в исходной информации.
Как рассказали авторы, их цель заключалась в отделении носителя информации от машины, которая будет считывать эту информацию. Как носитель генетической информации, хранящейся сотни и тысячи лет, молекула ДНК, особенно в замороженном виде, является идеальной формой хранения данных. Для проверки своего подхода исследователи закодировали в одной молекуле 26-секундный отрывок из аудиозаписи знаменитой речи Мартина Лютера Кинга «У меня есть мечта», фундаментальную работу Уотсона и Крика о природе ДНК в формате PDF, текстовый файл со всеми «Сонетами» Шекспира в формате ASCII, а также цветную фотографию лаборатории в Кембриджшире, где проходила работа над проектом, в формате JPEG. Удельный вес записанной информации на молекуле ДНК составил при этом около 2,2 петабайт на 1 грамм вещества.
Чтобы создать ДНК-файлы, ученые создали специальное ПО, которое кодирует нули и единицы традиционного для компьютеров двоичного кода в генетический алфавит ДНК-оснований, состоящий из условных символов A, T, G и C. Во время кодирования программа проверяет, чтобы в коде не появлялись парные основания типа «AA» или «GG», из-за которых резко повышается количество ошибок при синтезе и секвенировании (считывании) ДНК-цепочек. Например, латинская заглавная буква T во второй строке Сонета XVIII была кодирована последовательностью «TATAT».
Готовые файлы делятся на сегменты, снабженные специальным индексным кодом с указанием информации о том, какому файлу принадлежит фрагмент и в каком месте файла этот сегмент расположен — как заголовки и номера страниц в книге. Кроме того, кодирование файлов в ДНК предусматривает некоторый уровень избыточности. Каждая часть файлы представлена четырьмя разными фрагментами, так что если один из фрагментов будет поврежден, данные все еще можно будет восстановить.
В сотрудничество с калифорнийской фирмой Agilent Technologies (г. Санта-Клара), британские ученые смогли синтезировать фрагменты ДНК и продемонстрировать успешное секвенирование и дальнейшее восстановление исходных файлов. Отчет об этих экспериментах опубликован в свежем выпуске журнала Nature, доступном по ссылке
. Для тех, кто беспокоится о возможном попадании ДНК-кода с какими-нибудь файлами в организм, авторы особо подчеркивают, что их ДНК-молекулы являются совершенно искусственными и разительно отличаются от генетических ДНК-цепочек в клетках живой природы.
По оценкам группы Голдмана, сегодня кодирование информации в ДНК обходится примерно в $12 400 за мегабайт, плюс еще $220 на мегабайт за считывание этих данных обратно. Когда цена на синтез ДНК снизится на два порядка, а это ожидается уже в следующем десятилетии, ДНК-накопители смогут опередить по цене современные технологии хранения информации на магнитной ленте.
Как считает Виктор Жирнов, программный директор по технологиям памяти в компании Semiconductor Research Corporation (г. Дурхэм, шт. Северная Каролина), из-за высоких затрат хранение данных в ДНК будет внедряться сначала для долговременного хранения архивов, не предназначенных для частого доступа. В дальнейшем наступление этой технологии может стать «более агрессивным», поскольку флэш-память и другие способы энергонезависимой памяти практически исчерпали пределы миниатюризации. Главной же проблемой для этой технологии Жирнов считает разработку нового оборудования для работы с ДНК-накопителями, которое не ограничивается только секвенсорами и синтезаторами. Насколько известно, упомянутый профессор Чарч из Гарварда уже работает над этой проблематикой, создавая систему для прямого кодирования аналоговых сигналов, включая аудио- и видеопоток, в ДНК-код, полностью избавляясь от промежуточной электроники.
»» Нажмите, для закрытия спойлера | Press to close the spoiler ««