Журнал «Биотехнология» Архив номеров журнала Архив за 2013 год Номер 1 Метод выявления химерных последовательностей и коррекции ошибок во флоуграммах при секвенировании генома

Метод выявления химерных последовательностей и коррекции ошибок во флоуграммах при секвенировании генома

Автор: В.В. Галатенко, А.Е. Лебедев, В.К. Николаев, Е.А. Тоневицкий, А.Г. Тоневицкий

Страница: 78-90

 

Метод выявления химерных последовательностей и коррекции ошибок во флоуграммах при секвенировании генома

Биотехнология, 2013, № 1, С. 78-90

УДК 57.087+51.76

Раздел: «Системный анализ, математическое моделирование, информационные системы»

 

В.В. Галатенко1,*, А.Е. Лебедев2, В.К. Николаев3, Е.А. Тоневицкий, А.Г. Тоневицкий4

1 Московский государственный университет имени М.В. Ломоносова, Механико-математический факультет, Москва, 119991

2 ООО НТЦ «БиоКлиникум», Москва, 115088

3 Научно-исследовательский институт физико-химической биологии им. А.Н. Белозерского МГУ, Москва, 119991

4 ФГБУ "НИИ общей патологии и патофизиологии РАМН", Москва, 125315

 

e-mail: vgalat@msu.ru

 

Предложен новый метод исправления ошибок в ридах/флоуграммах, полученных при секвенировании генома, и выявления так называемых «химерных» ридов/флоуграмм. Метод базируется на том, что каждый фрагмент генома в общем случае оказывается покрыт несколькими ридами/флоуграммами. Метод имеет потенциал для применения в различных технологиях секвенирования, однако разрабатывался он главным образом для технологий, порождающих флоуграммы (в частности, пиросеквенирования и полупроводникового секвенирования). Применение алгоритма, осуществляющего исправление ошибок и выявление химерных последовательностей, перед начальной сборкой генома позволяет существенно уменьшить количество ошибок в ридах/флоуграммах, и тем самым повысить качество сборки. Предложенный метод был апробирован на данных, полученных при модельной симуляции секвенирования. Тестирование показало, что метод позволяет исправить 97,7—99,3% ошибок. При этом большинство неисправленных ошибок локализуются в длинных гомополимерах и/или в малом числе позиций генома. Также метод был применен к набору флоуграмм, полученных при пиросеквенировании. Результаты исправления оказались самосогласованными и в большинстве случаев подтверждались контигами, полученными из набора флоуграмм сборщиком Newbler (454 Life Sciences).

 

Ключевые слова: коррекция ошибок, рид, cеквенирование, флоуграмма.

 

 

A Method for Detection of Chimerical Sequences and Correction of Errors in Flowgrams during Genome Sequencing

 

V.V. Galatenko1,*, A.E. Lebedev2, V.K. Nikolaev3, E.A. Tonevitsky, and A.G. Tonevitsky4

 

1 The Lomonosov Moscow State University, Faculty of Mechanics and Mathematics, 119991, Moscow Russia

2 The Reseach-and-Technique Center BioClincum, 115088, Moscow Russia

3 The Belozersky Institute of Physicochemical Biology, Moscow State University, 119991, Moscow Russia

4 The Research Institute for General Pathology and Pathophysiology, Russ. Acad. Med. Sci., 125315, Moscow Russia

 

e-mail: vgalat@msu.ru

 

A novel method for the correction of errors in reads/flow­grams obtained during genome sequencing and detection of so-called chimerical reads/flowgrams has been suggested. The method is based on a fact that each genome fragment is generally covered by multiple reads (flowgrams). The method can potentially be applied to various sequencing technologies; however, it was developed primarily for the flowrogram-generating technologies, in particular, pyrosequencing and semiconductor sequencing. The use of the algorithm for the correction of errors and detection of chimerical sequences significantly decreases the number of errors in reads/flowgrams before the initial genome assembly and hence improves the quality of the latter. The suggested method was tested using the data obtained during the model simulation of sequencing; the testing showed that the method permits to correct 97,7-99,3% of errors. The majority of uncorrected errors are located within long homopolymers and/or at low number of positions in genome. The method was also applied to a set of flowgrams obtained as a result of pyrosequencing. The results proved to be self-adjusted, and they were supported by contigs obtained from the set of flowgrams using a Newbler (454 Life Sciences) assembler.

 

Key words: error correction, flowgram, read, sequencing.

 

14.06.2013, 2932 просмотра.

Контакты

Адрес: 123182 Россия, Москва
Площадь Академика Курчатова д. 1
Тел.: +7 (499) 196-73-52


E-mail: biotechjournal@nrcki.ru