Проекты

Программное средство PromExtra для выделения промоторов из микроаррейных файлов

Процесс извлечения промоторов в рамках программы делится на три этапа.

На первом этапе пользователь загружает либо составляет список идентификаторов генов, символьную последовательность промоторов, которые он желает получить.

На втором этапе пользователь отмечает пространства имён, к которым принадлежат введённые им идентификаторы генов, а также выбирает желаемую длину промотора от 1100 до 60 пар нуклеотидов. В последней версии программы пользователь имеет возможность осуществлять поиск в пространстве имён семнадцати генетических баз данных: Affimetrix, EMBL, HUGO, RefSeq_peptide, SWISSPROT, EntrezGene, UniGene, GO и др.

На третьем этапе программа осуществляет поиск по внутренним таблицам и составляет список промоторов в формате EMBL (формат вывода подпоследовательности ДНК). А именно, программа располагает таблицами, определяющими соответствие между различными идентификаторами генов и набором промоторов в формате EMBL. Таблицы получены при помощи специально разработанной утилиты на языке BioPerl, извлекающей из базы данных Ensembl всевозможные идентификаторы генов и подпоследовательности ДНК размером 1100 пар нуклеотидов, находящихся в непосредственной близости к гену. Считается, что эти подпоследовательности и являются промоторами. В таблицах хранится более 30 тыс. промоторов и около 430 тыс. различных идентификаторов известных генов. В рабочем виде программа занимает около 62 МБ. Ввиду того, что записи таблицы отсортированы и проиндексированы, поиск и вывод результата занимает несколько секунд. Генетическая база данных Ensembl находится в процессе постоянного дополнения и изменения, поэтому рекомендуется периодически обновлять таблицы программы при помощи сопутствующей утилиты. Разработан интерфейс для получения промоторов.