Анализы ДНК в Украине
Все анализы/Дополнительные услуги NGS
Сырые данные секвенирования являются ресурсом для ученых, обладающих навыками биоинформатики. Сырые данные секвенирования требуют специальных биоинформатических инструментов для открытия файлов и их дальнейшего анализа или визуализации. Мы не оказываем помощь в вопросах интерпретации и обработки сырых данных.
Срок считается с момента получения результата секвенирования.
Для полноэкзомного секвенирования (WES) предоставляются файлы .VCF, .BAM. Для панелей - файл .VCF.
BAM (Карта выравнивания двоичных последовательностей) — это стандартный формат файла, который содержит считывания последовательностей, сопоставленные с эталонным геномом человека, включая базовое качество и показатели качества сопоставления. Размер файлов BAM составляет ~6–10 ГБ для анализа типа WES.
VCF (формат вызова вариантов) — это стандартный формат файла, в котором хранится список вариантов последовательностей и их геномных положений. Файл VCF не содержит подробных аннотаций вариантов, таких как название гена или частота популяции варианта. Этот VCF не подвергался фильтрации в соответствии с какими-либо конкретными стандартами качества. Его размер составляет ~2 МБ.
Размер файла может быть большим, поэтому мы рекомендуем вам зарезервировать несколько часов на загрузку. Для загрузки файлов можно использовать веб-браузер, но мы рекомендуем вам использовать утилиту командной строки для загрузки файлов на компьютер, способный хранить и обрабатывать большие объемы данных.
Вот так примерно выглядят сырые данные после скачивания и открытия текстовым редактором.
- Размер файла VCF (~2 МБ, WES и 400 МБ, WGS) обычно не представляет проблем для обычного компьютера. Для обработки файлов VCF требуются биоинформационные инструменты. Однако его можно открыть в любом текстовом редакторе или Excel после распаковки файла VCF в формате gz.
- Для файлов BAM (~6–10 ГБ, WES) важно использовать компьютер, который может хранить и обрабатывать большие объемы данных. Можно использовать биоинформатические инструменты для доступа к файлу BAM и выполнения вызовов вариантов (которые создают VCF) или визуализации считываний и вариантов последовательностей.
Анализ сырых данных о последовательностях требует знаний и программного обеспечения в области биоинформатики.
Для аннотации и анализа вариантов последовательности в файле VCF доступно несколько коммерческих и некоммерческих инструментов. К наиболее часто используемым и свободно доступным инструментам командной строки относятся:
- VEP (https://www.ensembl.org/info/docs/tools/vep/index.html)
- ANNOVAR (http://annovar.openbioinformatics.org/en/latest/)
- SnpEff (http://snpeff.sourceforge.net)
Существует также несколько некоммерческих и коммерческих программ на базе веб-браузера или автономных программ для аннотирования и анализа вариантов. Для анализа чтения последовательностей GATK является одним из наиболее часто используемых наборов инструментов [https://software.broadinstitute.org/gatk/].
Для визуализации содержимого файлов VCF или BAM в геномном контексте можно использовать Integrative Genome Browser (IGV) как автономное приложение, так и интерфейс веб-браузера.