Сушкова Дарья Сергеевна, подгруппа 2
Взаимодействие осуществлялось с помощью MobaXterm.
- Создание ссылок на требуемые файлы:
- Выбор случайных чтений для каждого типа соответственно:
- Оценка качества исходных чтений с помощью программы fastQC:
- Создание отчета с помощью программы multiQC:
- Подрезка чтений по качеству и удаление адаптеров:
Примечание: удаление файлов с исходными чтениями производились вручную благодаря средствам MobaXtern.
На следующих шагах имена sub* и mp* имеют только файлы с подрезанными чтениями. - Оценка качества подрезанных чтений с помощью программы fastQC:
- Создание отчета для подрезанных чтений с помощью программы multiQC:
- Сбор контигов для подрезанных чтений:
- Сбор скаффолдов из контигов и подрезанных чтений:
- Уменьшение количества гэпов:
- Для исходных чтений:
Ссылка на полный отчет - Для подрезанных чтений:
Ссылка на полный отчет
- Основная часть задания:
Анализ контигов:
Общее количество: 602
Общая длина: 3924567
Самая большая длина: 179307
N50: 55038
Анализ скаффолдов:
Общее количество: 69
Общая длина: 3875426
Самая большая длина: 3834374
N50: 3834374
Анализ гэпов для самого длинного скаффолда:
Количество гэпов: 60
Общая длина гэпов: 6534
---ПОСЛЕ УМЕНЬШЕНИЯ КОЛИЧЕСТВА ГЭПОВ---
Анализ скаффолдов:
Общее количество: 69
Общая длина: 3926639
Самая большая длина: 3885251
N50: 3885251
Анализ гэпов для самого длинного скаффолда:
Количество гэпов: 9
Общая длина гэпов: 2003
- Бонусная часть задания:
Примечание: количество случайных чтений было сокращено в 2 раза: 2500000 для типа paired_end и 750000 для типа mate_pairs.
Работа с файлами была идентична, изменилось лишь количество чтений:
Анализ контигов:
Общее количество: 713
Общая длина: 3924600
Самая большая длина: 235702
N50: 75466
Анализ скаффолдов:
Общее количество: 78
Общая длина: 3867546
Самая большая длина: 3833962
N50: 3833962
Анализ гэпов для самого длинного скаффолда:
Количество гэпов: 74
Общая длина гэпов: 7988
---ПОСЛЕ УМЕНЬШЕНИЯ КОЛИЧЕСТВА ГЭПОВ---
Анализ скаффолдов:
Общее количество: 78
Общая длина: 3893717
Самая большая длина: 3860126
N50: 3860126
Анализ гэпов для самого длинного скаффолда:
Количество гэпов: 22
Общая длина гэпов: 4450
- Выводы для бонусной части:
Заметим, что при уменьшении количества случайных чтений в 2 раза результаты изменились следующим образом:
a) Количество и контигов, и скаффолдов увеличилось;
b) 50N для контигов стал заметно больше, 50N для скаффолдов (до и после уменьшения количества гэпов аналогично) стал немного меньше;
с) Длина самого длинного контига увеличилась, общая длина контигов немного увеличилась;
d) Длина самого длинного скаффолда уменьшилась, общая длина скаффолдов уменьшилась (до и после уменьшения количества гэпов аналогично);
e) Количество гэпов для самого длинного скаффолда и их общая длина заметно увеличились (до и после уменьшения количества гэпов аналогично).
Получившееся сравнение нельзя назвать однозначным, так как разные характеристики показали разную тенценцию.
Вероятнее, для более глубокого и однозначного анализа требуется более широкая выборка геномов.