Skip to content

DaryaSushkova/hse22_hw1

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 

Repository files navigation

hse22_hw1

Сушкова Дарья Сергеевна, подгруппа 2

Список команд на сервере:

Взаимодействие осуществлялось с помощью MobaXterm.

  1. Создание ссылок на требуемые файлы:
    image
  2. Выбор случайных чтений для каждого типа соответственно:
    image
  3. Оценка качества исходных чтений с помощью программы fastQC:
    image
  4. Создание отчета с помощью программы multiQC:
    image
  5. Подрезка чтений по качеству и удаление адаптеров:
    image
    image
    Примечание: удаление файлов с исходными чтениями производились вручную благодаря средствам MobaXtern.
    На следующих шагах имена sub* и mp* имеют только файлы с подрезанными чтениями.
  6. Оценка качества подрезанных чтений с помощью программы fastQC:
    image
  7. Создание отчета для подрезанных чтений с помощью программы multiQC:
    image
  8. Сбор контигов для подрезанных чтений:
    image
  9. Сбор скаффолдов из контигов и подрезанных чтений:
    image
  10. Уменьшение количества гэпов:
    image

Статистика multiQC:

  1. Для исходных чтений:
    image
    fastqc_per_sequence_quality_scores_plot
    Ссылка на полный отчет
  2. Для подрезанных чтений:
    image
    fastqc_per_sequence_quality_scores_plot (1)
    Ссылка на полный отчет

Результаты работы кода:

  1. Основная часть задания:

Анализ контигов:
Общее количество: 602
Общая длина: 3924567
Самая большая длина: 179307
N50: 55038

Анализ скаффолдов:
Общее количество: 69
Общая длина: 3875426
Самая большая длина: 3834374
N50: 3834374

Анализ гэпов для самого длинного скаффолда:
Количество гэпов: 60
Общая длина гэпов: 6534

---ПОСЛЕ УМЕНЬШЕНИЯ КОЛИЧЕСТВА ГЭПОВ---

Анализ скаффолдов:
Общее количество: 69
Общая длина: 3926639
Самая большая длина: 3885251
N50: 3885251

Анализ гэпов для самого длинного скаффолда:
Количество гэпов: 9
Общая длина гэпов: 2003

  1. Бонусная часть задания:
    Примечание: количество случайных чтений было сокращено в 2 раза: 2500000 для типа paired_end и 750000 для типа mate_pairs.
    Работа с файлами была идентична, изменилось лишь количество чтений:

    image

Анализ контигов:
Общее количество: 713
Общая длина: 3924600
Самая большая длина: 235702
N50: 75466

Анализ скаффолдов:
Общее количество: 78
Общая длина: 3867546
Самая большая длина: 3833962
N50: 3833962

Анализ гэпов для самого длинного скаффолда:
Количество гэпов: 74
Общая длина гэпов: 7988

---ПОСЛЕ УМЕНЬШЕНИЯ КОЛИЧЕСТВА ГЭПОВ---

Анализ скаффолдов:
Общее количество: 78
Общая длина: 3893717
Самая большая длина: 3860126
N50: 3860126

Анализ гэпов для самого длинного скаффолда:
Количество гэпов: 22
Общая длина гэпов: 4450

  1. Выводы для бонусной части:

Заметим, что при уменьшении количества случайных чтений в 2 раза результаты изменились следующим образом:
a) Количество и контигов, и скаффолдов увеличилось;
b) 50N для контигов стал заметно больше, 50N для скаффолдов (до и после уменьшения количества гэпов аналогично) стал немного меньше;
с) Длина самого длинного контига увеличилась, общая длина контигов немного увеличилась;
d) Длина самого длинного скаффолда уменьшилась, общая длина скаффолдов уменьшилась (до и после уменьшения количества гэпов аналогично);
e) Количество гэпов для самого длинного скаффолда и их общая длина заметно увеличились (до и после уменьшения количества гэпов аналогично).

Получившееся сравнение нельзя назвать однозначным, так как разные характеристики показали разную тенценцию.
Вероятнее, для более глубокого и однозначного анализа требуется более широкая выборка геномов.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published