 # Скрипт для подсчета мутационных спектров

На вход подается таблица результатами эксперимента по накоплению мутаций, на выходе получаются мутационные спектры

Используятся данные из статьи: https://doi.org/10.1073/pnas.1210309109

## Подготовка: библиотеки, пути к файлам и параметры

### Установка необходимых для выполнения кода библиотек

Примечание: убрать #, если не предустановлено

In [None]:
#!pip install pandas
#!pip install os
#!pip install Bio
#!pip install numpy
#!pip install seaborn
#!pip install matplotlib
#!pip install pathlib

### Импорт необходимых библиотек 

In [None]:
import pandas as pd
import os
import seaborn as sns
import Bio
from Bio.Seq import Seq
from Bio import SeqIO
import numpy.random as npr
import seaborn as sns
import matplotlib.pyplot as plt
import pathlib

### Пути к файлам

In [None]:
# Рабочая директория
cwd = pathlib.Path(os.getcwd())
#print(cwd)

# Таблица с мутациями
mut_table_path = cwd.parents[1] / 'input/data/E.coli_2015.xlsx'
#print(mut_table_path)
assert mut_table_path.is_file()

# Соответствующий геном E.coli
genome_path = cwd.parents[1] / 'input/data/E.coli_MG1655_old.gb'
#print(genome_path)
assert genome_path.is_file()


## Часть 1: Подготовка данных

Необходимо прочесть таблицу с данными из эксперимента по наколению мутаций для линий дикого штама E. coli PFM2 и привести таблицу к единому формату (одинаковые названия колонок, формат содержащихся в них данных) для запуска скрипта, подсчитывающего мутационные спектры.

### Чтение и процессинг таблицы с результами эксперимента по накоплению мутаций

In [None]:
# Чтение файла в формате Excel
Escherichia_PFM2_WT = pd.read_excel(mut_table_path, sheet_name='M2_LB_BPS', header=0)


In [None]:
# Создание единого стобца "Base_mutation" (мутация с заменой основания), из 2 колонок: референсная последовательности и обнаруженная последовательность
Escherichia_PFM2_WT['Base_mutation'] = Escherichia_PFM2_WT.RefBase+'>'+Escherichia_PFM2_WT.ObservedBase

# Фильтрация NaN значений (удаление пустых строк)
Escherichia_PFM2_WT = Escherichia_PFM2_WT.dropna()

In [None]:
# Изменение названий колонок
Escherichia_PFM2_WT = Escherichia_PFM2_WT.rename(columns = {'LineName': 'Line', 'Position': 'Site'})

display(Escherichia_PFM2_WT)

### Мутации с учетом цепи репликации

В таблице теперь есть колонка с мутациями, однако поскольку все мутации отображены относительно референсной цепи (так как в файле с геномом), который у бактерий наполовину является шаблоном для лидирующей цепи, наполовину - отстающей, то необходимо вычислить эти участки и, заменив половину мутаций на комлементарные, привести все к единому порядку. Таким образом все мутации будут отображены относительно шаблона отстающей цепи.

Для этого необходимо знать позиции точек начала и конца репликации на референсной последовательности - в E. coli PFM2 это позиции 3923657 и 1588773 соответственно 

#### Создание списка с необходимыми данными по каждому эксперименту, включающими: 
1) таблицу с мутациями, 
2) путь к GenBank файлу с данными о референсной последовательности, 
3) координаты точки начала и окончания координат, 
4) название вида/штамма и 
5) идентификатор линии

In [None]:
Data_list =[[Escherichia_PFM2_WT, genome_path, 3923657, 1588773, 'E. coli PFM2', 'PFM2_WT_chr1']]
Data_list_copy = Data_list.copy()

In [None]:
# Скрипты для получения мутаций в формате 6-компонент (без разделения цепей):

def Base_mutation2_convertion(raw):   
    if raw.Base_mutation == 'G>A':
        raw.Base_mutation2 = 'G:C>A:T'
    elif raw.Base_mutation == 'C>T':
        raw.Base_mutation2 = 'G:C>A:T'
    elif raw.Base_mutation == 'G>T':
        raw.Base_mutation2 = 'G:C>T:A'
    elif raw.Base_mutation == 'C>A':
        raw.Base_mutation2 = 'G:C>T:A'
    elif raw.Base_mutation == 'G>C':
        raw.Base_mutation2 = 'G:C>C:G'
    elif raw.Base_mutation == 'C>G':
        raw.Base_mutation2 = 'G:C>C:G'
    elif raw.Base_mutation == 'A>G':
        raw.Base_mutation2 = 'A:T>G:C'
    elif raw.Base_mutation == 'T>C':
        raw.Base_mutation2 = 'A:T>G:C'
    elif raw.Base_mutation == 'A>T':
        raw.Base_mutation2 = 'A:T>T:A'    
    elif raw.Base_mutation == 'T>A':
        raw.Base_mutation2 = 'A:T>T:A'
    elif raw.Base_mutation == 'A>C':
        raw.Base_mutation2 = 'A:T>C:G'
    elif raw.Base_mutation == 'T>G':
        raw.Base_mutation2 = 'A:T>C:G'
    return raw

def Base_mutation4_convertion(raw):   
    if raw.Base_mutation3 == 'G>A' or raw.Base_mutation3 == 'C>T':
        raw.Base_mutation4 = 'G:C>A:T'
    elif raw.Base_mutation3 == 'G>T' or raw.Base_mutation3 == 'C>A':
        raw.Base_mutation4 = 'G:C>T:A'
    elif raw.Base_mutation3 == 'G>C' or raw.Base_mutation3 == 'C>G':
        raw.Base_mutation4 = 'G:C>C:G'
    elif raw.Base_mutation3 == 'A>G' or raw.Base_mutation3 == 'T>C':
        raw.Base_mutation4 = 'A:T>G:C'
    elif raw.Base_mutation3 == 'A>T' or raw.Base_mutation3 == 'T>A':
        raw.Base_mutation4 = 'A:T>T:A'    
    elif raw.Base_mutation3 == 'A>C' or raw.Base_mutation3 == 'T>G':
        raw.Base_mutation4 = 'A:T>C:G'
    return raw

In [None]:
# Скрипты для заполнения колонки Base_mutation3, в которой мутации будут соответствовать шаблону отстающей цепи 

def Base_mutation3_complementary(raw):
    if raw.Base_mutation == 'G>A':
        raw.Base_mutation3 = 'C>T'
    elif raw.Base_mutation == 'C>T':
        raw.Base_mutation3 = 'G>A'
    elif raw.Base_mutation == 'G>T':
        raw.Base_mutation3 = 'C>A'
    elif raw.Base_mutation == 'C>A':
        raw.Base_mutation3 = 'G>T'
    elif raw.Base_mutation == 'G>C':
        raw.Base_mutation3 = 'C>G'
    elif raw.Base_mutation == 'C>G':
        raw.Base_mutation3 = 'G>C'
    elif raw.Base_mutation == 'A>G':
        raw.Base_mutation3 = 'T>C'
    elif raw.Base_mutation == 'T>C':
        raw.Base_mutation3 = 'A>G'
    elif raw.Base_mutation == 'A>T':
        raw.Base_mutation3 = 'T>A'    
    elif raw.Base_mutation == 'T>A':
        raw.Base_mutation3 = 'A>T'
    elif raw.Base_mutation == 'A>C':
        raw.Base_mutation3 = 'T>G'
    elif raw.Base_mutation == 'T>G':
        raw.Base_mutation3 = 'A>C'
    return raw


In [None]:
# Функция, объединяющая предидущие функции для того, чтобы получить список мутаций по шаблону отстающей цепи

def Base_mutation_preparing(Chromosomes_list):
    MutSpec_lists = []
    for Chromosome in Chromosomes_list:
        MutSpec = Chromosome[0].copy().rename(columns={'Position':'Site'})
        Oric_Pos = Chromosome[2]
        Ter_Pos = Chromosome[3]
        MutSpec['Base_mutation2'] = 0
        MutSpec['Base_mutation3'] = 0
        MutSpec['Base_mutation4'] = 0
        MutSpec['Species']= 'E. coli'

        
        def Base_mutation3_Strand_specific(raw):
                if Oric_Pos>Ter_Pos:
                    if raw.Site>=Oric_Pos or raw.Site<Ter_Pos:
                        raw.Base_mutation3 = raw.Base_mutation
                elif Oric_Pos<Ter_Pos:
                    if raw.Site>=Oric_Pos and raw.Site<Ter_Pos:
                        raw.Base_mutation3 = raw.Base_mutation
                return raw

        MutSpec2 = MutSpec.apply(Base_mutation2_convertion, axis =1)
        MutSpec3 = MutSpec2.apply(Base_mutation3_complementary, axis =1)
        MutSpec3 = MutSpec3.apply(Base_mutation3_Strand_specific, axis =1)
        MutSpec4 = MutSpec3.apply(Base_mutation4_convertion, axis =1)
        
        MutSpec4['Species'] = Chromosome[4]
        MutSpec4['Line'] = Chromosome[5]
        MutSpec4['Chromosome'] = 1
        MutSpec_f = MutSpec4[['Species', 'Line', 'Chromosome', 'Site', 'Base_mutation', 'Base_mutation2', 'Base_mutation3', 'Base_mutation4']]
        MutSpec_lists.append(MutSpec_f)
    return MutSpec_lists

In [None]:
# Применение функций выше на списке с данными эксперимента
Data_list_copy_prepared = Base_mutation_preparing(Data_list_copy)

# Извлекаем подготовленную табличку с экспериментом
Escherichia_PFM2_WT_f = Data_list_copy_prepared[0]
display(Escherichia_PFM2_WT_f)

## Часть 2. Построение мутационного спектра

Теперь на основании полученной таблицы необходимо подсчитать мутационный спектр. Для этого необходимо составить список необходимого формата, и запустить скрипт на таблице единого формата. Скрипт считает как 6-компонентные мутационные спектры (без учета цепи репликации), так и 12-компонентные (с учетом цепи репликации) по формуле μ = m/(nT), где  μ - частота определенного типа мутации (например C>A), m - число обнаруженных мутаций (C>A) , n - число нуклеотидов в геноме данного типа (в нашем примере цитозинов), а T - общее число поколений в эксперименте (рассчитывается в ходе эксперимента и берется из статьи). Также производится нормализация к едини, для получения долей различных типов мутаций в одном виде (сумма частот всех мутаций будет равна 1). Погрешность рассчитывается методом 1000X бутстрепа набора мутаций. Есть возможность запускать по несколько видов сразу. 

### Подсчёт частот мутаций

In [None]:
# Список с данными по эксперименту (таблица мутаций, путь к файлу GenBank, Соже)

List = [[Escherichia_PFM2_WT_f,[[genome_path, 3923657, 1588773]]]]

In [None]:
# Извлекаем модуль для подсчета мутационного спектров

from MutSpec_counter import MutSpec_counter

In [None]:
# Подсчет мутационного спектра

Mut_spec_full = MutSpec_counter(List)

In [None]:
# Извлечение 6- и 12-компонентных спектров

mut_spec_12_WT =  Mut_spec_full[(Mut_spec_full['Mut_status']=='WT')&((Mut_spec_full['Mut_spec']=='12_orig')|(Mut_spec_full['Mut_spec']=='12_mod'))]
mut_spec_6_WT =  Mut_spec_full[(Mut_spec_full['Mut_status']=='WT')&((Mut_spec_full['Mut_spec']=='6_orig')|(Mut_spec_full['Mut_spec']=='6_mod'))]

In [None]:
#Прописываем категории для упорядочивания файлов 

Categorized = {'12_comp': ['A>C', 'T>G', 'A>G', 'T>C', 'A>T', 'T>A', 'C>A', 'G>T', 'C>G', 'G>C', 'C>T', 'G>A'],
               '6_comp': ['A:T>G:C', 'G:C>A:T', 'A:T>T:A', 'G:C>T:A', 'A:T>C:G', 'G:C>C:G']
               }

In [None]:
# Упорядочивания строк в df в 6-компонентным спектром 

mut_spec_6_WT_copy = mut_spec_6_WT.copy()
mut_spec_6_WT_copy.Base_mutation = pd.Categorical(mut_spec_6_WT_copy.Base_mutation, categories=Categorized['6_comp'], ordered=True)
mut_spec_6_WT_copy = mut_spec_6_WT_copy.sort_values(by=['Base_mutation'])
mut_spec_6_WT_copy = mut_spec_6_WT_copy[["Species", "Line", 'Mut_spec', "Chromosome", 'Strand', "Base_mutation", 'Mutation_count', 'Frequency', 'Frequency_sum', "Norm_frequency", "STD_norm"]]

In [None]:
# Упорядочивание строк в df с 12-компонетным спектром 

mut_spec_12_WT_copy = mut_spec_12_WT.copy()
mut_spec_12_WT_copy.Base_mutation = pd.Categorical(mut_spec_12_WT_copy.Base_mutation, categories=Categorized['12_comp'], ordered=True)
mut_spec_12_WT_copy = mut_spec_12_WT_copy.sort_values(by=['Base_mutation'])
mut_spec_12_WT_copy = mut_spec_12_WT_copy[["Species", "Line", 'Mut_spec', "Chromosome", 'Strand', "Base_mutation", 'Mutation_count', 'Frequency', 'Frequency_sum', "Norm_frequency", "STD_norm"]]

### Построение мутационных спектров

In [None]:
# ФУНКЦИЯ ДЛЯ построения ГРАФИКОВ

def errplot(x, y, yerr, hue, **kwargs):
    data = kwargs.pop('data')
    p = data.pivot_table(index = x,  values = y, columns = hue, aggfunc='mean')
    err = data.pivot_table(index = x, columns = hue, values = yerr, aggfunc='mean')
    p.plot(kind='bar', yerr = err, ax=plt.gca(), **kwargs)

sns.set_theme()
npr.seed(seed=0)
my_sz = 1000

#### 6-компонентный мутационный спектр

In [None]:
# Построение графика с 6-компонентным спектром

mut_spec_6_WT_copy1 = mut_spec_6_WT_copy[mut_spec_6_WT_copy.Chromosome == 1]
mut_spec_6_WT_g1 = sns.FacetGrid(mut_spec_6_WT_copy1, height=5, aspect=2)
mut_spec_6_WT_g1.map_dataframe(errplot, "Base_mutation", "Norm_frequency", "STD_norm", "Species",  width=0.9)
mut_spec_6_WT_g1.set_xticklabels(['A:T>G:C', 'G:C>A:T', 'A:T>T:A', 'G:C>T:A', 'A:T>C:G', 'G:C>C:G'], rotation =45)
plt.subplots_adjust(right=0.9)
mut_spec_6_WT_g1.set(ylim=(0, 0.4))
mut_spec_6_WT_g1.set_axis_labels("Мутация", "Частота мутации")
plt.legend(loc='upper left', bbox_to_anchor=(1, 0.8))
mut_spec_6_WT_g1.fig.subplots_adjust(top=0.9)
mut_spec_6_WT_g1.fig.suptitle('Мутационный спектр хромосомы 1, Escherichia coli str. K-12 substr. MG1655')
plt.show()

#### 12-компонентный мутационный спектр

In [None]:
# Построение графика с 12-компонентным графиком

mut_spec_12_WT_copy1 = mut_spec_12_WT_copy[mut_spec_12_WT_copy.Chromosome==1]
mut_spec_12_WT_copy2 = mut_spec_12_WT_copy1[mut_spec_12_WT_copy1.Strand == 'Strand_specific']
mut_spec_12_WT_g1 = sns.FacetGrid(mut_spec_12_WT_copy2, height=5, aspect=2)
mut_spec_12_WT_g1.map_dataframe(errplot, "Base_mutation", "Norm_frequency", "STD_norm", "Species",  width=0.9)
mut_spec_12_WT_g1.set_xticklabels(['A>C', 'T>G', 'A>G', 'T>C', 'A>T', 'T>A', 'C>A', 'G>T', 'C>G', 'G>C', 'C>T', 'G>A'], rotation =45)
plt.subplots_adjust(right=0.90)
mut_spec_12_WT_g1.set(ylim=(0, 0.3))
mut_spec_12_WT_g1.set_axis_labels("Мутация", "Частота мутации")
plt.legend(loc='upper left', bbox_to_anchor=(1, 0.9))
mut_spec_12_WT_g1.fig.subplots_adjust(top=0.9)
mut_spec_12_WT_g1.fig.suptitle('Мутационный спектр шаблона отстающей цепи хромосомы 1, Escherichia coli str. K-12 substr. MG1655')
plt.show()