<font size="3" color="gray"><b><center>III Workshop de Python para Dados Biológicos</center></b></font>
# <center>Python em estudos evolutivos:</center> 
## <center>de simulações à análise de dados</center>
<br>
<font size="4" color="black"><b><center>Andréa T. Thomaz</center></b></font>
<center>University British Columbia - Canada <br></center>
<center>Universidad del Rosario - Colombia</center>

<font size="3" color="gray"><center>- 10 de Setembro, 2020 -</center></font>

## RESUMO

O uso da programação de dados, como a utilização da linguagem Python, vai muito além do desenvolvimento de softwares. Na biologia, a capacidade de desenvolver "scripts caseiros" cujo objetivo seja auxiliar o pesquisador a desenvolver tarefas específicas para responder suas hipóteses está se tornando imprescindível, principalmente na época atual que lidamos com grandes quantidades de dados (e.g., banco de dados grandes e "omics"). Por isso, através de exemplos relacionados à geração e análise de simulações biológicas, com um foco evolutivo, pretenddo ilustrar diferentes usos da linguagem Python no dia-a-dia da pesquisa e como ferramenta facilitadora para a realização de diversas tarefas. Para isso, primeiramente vou ilustrar o uso de simulações com exemplos probabilísticos relacionados ao tamanho amostral e aplicar essas simulações ao conceito de deriva genética baseado em scripts próprios. Após, vou demonstrar o uso de Python em cenários evolutivos mais complexos, onde aplicamos conhecimento de programação em combinação com softwares já desenvolvidos e, a partir dos resultados obtidos, sumarizar grandes quantidades de dados gerados e aplicar testes estatísticos em Python para obter resultados que nos leve a responder perguntas de interesse biológico. Através do uso de simulações geradas em Python, somos capazes de testar uma variedade infinita de perguntas evolutivas de maneira a nos auxiliar a distinguir padrões biológicos e seus processos.

## COVID-19 projeções

In [None]:
##script downloaded do github, para isso no seu terminal digitar:
#git clone https://github.com/youyanggu/yyg-seir-simulator.git

#correndo para os 3 parâmetros testados:
import numpy as np
%run ./Scripts/yyg-seir-simulator/run_simulation.py --skip_hospitalizations --quarantine_perc 0 --save_csv_fname Brazil_0quarantPerc.csv -v --best_params_dir ./Scripts/yyg-seir-simulator/best_params/latest --country Brazil
%run ./Scripts/yyg-seir-simulator/run_simulation.py --skip_hospitalizations --quarantine_perc 0.25 --quarantine_effectiveness 0.25 --save_csv_fname Brazil_25quarantPerc.csv -v --best_params_dir ./Scripts/yyg-seir-simulator/best_params/latest --country Brazil
%run ./Scripts/yyg-seir-simulator/run_simulation.py --skip_hospitalizations --quarantine_perc 0.5 --quarantine_effectiveness 0.5 --save_csv_fname Brazil_50quarantPerc.csv -v --best_params_dir ./Scripts/yyg-seir-simulator/best_params/latest --country Brazil


In [None]:
#lendo e plotando os csv gerados acima
import pandas as pd
import plotly.express as px
import plotly

#reading data frames with pandas
df0 = pd.read_csv('./Scripts/yyg-seir-simulator/Brazil_0quarantPerc.csv')
df25 = pd.read_csv('./Scripts/yyg-seir-simulator/Brazil_25quarantPerc.csv')
df50 = pd.read_csv('./Scripts/yyg-seir-simulator/Brazil_50quarantPerc.csv')
#merging all the data frames into a single one
df = pd.concat([df0,df25,df50], keys=["Q0","Q25","Q50"]).reset_index()
#df.head()
fig = px.line(df, x = '# dates', y = 'deaths',color='level_0',
             labels={"deaths": "Number of deaths",
                    "# dates": "Dates",
                    "level_0": "% quarantine"})
fig.show()
#fig.write_image("./Figures/Brazil_covid.png")

# Uso de python em simulações biológicas

$\;\;\;\;\;\;$1) Scripts caseiros

$\;\;\;\;\;\;$2) Com outros softwares

$\;\;\;\;\;\;$3) Sumarizar grandes quantidades de resultados

## 1) Scripts caseiros

Script modificado de original (autor: Tom Booker, UBC) <br>
Link github: https://github.com/TBooker/GlobalAdaptation/tree/master/SteppingStone

- pacotes utilizados: <br>
$\;\;\;\;\;\;$<b>- numpy:</b> gerar "random seed", soma e vetores <br>
$\;\;\;\;\;\;$<b>- argparse:</b> para passar comandos ao chamar o script
<br>
<br>
- linha de comando: <br>
$\;\;\;$python drifter.py -k 1 -N 100 -m 0 -p 0.5 -d 10000 -o driftedPop_N100.csv --store

In [None]:
#gera csv para os 4 tamanhos efetivos (N) testados
## 1) Scripts caseiros

%run ./Scripts/01_Drift/drifter.py -k 1 -N 100 -m 0 -p 0.5 -d 10000 -o ./Scripts/driftedPop_N100.csv --store
%run ./Scripts/01_Drift/drifter.py -k 1 -N 1000 -m 0 -p 0.5 -d 10000 -o ./Scripts/driftedPop_N1000.csv --store
%run ./Scripts/01_Drift/drifter.py -k 1 -N 10000 -m 0 -p 0.5 -d 10000 -o ./Scripts/driftedPop_N10000.csv --store
%run ./Scripts/01_Drift/drifter.py -k 1 -N 100000 -m 0 -p 0.5 -d 10000 -o ./Scripts/driftedPop_N100000.csv --store

In [None]:
#plotando
#reading data frames with pandas
df1e2 = pd.read_csv('./Scripts/02_SteppingStone/driftedPop_Rep10_N100.csv', names=['Generation','Frequency','Replicate'])
df1e3 = pd.read_csv('./Scripts/02_SteppingStone/driftedPop_Rep10_N1000.csv', names=['Generation','Frequency','Replicate'])
df1e4 = pd.read_csv('./Scripts/02_SteppingStone/driftedPop_Rep10_N10000.csv', names=['Generation','Frequency','Replicate'])
df1e5 = pd.read_csv('./Scripts/02_SteppingStone/driftedPop_Rep10_N100000.csv', names=['Generation','Frequency','Replicate'])

#merging all the data frames into a single one
df = pd.concat([df1e2,df1e3,df1e4,df1e5], keys=["Ne=100","Ne=1000","Ne=10000","Ne=100000"]).reset_index()
#df.head()

fig = px.line(df, x = 'Generation', y = 'Frequency', color='level_0', line_group='Replicate', labels={"level_0": ""})
fig.update_xaxes(range=[0, 9900])
fig.update_yaxes(range=[0, 1])
fig.show()
#fig.write_image("./Figures/Drift_python.png")

## 2) Python com outros softwares e pacotes já desenvolvidos 
Vamos utilizar:
- *msprime:* https://msprime.readthedocs.io/en/stable/tutorial.html

In [None]:
import msprime
import plotly.figure_factory as ff

#number of replicates to perform per Ne
num_replicates = 10000
#array with population sizes to be simulated
Ne_array=[ 100 , 1000 , 10000, 100000 ]
#generate empty array to append in the for loop
T = []

#for loop to simulate trees for each population size
for n in Ne_array:
	replicates = msprime.simulate(sample_size=10, Ne=n, num_replicates=num_replicates)
	# And then iterate over these replicates to calculate the time since the MRCA
	for i, tree_sequence in enumerate(replicates):
		tree = tree_sequence.first()
		T.append( tree.time(tree.root) ) #this will be a long vector with all divergences

#making a data frame with time and Ne
df = pd.DataFrame({'Ne = 100': T[0:num_replicates], 
	'Ne = 1000': T[num_replicates:num_replicates*2],
	'Ne = 10000': T[num_replicates*2:num_replicates*3],
	'Ne = 100000': T[num_replicates*3:num_replicates*4]})
#show means
print(df.mean())

#Plotting :)
fig = ff.create_distplot([df[c] for c in df.columns], df.columns, bin_size=.25)
fig.update_xaxes(range=[-1000, 250000])
fig.show()
#fig.write_image("./Figures/Tmrca_distr.png")

# <center><b>FIM :)</b></center>