# Ferramentas de Análise de Dados (Exercício Prático)

Instruções:

1. Insira e salve seu código dentro deste notebook
2. Execute o código e salve o notebook com o resultado
3. Responda às questões no formulário online do site da disciplina

>__Nota__: Fique à vontade para adicionar células novas ao *notebook*.

## Tópicos

1. [Revisão Python: escreva uma função](#dados_ep1)
2. [Introdução Pandas: cruzando tabelas e agrupando](#dados_ep2)

<a id="dados_ep1"></a>
## 1. Revisão Python: escreva uma função

Escreva uma [função](#Parte1_Revisao_Python.ipynb#funcoes) que, dada uma sequência de DNA, calcule os valores do *GC skew* __para todos os fragmentos__ de 10 nucleotídeos, sem sobreposição dos fragmentos.

### Detalhes:

O *GC skew* é definido pela fórmula

$GC_{skew} = (G - C) / (G + C)$

onde $G$ é o número de guaninas e $C$ é o número de citosinas.

Para a sequência

<pre>
TCAGTTCAAGTCCCCCCCCTCGCACCAACGAGGCAATATCTCAAAGAAAGAATACTGTGCGAAGGTGGCGGAATTGGTAGACGCCAT
</pre>

os fragmentos a cada 10 nucleotídeos, sem sobreposição, correpondem a 

<pre>
0          | 10         | 20         | ... | 70         | 80
TCAGTTCAAG | TCCCCCCCCT | CGCACCAACG | ... | GAATTGGTAG | ACGCCAT`
</pre>

onde `...` representa os fragmentos de 30 a 69, que foram omitidos.

### Pergunta:

Seguindo o padrão da indexação de váriáveis texto no Python, onde a primeira posição de um valor texto, como a sequência de DNA acima, é 0, a segunda 1 e assim por diante, responda:

* Qual o __valor do $GC_{skew}$__ para o fragmento de 10 nucleotídeos iniciado __na posição 60__ da sequência de DNA mostrada acima?__

>__Para entrega do resultado__:
>
>1. Use a sequência acima, completa, como entrada da sua [função](Parte1_Revisao_Python.ipynb#funcoes)
>
>2. Use a célula abaixo para implementar sua solução e __salve o notebook com os resultados__
>

>3. Acesse o site do e-disciplinas e responda a questão usando os resultados do seu código

<a id="dados_ep2"></a>
## 2. Introdução Pandas: cruzando tabelas e agrupando

Nesse exercício, vamos continuar explorando a distribuição de genes similares a genes de resistência a antibióticos e a outros tipos de estresse nos *contigs* da montagem do genoma de *Klebsiella pneumoniae KPNIH39*.

Instruções:

1. Usando o Pandas, carregue as seguintes tabelas:
    1. `kpneu-contigs.tsv`: comprimento dos contigs de KPNIH39 (colunas: id do contig e seu comprimento)
    2. `kpneu.tblastn.tsv`: resultados da análise de TBLASTN (colunas com cabeçalho, ver [Parte 2](Parte2_Introducao_Pandas.ipynb#exemplo1))
    3. `genes.txt`: descrição da função dos 46 genes de resistência (proteína e função)
    4. `genes.tsv`: comprimento das proteínas (colunas: proteína e comprimento)
    
>__Nota__:
>
>Não esqueça de usar o parâmetro `sep="\t"`, do método `read_csv()`, para garantir que as tabulações sejam reconhecidas como separadores de colunas.
>
>Se quiser saber como as tabelas acima foram geradas, veja o script [source1.sh](source1.sh).

2. __IMPORTANTE__: depois de carregar as quatro tabelas em quatro Pandas DataFrames, filtre as linhas do DataFrame correspondente ao resultado de TBLASTN (B), mantendo apenas as linhas onde a coluna `pident` é maior que 90 (identidade > 90).


3. Aplique uma combinação dos métodos `groupby()`, `merge()` e `max()` para responder a questão no site do e-disciplinas.

>__Nota__: o passo 1 já está implementados na célula abaixo (linhas começando em "#" são comentários).

In [None]:
# Load
import pandas as pd
clen = pd.read_csv("kpneu-contigs.tsv", sep="\t", names=['contig','clen'])
tb = pd.read_csv("kpneu.tblastn.tsv", sep="\t")
g = pd.read_csv("genes.txt", sep="\t", names=['protein','annotation'])
plen = pd.read_csv("genes.tsv", sep="\t", names=['protein','plen'])