# Introdução à biblioteca Pandas

O objetivo dessa parte da aula é ensinar como carregar e manipular dados com Pandas.

Uma vez que os conceitos básicos dessa biblioteca são dominados, é possível fazer manipulações complexas de grandes volumes de dados com esforço mínimo de programação.

## Tópicos

1. [Introdução](#introducao)
    1. [Carregando a biblioteca Pandas](#carregando)
    2. [Criando um DataFrame](#criando)
    3. [Acessando dados em colunas](#coluna)
    4. [Acessando dados em uma linha](#linha)
    5. [Acessando dados em uma célula](#celula)
    6. [Carregando tabelas de arquivos](#arquivos)
    7. [Calculando estatísticas](#estatisticas)
        1. [Pandas Series](#series)
    8. [Limpando dados](#limpando)
    9. [Cruzando dados de tabelas diferentes](#merge)
    10. [Agrupando linhas](#agrupando)
    11. [Visualização gráfica](#visualizacao)
2. [Exemplos com dados biológicos](#exemplo1)
    1. [Qual a proteína?](#proteina)
    2. [Reunindo dados de várias tabelas](#exemplo_cruzando)
    3. [Tabelas grandes](#exemplo_grandes)

<a id="introducao"></a>
## Introdução

A [biblioteca Pandas](https://pandas.pydata.org/) é uma biblioteca da linguagem Python que implementa um grande conjunto de ferramentas para análise descritiva dos dados, incluindo funções para cálculo de estatísticas, visualização de dados e outras análises, nas quais se destaca por seu alto desempenho.

Com a integração com outras bibliotecas, como [NumPy](https://numpy.org/), na qual Pandas é baseada, e [Matplotlib](https://matplotlib.org/), o usuário pode fazer uma análise completa de seus dados.

<a id="carregando"></a>
### 1.A. Carregando a biblioteca Pandas

O primeiro passo para usar Pandas é carregar a biblioteca no seu ambiente de execução Python.

Seguindo a convenção da comunidade, importamos a biblioteca em nosso ambiente com o nome `pd`:

In [None]:
import pandas as pd

<a id="criando"></a>
## 1.B. Criando um DataFrame

O DataFrame é o objeto mais importante na biblioteca Pandas e, conceitualmente, é similar a uma folha ou aba de uma [planilha eletrônica](https://docs.google.com/spreadsheets/d/1kODe8LtSMOsxx98zYsnt0QIPgeTAlZC3lV0z5lCZtq0/edit#gid=0).

Como uma planilha, o DataFrame armazena tabelas e tem linhas e colunas identificadas por nomes ou números.

O exemplo abaixo cria e imprime um DataFrame simples, com dados numéricos, colunas `a` e `b` e identificadores de linhas 0 e 1:

In [None]:
df = pd.DataFrame([['r3',100,200],['r1',1,10],['r2',30,67]], columns=['a','b','c'], index=['n1','n2','n3'])
df

Note como a lista de listas original

`[['r3',100,200],['r1',1,10],['r2',30,67]]`

onde cada elemento é uma coluna, é convertida em uma tabela com o mesmo número de linhas e colunas.

Nesse exemplo:

* Os nomes das colunas foram especificados usando o parâmetro `columns`
* Os nomes as linhas são definidos pelo parâmetro `index`

>__Nota__:
>
>Quando um Pandas DataFrame é criado sem especificar o índice, um índice será automaticamente criado e consistirá nos valores de zero ao número de linhas no DataFrame.

__Checando dados no DataFrame__

Uma vez criado o DataFrame, é sempre útil checar se ele tem a estrutura esperada em termos de

* Colunas

In [None]:
df.columns

* Linhas

In [None]:
df.index

* Número de linhas

In [None]:
len(df)

* Primeiras linhas

In [None]:
df.head(2)

* Últimas linhas

In [None]:
df.tail(2)

<a id="coluna"></a>
## 1.C. Acessando dados em colunas

Boa parte do sucesso do Pandas se deve à eficiência e simplicidade para manipular os dados nas colunas de um DataFrame.

O modelo focado em colunas é reminescente do comportamento da linguagem [R](https://www.r-project.org/), que também otimiza as operações vetorizadas, ou seja, sobre listas.

O acesso aos valores da coluna pode ser feito com a sintaxe de atributo:

In [None]:
df.b

Outra forma de acessar uma coluna é semelhante à usada para listas e dicionários:

In [None]:
df['b']

esta última forma permite adicionar novas colunas ao DataFrame:

In [None]:
df['d'] = 8
df

O uso da sintaxe de atributo (`df.b`) ou de __um__ par de colchetes (`df['b']`) sempre retorna uma série ([`pandas.Series`](#series)).

Outra alternativa é usar dois pares de colchetes (`df[['b']]`) para obter um Pandas Dataframe:

In [None]:
df[['b']]

<a id="linha"></a>
## 1.D. Acessando dados em uma linha

Para acessar uma linha podemos usar o atributo `.loc` e o índice:

In [None]:
df = pd.DataFrame([['r3',100,200],['r1',1,10],['r2',30,67]], columns=['a','b','c'], index=['n1','n2','n3'])
df.loc['n2']

ou o número da linha e o atributo `iloc()`:

In [None]:
df = pd.DataFrame([['r3',100,200],['r1',1,10],['r2',30,67]], columns=['a','b','c'], index=['n1','n2','n3'])
df.iloc[1]

Usando `iloc` e `.loc`, o resultado é uma série.

Um recurso poderoso é usar uma lista ou série de valores booleanos:

In [None]:
df = pd.DataFrame([['r3',100,200],['r1',1,10],['r2',30,67]], columns=['a','b','c'], index=['n1','n2','n3'])
df[[False,True,False]]

A possibilidade de usar séries de valores booleanos gerados por uma busca é particularmente útil para permitir o rápido acesso a linhas de interesse, mesmo se o DataFrame for muito grande (*e.g.* dezenas de milhões de linhas).

In [None]:
df[df.a == 'r1']

Nesse último caso, fizemos uso da flexibilidade das séries Pandas, que podem aplicar a comparação com uma variável escalar a todo os elementos da séries `df.a`:

In [None]:
df.a == 'r1'

Esse recurso da comparação com escalares ou com outras séries:

In [None]:
df.b < df.c

é fundamental para o uso eficiente do Pandas, como veremos a seguir.

<a id="celula"></a>
## 1.E. Acessando dados em uma célula

Os DataFrames são arranjos bidimensionais e o acesso às células pode ser feito diretamente com as funções `iloc` e `loc`, que foram introduzidas na seção anterior, no contexto de extrair linhas do DataFrame como Séries.

No exemplo abaixo, acessamos o valor na linha `n1` e coluna `c`:

In [None]:
df.loc['n1','c']

Podemos também acessar o mesmo valor usando a posição da coluna e da linha:

In [None]:
df.iloc[0,2]

`iloc` e `loc` também permitem mudar os valores:

In [None]:
df

In [None]:
df.loc['n1','c'] = 300
df

<a id="arquivos"></a>
## 1.F. Trabalhando com tabelas de arquivos

Na maioria dos casos os dados que nos interessam são obtidos em formatos como Excel, CSV, TSV e outros.

Para carregar e salvar tabelas, vamos usar os métodos de entrada e saída do Pandas.

O comando abaixo carrega a tabela `t2` de um arquivo ([t2.tsv](/edit/t2.tsv)) no formato TSV (*Tab Separated Values*), ou seja, um arquivo de texto com colunas separados por tabulações.

In [None]:
t2 = pd.read_csv("t2.tsv", sep="\t")

In [None]:
t2

>O exemplo acima poderia igualmente ter usado uma tabela Excel ou Google Sheets ou um arquivo muito mais contendo toneladas de dados. Para ver o repertório completo de formatos de arquivos suportados pelo Pandas veja a [documentação das ferramentas de IO](https://pandas.pydata.org/docs/user_guide/io.html). 

Vamos mudar um valor na tabela e salvá-la em um novo arquivo:

In [None]:
t2.loc[2,'d'] = 15
t2.to_csv("t3.tsv", index=False)
!cat "t3.tsv"

Veja o arquivo salvo [nesse link](/edit/t3.tsv) e note que o separador de colunas usado foi a vírgula (",") ao invés da tabulação usada na entrada. O valor mudado está na quarta linha do arquivo, coluna `d`.

<a id="estatisticas"></a>
## 1.G Calculando estatísticas

Em Pandas podemos calcular estatísticas sobre toda a tabela ou sobre colunas individuais.

Para trabalharmos eficientemente com colunas, precisamos conhecer a classe Series do Pandas.

<a id="series"></a>
### 1.G.a Pandas Series

Ao acessar uma coluna de um DataFrame usando a sintaxe de atributo, podemos notar que a coluna não é uma lista padrão do Python:

In [None]:
df.b

In [None]:
type(df.b)

Na verdade a coluna é um objeto da classe [`pandas.Series`](https://pandas.pydata.org/docs/user_guide/dsintro.html#series), que consiste em um arranjo unidimensional capaz de:

1. Armazenar qualquer tipo de dado
2. Dar nomes aos elementos no arranjo

Um Pandas DataFrame (tabela) pode ser entendido como um conjunto de Pandas Series (colunas).

Uma *Pandas Series* pode ser criada passando os dados e suas etiquetas (nomes) para o construtor:

In [None]:
pd.Series([0,1,2,3], index=['a','b','c','d'])

Os métodos da classe `pandas.Series` servem de base para métodos equivalentes em DataFrames.

__Exemplos de métodos que calculam estatísticas:__

* Identificar o valor máximo de uma série

In [None]:
t1 = pd.read_csv("t1.tsv", sep="\t")
t1.b.max()

* Calcular a média

In [None]:
t1.c.mean()

* Desvio padrão

In [None]:
t1.b.std()

__Outras funções úteis para trabalhar com séries__

* Colocar os valor da série em ordem (decrescente, nesse caso)

In [None]:
b = pd.Series([0,1,2,3], index=['a','b','c','d'])
b.sort_values(ascending=False)

Embora as duas operações acima também estejam disponíveis em listas, as séries trazem muitas outras vantagens.

Além da grande velocidade das operações serializadas, as séries ainda disponibilizam

1. Vários métodos que não as listas não suportam, tais como
2. Transformações simplificadas com operadores e ourtas classes

Alguns exemplos de métodos e operações exclusivos de séries:

* Amostrar elementos na série

In [None]:
b = pd.Series(list(range(1000)))
b.sample(10)

>O exemplo acima merece uns comentários adicionais:
>
>* Usamos a função [`range()`](https://docs.python.org/3/tutorial/controlflow.html?highlight=range#the-range-function) para cria um objeto da classe [`range`](https://docs.python.org/3/library/stdtypes.html?highlight=range#range) que representa os valores de um intervalo.
>* `list()` converte o `range` em um lista real com todos os valores de 0 a 999
>* O método `sample()`, finalmente, amostra, aleatoriamente, um subconjunto dos elementos da série.

* Aplicar operações aritméticas com todos os elementos da Séries

As séries Pandas possuem desempenho excepcional nesse tipo de operação.

Listas se comportam de forma diferente, quando a elas é aplicada um operador aritmético.

In [None]:
b = pd.Series(list(range(5)))
b * 2

In [None]:
b = pd.Series(list(range(5)))
b + 3

<a id="dfstats"></a>
### 1.G.b DataFrames

As funções estatísticas funcionam da mesma maneira para Series e DataFrames e, em ambos os casos, é preciso ficar atento ao tipo do dado antes de fazer os cálculos.

O método `info()` descreve o conteúdo do DataFrame:

In [None]:
t1.info()

Como a coluna `a` está marcada como *object* ela não deve ser usada para colher estatísticas sem antes, pelo menos, ser convertida em valores numéricos.

No caso desta tabela, os valores da coluna `a` são apenas texto e é melhor remover a coluna antes de calcular as estatísticas. Podemos fazer isso com a [notação de colchetes duplos](#coluna):

In [None]:
t1[['b','c']]

As funções estatísticas de DataFrames retornam os valores da estatística para cada coluna, como um objeto da classe `pandas.Series`:

In [None]:
t1[['b','c']].sum()

<a id="limpando"></a>
## 1.H Limpando dados

__Valores não definidos__

Com frequência, dados são derivados de amostras incompletas, onde valores estão faltando.

Dependendo das circunstância podemos:

1. Filtrar amostras com valores não-definidos

Para simular um valor não definido, vamos usar a biblioteca NumPy.

In [None]:
import numpy as np
t1 = pd.read_csv("t1.tsv", sep="\t")
t1['d'] = pd.Series(['a',np.nan,'b'])
t1

e podemos localizar a linha com valor não definido (`NaN`) usando:

In [None]:
t1[t1.d.isna()]

Por fim, podemos excluir essa linha usando o operado `~` (til), que no Pandas equivale a `not`:

In [None]:
t1[~t1.d.isna()]

2. Atribuir-lhes um valor padrão

Alternativamente, podemos mudar os valores nulos para outro valor:

In [None]:
t1['d'] = t1.d.fillna("n")
t1

__Valores duplicados__

Se, por alguma razão, os dados coletados possuem linhas duplicadas e essas múltiplas cópias não possuem siginificado real, é fácil removê-las usando `drop_duplicates`.

Vamos primeiro gerar linhas duplicadas em nosso DataFrame:

In [None]:
t1 = pd.read_csv("t1.tsv", sep="\t")
t1 = t1.append(t1)
t1

e remover as duplicações:

In [None]:
t1.drop_duplicates()

<a id="merge"></a>
## 1.I Cruzando dados de tabelas diferentes

Vamos explorar uma das grandes vantagens de se trabalhar com Pandas: a capacidade de cruzar informações provenientes de arquivos diferentes.

Em Pandas, esse tipo de operação é eficiente mesmo quando lidamos com grandes volumes de dados.

Primeiro carregamos e inspecionamos nossas duas tabelas:

In [None]:
t1 = pd.read_csv("t1.tsv", sep="\t")
t1

In [None]:
t2 = pd.read_csv("t2.tsv", sep="\t")
t2

Imagine que a tabela `t1` contém os resultados do experimento 1 e a tabela `t2` contém os resultados de experimento 2.

* __Pergunta__ 1:
Quais amostras (coluna `a`) foram usadas tanto no experimento 1 como no 2?

In [None]:
t1.merge(t2, on="a", how="inner")

A função `merge` analisa os valores na coluna `a` em todas as linhas das duas tabelas (parâmetro `on="a"`).

O parâmetro `how="inner"` significa que apenas linhas com da coluna `a` presentes __nas duas tabelas__ serão mantidas.

A ordem das linhas no DataFrame resultante, neste caso, reproduz a ordem na tabela da esquerda (`t1`).

>__Nota__:
>
>Na tabela `t2`, o valor `r1` aparece na coluna `a` __duas vezes__.
>
>Como em `t1` o mesmo valor aparece uma única vez, os valores nas colunas `b` e `c` são repetidos para mostrar a relação com as duas linhas contendo `r1` na tabela `t2`.
>
>Isso sempre acontece e o usuário precisa tomar cuidado para __não multiplicar o número de linhas indevidamente__ ou sem controle. Erros acontecem quando repetições não esperadas estão presentes em uma ou mais tabelas.
>
>Uma forma de controlar para o aparecimento de repetições indesejadas é monitorar constantemente, no DataFrame resultante, o número de elementos nas colunas usadas no `merge()` (parâmetro `on=`) e ver se correspondem ao esperado (veja o próxim exemplo).

* __Pergunta 2:__ Quais amostras foram usadas no experimento 1 e não no 2?

Podemos responder essa pergunta usando `merge` e `isna()` e o parâmetro `how="left"`, que implica que todas as linhas da tabela "da esquerda" (`t1`) devem ser incluídas no resultado, incluindo as linhas sem correspondente em `t2`:

In [None]:
t1 = pd.read_csv("t1.tsv", sep="\t")
t2 = pd.read_csv("t2.tsv", sep="\t")
m = t1.merge(t2, on="a", how="left")
m

O `merge()` acima __exige__ que todas as linha de `t1` sejam mantidas.

As linhas de `t2` com valores na coluna `a` que não são encontrados em `t1` (`r4`), porém, são descartadas.

Aplicando o método `isna()` como filtro para as linhas de `m`, poderemos ver a resposta a nossa pergunta: 

In [None]:
m[m.d.isna()]

que demonstra que apenas a amostra `r2` não foi usada no experimento 2.

>__Advertência__: cruzar dados de tabelas pode ser muito complexo e mesmo um `merge()` aparentemente simples pode conter erros.

__Como checar se deu tudo certo?__

A tabela `t2`, nesse exemplo, tem o valor `r1` repetido na coluna `a`, o resultado do merge vai duplicar, nas colunas `b` e `c`, os valores correspondentes na linha de `r1`.

Isso significa que o número de linhas da tabela resultante (`m`) será maior que o número de linhas de `t1` e __não poderemos usar o número de linhas de das duas tabelas__:

In [None]:
len(m) == len(t1)

para verificar se apenas as linhas com valores na coluna `a` presentes em `t1` estão na tabela `m`.

Esse monitoramento, porém, pode ser feito comparando as listas de elementos na coluna `a`, se ordenarmos esses elementos (`sort_values()`) e removermos suas repetições (`unique()`):

In [None]:
m.a.sort_values().unique() == t1.a.sort_values().unique()

Acima já podemos ver que todos os três componentes das duas listas são exatamente iguais pois todos os elementos do [`array()`](https://numpy.org/doc/stable/reference/generated/numpy.array.html) resultante são `True`.

Se estivermos lidando com tabelas muito grandes, a funcão `all()` retorná verdadeiro se __todos__ os elementos de uma lista, `array()` ou série forem verdadeiros:

In [None]:
t = m.a.sort_values().unique() == t1.a.sort_values().unique()
all(t)

provando que todas as linhas de `t1` estão representadas em `m`.

* __Pergunta 3:__ Quais amostras __não__ foram usadas no experimento 1 mas foram usadas no 2?

Da mesma forma que no exemplo anterior, podemos responder essa pergunta usando `merge` e `isna()` mas o parâmetro `how` tem que ser mudado para `how="right"`, que implica que todas as linhas da tabela "da direita" (`t2`) devem ser incluídas no resultado, mesmo as sem correspondente em `t1`.

Nesse caso porém, precisamos procurar valores não definidos em colunas da tabela `t1`:

In [None]:
t1 = pd.read_csv("t1.tsv", sep="\t")
t2 = pd.read_csv("t2.tsv", sep="\t")
m = t1.merge(t2, on="a", how="right")
m

In [None]:
len(m)

* __Pergunta 4:__ Como fazer para ter todo os dados todos na mesma tabela?

Usando `merge` podemos ter tudo em um tabela mas, como advertido acima, é preciso ficar atento para a possibilidade de duplicação de valores.

Duplicações esperadas ajudam na análise mas se o pesquisador for pego de surpresa os resultados podem não ser os ideais.

O parâmetro `how="outer"` garante que todas as linhas das duas tabelas serão mantidas.

>Como antes, as linhas de valores sem correspondência recebem valores não-definidos (NaN) nas colunas da outra tabela
>
>Números inteiros em colunas com valores que não são número inteiros são sempre convertidos em números reais (`np.float`).

In [None]:
t1 = pd.read_csv("t1.tsv", sep="\t")
t2 = pd.read_csv("t2.tsv", sep="\t")
m = t1.merge(t2, on="a", how="outer")
m

<a id="agrupando"></a>
## 1.J Agrupando linhas

Em muitas ocasiões, valore em múltiplas linhas são relacionados e podemos usar as colunas que descrevem as relações entre diferentes linhas para reduzir a informação de várias linhas.

Essa operação, chamada __agrupamento__, é feita usando-se o método [`groupby`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) e normalmente seguida do cálculo de um resultado, por grupo, para os valores de uma ou mais colunas.

Podemos, por exemplo colapsar as linhas de `r1` em `t2`:

In [None]:
t2 = pd.read_csv("t2.tsv", sep="\t")
t2.groupby('a').agg({'d':'mean'})

>__Notas__:
>
>1. O método `agg()` recebe um para dicionário descrevendo o que fazer em cada coluna a ser processada.
>
>2. O DataFrame retornado pelo método `agg()` está indexado pelos valores originalmente armazendos na coluna `a`.
>
> Para restaurar o índice como coluna, é preciso invocar o método `reset_index()`:

In [None]:
t2.groupby('a').agg({'d':'mean','e':'mean'}).reset_index()

Qualquer função suportada pelo Pandas ou  definidas pelo usuário pode ser invocada para calcular o resultado do agrupamento.

Como visto no exemplo acima, qualquer número de colunas pode ser solicitado ao agregador e também é possível solicitar mais de uma valor agregado por coluna:

In [None]:
t2.groupby('a').agg({'d':['mean','median'],'e':['mean','max','min']}).reset_index()

<a id="visualizacao"></a>
### 1.K Visualização gráfica

O Jupyter e o Pandas colaboram muito bem com várias bibliotecas gráficas, incluindo [Matplotlib](https://matplotlib.org/), [Seaborn](https://seaborn.pydata.org/) e outras.

No Jupyter, o comando `%matplotlib` prepara a saída dos comandos para formatar os gráficos do Pandas e matplotlib automaticamente:

In [None]:
%matplotlib inline
t2 = pd.read_csv("t2.tsv", sep="\t")
t2.plot.scatter(x='d', y='e', title="Scatterplot: d x e")

<a id="exemplo1"></a>
## 2. Exemplos com dados biológicos

<a id="proteina"></a>
### Qual a proteína?

Na aula de similaridade, o programa TBLASTN foi usado para procurar genes semelhantes a proteínas de resistência no genoma *Klebsiella pneumoniae* KPNIH39. No final deste exercício, perguntamos:

* __Qual proteína alinha contra mais contigs do genoma de KPNIH39?__

Para responder essa pergunta usando Pandas, vamos

1. Carregar o arquivo com a saída da análise de TBLASTN (`kpneu.tblastn.tsv`)

Os nomes das colunas nessa cópia da tabela são os mesmos listados na documentação do TBLASTN (ver `tblastn -help`). As únicas duas diferenças dos nomes das colunas com a documentação do TBLASTN são as trocas de:

* `qaccver` (identificador da *query*) por `protein` e
* `saccver` (identificador do *subject*) por `contig`

In [None]:
tb = pd.read_csv("kpneu.tblastn.tsv", sep="\t")
tb.head()

2. Agrupar as linhas correspondentes a cada proteína e contar o número de contigs por proteína.

In [None]:
p = tb.groupby('protein').agg({'contig':'nunique'})
p = p.sort_values(['contig'], ascending=False)
p.head()

No resultado acima usamos a função `nunique` para contar o número de contigs por proteína. Essa função difere da função `count` pois evita que o mesmo contig seja contado duas vezes.

O resultado acima já responde à pergunta proposta: ANK22461.1.

No entanto, poderíamos filtrar especificamente a linha com o valor que nos interessa usando:

In [None]:
p = tb.groupby('protein').agg({'contig':'nunique'})
p[p.contig == p.contig.max()]

* __Qual contig alinha com o maior número de proteínas e quantas são?__

A recíproca da pergunta anterior pode ser facilmente respondida.

In [None]:
c = tb.groupby('contig').agg({'protein':'nunique'})
c[c.protein == c.protein.max()]

<a id="exemplo_cruzando"></a>
### 2.B Reunindo dados de várias tabelas

A tabela do TBLASTN contém apenas informações sobre o alinhamento das proteínas de resistência contra o genoma alvo. Para entender os resultaos precisamos reunir informações que estão dispersas em várias tabelas.

Vamos começar carregando a tabela que descreve os genes de resistência.

In [None]:
g = pd.read_csv("genes.txt", sep="\t", names=['protein','function'])
g.head()

In [None]:
f = tb.merge(g, on="protein", how="left")
f.head()

Com o DataFrame acima, fica mais fácil inspecionar os contigs para ver se existe algum cluster de genes de resistência: as colunas `sstart` e `ssend` são as coordenadas da região alinhada no contig.

Basta por as linhas em ordem pela posição no contig:

In [None]:
f = f.sort_values(['contig','sstart','send'])
f.head(10)

E imediatamente podemos ver que as primeiras oito linhas já mostram o que parece ser um *locus* contendo vários genes de resistência a arsênico, um do lado do outro, no contig 215.

Se examinarmos as colunas `sstart` e `send`, vamos notar alguns problemas:

* Alguns desses genes devem ser homólogos, pois alinham contra a mesma proteína, apesar de estarem localizados posições distantes, como as linhas linhas 93 e 94.
* Algumas proteínas, em princípio diferentes, alinham contra a mesma região (linhas 102 e 93), embora com diferenças claras nas qualidade dos alinhamentos (coluna `evalue`).

>__Exercício__: Encontre todos os contigs que alinham, __pelo menos uma vez__, contra cinco ou mais proteínas de resistência.

<a id="exemplo_grandes"></a>
### 2.C Tabelas grandes

Nossa análise até agora ficou restrita a um único genoma mas há centenas de milhares de genomas de *Klebsiella pneumoniae* no [NCBI](https://www.ncbi.nlm.nih.gov/genome).

* __Quais as cinco proteínas de resistência, da nossa lista, com mais cópias idênticas nos genomas do NCBI?__

O NCBI disponibiliza listas de proteínas idênticas em seu *site* [Identical Protein Groups](https://www.ncbi.nlm.nih.gov/ipg/).

Usando os identificadores das proteínas de resistência de KPNIH39, [baixamos](/edit/source1.sh) a lista correspondente do NCBI/IPG e as armazenamos no arquivo `ipg.tsv`. 

In [None]:
g = pd.read_csv("genes.txt", sep="\t", names=['protein','function'])
ipg = pd.read_csv("ipg.tsv", sep="\t")
len(ipg)

In [None]:
ipg.head()

A coluna `Assembly` lista os identificadores dos genomas presentes no NCBI (um *accession* para cada genoma) e a coluna `Protein` contém os *accession numbers* das proteinas, incluindo os identificadores da tabela `genes.txt`.

O problema, porém, é que a coluna `Id` identifica os blocos de linhas correspondentes a proteínas idênticas e não sabemos a qual bloco cada proteína de KPNIH39 pertence.

Um observador atento vai notar que a coluna Strain identifica as proteínas de KPNIH39 mas vamos usar um procedimento diferente para ilustrar a filtragem de linhas com `isin()`:

In [None]:
i = ipg[ipg.Protein.isin(g.protein)][['Id','Protein']]
i.reset_index(inplace=True, drop=True)
sum(i.Protein != g.protein)

>O teste na terceira linha verifica se a lista de proteínas em `i` é a mesma que carregamos em `g`.
>
>O `reset_index()` é necessário pois o operador `!=` (diferente) só vai comparar os elementos de duas `pandas.Series` se eles tiverem recebido os mesmos nomes.
>
>`sum()` faz a soma dos elementos da série gerada pelo `!=`: valores verdadeiros (`True`) são convertidos em 1 durante a soma e o resultado será maior que zero se pelo menos um dos elementos nas duas listas for diferente.

A tabela `i` já informa qual o `Id` das proteínas de KPNIH39 e podemos propagar essa informação para todas as linhas de cada bloco antes de contar o número de genomas por proteína de KPNIH39.

In [None]:
i.rename({'Protein':'KPNIH39'}, axis=1, inplace=True)
z = ipg.merge(i, on="Id", how="left")
z.head()

Finalmente, calculamos o número de genomas por proteína de KPNIH39 usando [`groupby`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html):

In [None]:
z = z.groupby('KPNIH39').agg({'Assembly':'nunique'})
z.sort_values('Assembly', ascending=False).head()

e o resultado mostra o número de genomas onde são encontradas genes para as cinco proteínas, da tabela `genes.txt`, mais amplamente distribuídas nos genomas do NCBI.