<a href="https://colab.research.google.com/github/genomika/pandas-workshop/blob/master/workshop-python_pandas_gnmk.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# I Workshop de introdução a lib Pandas

![pandas](https://files.realpython.com/media/Python-Pandas-10-Tricks--Features-You-May-Not-Know-Watermark.e58bb5ce9835.jpg)
Figura 1: ["Python Pandas: Tricks & Features You May Not Know"](https://realpython.com/python-pandas-tricks/)

0. Instalando conda, jupyter notebook, pandas, etc;

  * [Instalando Conda no Ubuntu 18.04](https://www.digitalocean.com/community/tutorials/how-to-install-anaconda-on-ubuntu-18-04-quickstart-pt)
  * [Instalando Conda no Windows](https://docs.conda.io/projects/conda/en/latest/user-guide/install/windows.html)
  * [Instalando Conda no MacOS](https://docs.conda.io/projects/conda/en/latest/user-guide/install/macos.html)

1. Abrindo arquivos com Pandas

  * Series e DataFrames;
  * CSV;
  * Excel;
  * Python dicionários;
  * Python lista de tuplas;
  * Python lista de dicionários;
  * Manipulando `DataFrame`s;
  * Escrevendo CSV, Excel.

2. Manipulando `DataFrame`s
  
  * Seleções condicionais;
  * Manipulando índices;
  * Trabalhando com dados faltantes;
  * Agrupando um `DataFrame`;
  * Como juntar diferentes `DataFrame`s.

3. Manipulando big data com Vaex

4. Hands on com amostra de exemplo

# 1. Abrindo arquivos com Pandas

### `Series` e `DataFrame`

Para trabalhar manipulando dados com pandas é necessário importar esses dados de alguma forma para dentro da biblioteca. A forma mais comum de atingir esse objetivo é criar, usando o material de análise, estruturas de dados nativas do framework. Nesse curso, trabalharemos essencialmente com [*`DataFrame`*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) e [*`Series`*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html).

`Series` são essencialmente uma estrutura similar a arrays unidimensionais cujo objetivo é guardar uma sequência de valores de forma indexada.

In [3]:
import pandas as pd
series = pd.Series([42, 13, 7, -99], index=["não", "aqui", "é o", "patrick"])
series

não        42
aqui       13
é o         7
patrick   -99
dtype: int64

De maneira mais simples, podemos interpretar `Series` como dicionários ordenados e de tamanho fixo. Inclusive, conseguimos criar essas estruturas a partir de dicionários, e usá-las em contextos onde usaríamos dicionários.

In [4]:
# https://en.wikipedia.org/wiki/List_of_most-streamed_songs_on_Spotify
spotify_mais_escutadas = {"Shape of You": 2433000, "Rockstar": 1831000, "One Dance": 1817000, "Closer": 1724000, "Thinking Out Loud": 1493000}
mais_escutadas_series = pd.Series(spotify_mais_escutadas)
mais_escutadas_series

Shape of You         2433000
Rockstar             1831000
One Dance            1817000
Closer               1724000
Thinking Out Loud    1493000
dtype: int64

In [5]:
"Rockstar" in mais_escutadas_series

True

In [6]:
"Bota Bota" in mais_escutadas_series # :(

False

`DataFrame`s são representações tabulares de dados. Essa estrutura contém um conjunto ordenado de colunas, podendo cada uma ter um tipo especíco de valor (numérico, texto, boleano e etc.). No `DataFrame` ambas colunas e linhas possuem índice.

In [7]:
formato_data = "%d/%m/%Y"
spotify_mais_escutadas = {"música": ["Shape of You", "Rockstar", "One Dance", "Closer", "Thinking Out Loud"],
                          "número_streams": [2433000, 1831000, 1817000, 1724000, 1493000],
                          "data_publicação": [pd.to_datetime("6/1/2017", format=formato_data),
                                              pd.to_datetime("15/9/2017", format=formato_data),
                                              pd.to_datetime("5/4/2016", format=formato_data),
                                              pd.to_datetime("29/7/2016", format=formato_data),
                                              pd.to_datetime("20/6/2014", format=formato_data)]}
spotify_mais_escutadas_df = pd.DataFrame(spotify_mais_escutadas)
spotify_mais_escutadas_df

Unnamed: 0,música,número_streams,data_publicação
0,Shape of You,2433000,2017-01-06
1,Rockstar,1831000,2017-09-15
2,One Dance,1817000,2016-04-05
3,Closer,1724000,2016-07-29
4,Thinking Out Loud,1493000,2014-06-20


Nesse workshop trabalharemos majoritariamente com `DataFrame`s. Apesar de não ser uma solução universal para todos os problemas, o conjunto de métodos e ferramentas que acompanham o tipo `DataFrame` provêm uma base sólida e de uso simples para a maioria dos casos de uso.

### CSV

Para criar um `DataFrame` a partir de um arquivo `.csv` usamos a função [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). Arquivos `.csv` têm por definição vírgulas como separadores de campos. Contudo, podemos mudar o argumento do parâmetro `sep` da função para criar um `DataFrame` a partir de arquivos delimitados por outros caracteres, como por exemplo o *tab*.

In [8]:
multianno_df = pd.read_csv("https://www.dropbox.com/s/xsxbyel2t9fjidl/GNMK_WORKSHOP-001.avinput.hg19_multianno.ann.txt?dl=1", sep="\t")
multianno_df.head()

Unnamed: 0,Chr,Start,End,Ref,Alt,Func.refGene,Gene.refGene,GeneDetail.refGene,ExonicFunc.refGene,AAChange.refGene,...,VCF_CHR,VCF_POS,VCF_ID,VCF_REF,VCF_ALT,VCF_QUAL_2,VCF_FILTER,VCF_INFO,VCF_FORMAT,VCF_SAMPLE_NAME
0,chr10,89622938,89622938,A,C,UTR5,KLLN,NM_001126049:c.-694T>G,.,.,...,chr10,89622938,.,A,C,290.77,.,ABHet=0.696;AC=1;AF=0.5;AN=2;BaseQRankSum=-10....,GT:AD:DP:GQ:PL,"0/1:1266,552:1820:99:319,0,12285"
1,chr10,89623142,89623142,C,T,UTR5,KLLN,NM_001126049:c.-898G>A,.,.,...,chr10,89623142,.,C,T,7963.77,.,ABHet=0.534;AC=1;AF=0.5;AN=2;BaseQRankSum=-0.7...,GT:AD:DP:GQ:PL,"0/1:306,267:574:99:7992,0,9864"
2,chr10,89623861,89623861,T,-,splicing,PTEN,NM_001304717:exon1:c.154+1T>-;NM_001304717:exo...,.,.,...,chr10,89623860,rs71022512,CT,C,234.8,.,AC=2;AF=1;AN=2;DB;DP=7;ExcessHet=3.0103;FS=0;M...,GT:AD:DP:GQ:PL,"1/1:0,6:7:18:272,18,0"
3,chr10,89623901,89623901,G,C,exonic,PTEN,.,nonsynonymous SNV,PTEN:NM_001304717:exon2:c.194G>C:p.C65S,...,chr10,89623901,rs2943772,G,C,440.77,.,ABHom=1;AC=2;AF=1;AN=2;DB;DP=14;Dels=0;ExcessH...,GT:AD:DP:GQ:PL,"1/1:0,14:14:36:469,36,0"
4,chr10,89654121,89654121,T,C,intronic,PTEN,.,.,.,...,chr10,89654121,rs139651072,T,C,216.77,.,ABHet=0.556;AC=1;AF=0.5;AN=2;BaseQRankSum=0.15...,GT:AD:DP:GQ:PL,"0/1:10,8:18:99:245,0,289"


O cabeçalho do `DataFrame` é por padrão inferido pela função `read_csv` com base na primeira linha do arquivo. Esse comportamento pode ser modificado usando uma combinação de valores para os parâmetros `header` e `names`.

### Excel

Para criar um `DataFrame` a partir de uma planilha do Excel usamos a função [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html). Essa função suporta arquivos com extensão *xls*, *xlsx*, *xlsm*, *xlsb*, e *odf*. Olhando por uma perspectiva de caixa preta, o comportamento da função `read_excel` é bem similar ao comportamento da função `read_csv`: Ambas recebem um arquivo e criam um `DataFrame` a partir do conteúdo desses arquivos.

In [9]:
aba_exonic_df = pd.read_excel("https://www.dropbox.com/s/gyx0hqco6dhtwg2/GNMK_WORKSHOP-001.xlsx?dl=1")
aba_exonic_df.head()

Unnamed: 0,RANK,CLINVAR,CLINVAR_COMMENTS,OMIM,OMIM_COMMENTS,UNIPROT,UNIPROT_COMMENTS,Func,Gene,ExonicFunc,...,MutationTaster_pred,GERP++_RS,Chr,Start,End,Ref,Alt,REPEATMASK,InterVar(automated),InterVar_Rules
0,29,OK,Pathogenic,OK,"Name={Breast cancer, male, susceptibility to},...",OK,SwissProt: P51587 # Breast cancer (BC) [MIM:11...,exonic,BRCA2,frameshift deletion,...,.,.,chr13,32929058,32929059,TC,-,,.,
1,11,OK,Benign,OK,"Name=Bannayan-Riley-Ruvalcaba syndrome, 153480...",OK,SwissProt: P60484 # Cowden syndrome 1 (CWS1) [...,splicing,PTEN,.,...,.,.,chr10,89623861,89623861,T,-,,.,
2,11,OK,Benign,OK,"Name=Blepharocheilodontic syndrome 1, 119580 (...",OK,SwissProt: P12830 # Hereditary diffuse gastric...,splicing,CDH1,.,...,.,.,chr16,68771372,68771372,C,T,,.,
3,10,OK,Benign,OK,"Name=Bannayan-Riley-Ruvalcaba syndrome, 153480...",OK,SwissProt: P60484 # Cowden syndrome 1 (CWS1) [...,exonic,PTEN,nonsynonymous SNV,...,.,.,chr10,89623901,89623901,G,C,Low_complexity_Low_complexity_GC_rich,Benign,"BA1, BS1"
4,10,OK,Benign,OK,"Name={Breast cancer, male, susceptibility to},...",OK,SwissProt: P51587 # Breast cancer (BC) [MIM:11...,exonic,BRCA2,nonsynonymous SNV,...,P,5.07,chr13,32929387,32929387,T,C,,Benign,"BA1, BS1, BS2, BP1, BP6"


Caso a planilha usada como parâmetro contenha mais de uma aba, a função `read_excel` irá por padrão criar o `DataFrame` a partir dos dados contidos na primeira aba da planilha. Para usar dados de outras abas podemos mudar o argumento do parâmetro `sheet_name`.

In [10]:
# O parâmetro sheet_name pode receber uma string com o nome da aba cujo dados serão carregados
aba_intronic_df = pd.read_excel("https://www.dropbox.com/s/gyx0hqco6dhtwg2/GNMK_WORKSHOP-001.xlsx?dl=1", sheet_name="INTRONIC")
aba_intronic_df.head()

Unnamed: 0,RANK,CLINVAR,CLINVAR_COMMENTS,OMIM,OMIM_COMMENTS,UNIPROT,UNIPROT_COMMENTS,Func,Gene,ExonicFunc,...,MutationTaster_pred,GERP++_RS,Chr,Start,End,Ref,Alt,REPEATMASK,InterVar(automated),InterVar_Rules
0,17,NOK,.,OK,"Name=Cowden syndrome 4, 615107 (3)",OK,SwissProt: B2CW77 # Cowden syndrome 4 (CWS4) [...,UTR5,KLLN,.,...,.,.,chr10,89622938,89622938,A,C,,.,
1,17,OK,Conflicting_interpretations_of_pathogenicity,OK,"Name=Cowden syndrome 4, 615107 (3)",OK,SwissProt: B2CW77 # Cowden syndrome 4 (CWS4) [...,UTR5,KLLN,.,...,.,.,chr10,89623142,89623142,C,T,,.,
2,17,NOK,.,OK,"Name={Breast cancer, susceptibility to}, 11448...",OK,SwissProt: Q86YC2 # Breast cancer (BC) [MIM:11...,intronic,PALB2,.,...,.,.,chr16,23640160,23640160,G,T,SINE_Alu_AluSx1,.,
3,17,NOK,.,OK,"Name=Blepharocheilodontic syndrome 1, 119580 (...",OK,SwissProt: P12830 # Hereditary diffuse gastric...,intronic,CDH1,.,...,.,.,chr16,68820717,68820717,C,A,,.,
4,17,NOK,.,OK,"Name=Blepharocheilodontic syndrome 1, 119580 (...",OK,SwissProt: P12830 # Hereditary diffuse gastric...,intronic,CDH1,.,...,.,.,chr16,68856474,68856474,T,C,,.,


In [11]:
# Também podemos usar inteiros como parâmetro, fazendo referência a ordem das abas (index zero)
aba_raw_df = pd.read_excel("https://www.dropbox.com/s/gyx0hqco6dhtwg2/GNMK_WORKSHOP-001.xlsx?dl=1", sheet_name=3)
aba_raw_df.head()

Unnamed: 0,RANK,CLINVAR,CLINVAR_COMMENTS,OMIM,OMIM_COMMENTS,UNIPROT,UNIPROT_COMMENTS,Func,Gene,ExonicFunc,...,Ref,Alt,REPEATMASK,InterVar(automated),InterVar_Rules,QUAL.1,FILTER.1,INFO,FORMAT,FORMAT_INFO
0,29,OK,Pathogenic,OK,"Name={Breast cancer, male, susceptibility to},...",OK,SwissProt: P51587 # Breast cancer (BC) [MIM:11...,exonic,BRCA2,frameshift deletion,...,TC,-,,.,,33599.7,PASS,AC=1;AF=0.5;AN=2;BaseQRankSum=2.352;DB;DP=1613...,GT:AD:DP:GQ:PL,"0/1:853,734:1613:99:33637,0,39748"
1,17,NOK,.,OK,"Name=Cowden syndrome 4, 615107 (3)",OK,SwissProt: B2CW77 # Cowden syndrome 4 (CWS4) [...,UTR5,KLLN,.,...,A,C,,.,,290.77,PASS,ABHet=0.696;AC=1;AF=0.5;AN=2;BaseQRankSum=-10....,GT:AD:DP:GQ:PL,"0/1:1266,552:1820:99:319,0,12285"
2,17,OK,Conflicting_interpretations_of_pathogenicity,OK,"Name=Cowden syndrome 4, 615107 (3)",OK,SwissProt: B2CW77 # Cowden syndrome 4 (CWS4) [...,UTR5,KLLN,.,...,C,T,,.,,7963.77,PASS,ABHet=0.534;AC=1;AF=0.5;AN=2;BaseQRankSum=-0.7...,GT:AD:DP:GQ:PL,"0/1:306,267:574:99:7992,0,9864"
3,17,NOK,.,OK,"Name={Breast cancer, susceptibility to}, 11448...",OK,SwissProt: Q86YC2 # Breast cancer (BC) [MIM:11...,intronic,PALB2,.,...,G,T,SINE_Alu_AluSx1,.,,35.77,PASS,ABHet=0.6;AC=1;AF=0.5;AN=2;BaseQRankSum=0;DP=5...,GT:AD:DP:GQ:PL,"0/1:3,2:5:64:64,0,103"
4,17,NOK,.,OK,"Name=Blepharocheilodontic syndrome 1, 119580 (...",OK,SwissProt: P12830 # Hereditary diffuse gastric...,intronic,CDH1,.,...,C,A,,.,,680.77,PASS,ABHet=0.587;AC=1;AF=0.5;AN=2;BaseQRankSum=-1.4...,GT:AD:DP:GQ:PL,"0/1:37,26:63:99:709,0,1225"


In [12]:
# Se quisermos usar dados de todas as abas da planilha passamos None para o sheet_name
planilha_completa = pd.read_excel("https://www.dropbox.com/s/gyx0hqco6dhtwg2/GNMK_WORKSHOP-001.xlsx?dl=1", sheet_name=None)
type(planilha_completa)

dict

In [13]:
# E então podemos acessar os dados de todas as abas a partir de um único objeto
aba_exonic_df = planilha_completa["EXONIC"]
aba_exonic_mosaic_df = planilha_completa["EXONIC MOSAIC"]
aba_intronic_df = planilha_completa["INTRONIC"]
aba_raw_df = planilha_completa["RAW"]

### Python dicionários

Quando introduzimos `DataFrame`s usamos como exemplo um dicionário python. Tendo um dicionário basta usar a função `DataFrame()` para que ele seja transformado.

In [16]:
climas_datas = {
    'dia': ['1/1/2017', '1/2/2017', '1/3/2017', '1/4/2017', '1/5/2017', '1/6/2017'],
    'temperatura': [32, 35, 28, 24, 32, 31],
    'velocidade_vento': [6, 7, 2, 7, 4, 2],
    'evento': ['Chuva', 'Sol', 'Neve', 'Neve', 'Chuva', 'Sol']
}
df = pd.DataFrame(climas_datas)
df

Unnamed: 0,dia,temperatura,velocidade_vento,evento
0,1/1/2017,32,6,Chuva
1,1/2/2017,35,7,Sol
2,1/3/2017,28,2,Neve
3,1/4/2017,24,7,Neve
4,1/5/2017,32,4,Chuva
5,1/6/2017,31,2,Sol


### Python lista de tuplas

É possível criar um `DataFrame` a partir de uma lista de tuplas, sendo necessário especificar o nome das colunas pelo argumento `columns`, por exemplo:

In [18]:
climas_datas = [
    ('1/1/2017', 32, 6, 'Chuva'),
    ('1/2/2017', 35, 7, 'Sol'),
    ('1/3/2017', 28, 2, 'Neve')
]

df = pd.DataFrame(climas_datas, columns=[
    'dia', 'temperatura', 'velocidade_vento', 'evento'
])
df

Unnamed: 0,dia,temperatura,velocidade_vento,evento
0,1/1/2017,32,6,Chuva
1,1/2/2017,35,7,Sol
2,1/3/2017,28,2,Neve


### Python lista de dicionários

É possível criar um DataFrame a partir de uma lista de dicionários, como:

In [19]:
climas_datas = [
    {'dia': '1/1/2017', 'temperatura': 32, 'velocidade_vento': 6,'evento': 'Chuva'},
    {'dia': '1/2/2017', 'temperatura': 35, 'velocidade_vento': 7,'evento': 'Sunny'},
    {'dia': '1/3/2017', 'temperatura': 28, 'velocidade_vento': 2,'evento': 'Neve'} 
]
df = pd.DataFrame(climas_datas)
df

Unnamed: 0,dia,temperatura,velocidade_vento,evento
0,1/1/2017,32,6,Chuva
1,1/2/2017,35,7,Sunny
2,1/3/2017,28,2,Neve


* Existem vários outros tipos de arquivos que podem ser abertos com Pandas, criando `DataFrame`s, alguns exemplos são `JSON`, `HTML`, `HDF5`, `SQL`, `Parquet` e outros, para mais formatos segue a lista de [*IO tools*](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) possíveis.

### Manipulando `DataFrame`s