<a href="https://colab.research.google.com/github/genomika/pandas-workshop/blob/master/workshop-python_pandas_gnmk.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# I Workshop de introdução a lib Pandas

![pandas](https://files.realpython.com/media/Python-Pandas-10-Tricks--Features-You-May-Not-Know-Watermark.e58bb5ce9835.jpg)
Figura 1: ["Python Pandas: Tricks & Features You May Not Know"](https://realpython.com/python-pandas-tricks/)

0. Instalando conda, jupyter notebook, pandas, etc;

  * [Instalando Conda no Ubuntu 18.04](https://www.digitalocean.com/community/tutorials/how-to-install-anaconda-on-ubuntu-18-04-quickstart-pt)
  * [Instalando Conda no Windows](https://docs.conda.io/projects/conda/en/latest/user-guide/install/windows.html)
  * [Instalando Conda no MacOS](https://docs.conda.io/projects/conda/en/latest/user-guide/install/macos.html)

1. Abrindo arquivos com Pandas

  * Series e DataFrames;
  * CSV;
  * Excel;
  * Python dicionários;
  * Python lista de tuplas;
  * Python lista de dicionários;
  * Abrindo arquivos `sql`, `parquet`, `pickle`, `html`;
  * Criando `DataFrame`s;
  * Manipulando linhas e colunas;
  * Operações gerais;
  * Escrevendo CSV, Excel.

2. Manipulando `DataFrame`s
  
  * Seleções condicionais;
  * Manipulando índices;
  * Trabalhando com dados faltantes;
  * Agrupando um `DataFrame`;
  * Como juntar diferentes `DataFrame`s.

3. Manipulando big data com Vaex

4. Hands on com amostra de exemplo

# 1. Abrindo arquivos com Pandas

### `Series` e `DataFrame`

Para trabalhar manipulando dados com pandas é necessário importar esses dados de alguma forma para dentro da biblioteca. A forma mais comum de atingir esse objetivo é criar, usando o material de análise, estruturas de dados nativas do framework. Nesse curso, trabalharemos essencialmente com [*`DataFrame`*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) e [*`Series`*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html).

`Series` são essencialmente uma estrutura similar a arrays unidimensionais cujo objetivo é guardar uma sequência de valores de forma indexada.

In [0]:
import pandas as pd
series = pd.Series([42, 13, 7, -99], index=["não", "aqui", "é o", "patrick"])
series

De maneira mais simples, podemos interpretar `Series` como dicionários ordenados e de tamanho fixo. Inclusive, conseguimos criar essas estruturas a partir de dicionários, e usá-las em contextos onde usaríamos dicionários.

In [0]:
# https://en.wikipedia.org/wiki/List_of_most-streamed_songs_on_Spotify
spotify_mais_escutadas = {"Shape of You": 2433000, "Rockstar": 1831000, "One Dance": 1817000, "Closer": 1724000, "Thinking Out Loud": 1493000}
mais_escutadas_series = pd.Series(spotify_mais_escutadas)
mais_escutadas_series

In [0]:
"Rockstar" in mais_escutadas_series

In [0]:
"Bota Bota" in mais_escutadas_series # :(

`DataFrame`s são representações tabulares de dados. Essa estrutura contém um conjunto ordenado de colunas, podendo cada uma ter um tipo especíco de valor (numérico, texto, boleano e etc.). No `DataFrame` ambas colunas e linhas possuem índice.

In [0]:
formato_data = "%d/%m/%Y"
spotify_mais_escutadas = {"música": ["Shape of You", "Rockstar", "One Dance", "Closer", "Thinking Out Loud"],
                          "número_streams": [2433000, 1831000, 1817000, 1724000, 1493000],
                          "data_publicação": [pd.to_datetime("6/1/2017", format=formato_data),
                                              pd.to_datetime("15/9/2017", format=formato_data),
                                              pd.to_datetime("5/4/2016", format=formato_data),
                                              pd.to_datetime("29/7/2016", format=formato_data),
                                              pd.to_datetime("20/6/2014", format=formato_data)]}
spotify_mais_escutadas_df = pd.DataFrame(spotify_mais_escutadas)
spotify_mais_escutadas_df

Nesse workshop trabalharemos majoritariamente com `DataFrame`s. Apesar de não ser uma solução universal para todos os problemas, o conjunto de métodos e ferramentas que acompanham o tipo `DataFrame` provêm uma base sólida e de uso simples para a maioria dos casos de uso.

### CSV

Para criar um `DataFrame` a partir de um arquivo `.csv` usamos a função [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). Arquivos `.csv` têm por definição vírgulas como separadores de campos. Contudo, podemos mudar o argumento do parâmetro `sep` da função para criar um `DataFrame` a partir de arquivos delimitados por outros caracteres, como por exemplo o *tab*.

In [0]:
multianno_df = pd.read_csv("https://www.dropbox.com/s/xsxbyel2t9fjidl/GNMK_WORKSHOP-001.avinput.hg19_multianno.ann.txt?dl=1", sep="\t")
multianno_df.head()

O cabeçalho do `DataFrame` é por padrão inferido pela função `read_csv` com base na primeira linha do arquivo. Esse comportamento pode ser modificado usando uma combinação de valores para os parâmetros `header` e `names`.

### Excel

Para criar um `DataFrame` a partir de uma planilha do Excel usamos a função [`read_excel`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html). Essa função suporta arquivos com extensão *xls*, *xlsx*, *xlsm*, *xlsb*, e *odf*. Olhando por uma perspectiva de caixa preta, o comportamento da função `read_excel` é bem similar ao comportamento da função `read_csv`: Ambas recebem um arquivo e criam um `DataFrame` a partir do conteúdo desses arquivos.

In [0]:
aba_exonic_df = pd.read_excel("https://www.dropbox.com/s/gyx0hqco6dhtwg2/GNMK_WORKSHOP-001.xlsx?dl=1")
aba_exonic_df.head()

Caso a planilha usada como parâmetro contenha mais de uma aba, a função `read_excel` irá por padrão criar o `DataFrame` a partir dos dados contidos na primeira aba da planilha. Para usar dados de outras abas podemos mudar o argumento do parâmetro `sheet_name`.

In [0]:
# O parâmetro sheet_name pode receber uma string com o nome da aba cujo dados serão carregados
aba_intronic_df = pd.read_excel("https://www.dropbox.com/s/gyx0hqco6dhtwg2/GNMK_WORKSHOP-001.xlsx?dl=1", sheet_name="INTRONIC")
aba_intronic_df.head()

In [0]:
# Também podemos usar inteiros como parâmetro, fazendo referência a ordem das abas (index zero)
aba_raw_df = pd.read_excel("https://www.dropbox.com/s/gyx0hqco6dhtwg2/GNMK_WORKSHOP-001.xlsx?dl=1", sheet_name=3)
aba_raw_df.head()

In [0]:
# Se quisermos usar dados de todas as abas da planilha passamos None para o sheet_name
planilha_completa = pd.read_excel("https://www.dropbox.com/s/gyx0hqco6dhtwg2/GNMK_WORKSHOP-001.xlsx?dl=1", sheet_name=None)
type(planilha_completa)

In [0]:
# E então podemos acessar os dados de todas as abas a partir de um único objeto
aba_exonic_df = planilha_completa["EXONIC"]
aba_exonic_mosaic_df = planilha_completa["EXONIC MOSAIC"]
aba_intronic_df = planilha_completa["INTRONIC"]
aba_raw_df = planilha_completa["RAW"]