<img src="https://s3-sa-east-1.amazonaws.com/preditiva.ai/diversos/preditiva_assinatura.jpg">

# Preparação dos Dados (Data Prep)

Nesta série de notebooks consolidamos as principais operações comuns a etapas de preparação dos dados com o Pandas. Utilize como referência para suas manipulações de dados nas etapas iniciais de projetos de Dados.

## Transformações de Colunas e Linhas

Dependendo da organização original dos dados e o tipo de análise necessária para resolver um problema de negócios, pode ser necessário fazer algumas **transformações entre colunas e linhas** de um DataFrame. Veja o exemplo a seguir:

In [None]:
import pandas as pd
import seaborn as sns

In [None]:
df_tips = sns.load_dataset('tips')
df_tips

Vamos começar fazendo uma agregação para saber a quantidade de pessoas por dia da semana e gênero. A variável *size* indica a quantidade de pessoas.

In [None]:
df_tips_daysex = df_tips.groupby(['day', 'sex'])\
                        .agg({'size': 'sum'})
df_tips_daysex

### Comando: Unstack
O método **unstack()** transforma os índices do DataFrame em variáveis. Se não especificarmos qual o nível do índice a ser transformado, o método **unstack()** considerará o nível mais baixo:

In [None]:
df_tips_daysex2 = df_tips_daysex.unstack()
df_tips_daysex2

Mas é possível escolher o nível desejado utilizando o argumento **level**:

In [None]:
df_tips_daysex2 = df_tips_daysex.unstack(level=0)
df_tips_daysex2

### Comando: Stack
O método **stack()** transforma as variáveis em índices do DataFrame.

In [None]:
df_tips_daysex2

In [None]:
df_tips_daysex2.stack()

Assim como no método **unstack()**, é possível escolher o nível desejado utilizando o argumento **level**:

In [None]:
df_tips_daysex2.stack(level=0)

### Comando: Melt

O método **melt()** faz o empilhamento de diversas variáveis, transformando-as em níveis de uma nova variável.

In [None]:
df = pd.DataFrame({
    'first': ['John', 'Mary'],
    'last': ['Doe', 'Bo'],
    'height': [5.5, 6.0],
    'weight': [130, 150]
})
df

No exemplo a seguir, queremos que as variáveis **height** e **weight** sejam empilhadas na variável **measures**:

In [None]:
# # O comando Melt faz o "stacking" em uma etapa
df.melt(id_vars=['first', 'last'],
        var_name='measures')

É possível fazer o mesmo com o comando "stack", porém teria que ser feito em duas etapas:

In [None]:
df.set_index(['first', 'last'], inplace=True)
df

In [None]:
df.stack().reset_index()

## Outras referências

Existem vários outros comandos que podemos usar na etapa de Pré-Processamento. Uma busca na internet por "Cheat Sheet" Pandas retorna dezenas de opções de resumos. Independentemente do resumo usado, o mais importante é praticar sempre que possível em diversas bases diferentes até essa habilidade ser desenvolvida. 

Aqui separamos uma referência da própria biblioteca Pandas: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

E nesse repositório do GitHub você pode encontrar uma série de exemplos do livro **Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython**: https://github.com/wesm/pydata-book