<img src="https://s3-sa-east-1.amazonaws.com/preditiva.ai/diversos/preditiva_assinatura.jpg">

# Preparação dos Dados (*Data Prep*)

Nesta série de notebooks consolidamos as principais operações comuns a etapas de preparação dos dados com o Pandas. Utilize como referência para suas manipulações de dados nas etapas iniciais de projetos de Dados.

## *Missing Values* ou Dados Faltantes

Algo comum em manipulação de dados é lidar com **dados faltantes**. O Pandas fornece uma série de métodos para lidar com esses problemas em dataframes. Veja o exemplo a seguir:

In [None]:
import pandas as pd

In [None]:
df1 = pd.DataFrame({'aluno': ['Joao','Maria','Helena','Joel','Gabriel'],
                    'idade': [30,25,18,29,45]})
df1

In [None]:
df2 = pd.DataFrame({'nome': ['Joel','Gabriel'],
                    'altura': [1.60,1.70]})
df2

Como vimos em seções anteriores, o merge abaixo produziu **dados faltantes (NaN)** pois a tabela "right" não tinha a altura para os 3 primeiros alunos.

In [None]:
df1e2 = pd.merge(df1,
                 df2,
                 how='left',
                 left_on='aluno',
                 right_on='nome')\
          .drop('nome', axis=1) # o axis = 1 representa uma coluna
df1e2

Sempre que lidamos com um dataframe novo é muito importante detectar se temos **dados faltantes**. Podemos fazer isso da seguinte forma:

In [None]:
df1e2.isna()

Utilizando o código abaixo, conseguimos rapidamente identificar que a variável altura tem 3 linhas com **dados faltantes**:

In [None]:
df1e2.isna().sum()

Agora que detectamos, precisamos decidir o que fazer com os **dados faltantes**. Algumas técnicas de modelagem não conseguem lidar com *missing values*, e dependendo da situação uma alternativa pode ser simplesmente __excluir os registros__ que não tem todas as informações.

In [None]:
df1e2

In [None]:
df1e2.dropna()

Mas a operação acima foi muito drástica, pois perdemos todas as informações dos 3 primeiros alunos. Uma alternativa seria então excluir a variável com **dados faltantes**, nesse caso, a variável altura.

In [None]:
df1e2.dropna(axis='columns')

Novamente, descartamos as informações de altura para todos os registros (nesse caso, dos 2 últimos alunos). Por fim, uma outra alternativa é realizar a **imputação de dados** nos valores faltantes em vez de excluí-los. Existem diversas formas de fazer isso:

In [None]:
df1e2

A forma mais simples é substituir os **dados faltantes** por um valor fixo:

In [None]:
df1e2.fillna(2) # preenche 2 em todos os NaNs

Uma forma um pouco melhor é substituir os **dados faltantes** pelo valor médio da variável:

In [None]:
df1e2.fillna(df1e2['altura'].mean())

Existem formas bastante sofisticadas, que chegam a utilizar modelos para estimar os valores faltantes. Tudo dependerá da importância desses dados e do nível de esforço que vale a pena para preencher os **dados faltantes** da melhor forma.

## Outras referências

Existem vários outros comandos que podemos usar na etapa de Pré-Processamento. Uma busca na internet por "Cheat Sheet" Pandas retorna dezenas de opções de resumos. Independentemente do resumo usado, o mais importante é praticar sempre que possível em diversas bases diferentes até essa habilidade ser desenvolvida. 

Aqui separamos uma referência da própria biblioteca Pandas: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf