<a href="https://colab.research.google.com/github/pcpiscator/Ciencia-de-dados/blob/master/C%C3%B3pia_de_Semana_3_Limpeza_e_Preparac%CC%A7a%CC%83o_de_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Limpeza e Preparação de Dados
> Por Marcelo Pias


<img width=480 src="https://bigdata-madesimple.com/wp-content/uploads/2018/10/Accuracy.gif"> </img>


**IMPORTANTE: você deve salvar este notebook localmente (computador ou Google Drive) para poder trabalhar nos exercícios. Basta clicar no Menu Arquivo-> Salvar cópia no Drive.**


# Jupyter Notebooks

Antes de entrarmos mais a fundo no tópico **limpeza e preparação de dados**, é importante introduzirmos o nosso ambiente de desenvolvimento **Jupyter Notebook**. Este ambiente, neste momento sendo utilizado, permite criar um documento com células contendo texto, imagens e "pedaços" de código em uma linguagem de programação como Python. 

O notebook que iremos explorar neste laboratório encontra-se em uma plataforma na nuvem, neste caso, o Google Colab. Sempre que aparecer a célula como a mostrada abaixo, com dois colchetes [], indica que é uma célula de código em Python. Basta clicar nesta e usar a combinação das teclas SHIFT+ENTER com intuito de executar o código. 

Agora tente você mesmo na célula abaixo. Posicione o curso do mouse na célula, e pressione simultaneamente SHIFT+ENTER. O código será executado:


In [None]:
print('Hello World')


<img src="https://drive.google.com/uc?export=view&id=1A_YDPwW8-1Ywohh18UX1XF9WE573inZT"> </img>

Neste contato com este Jupyter Notebook, exploraremos o **óbvio** ao executar o código Python que foi pré-preenchido na célula. Portanto, fique tranquila(o) pois o importante é apenas executar a célula com SHIFT+ENTER, e como bônus, se possível tentar entender o que está sendo feito à medida que avançamos no material. De certa forma, o resultado em cada célula já deve ser revelador. Novamente, Mantenha a Calma e controle o Pânico ;)


In [1]:
# Parte inicial do nosso código para importar e carregar as bibliotecas (pandas, numpy, matplotlib)
# Este código também configura parâmetros para plotar nossos gráficos
import numpy as np
import pandas as pd
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

## Tratando dado faltante

Iniciaremos declarando uma série com quatro valores, sendo um destes, declarado como NaN (Not a Number). Pressione SHIFT+ENTER abaixo para executar a célula de código.   

In [25]:
string_dado = pd.Series(['vinagre', 'azeite', np.nan, 'tomate'])
string_dado

0    vinagre
1     azeite
2        NaN
3     tomate
dtype: object

O método isnull() permite inspecionar o dataframe df. Execute a célula abaixo, e observe a saída False, False, True, e False. O que significa esta saída? 

In [26]:
string_dado.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [27]:
string_dado[0] = None
string_dado

0      None
1    azeite
2       NaN
3    tomate
dtype: object

Na célula acima, fizemos uma atribuição do valor None, representando um valor faltante, à posição 0 de nossa série de dados. Escreva abaixo o código para mostrar o conteúdo de string_dado, e observe o que foi modificado. 

In [28]:
# Escreva abaixo o código em Python para mostrar os valores contidos em string_dado
string_dado[3] = None
string_dado

0      None
1    azeite
2       NaN
3      None
dtype: object

### Filtrando Dado Faltante

In [29]:
from numpy import nan as NA              # Esta linha importa a representação NaN (Not a Number) da biblioteca numpy
dado = pd.Series([1, NA, 3.5, NA, 7])    # Criamos uma série de valores. O segundo e quarto elemento são preenchidos como NA (Not a Number)
dado                                     # Esta linha simplesmente mostra o conteúdo da série 'dado' 

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

O método dropna() remove (ou filtra) as linhas em 'dado' que contém valor faltante (NA). Execute a célula abaixo, e compare com resultado da célula acima. 

In [24]:
dado.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

Os dois valores NA foram removidos da série, e com isto, resultado em três valores (1.0, 3.5,7.0). Este método é muito poderoso, e pode ajudar consideravelmente nosso trabalho de limpeza de dados. 

Vamos agora criar um dataframe, e chamá-lo de **df**. 

In [None]:
# O código abaixo cria um dataframe com quatro linhas, e três colunas. A numeração de linha e coluna inicia com índice de valor zero. 
df = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
                     [NA, NA, NA], [NA, 6.5, 3.]])
df#Eu coloquei

In [39]:
# Execute esta célula para exibir o conteúdo do dataframe df. 
df

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


Ao executar dropna() no dataframe df resulta na remoção de linhas que contêm pelo menos um valor NaN. Verifique abaixo. 

In [40]:
df_limpo = df.dropna()

In [38]:
df_limpo

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


No novo dataframe **df_limpo**, observamos que as linhas 1,2 e 3 foram removidas. 

In [41]:
# Execute esta célula.
df.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


O exemplo acima utiliza o método **dropna()** com o parâmetro how='all' que informa para remover linhas em que todos os valores são NA. Comparando o resultado acima com o dataframe df original, percebe-se que uma linha foi removida (linha 2 do **df**). Esta linha foi removida pois continha todos os valores das colunas como NaN. 

### Preenchendo Dado Faltante

Em alguns casos, remover/filtrar dados faltantes com a conseguência de remover linhas inteiras com dados (ver exemplos acima) pode ser custoso e não desejável. Uma alternativa é preenchermos os valores de dados faltantes com algum valor, e com isto, preencher as lacunas. O método **fillna()** preenche as lacunas marcadas como dados faltantes (NA) com um valor especificado como parâmetro. 

In [42]:
# Mostrar o conteúdo do dataframe df
df

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [43]:
# Execute esta célula, e observer no resultado, o efeito do fillna()
df.fillna(0)

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,0.0,0.0
2,0.0,0.0,0.0
3,0.0,6.5,3.0


Como visto acima, os valores com NA são substituídos pelo valor zero (0).
Podemos também escolher valores diferentes de preenchimento para NA em cada coluna. Por exemplo, podemos preencher valor NA com 0.5 na coluna 1, e preencher NA com valor zero na coluna 2. O código abaixo faz exatamente esse preenchimento. Usamos, neste caso, um dicionário {1: 0.5, 2: 0} para especificar o preenchimento diferenciado por coluna. 


In [44]:
df.fillna({1: 0.5, 2: 0})

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,0.5,0.0
2,,0.5,0.0
3,,6.5,3.0


Com **fillna()** é possível fazer muitos tipos de preenchimentos. Por exemplo, podemos preencher os valores faltantes NA pela média em uma séries de dados. 

In [45]:
# dado contém uma série de quatro valores, incluindo duas lacunas com NA. 
dado = pd.Series([1., NA, 3.5, NA, 7])
dado

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [47]:
# Preenche os valores NA com a média da série de valores. 
dado.fillna(dado.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

Pode-se observar que o segundo e o terceiro elemento foram preenchidos com a média da série, ou seja, pelo valor 3.833333.


## Conclusão

Nesta semana avançamos mais um passo no processo de limpeza e preparação de dados. Como foi colocado, esta etapa do modelo CRISP-DM tende a consumir em torno de 80% do tempo de um cientista de dados. Os dados vem com muito ruído, e muitos espaços com falta de dados. Os métodos do Pandas dropna() e fillna() podem nos auxiliar no tratamento destes dados. 
