# **Limpeza e Tratamento da base. Pré processamento**

O processo de limpeza e preparaçao dos dados é uma das  etapa mais importante a ser realizada antes de iniciar qualquer análise. Ele representa cerca de 75% do trabalho de um cientista de dados e pode ser muito custoso. Nesta etapa, é realizada a limpeza e a preparação das informações que temos em mãos. Isso significa o que? Que o cientista de dados irá verificar:




*   Os tipos de dados(se a base de dados contem valores do tipo numéricos/categóricos, datas, caracteres etc) 
*   Verificar se tem dados  faltando e porque se for possível  
*   descobrir se existem  valores absurdos na base
*   verificar se alguns dados podem ser transformados e ir pensando em possíveis transformações. 
*   verificar se alguns dados estao duplicados

Nesse post, iremos abordar algumas técnicas para tratamento e limpeza das informações utilizando o Pandas, uma biblioteca da linguagem Python.





In [None]:
import pandas as pd
import numpy as np


# **Vamos Criar um dicionário em Python para armazenar as notas dos alunos que fizeram uma prova no Brasil.** 

In [None]:
dic = { 'Aluno' :      ['Dietrich','hans','hans','mel','Samuel','junior'] ,
        'Matematica' : [5,4,4,6,5,7],
        'Historia' :   [7,7,7,np.nan,0,1],
        'Geografia' :  [np.nan,np.nan,np.nan,12,4,5],
        'informatica': [9,np.nan,np.nan,np.nan,5,7.5],
        'programaçao': [2,5,5,10,8,3],
        'Desafio' :    [1,7,7,9,4,4.6],
        'Tarefa' :     [10,11,11,12,np.nan,5,],
        'País' :       ['BRASIL','BRASIL','BRASIL','BRASIL','BRASIL','BRASIL'] }

# **Adicionando o dicionário que foi criado anteriormente num DataFrame(uma Tabela)**.

In [None]:
notas = pd.DataFrame(dic)  ### aplica a função DataFrame do pandas


# **Imprimindo a nossa Tabela(método 1)**

In [None]:
notas

Unnamed: 0,Aluno,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa,País
0,Dietrich,5,7.0,,9.0,2,1.0,10.0,BRASIL
1,hans,4,7.0,,,5,7.0,11.0,BRASIL
2,hans,4,7.0,,,5,7.0,11.0,BRASIL
3,mel,6,,12.0,,10,9.0,12.0,BRASIL
4,Samuel,5,0.0,4.0,5.0,8,4.0,,BRASIL
5,junior,7,1.0,5.0,7.5,3,4.6,5.0,BRASIL


# **Imprimindo a nossa Tabela(metodo 2)**

In [None]:
# esse é a forma padrão para imprimir o Dataframe .(o método 'head()' retorna as  5 primeiras linhas da Tabela )
notas.head()

Unnamed: 0,Aluno,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa,País
0,Dietrich,5,7.0,,9.0,2,1.0,10.0,BRASIL
1,hans,4,7.0,,,5,7.0,11.0,BRASIL
2,hans,4,7.0,,,5,7.0,11.0,BRASIL
3,mel,6,,12.0,,10,9.0,12.0,BRASIL
4,Samuel,5,0.0,4.0,5.0,8,4.0,,BRASIL


# **Imprimindo as 2 primeiras linhas da nossa Tabela**

In [None]:
#Basta passar o números de linhas que você quer visualizar no método head()
notas.head(2)

Unnamed: 0,Aluno,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa,País
0,Dietrich,5,7.0,,9.0,2,1.0,10.0,BRASIL
1,hans,4,7.0,,,5,7.0,11.0,BRASIL


# **Removendo colunas do DataFrame**

Por exemplo a coluna "País" nao tem nenhuma relevância na nossa base pois o objetivo aqui é trabalhar apenas com as notas dos alunos então vamos eliminar essa coluna.  

**Como eliminar uma coluna do DataFrame usando Python?**
a biblioteca **Pandas** disponibiliza o método **drop()** para remover linhas e colunas da tabela.

In [None]:
# excluindo a coluna 'Pais'
notas.drop('Pais', inplace=True, axis=1)


Dentro do método **drop()** passamos 3 Parâmetros que são :
**'Pais'** que é a coluna que queremos excluir , o segundo parâmetro **inplace=True** indica que a alteração irá ocorrer no DataFrame original de forma a não criar outras cópias de DataFrame, **axis=1** indica que a exclusão será aplicada na coluna que passamos no método **drop()**.   

In [None]:
# vamos verificar se a coluna Pais foi realmente excluida 
notas.head()

Unnamed: 0,Aluno,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa
0,Dietrich,5,7.0,,9.0,2,1.0,10.0
1,hans,4,7.0,,,5,7.0,11.0
2,hans,4,7.0,,,5,7.0,11.0
3,mel,6,,12.0,,10,9.0,12.0
4,Samuel,5,0.0,4.0,5.0,8,4.0,


# **Verificando linhas duplicadas** 

Basta usar o metodo **.duplicated()** Ele retorna True quando há uma linha duplicada

In [None]:
notas.duplicated()

0    False
1    False
2     True
3    False
4    False
5    False
dtype: bool

# **Excluindo linhas duplicadas**

O metodo **drop_duplicates()** permite elimar as linhas duplicadas no DataFrame 

In [None]:
# Eliminando linhas duplicadas
notas.drop_duplicates(inplace=True) ### inplace =True remove linhas duplicadas
notas

Unnamed: 0,Aluno,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa,País
0,Dietrich,5,7.0,,9.0,2,1.0,10.0,BRASIL
1,hans,4,7.0,,,5,7.0,11.0,BRASIL
3,mel,6,,12.0,,10,9.0,12.0,BRASIL
4,Samuel,5,0.0,4.0,5.0,8,4.0,,BRASIL
5,junior,7,1.0,5.0,7.5,3,4.6,5.0,BRASIL


# **Identificando  dados ausentes (dados faltantes)**

O que são Dados ausentes? são valores representados pelo valor de ponto flutuante [NaN](https://pt.wikipedia.org/wiki/NaN) (acrônimo em inglês para **Not** **a** **Number**) significa que um determinado compo está vazio no nosso DataFrame. podem ter NaN quando acontece um erro durante a coleta dos dados,  erros de processamento ou outros inúmeros fatores. 

**Como identificar valores NaN ?** Basta usar o metodo **isnull()** ele retornará **True** caso encontre valores do tipo **NaN** ou seja quando um campo está vazio.

In [None]:
# identificando os valores NaN na nossa Tabela. 
notas.isnull()

Unnamed: 0,Aluno,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa
0,False,False,False,True,False,False,False,False
1,False,False,False,True,True,False,False,False
2,False,False,False,True,True,False,False,False
3,False,False,True,False,True,False,False,False
4,False,False,False,False,False,False,False,True
5,False,False,False,False,False,False,False,False


# **Visualizando Melhor os valores NaN** 

Para visualizar melhore os valores **NaN** vamos usar o metodo **isnull().sum()**. Esse metodo retorna o **total de valores** **NaN** **em** **cada coluna** 

In [None]:
# visualiando  o total de valores NaN em cada coluna
notas.isnull().sum()

Aluno          0
Matematica     0
Historia       1
Geografia      3
informatica    3
programaçao    0
Desafio        0
Tarefa         1
dtype: int64

# **Filtrando os valores nulos NaN**

Usaremos o metodo **dropna()**, que permite que somente as linhas  contendo um valor ausente (NaN) sejam eliminadas . Esse metodo é aplicado quando queremos que a Base de dados seja tratada eliminando todos os valores **NaN**. Na prática, vocẽ nunca fará isso pois poderá perder boa parte das sua base. O que se faz é tentar preencher esses "buracos" de alguma maneira.

In [None]:
# eliminando todas as linhas com valores NaN
notas.dropna()

Unnamed: 0,Aluno,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa
5,junior,7,1.0,5.0,7.5,3,4.6,5.0


# **Retorna as linhas onde todos os elementos estão ausentes**

Vamos usar o parâmetro **how='all'** Retorna as linhas onde todos os elementos estão ausentes

In [None]:
# Retorna as linhas onde todos os elementos estão ausentes
notas.dropna(how='all')

Unnamed: 0,Aluno,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa,País
0,Dietrich,5,7.0,,9.0,2,1.0,10.0,BRASIL
1,hans,4,7.0,,,5,7.0,11.0,BRASIL
3,mel,6,,12.0,,10,9.0,12.0,BRASIL
4,Samuel,5,0.0,4.0,5.0,8,4.0,,BRASIL
5,junior,7,1.0,5.0,7.5,3,4.6,5.0,BRASIL


# **Como Preencher valores nulos ?**

**há várias maneiras de preencher valores nulos**

**1-** Usando o metodo **fillna()** voce pode passar um **valor** que irá substituir o  **NaN** na Tabela

In [None]:
## Digamos que você queirar trocar todos os NaN por -9999
notas.fillna(-9999)

Unnamed: 0,Aluno,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa,País
0,Dietrich,5,7.0,-9999.0,9.0,2,1.0,10.0,BRASIL
1,hans,4,7.0,-9999.0,-9999.0,5,7.0,11.0,BRASIL
3,mel,6,-9999.0,12.0,-9999.0,10,9.0,12.0,BRASIL
4,Samuel,5,0.0,4.0,5.0,8,4.0,-9999.0,BRASIL
5,junior,7,1.0,5.0,7.5,3,4.6,5.0,BRASIL


**2-** Prenchendo com a mediana de cada coluna usando o **metodo median()**

In [None]:
notas.fillna(notas.median())

Unnamed: 0,Aluno,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa,País
0,Dietrich,5,7.0,5.0,9.0,2,1.0,10.0,BRASIL
1,hans,4,7.0,5.0,7.5,5,7.0,11.0,BRASIL
3,mel,6,4.0,12.0,7.5,10,9.0,12.0,BRASIL
4,Samuel,5,0.0,4.0,5.0,8,4.0,10.5,BRASIL
5,junior,7,1.0,5.0,7.5,3,4.6,5.0,BRASIL


**3-** Prenchendo com a **media** de cada coluna usando o metodo **mean()**

In [None]:
 notas.fillna(notas.mean())



Unnamed: 0,Aluno,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa,País
0,Dietrich,5,7.0,7.0,9.0,2,1.0,10.0,BRASIL
1,hans,4,7.0,7.0,7.166667,5,7.0,11.0,BRASIL
3,mel,6,3.75,12.0,7.166667,10,9.0,12.0,BRASIL
4,Samuel,5,0.0,4.0,5.0,8,4.0,9.5,BRASIL
5,junior,7,1.0,5.0,7.5,3,4.6,5.0,BRASIL


# **Alterando o índice do DataFrame**

Vamos substituir o índice pela coluna **Aluno**. Para teremos o método **set_index() ** que permite realizar essa modificação.

In [None]:
# definido Aluno como index do DataFrame 
notas.set_index('Aluno', inplace=True)

In [None]:
notas.head()

Unnamed: 0_level_0,Matematica,Historia,Geografia,informatica,programaçao,Desafio,Tarefa
Aluno,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Dietrich,5,7.0,7.0,9.0,2,1.0,10.0
hans,4,7.0,7.0,7.166667,5,7.0,11.0
hans,4,7.0,7.0,7.166667,5,7.0,11.0
mel,6,4.4,12.0,7.166667,10,9.0,12.0
Samuel,5,0.0,4.0,5.0,8,4.0,9.8


Agora com o index do DataFrame redefinido podemos accesar de forma rapida os dados(notas) de cada aluno usando o metodo **.loc**

In [None]:
#visualizando as notas do Aluno junior
notas.loc['junior']

Matematica     7.0
Historia       1.0
Geografia      5.0
informatica    7.5
programaçao    3.0
Desafio        4.6
Tarefa         5.0
Name: junior, dtype: float64