# Limpeza de Dados (Dados Estruturados)

In [1]:
# bibliotecas necessárias para nosso experimento
import numpy  as np
import pandas as pd

### Dados Artificiais

In [2]:
data = {"Birth": ["","10/02/2000","10/02/2000","10/02/1988","10/02/1990","10/02/1995","10/02/1995","10/02/2002","10/02/1970"],
        "Age": [1000,20,20,32,30,25,35,18,50],
        "Sex":["","m","M","Male","m","f","F",np.nan,"F"],
        "Job": ["","Arts & Design","Arts & Design","Business","busines","Healthcare","Healthcare","Food","@#4"],
        "Income": ["<50k","<50k","<50k",">50k",">50k",">50k","<50k","<50k",">50k"]}

## Convertendo para um DataFrame

In [3]:
df = pd.DataFrame(data)

In [4]:
df

Unnamed: 0,Birth,Age,Sex,Job,Income
0,,1000,,,<50k
1,10/02/2000,20,m,Arts & Design,<50k
2,10/02/2000,20,M,Arts & Design,<50k
3,10/02/1988,32,Male,Business,>50k
4,10/02/1990,30,m,busines,>50k
5,10/02/1995,25,f,Healthcare,>50k
6,10/02/1995,35,F,Healthcare,<50k
7,10/02/2002,18,,Food,<50k
8,10/02/1970,50,F,@#4,>50k


### Filtrando Variáveis
Muitas vezes devemos selecionar as variáveis que nos interessam para um problema específico ou mesmo porque algumas são redundantes.

In [5]:
df.drop(["Birth"],axis=1,inplace=True) # apagando a coluna "Birth" no eixo=1 (por coluna). inplace significa para apagar do dataset corrente e não gerar uma cópia.

In [6]:
df

Unnamed: 0,Age,Sex,Job,Income
0,1000,,,<50k
1,20,m,Arts & Design,<50k
2,20,M,Arts & Design,<50k
3,32,Male,Business,>50k
4,30,m,busines,>50k
5,25,f,Healthcare,>50k
6,35,F,Healthcare,<50k
7,18,,Food,<50k
8,50,F,@#4,>50k


## Descobrindo Inconsistências

In [7]:
df.Sex.unique()

array(['', 'm', 'M', 'Male', 'f', 'F', nan], dtype=object)

In [8]:
df.Job.unique()

array(['', 'Arts & Design', 'Business', 'busines', 'Healthcare', 'Food',
       '@#4'], dtype=object)

In [9]:
df.Income.unique()

array(['<50k', '>50k'], dtype=object)

#### Podemos notar uma formatação distinta (Sexo e Emprego), porém com a mesma semântica. Devemos corrigir.

In [10]:
df.Sex.replace('m','M',inplace=True)
df.Sex.replace('Male','M',inplace=True)
df.Sex.replace('f','F',inplace=True)

df.Job.replace('busines','Business',inplace=True)



In [11]:
df

Unnamed: 0,Age,Sex,Job,Income
0,1000,,,<50k
1,20,M,Arts & Design,<50k
2,20,M,Arts & Design,<50k
3,32,M,Business,>50k
4,30,M,Business,>50k
5,25,F,Healthcare,>50k
6,35,F,Healthcare,<50k
7,18,,Food,<50k
8,50,F,@#4,>50k


### Tratamento de Erros
Temos dois exemplos com erro: 0 e 8. O exemplo 0, pode ser descartado, pois apresenta apenas uma informação e está errada. Já o exemplo dois, deve ser tratado e mantido.

In [12]:
df.drop(0,inplace=True) 


In [13]:
df.Job.replace("@#4",np.nan,inplace=True) # substituindo valores incorretos por Nulo

In [14]:
df

Unnamed: 0,Age,Sex,Job,Income
1,20,M,Arts & Design,<50k
2,20,M,Arts & Design,<50k
3,32,M,Business,>50k
4,30,M,Business,>50k
5,25,F,Healthcare,>50k
6,35,F,Healthcare,<50k
7,18,,Food,<50k
8,50,F,,>50k


### Missing Values
Nesta fase, podemos substituir as variáveis categóricas com valores nulos por algo que seja mais indicativo para uma futura visualização. Entretanto, deve-se tomar cuidado se o número de Nulos é demasiadamente elevado. Se for, é melhor não substituir para que não ocupe espaço. Já para valores de variáveis numéricas, podemos deixar o nulo por enquanto, pois não atrapalhará na visualização.

In [15]:
df.Job.replace(np.nan,"Não Informado",inplace=True)
df.Sex.replace(np.nan,"A",inplace=True)


In [16]:
df

Unnamed: 0,Age,Sex,Job,Income
1,20,M,Arts & Design,<50k
2,20,M,Arts & Design,<50k
3,32,M,Business,>50k
4,30,M,Business,>50k
5,25,F,Healthcare,>50k
6,35,F,Healthcare,<50k
7,18,A,Food,<50k
8,50,F,Não Informado,>50k


### Removendo duplicatas (Dependerá do seu problema)
Durante a integração entre várias bases ou mesmo uma única base muito grande pode conter duplicatas. Aqui, vocÊ pode ou não remover duplicatas. Se você quiser verificar quanto indivíduos ocorrem com o mesmo perfil, não se deve remover. Já para problemas de aprendizado em que deseja-se, por exemplo, prever algo com base nas informações do indivíduo, então é necessário remover. 

In [17]:
df[df.duplicated(keep = False)] # verificando quais exemplos são duplicatas


Unnamed: 0,Age,Sex,Job,Income
1,20,M,Arts & Design,<50k
2,20,M,Arts & Design,<50k


In [18]:
#Removendo
df = df[False == df.duplicated(keep = "first")] # mantenha apenas o primeiro duplicado. Os demais são jogados fora.

In [19]:
df

Unnamed: 0,Age,Sex,Job,Income
1,20,M,Arts & Design,<50k
3,32,M,Business,>50k
4,30,M,Business,>50k
5,25,F,Healthcare,>50k
6,35,F,Healthcare,<50k
7,18,A,Food,<50k
8,50,F,Não Informado,>50k


### Filtrando por exemplo
Uma vez que os valores estão tratados, podemos agora selecionar nossas amostras para trabalhar de acordo com alguma regra que satisfaça nosso problema a ser investigado. Por exemplo, queremos trabalhar com pessoas que não sejam da área "Food" e também que não tenha idade supeior a 40 anos. 

In [20]:
df.Age <= 40 # nosso filtro para idade

1     True
3     True
4     True
5     True
6     True
7     True
8    False
Name: Age, dtype: bool

In [21]:
df.Job != "Food" # nosso filtro para evitarmos Food

1     True
3     True
4     True
5     True
6     True
7    False
8     True
Name: Job, dtype: bool

In [22]:
# aplicando os filtros
df = df[df.Age <= 40]
df = df[df.Job != "Food"]


### Agora temos nosso conjunto de dados pronto para análises

In [23]:
df

Unnamed: 0,Age,Sex,Job,Income
1,20,M,Arts & Design,<50k
3,32,M,Business,>50k
4,30,M,Business,>50k
5,25,F,Healthcare,>50k
6,35,F,Healthcare,<50k
