# Curso de Sistemas de Informação
## Disciplina: Tópicos Especiais (Int. a Ciência de Dados)
#### Por Prof. Dr. Adriano Santos



Cleaning Data é o processo de preparação de dados para análise. Trata-se de um processo de extrema importância, visto que quase nunca os dados são entregues em um formato pronto para processamento. Dizemos, inclusive, que esses dados não vem limpos e isso requer que emprenhemos esforço no processo de preparação.

Nesse primeiro post, nós iremos avaliar algumas forma de diagnosticar quando os nossos dados precisam ser “limpos”, isso tudo de acordo com um conjunto de problemas que são comuns no dia a dia de um cientista de dados.

Dentre os problemas mais comuns, gostaria de destacar:

   * problemas de inconsistência nos nomes das colunas/dimensões do dataset;
   * dados faltantes (missing data): um dos problemas mais comuns na análise de dados
   * outliers (valores que fogem do padrão esperado);
   * duplicações de linhas;
   * problemas de unidades ou conversões;
   * problemas em colunas e;
   * valores com erros de sinais.

Para maiores informações e exemplo, acesse: https://github.com/adrianosantospb/curso-cleaningdata

In [1]:
# Importando as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer

In [2]:
# Importando dados
df = pd.read_csv('dados/missing_data.csv')
# Visualizando as informações do dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
Country      10 non-null object
Age          9 non-null float64
Salary       9 non-null float64
Purchased    10 non-null object
dtypes: float64(2), object(2)
memory usage: 400.0+ bytes


In [3]:
# Visualizando os dados
df

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


In [4]:
# Instancia o objeto para o preenchimento automático de missing values (NaN). Utilizaremos a estratégia da média para o preenchimento)
preenchedor = SimpleImputer(missing_values=np.nan, strategy='mean')
# Realizando o preenchimento dos dados faltantes
resultado = preenchedor.fit(df[['Age', 'Salary']])
# Atualiza os valores nas dimensões 
df[['Age', 'Salary']]  = resultado.transform(df[['Age', 'Salary']])
# Visualizando os resultados
df


Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,63777.777778,Yes
5,France,35.0,58000.0,Yes
6,Spain,38.777778,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes
