# Data Wrangling

Depois do Gather(Reunir os dados) e do Asses(Avaliar os dados), temos que fazer o `Cleaning(Limpeza dos dados).`

Alguns dos problemas mais recorrentes na vida real são: `Dados faltantes`, 

### Valores faltantes
Podemos encontrar os valores faltantes com `objeto.info()`. Os valores faltantes são vistos na tabela como `NaN`.
A falta de valores é um problema a ser lidado de várias maneira diferentes, dependendo de vários fatores como a razão dos valores faltantes e se eles são casos aleatórios.

Uma maneira de lidar com eles é atribuindo-os a média, isso é feito de modo fácil e eficiente com uma funções conveniente do `pandas`:

In [None]:
mean = df['view_duration'].mean()   # .mean() tira a média da coluna
df['view_duration'] = df['view_duration'].fillna(mean)  # .fillna(mean) preenche os valores faltantes com a média.

# Ou podemos fazer o seguinte para deixar salvo no dataframe:
df['view_duration'].fillna(mean, implace=True)

### Informações duplicadas
Existem diversas razões para haverem dados duplicados no nosso dataframe, como por exemplo, erro humano ou a união de fontes de dados.
Para encontrar dados duplicados podemos usar a função abaixo
Ela por padrão ela mostra as duplicadas como True
Ela só considera duplicadas se todas as colunas forem iguais

In [None]:
df.duplicated()  # Mostra uma lista de colunas marcando True para duplicadas e False para não duplicadas

sum(df.duplicated()) # Mostra a quantidade de todas as colunas duplicadas

df.drop_duplicates(implace=True)  # Apaga(dropa) as colunas duplicas, e com o argumento implace=True ele ja substitui no dataframe original

### Tipos incorretos de dados
Por exemplo podemos ter uma coluna `timestamp` que pode estar sendo representada pelo tipo `object` que como vimos anteriormente é uma `string` no pandas.

Para resolver o problema do tempo com o tipo diferente podemos fazer:

In [None]:
df['timestamp'] = pd.to_datetime(df['timestamp'])

O problema da função acima é que mesmo se salvarmos o dataframe em um csv novamente, depois que lermos o arquivo 
a coluna `timestamp` ela voltará a ter o tipo String. Então vamos precisar converter novamente para que possamos
fazer operações com horas.

# Prática de limpeza
Vamos começar praticando como lidar com valores ausentes ou dados duplicados com `cancer_data_means.csv`.

In [10]:
import pandas as pd

labels = ['age','workclass', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship',  'race',  'sex',  'capital-gain',  'capital-loss',  'hours-per-week','native-country',  'income']

df = pd.read_csv('census_income_data.csv', names=labels)
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [11]:
# Mostrando as colunas que tem valores faltantes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
age               32561 non-null int64
workclass         32561 non-null object
fnlwgt            32561 non-null int64
education         32561 non-null object
education-num     32561 non-null int64
marital-status    32561 non-null object
occupation        32561 non-null object
relationship      32561 non-null object
race              32561 non-null object
sex               32561 non-null object
capital-gain      32561 non-null int64
capital-loss      32561 non-null int64
hours-per-week    32561 non-null int64
native-country    32561 non-null object
income            32561 non-null object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


In [18]:
# use médias para preencher valores ausentes(supondo que a idade tenha valores faltantes) 
# vamos usar o valor médio para preencher esses espações vazios
mean = df['age'].mean()
df['age'] = df['age'].fillna(mean)

In [12]:
# Mostrando a correção com info()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
age               32561 non-null int64
workclass         32561 non-null object
fnlwgt            32561 non-null int64
education         32561 non-null object
education-num     32561 non-null int64
marital-status    32561 non-null object
occupation        32561 non-null object
relationship      32561 non-null object
race              32561 non-null object
sex               32561 non-null object
capital-gain      32561 non-null int64
capital-loss      32561 non-null int64
hours-per-week    32561 non-null int64
native-country    32561 non-null object
income            32561 non-null object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


In [21]:
# Verificando se há dados duplicados
sum(df.duplicated())   # Mostra a quantidade de dados duplicados(True)

24

In [29]:
df = df.drop_duplicates()
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [31]:
# Verificando se ainda existem dados duplicados
sum(df.duplicated())   # Constatamos que nao temos mais dados duplicados...

0

## Renomeando colunas
Já que também alteramos nosso conjunto de dados anteriormente para incluir apenas médias de características de tumores, o sufixo "_mean" ao final do nome de cada característica parece desnecessário. Isso só faz com que mais tempo seja gasto mais tarde, na digitação da nossa análise. Vamos criar uma lista de novos rótulos para atribuir às nossas colunas.

In [9]:
# remova "_mean" dos nomes das colunas
new_labels = []
for col in df.columns:
    if '_mean' in col:
        new_labels.append(col[:-5])  # exclua os últimos 6 caracteres
    else:
        new_labels.append(col)

# novos rótulos para nossas colunas
new_labels

['39',
 ' State-gov',
 ' 77516',
 ' Bachelors',
 ' 13',
 ' Never-married',
 ' Adm-clerical',
 ' Not-in-family',
 ' White',
 ' Male',
 ' 2174',
 ' 0',
 ' 40',
 ' United-States',
 ' <=50K']