# Data Wrangling ( Limpeza e Ajuste de Dados)
# Limpeza e Ajuste de Base de Dados

### Trata-se do processo de conversão e adequação do formato dos dados originais para um formato mais conveniente (e melhor) para a realização das análises.

In [1]:
import pandas as pd
import matplotlib.pylab as plt

## Os dados originais foram obtidos e podem ser encontrados na internet no endereço:
"https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data (https://archive.ics.uci.edu/ml/machine-learningdatabases/autos/imports-85.data"
Eles foram previamente baixados e se encontram no arquivo de mesmo nome (com extensão .csv no Teams na pasta "Atividades"
Demonstra-se aqui as diversas formas de buscar estes dados:

In [2]:
# 
# Endereço do arquivo
#

filename = "https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DA0101EN/auto.csv"
#
#  Definição dos cabeçalhos (ou atributos da tabela)
#

headers = ["symboling","normalized-losses","make","fuel-type","aspiration","num-of-doors","body-style","drive-wheels",
           "engine-location","wheel-base","length","width","height","curb-weight","engine-type","num-of-cylinders",
           "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower","peak-rpm","city-mpg",
           "highway-mpg","price"]

#
#  Aplicação do método pandas read_csv para carregar os dados da internet em um dataframe (df) com inclusão de cabeçalho 
# (parâmetro name)
#

df = pd.read_csv(filename, names = headers)

In [3]:
#
#  Visualização dos dados : __.head() ==> Apresenta as cinco primeiras linhas do dataframe
#  __.tail() ==> Apresenta as cinco últimas linhas do dataframe
#

df.head(10)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?


In [4]:
#
#  Dimensões do dataframe
#

df.shape

(205, 26)

# Dados (Valores) ausentes
## 
## Os sinais de ? (interrogação) identificam a ausência de dados no dataframe
## A ausência de valores deve ser identificada e tratada, pois, comprometem a  
## qualidade e os resultados da análise

## Como identificar e tratar estes dados e situações?

Passos para tratar com ausência de dados:
<os>
    <li> Identificação e captura dos dados ausentes </li>
    <li> Tratar a ausência de dados </li>
    <li> Corrigir o formato dos dados </li>
</os>

## Identificação e captura dos dados ausentes:
## Identificação dos valores ausentes: 
Conversão da ? para NaN (Not a Number)
 .replace(A,B,inplace = True) ==> para recolocar A por B.

In [5]:
import numpy as np
# recolocar ? por NaN
df.replace("?",np.nan,inplace = True)
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


## Avaliação dos valores ausentes

### Os valores ausentes são convertidos por default em python. São utilizadas funções construtoras <br/> para identificar estes valores. Existem dois métodos para identificar estes valores:
<ul>
    <li>.isnull()</li>
    <li>.notnull()</li>
</ul>

### A saída é um valor lógico indicando quando o valor passado no argumento é um valor ausente.

In [6]:
dados_ausentes=df.isnull()
dados_ausentes.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


## Contagem de valores ausentes em cada coluna

### Pode-se apresentar o número de valores ausentes em cada coluna.<br/>True representa a ausência do valor enquanto que False indica que o valor está presente.<br/> O método ".value_counts()" retorna o número de valores "True".

In [7]:
for column in dados_ausentes.columns.values.tolist():
    print(column)
    print(dados_ausentes[column].value_counts())
    print("")

symboling
False    205
Name: symboling, dtype: int64

normalized-losses
False    164
True      41
Name: normalized-losses, dtype: int64

make
False    205
Name: make, dtype: int64

fuel-type
False    205
Name: fuel-type, dtype: int64

aspiration
False    205
Name: aspiration, dtype: int64

num-of-doors
False    203
True       2
Name: num-of-doors, dtype: int64

body-style
False    205
Name: body-style, dtype: int64

drive-wheels
False    205
Name: drive-wheels, dtype: int64

engine-location
False    205
Name: engine-location, dtype: int64

wheel-base
False    205
Name: wheel-base, dtype: int64

length
False    205
Name: length, dtype: int64

width
False    205
Name: width, dtype: int64

height
False    205
Name: height, dtype: int64

curb-weight
False    205
Name: curb-weight, dtype: int64

engine-type
False    205
Name: engine-type, dtype: int64

num-of-cylinders
False    205
Name: num-of-cylinders, dtype: int64

engine-size
False    205
Name: engine-size, dtype: int64

fuel-system
Fa

### Baseado no resumo acima, cada coluna tem 205 dados e tem-se sete colunas com ausência de dados:
<ol>
    <li> "normalized-losses" - 41 dados</li>
    <li> "num-of-doors" - 2 dados</li>
    <li> "bore" - 4 dados</li>
    <li> "stroke" - 4 dados</li>
    <li> "horsepower" - 2 dados</li>
    <li> "peak-rpm" - 2 dados</li>
    <li> "price" - 4 dados</li>
</ol>

### Tratamento dos dados ausentes
### Como os dados podem ser tratados? 

<p> Eliminação</p>
<p> a. Eliminação de toda a linha</p>
<p> b. Eliminação de toda a coluna</p>
<br/>
<p> Reposição do dado</p>
<p> a. reposição pela média</p>
<p> b. reposição pela frequëncia</p>
<p> c. reposição por outra função</p>
<br/>

### Adotaremos os seguintes procedimentos:
### Reposição pela média:

<ol>
    <li> "normalized-losses" - 41 dados</li>
    <li> "bore" - 4 dados</li>
    <li> "stroke" - 4 dados</li>
    <li> "horsepower" - 2 dados</li>
    <li> "peak-rpm" - 2 dados</li>
</ol>

### Reposição pela freqüência:

<ol>
    <li>"num-of-doors" - 2 dados</li>
</ol>

<p> Justificativa: 84% dos sedans são quatro portas </p>

### Eliminação de toda a linha:

<ol>
    <li> "price" - 4 dados</li>
</ol>

<p> Justificativa: o preço dos carros é a variável alvo para predição </p>

### Cálculo da média:

In [8]:
avg_norm_loss=df["normalized-losses"].astype(float).mean(axis=0)
print("Average normalized-losses:  ",avg_norm_loss)

Average normalized-losses:   122.0


### Reposição dos valores ausentes pela média

In [9]:
df["normalized-losses"].replace(np.nan,avg_norm_loss,inplace=True)

In [10]:
avg_bore=df["bore"].astype(float).mean(axis=0)
print("Average bore:  ",avg_bore)
df["bore"].replace(np.nan,avg_bore,inplace=True)

Average bore:   3.3297512437810943


In [11]:
avg_stroke=df["stroke"].astype(float).mean(axis=0)
print("Average stroke:  ",avg_stroke)
df["bore"].replace(np.nan,avg_stroke,inplace=True)

Average stroke:   3.255422885572139


In [12]:
avg_hp=df["horsepower"].astype(float).mean(axis=0)
print("Average horsepower:  ",avg_hp)
df["bore"].replace(np.nan,avg_hp,inplace=True)

Average horsepower:   104.25615763546799


In [13]:
#
#  Atividade: Calcule a média da variável peak-rpm e preencha os campos com valor ausente desta variável
#

### Reposição do num-of-doors pelo valor correspondente ao de maior freqüência - moda
### Para identificação da moda, pode-se utilizar o método value_counts ou idxmax

In [14]:
df["num-of-doors"].value_counts()

four    114
two      89
Name: num-of-doors, dtype: int64

In [15]:
df["num-of-doors"].value_counts().idxmax()

'four'

In [16]:
df['num-of-doors'].replace(np.nan,'four',inplace=True)

### Eliminação de todas as linhas que não contém valores da variável preço

In [17]:
df.dropna(subset=['price'],axis=0,inplace=True)
#
# Atualização dos índices das linhas
#
df.reset_index(drop=True,inplace=True)

In [18]:
#
# Verificação do dataframe
#
df.head(15)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,122,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,122,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,122,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,2,192,bmw,gas,std,two,sedan,rwd,front,101.2,...,108,mpfi,3.5,2.8,8.8,101,5800,23,29,16430


### Correção no formato dos dados

<p> O último passo na limpeza de um conjunto de dados é verificar se todos os dados são do tipo correspondente (int, float, string ou outro).<br/>
Em pandas utiliza-se:</p>
<ul>
    <li>.dtypes para checar o tipo de dado e</li>
    <li>.astype() para alterar o tipo de dado.</li>
</ul>

In [19]:
df.dtypes

symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object

In [20]:
print(df['symboling'].dtypes)

int64


### Variáveis numéricas devem ser do tipo "float" ou "int" e "strings" devem ser do tipo "object".<br/> "bore" e "stroke" são variáveis numéricas pois são valores que descrevem características numéricas do motor.
### A conversão destas variáveis requer o uso do método .astype().

In [21]:
df[["bore","stroke"]]=df[["bore","stroke"]].astype("float")
df[["normalized-losses"]]=df[["normalized-losses"]].astype("int")
df[["price"]]=df[["price"]].astype("float")
df[["peak-rpm"]]=df[["peak-rpm"]].astype("float")

In [22]:
df.dtypes

symboling              int64
normalized-losses      int64
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                 float64
stroke               float64
compression-ratio    float64
horsepower            object
peak-rpm             float64
city-mpg               int64
highway-mpg            int64
price                float64
dtype: object

# Padronização dos Dados