# Data Wrangling ( Limpeza e Ajuste de Dados)
# Limpeza e Ajuste de Base de Dados

### Trata-se do processo de conversão e adequação do formato dos dados originais para um formato mais conveniente (e melhor) para a realização das análises.

In [None]:
import pandas as pd
import matplotlib.pylab as plt

## Os dados originais foram obtidos e podem ser encontrados na internet no endereço:
"https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data (https://archive.ics.uci.edu/ml/machine-learningdatabases/autos/imports-85.data"
Eles foram previamente baixados e se encontram no arquivo de mesmo nome (com extensão .csv no Teams na pasta "Atividades"
Demonstra-se aqui as diversas formas de buscar estes dados:

In [None]:
# 
# Endereço do arquivo
#

filename = "https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DA0101EN/auto.csv"
#
#  Definição dos cabeçalhos (ou atributos da tabela)
#

headers = ["symboling","normalized-losses","make","fuel-type","aspiration","num-of-doors","body-style","drive-wheels",
           "engine-location","wheel-base","length","width","height","curb-weight","engine-type","num-of-cylinders",
           "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower","peak-rpm","city-mpg",
           "highway-mpg","price"]

#
#  Aplicação do método pandas read_csv para carregar os dados da internet em um dataframe (df) com inclusão de cabeçalho 
# (parâmetro name)
#

df = pd.read_csv(filename, names = headers)

In [None]:
#
#  Visualização dos dados : __.head() ==> Apresenta as cinco primeiras linhas do dataframe
#  __.tail() ==> Apresenta as cinco últimas linhas do dataframe
#

df.head(10)

In [None]:
#
#  Dimensões do dataframe
#

df.shape

# Dados (Valores) ausentes
## 
## Os sinais de ? (interrogação) identificam a ausência de dados no dataframe
## A ausência de valores deve ser identificada e tratada, pois, comprometem a  
## qualidade e os resultados da análise

## Como identificar e tratar estes dados e situações?

Passos para tratar com ausência de dados:
<os>
    <li> Identificação e captura dos dados ausentes </li>
    <li> Tratar a ausência de dados </li>
    <li> Corrigir o formato dos dados </li>
</os>

## Identificação e captura dos dados ausentes:
## Identificação dos valores ausentes: 
Conversão da ? para NaN (Not a Number)
 .replace(A,B,inplace = True) ==> para recolocar A por B.

In [None]:
import numpy as np
# recolocar ? por NaN
df.replace("?",np.nan,inplace = True)
df.head()

## Avaliação dos valores ausentes

### Os valores ausentes são convertidos por default em python. São utilizadas funções construtoras <br/> para identificar estes valores. Existem dois métodos para identificar estes valores:
<ul>
    <li>.isnull()</li>
    <li>.notnull()</li>
</ul>

### A saída é um valor lógico indicando quando o valor passado no argumento é um valor ausente.

In [None]:
dados_ausentes=df.isnull()
dados_ausentes.head()

## Contagem de valores ausentes em cada coluna

### Pode-se apresentar o número de valores ausentes em cada coluna.<br/>True representa a ausência do valor enquanto que False indica que o valor está presente.<br/> O método ".value_counts()" retorna o número de valores "True".

In [None]:
for column in dados_ausentes.columns.values.tolist():
    print(column)
    print(dados_ausentes[column].value_counts())
    print("")

### Baseado no resumo acima, cada coluna tem 205 dados e tem-se sete colunas com ausência de dados:
<ol>
    <li> "normalized-losses" - 41 dados</li>
    <li> "num-of-doors" - 2 dados</li>
    <li> "bore" - 4 dados</li>
    <li> "stroke" - 4 dados</li>
    <li> "horsepower" - 2 dados</li>
    <li> "peak-rpm" - 2 dados</li>
    <li> "price" - 4 dados</li>
</ol>

### Tratamento dos dados ausentes
### Como os dados podem ser tratados? 

<p> Eliminação</p>
<p> a. Eliminação de toda a linha</p>
<p> b. Eliminação de toda a coluna</p>
<br/>
<p> Reposição do dado</p>
<p> a. reposição pela média</p>
<p> b. reposição pela frequëncia</p>
<p> c. reposição por outra função</p>
<br/>

### Adotaremos os seguintes procedimentos:
### Reposição pela média:

<ol>
    <li> "normalized-losses" - 41 dados</li>
    <li> "bore" - 4 dados</li>
    <li> "stroke" - 4 dados</li>
    <li> "horsepower" - 2 dados</li>
    <li> "peak-rpm" - 2 dados</li>
</ol>

### Reposição pela freqüência:

<ol>
    <li>"num-of-doors" - 2 dados</li>
</ol>

<p> Justificativa: 84% dos sedans são quatro portas </p>

### Eliminação de toda a linha:

<ol>
    <li> "price" - 4 dados</li>
</ol>

<p> Justificativa: o preço dos carros é a variável alvo para predição </p>

### Cálculo da média:

In [None]:
avg_norm_loss=df["normalized-losses"].astype(float).mean(axis=0)
print("Average normalized-losses:  ",avg_norm_loss)

### Reposição dos valores ausentes pela média

In [None]:
df["normalized-losses"].replace(np.nan,avg_norm_loss,inplace=True)

In [None]:
avg_bore=df["bore"].astype(float).mean(axis=0)
print("Average bore:  ",avg_bore)
df["bore"].replace(np.nan,avg_bore,inplace=True)

In [None]:
avg_stroke=df["stroke"].astype(float).mean(axis=0)
print("Average stroke:  ",avg_stroke)
df["bore"].replace(np.nan,avg_stroke,inplace=True)

In [None]:
avg_hp=df["horsepower"].astype(float).mean(axis=0)
print("Average horsepower:  ",avg_hp)
df["bore"].replace(np.nan,avg_hp,inplace=True)

In [None]:
#
#  Atividade: Calcule a média da variável peak-rpm e preencha os campos com valor ausente desta variável
#

### Reposição do num-of-doors pelo valor correspondente ao de maior freqüência - moda
### Para identificação da moda, pode-se utilizar o método value_counts ou idxmax

In [None]:
df["num-of-doors"].value_counts()

In [None]:
df["num-of-doors"].value_counts().idxmax()

In [None]:
df['num-of-doors'].replace(np.nan,'four',inplace=True)

### Eliminação de todas as linhas que não contém valores da variável preço

In [None]:
df.dropna(subset=['price'],axis=0,inplace=True)
#
# Atualização dos índices das linhas
#
df.reset_index(drop=True,inplace=True)

In [None]:
#
# Verificação do dataframe
#
df.head(15)

### Correção no formato dos dados

<p> O último passo na limpeza de um conjunto de dados é verificar se todos os dados são do tipo correspondente (int, float, string ou outro).<br/>
Em pandas utiliza-se:</p>
<ul>
    <li>.dtypes para checar o tipo de dado e</li>
    <li>.astype() para alterar o tipo de dado.</li>
</ul>

In [None]:
df.dtypes

In [None]:
print(df['symboling'].dtypes)

### Variáveis numéricas devem ser do tipo "float" ou "int" e "strings" devem ser do tipo "object".<br/> "bore" e "stroke" são variáveis numéricas pois são valores que descrevem características numéricas do motor.
### A conversão destas variáveis requer o uso do método .astype().

In [None]:
df[["bore","stroke"]]=df[["bore","stroke"]].astype("float")
df[["normalized-losses"]]=df[["normalized-losses"]].astype("int")
df[["price"]]=df[["price"]].astype("float")
df[["peak-rpm"]]=df[["peak-rpm"]].astype("float")

In [None]:
df.dtypes

# Padronização dos Dados