#Regressão -Preparação de features
---
**Aula Prática 02**: Preparamento de features


**Objetivo**: Preparar features para serem treinadas em um modelo.


Banco de dados:


Preço de carros usados


[Disponivel no kaggle](https://www.kaggle.com/datasets/rishabhkarn/used-car-dataset/data)


[Disponível para download](https://drive.google.com/file/d/1Ny6GypPH4AtJi6CJHmEUEI3KN11hDuGG/view?usp=drive_link)


Descrição dos dados:
* car_name: nome do carro
* registration_year: ano de registro
* insurance_validity: tipo de seguro
* fuel_type: tipo de combustivel
* seats: número de assentos
* kms_drive: total km dirigidos
* ownsership: número de proprietarios
* transmission: tipo de cambio
* manufacturing_year: ano de fabricação
* mileage(kmpl): km por litro
* engine (cc): tamanho do motor
* max_power(bhp): potência do carro
* torque(Nm): torque do motor
* price (in lakhs): preço em lakhs (medida indiana para 100.000)

##Import das principais funções e leitura dos dados


---


In [None]:
import pandas as pd #pacote para leitura dos dados
import numpy as np

In [None]:
#opção 1 -> montar o drive no colab e acessar o arquivo
#from google.colab import drive
#drive.mount('/content/drive')


#opção 2 -> fazer download e fazer upload por aqui
from google.colab import files
uploaded = files.upload()

In [None]:
path = 'Used Car Dataset.csv'
df = pd.read_csv(path)

In [None]:
df.head()

In [None]:
df.dtypes

In [None]:
df = df.rename(columns = {'mileage(kmpl)':'mileage',
                          'engine(cc)':'engine',
                          'max_power(bhp)': 'max_power',
                          'torque(Nm)': 'torque',
                          'price(in lakhs)': 'price'})

df.drop(columns='Unnamed: 0', inplace=True)

## Preparação de dados numéricos
---
Para o processamento das variáveis numéricas faremos o seguinte:


1. Imputação/exclusão em dados faltantes

```python
# Preencher dado faltante
df['coluna'].fillna(valor)
```

Exercícios:

Preencha as variáveis que possuem dados faltantes com a mediana das observações.

In [None]:
df.dtypes

In [None]:
var_numerica = ['seats', 'kms_driven', 'mileage', 'engine', 'max_power', 'torque']

#### Solução

In [None]:
df[var_numerica].isnull().sum()

In [None]:
for var in var_numerica:
  mediana = df[var].median()
  df[var] = df[var].fillna(mediana)

In [None]:
df[var_numerica].isnull().sum()

## Preparação de dados categóricos


---
Para o processamento das variáveis categóricas faremos o seguinte:


1. Transformação de variáveis numéricas que representam a categoria:
  a. Dummy
  b. One hot encoding




---
### Variáveis Dummy


Variáveis Dummy é uma representação de uma variável categórica com k categorias em k-1 variáveis, todas as novas variáveis são binárias.


Exemplo:
Variável faixa de idade


|Variável original|18-30|30-50|50+|
|---|---|---|---|
|0-18|0|0|0|
|18-30|1|0|0|
|30-50|0|1|0|
|50+|0|0|1|


Para criar variáveis dummy iremos utilizar a função get_dummy do pacote Pandas


Exemplo:
``` python
import pandas as pd
df_dummy = pd.get_dummies(df, drop_first=True)
```
 Exercícios:


Crie uma variável dummy para o conjunto de dados? Notou algum problema na criação das dummys?

In [None]:
df.dtypes

In [None]:
var_cat = ['registration_year',
           'fuel_type',
           'ownsership',
           'transmission']

In [None]:
var_cat + var_numerica

In [None]:
df[var_cat + var_numerica]

#### Solução

In [None]:
df_dummy = pd.get_dummies(df[var_cat + var_numerica], drop_first=True)

In [None]:
df_dummy.columns

### Limpeza das categorias

In [None]:
df[var_cat[0]].value_counts()

In [None]:
def gera_data(registration_year):
  if len(registration_year)!=4:
    try:
      return '20' + registration_year.split('-')[1]
    except:
      return '200000'
  return registration_year

In [None]:
df[var_cat[0]].apply(gera_data).value_counts()

In [None]:
df['registration_tratada'] = df[var_cat[0]].apply(gera_data).astype(int)

In [None]:
def categoria_idade(registration_year):
  if registration_year < 2010:
    return 'antes_2010'
  elif registration_year < 2020:
    return 'antes 2020'
  elif registration_year < 2030:
    return 'depois 2020'
  else:
    return 'None'

In [None]:
df['registration_tratada'].apply(categoria_idade).value_counts(dropna=False)

In [None]:
df['registration_tratada'] = df['registration_tratada'].apply(categoria_idade)

In [None]:
df['registration_tratada']

In [None]:
df[var_cat[1]].value_counts(dropna=False)

In [None]:
df = df[df[var_cat[1]] != '5 Seats']

In [None]:
df[var_cat[1]].value_counts()

In [None]:
df['registration_tratada'].value_counts()

In [None]:
df[var_cat[2]].value_counts()

In [None]:
def tratamento_ownsership(ownsership):
  if ownsership in ['First Owner', 'Second Owner', 'Third Owner', 'Fifth Owner']:
    return ownsership
  else:
    return 'None'

In [None]:
df['ownsership_tratado'] = df.ownsership.apply(tratamento_ownsership)

In [None]:
df['ownsership_tratado'].value_counts()

In [None]:
df[var_cat[3]].value_counts()

In [None]:
df['transmission_tratado'] = df[var_cat[3]].apply(lambda x: x if x in ['Manual', 'Automatic'] else 'None')

In [None]:
df['transmission_tratado'].value_counts()

In [None]:
var_cat = ['registration_tratada',
           'fuel_type',
           'ownsership_tratado',
           'transmission_tratado']

In [None]:
df_dummy = pd.get_dummies(df[var_cat + var_numerica],drop_first=True)

In [None]:
df_dummy.head()

In [None]:
y = a + b * registration_tratada_antes_2010 + c*registration_tratada_depois 2020 + d * fuel_type_Diesel + e * fuel_type_Petrol
y = a -> antes de 2020 e combustivel CNG
y = a + b
y = a + c

In [None]:
var_numerica.append('price')
df_dummy = pd.get_dummies(df[var_cat + var_numerica],drop_first=True)
df_dummy.to_csv('dado_tratado.csv', index=False)

### Variáveis one hot

Variáveis one hot encoding é uma representação de uma variável categórica com k categorias em k variáveis, todas as novas variáveis são binárias.

Exemplo:
Variável faixa de idade

|Variável original|0-18|18-30|30-50|50+|
|---|---|---|---|---|
|0-18|1|0|0|0|
|18-30|0|1|0|0|
|30-50|0|0|1|0|
|50+|0|0|0|1|

Para criar variáveis dummy iremos utilizar a função get_dummy do pacote Pandas

Exemplo:
``` python
import pandas as pd
df_dummy = pd.get_dummies(df)
```

Exercícios:

Crie uma variável dummy com representação one-hot encoding para o dado tratado.

#### Solução

In [None]:
df_dummy = pd.get_dummies(df[var_cat + var_numerica])

In [None]:
df_dummy.head()