# Prevendo valor de automóvel


Ao falarmos sobre [pré-processadores](https://github.com/danielamador12/public-projects/blob/master/pr%C3%A1tica_pre-processamento_e_metricas.ipynb) utilizei essa mesma base de dados que usaremos aqui, contudo lá o intuito era somente mostrar a aplicação do **Label Encoder**, **One Hot Encoder** e **Get Dummies**. Aqui não chegamos a predizer valores, então vamos direto ao ponto aqui!

![carro](https://image.freepik.com/fotos-gratis/modelo-de-carro-calculadora-e-moedas-na-mesa-branca_1387-493.jpg)

# 1. Definição do Problema

Nosso objetivo aqui é **predizer o valor** de alguns tipos de carro. 
Serão utilizados apenas **três carros**: 
* **BMW X5**
* **Audi A5**
* **Mercedez Benz C class**

Só temos as seguintes **features**:

* `Car Model`: O modelo do carro
* `Mileage`: A quantidade em *milhas* que ele já andou
* `Age(yrs)`: A idade do carro
* `Sell Price($)`: Valor que ele vale. Essa é nossa classe, ou seja, nosso **alvo**

Esse projeto tem o intuito de ser **simples**, por isso utilizaremos apenas **3 modelos de carro**, além disso, é um problema muito simples, um algoritmo simples resolve, por isso será utilizado a **Regressão Linear**.

# 2. Carregando e visualizando os dados

**Importações**

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

**Carregamento e leitura dos dados**

In [2]:
car='/home/amador/dados/base_car.csv'
df=pd.read_csv(car)

**Colunas atuais**

In [3]:
df.columns

Index(['Car Model', 'Mileage', 'Sell Price($)', 'Age(yrs)'], dtype='object')

**Alterando o nome das colunas**

In [4]:
df.columns=['modelo','mileage','price','age_yrs']

# 3. Aplicação do Get Dummies

In [5]:
dummies=pd.get_dummies(df.modelo,prefix='car') #prefixo é opcional
dummies

Unnamed: 0,car_Audi A5,car_BMW X5,car_Mercedez Benz C class
0,0,1,0
1,0,1,0
2,0,1,0
3,0,1,0
4,0,1,0
5,1,0,0
6,1,0,0
7,1,0,0
8,1,0,0
9,0,0,1


**Atribuindo os valores transformados ao DF**

In [6]:
merged=pd.concat([df,dummies],axis=1) # pode ser axis=columns
merged

Unnamed: 0,modelo,mileage,price,age_yrs,car_Audi A5,car_BMW X5,car_Mercedez Benz C class
0,BMW X5,69000,18000,6,0,1,0
1,BMW X5,35000,34000,3,0,1,0
2,BMW X5,57000,26100,5,0,1,0
3,BMW X5,22500,40000,2,0,1,0
4,BMW X5,46000,31500,4,0,1,0
5,Audi A5,59000,29400,5,1,0,0
6,Audi A5,52000,32000,5,1,0,0
7,Audi A5,72000,19300,6,1,0,0
8,Audi A5,91000,12000,8,1,0,0
9,Mercedez Benz C class,67000,22000,6,0,0,1


Como foi falado no notebook sobre [pré-processadores](https://github.com/danielamador12/public-projects/blob/master/pr%C3%A1tica_pre-processamento_e_metricas.ipynb), ao fazer o get dummies, se **exclui uma das categorias** para evitar o efeito da **multicolinearidade**. 

Faremos isso aqui, mas depois usaremos a base completa.

In [7]:
get=merged.drop(['modelo','car_Audi A5'],axis='columns')
get

Unnamed: 0,mileage,price,age_yrs,car_BMW X5,car_Mercedez Benz C class
0,69000,18000,6,1,0
1,35000,34000,3,1,0
2,57000,26100,5,1,0
3,22500,40000,2,1,0
4,46000,31500,4,1,0
5,59000,29400,5,0,0
6,52000,32000,5,0,0
7,72000,19300,6,0,0
8,91000,12000,8,0,0
9,67000,22000,6,0,1


# 4. Aplicando a Regressão Linear com apenas 2 modelos de carro

**Criando objeto para regressão linear**

In [8]:
# importando o algoritmo
from sklearn.linear_model import LinearRegression
# criando o objeto para regressão linear
model=LinearRegression()

**Separando features e classe**

In [9]:
# features
X=get.drop('price',axis=1)
# classe
y=get.price
# visualizando as features
X

Unnamed: 0,mileage,age_yrs,car_BMW X5,car_Mercedez Benz C class
0,69000,6,1,0
1,35000,3,1,0
2,57000,5,1,0
3,22500,2,1,0
4,46000,4,1,0
5,59000,5,0,0
6,52000,5,0,0
7,72000,6,0,0
8,91000,8,0,0
9,67000,6,0,1


In [10]:
# visualizando a classe
y

0     18000
1     34000
2     26100
3     40000
4     31500
5     29400
6     32000
7     19300
8     12000
9     22000
10    20000
11    21000
12    33000
Name: price, dtype: int64

**Treinando o modelo**

In [11]:
model.fit(X,y)

LinearRegression()

**Predizendo resultados**

A ordem é `mileage`, `age_yrs`,	`car_BMW X5` e `car_Mercedez Benz C class`

In [12]:
model.predict([[22000,5,0,1],[200,5,0,1],[22000,5,1,0],[200,5,1,0]]).round(2)

array([44171.67, 52240.33, 37433.46, 45502.13])

O **array** de dados acima são os valores dos carros já preditos, os dois primerios são `BMW X5` e os dois últimos são `Mercedez Benz C class`.

A **precisão** do nosso modelo é:

In [13]:
model.score(X,y)

0.9417050937281082

# 5. Aplicando a Regressão Linear com apenas 3 modelos de carro

**Utilizando o `merged`**
Esse DataFrame é o que tem todos os modelos de carro, como falado antes, uma das categorias foi **dropada** para evitar a multicolinearidade, mas para esse exemplo com poucos dados, não há problema.

**Separando colunas**

In [14]:
# features
X2=merged.drop(['price','modelo'],axis=1)
# classe
y2=merged.price
# visualização das features
X2

Unnamed: 0,mileage,age_yrs,car_Audi A5,car_BMW X5,car_Mercedez Benz C class
0,69000,6,0,1,0
1,35000,3,0,1,0
2,57000,5,0,1,0
3,22500,2,0,1,0
4,46000,4,0,1,0
5,59000,5,1,0,0
6,52000,5,1,0,0
7,72000,6,1,0,0
8,91000,8,1,0,0
9,67000,6,0,0,1


In [15]:
# visualização da classe
y2

0     18000
1     34000
2     26100
3     40000
4     31500
5     29400
6     32000
7     19300
8     12000
9     22000
10    20000
11    21000
12    33000
Name: price, dtype: int64

**Criando objeto para regressão linear**

In [16]:
# importando o LinearRegression
from sklearn.linear_model import LinearRegression
# criando objeto para regressão linear
model=LinearRegression()

**Treinando o modelo**

In [17]:
model.fit(X2,y2)

LinearRegression()

**Predizendo resultados**

Agora nossa ordem é `mileage`, `age_yrs`, `(Audi A5)`, `car_BMW X5` e `car_Mercedez Benz C class`

Abaixo temos 2 exemplares de cada carro.

In [18]:
model.predict([[22000,5,1,0,0],[200,5,1,0,0],[22000,5,0,1,0],[200,5,0,1,0],[22000,5,0,0,1],[200,5,0,0,1]]).round(2)

array([41718.13, 49786.79, 37433.46, 45502.13, 44171.67, 52240.33])

A **precisão** do nosso modelo é a mesma:

In [19]:
model.score(X2,y2)

0.9417050937281082

**Não complique!!!**

Faça um voto a você e aos outros de humildade e não tente colocar **Deep Learning** para atacar um caso onde uma **Regressão Linear** já resolve. Sempre haverá problemas mais complexos para trabalhar com modelos mais complexos.

Espero ter ajudado! Abração!