___
## Ciência dos Dados - PROJETO 3 - INSPER

___
#### Freddy Dratwa

#### Victor Vazquez

#### Michel Haggiag

#### Allan Singer

#### Ricardo Ferraro

___

# Estudo do preço do carro

___

## A. INTRODUÇÃO

## https://www.kaggle.com/jpayne/852k-used-car-listings

O objetivo deste projeto é chegar ao melhor modelo possível que seja capaz de prever o preço de um carro usado nos EUA a partir das características presentes no dataset:
    - Preço;
    - Ano;
    - Quilometragem;
    - Cidade;
    - Estado;
    - Marca;
    - Modelo;
    - Número de Chassis.

A base de dados possui 1.2 milhão de carros com data de produção entre os anos 1997 a 2018 de 58 marcas diferentes, sendo estes 2914 modelos distintos com o preço mÍnimo de US1.500,00 e máximo de US462.000,00 , com a mínima quilometragem 8 Km e a máxima 2.286.260,8 Km.<br>

Como uma primeira previsão, imagina-se que algumas das características do dataset influenciam mais no preço do carro do que outras. Por exemplo, é de se esperar que um carro comprado há mais tempo tenha seu preço menor atualmente. Ou seja, a variavel "Ano", que representa o ano em que o carro foi fabricado, deve influenciar muito no preço do veículo, bem como a quilometragem, onde um carro que foi comprado mas usado pouco deve permanecer mais barato do que um usado muitas vezes.<br>

Pelo outro lado, imagina-se que a variável "Cidade", a qual representa a cidade onde o carro foi comprado, não tenha tanta influência no preço do veículo, a não ser que comparadas  duas cidades com condições muito diferentes. Por exemplo, como se tratam de cidades apenas nos EUA, imaina-se que em cidades no litoral, os carros se depreciem com velocidade maior, como consequência do fenômeno da Maresia.<br>

___
## B. MINERANDO DADOS e CARACTERÍSTICAS DO DATASET

In [49]:
import pandas as pd
import os
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

### BASE DE DADOS

**Limpando e tratando dataset**

Nas células abaixo, o dataset é limpo e reorganiazdo. Para se fazer isso, a coluna "Chassi" é removoida, pois esta é uma característica individual para cada veículo e não influencia no preço final do mesmo. Alem disso, duas colunas vazias foram reitradas. Então, a variável milhagem foi transformada em quilometragem, multplicando seu valor por 1.6. Por último, a variavel ano foi transformada em idade, ou seja, a diferença do ano atual (2019) para o ano em que o carro foi vendido. 

In [2]:
dataset = pd.read_csv("Dataframe.csv")

In [3]:
if "Vin" in dataset:
    dataset = dataset.drop(columns=["Vin", "Unnamed: 9", "Unnamed: 10", "Unnamed: 0"])
    dataset["Mileage"] = dataset["Mileage"].apply(lambda x: x*1.6)

    dataset.columns = ["ID","PRECO","ANO","KM","CIDADE","ESTADO","MARCA","MODELO"]
    dataset["IDADE"] = dataset["ANO"].apply(lambda x: 2019-x)

    dataset.ID = dataset.ID.astype("float")
    dataset.PRECO = dataset.PRECO.astype("float")
    dataset.ANO = dataset.ANO.astype("float")
    dataset.KM = dataset.KM.astype("float")
    dataset.IDADE = dataset.IDADE.astype("float")
    dataset.CIDADE = dataset.CIDADE.astype("category")
    dataset.ESTADO = dataset.ESTADO.astype("category")
    dataset.MARCA = dataset.MARCA.astype("category")
    dataset.MODELO = dataset.MODELO.astype("category")

    dataset["ESTADO"] = dataset["ESTADO"].apply(lambda x: x.upper())
    dataset["CIDADE"] = dataset["CIDADE"].apply(lambda x: x.upper())
    dataset["MARCA"] = dataset["MARCA"].apply(lambda x: x.upper())
    dataset = dataset[["ID","PRECO","ANO","IDADE","KM","CIDADE","ESTADO","MARCA","MODELO"]]
    
dataset.head()

Unnamed: 0,ID,PRECO,ANO,IDADE,KM,CIDADE,ESTADO,MARCA,MODELO
0,79293.0,18684.0,2015.0,4.0,19998.4,OWENSBORO,KY,DODGE,JourneySXT
1,190834.0,26318.0,2016.0,3.0,13563.2,CORPUS CHRISTI,TX,BMW,3
2,670383.0,25802.0,2014.0,5.0,105404.8,PORT LAVACA,TX,FORD,ExplorerLimited
3,586732.0,9899.0,2005.0,14.0,173619.2,LINDON,UT,DODGE,Dakota4WD
4,37609.0,30999.0,2016.0,3.0,13372.8,FOND DU LAC,WI,FORD,MustangFastback


## ANÁLISE DESCRITIVA

___
## C. MODELOS DE PREDIÇÃO

o MODELO DE PREDIÇÃO PELA MÉDIA (Sem uso de variável explicativa).

**Separando a base de dados em treinamento e teste aleatoriamente**

o MODELO DOS K VIZINHOS MAIS PRÓXIMOS (K-Nearest Neighbors Regression)

o MODELO DE REGRESSÃO LINEAR (Multiple Linear Regression)

In [4]:
def dummify(data, column_name):
    return pd.get_dummies(data[column_name],drop_first = False, prefix = column_name)

def regress(X,Y):
    X_cp = sm.add_constant(X)
    model = sm.OLS(Y, X_cp)
    results = model.fit()
    ypred = results.predict(X_cp)
    return results, ypred

In [5]:
traindummy = pd.concat([dummify(dataset, "ESTADO").dropna(), dummify(dataset, "MODELO").dropna(), dummify(dataset, "MARCA").dropna()], axis=1)
dt = dataset.drop(columns = ["ID", "ANO", "CIDADE", "ESTADO", "MARCA", "MODELO"])
final = pd.concat([dt, traindummy], axis = 1)

In [6]:
train, test = train_test_split(final, test_size = 0.25, train_size = 0.75)

In [7]:
df = train

x = df[np.delete(df.columns.values, 0)]
y = df[["PRECO"]]

results = regress(x,y)

dataresultados = pd.read_html(results[0].summary().tables[1].as_html(), header=0, index_col=0)[0]

In [8]:
results[0].summary()

0,1,2,3
Dep. Variable:,PRECO,R-squared:,0.866
Model:,OLS,Adj. R-squared:,0.862
Method:,Least Squares,F-statistic:,227.1
Date:,"Tue, 28 May 2019",Prob (F-statistic):,0.0
Time:,16:18:39,Log-Likelihood:,-741600.0
No. Observations:,75000,AIC:,1487000.0
Df Residuals:,72930,BIC:,1506000.0
Df Model:,2069,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,4.941e+04,252.749,195.478,0.000,4.89e+04,4.99e+04
IDADE,-1450.9020,10.569,-137.281,0.000,-1471.617,-1430.187
KM,-0.0419,0.000,-92.764,0.000,-0.043,-0.041
ESTADO_ AK,890.6407,427.507,2.083,0.037,52.728,1728.553
ESTADO_ AL,1210.0155,148.181,8.166,0.000,919.580,1500.451
ESTADO_ AR,1524.7327,203.909,7.478,0.000,1125.072,1924.394
ESTADO_ AZ,639.4190,112.273,5.695,0.000,419.364,859.474
ESTADO_ CA,705.5771,68.440,10.309,0.000,571.435,839.719
ESTADO_ CO,1397.8927,115.908,12.060,0.000,1170.714,1625.071

0,1,2,3
Omnibus:,84673.092,Durbin-Watson:,1.994
Prob(Omnibus):,0.0,Jarque-Bera (JB):,48445786.047
Skew:,5.197,Prob(JB):,0.0
Kurtosis:,127.075,Cond. No.,1.21e+23


In [9]:
print(len(dataresultados), len(df))

2221 75000


In [10]:
for i in range(5):
    maiores = []
    for i in dataresultados.loc[(dataresultados["P>|t|"] > 0.10)].index.tolist():
        maiores.append(i)

    df = df.drop(columns = maiores)
    x = df[np.delete(df.columns.values, 0)]
    y = df[["PRECO"]]
    results = regress(x,y)
    dataresultados = pd.read_html(results[0].summary().tables[1].as_html(), header=0, index_col=0)[0]

In [34]:
print(len(dataresultados), len(df))

1385 75000


In [33]:
results[0].summary()

0,1,2,3
Dep. Variable:,PRECO,R-squared:,0.861
Model:,OLS,Adj. R-squared:,0.858
Method:,Least Squares,F-statistic:,341.2
Date:,"Tue, 28 May 2019",Prob (F-statistic):,0.0
Time:,16:28:33,Log-Likelihood:,-742980.0
No. Observations:,75000,AIC:,1489000.0
Df Residuals:,73666,BIC:,1501000.0
Df Model:,1333,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,4.623e+04,179.310,257.825,0.000,4.59e+04,4.66e+04
IDADE,-1438.1303,9.788,-146.930,0.000,-1457.314,-1418.946
KM,-0.0417,0.000,-92.997,0.000,-0.043,-0.041
ESTADO_ AK,957.6234,440.332,2.175,0.030,94.574,1820.673
ESTADO_ AL,1240.8953,157.495,7.879,0.000,932.205,1549.585
ESTADO_ AR,1606.2777,213.265,7.532,0.000,1188.280,2024.275
ESTADO_ AZ,630.7581,121.575,5.188,0.000,392.471,869.045
ESTADO_ CA,696.8910,79.743,8.739,0.000,540.595,853.187
ESTADO_ CO,1395.6265,125.462,11.124,0.000,1149.721,1641.532

0,1,2,3
Omnibus:,82971.696,Durbin-Watson:,1.998
Prob(Omnibus):,0.0,Jarque-Bera (JB):,42559527.315
Skew:,5.034,Prob(JB):,0.0
Kurtosis:,119.266,Cond. No.,1.4e+23


In [13]:
quanti = 0
for i in dataresultados["P>|t|"]:
    if i > 0.10:
        quanti+=1
print("Quantidade de colunas com P>|t| maiores que alpha de 10%: ", quanti)

Quantidade de colunas com P>|t| maiores que alpha de 10%:  7


# TEST

In [16]:
for i in test.columns.tolist():
    if i not in df.columns.tolist():
        test = test.drop(columns = [i])

In [20]:
test.head()

Unnamed: 0,PRECO,IDADE,KM,ESTADO_ AK,ESTADO_ AL,ESTADO_ AR,ESTADO_ AZ,ESTADO_ CA,ESTADO_ CO,ESTADO_ DE,...,MARCA_SAAB,MARCA_SATURN,MARCA_SCION,MARCA_SUBARU,MARCA_SUZUKI,MARCA_TESLA,MARCA_TOYOTA,MARCA_VOLKSWAGEN,MARCA_VOLVO,MARCA_SMART
29597,37699.0,4.0,67520.0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9047,9989.0,8.0,162195.2,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
73175,13752.0,6.0,104491.2,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
97862,29495.0,4.0,46304.0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
65550,52995.0,13.0,27700.8,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [35]:
X_Test = sm.add_constant(test[np.delete(test.columns.values, 0)])
Y_pred_test = results[0].predict(X_Test).tolist()

In [50]:
rms_test_R = []
rms_train_R = []

testpreco = test["PRECO"].tolist()
trainpreco = train["PRECO"].tolist()

Y_pred_train = results[1].tolist()
Y_pred_test = results[0].predict(X_Test).tolist()


for a in range(len(trainpreco)):
    rms_train_R.append((trainpreco[a]-Y_pred_train[a])**2)

for e in range(len(testpreco)):
    rms_test_R.append((testpreco[e]-Y_pred_test[e])**2)


RMS_train_R = np.sqrt(np.mean(rms_train_R))
RMS_test_R = np.sqrt(np.mean(rms_test_R))
R_train_R = results[0].rsquared
R_test_R = r2_score(testpreco, Y_pred_test)

R_perc_R = ((R_test_R-R_train_R)/R_train_R)*100
RMS_perc_R = ((RMS_test_R-RMS_train_R)/RMS_train_R)*100

o MODELO DE ÁRVORES DE REGRESSÃO (Decision Tree Regression)

___
## D. PROCESSO E ESTATÍSTICAS DE VALIDAÇÃO

___
## E. CONCLUSÃO

___
## F. REFERÊNCIAS BIBLIOGRÁFICAS