In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, LabelBinarizer, StandardScaler, MinMaxScaler

In [None]:
dados = pd.read_csv('car_ad.csv', encoding="ISO-8859-1")
dados.head(10)

## Filtrando os dados principais

In [None]:
dados.isna().sum()

In [None]:
dados.dropna(axis=0, inplace=True)

In [None]:
dados.car.value_counts()

In [None]:
dados = dados.groupby(dados.car).filter(lambda x: len(x) > 20)

In [None]:
dados.head(10)

In [None]:
sns.histplot(dados['price'])

In [None]:
dados = dados[dados['price'] > 0]

In [None]:
binarizer = LabelBinarizer()
encoder = LabelEncoder()

In [None]:
dados['registration'] = binarizer.fit_transform(dados['registration'])

In [None]:
dados.registration.value_counts()

In [None]:
dados.drive = encoder.fit_transform(dados.drive)

In [None]:
dados.engType = encoder.fit_transform(dados.engType)

In [None]:
dados.body = encoder.fit_transform(dados.body)

In [None]:
dados.head(10)

In [None]:
dados_numericos = dados.select_dtypes(['int', 'float'])

### Checando a correlação entre a variáveis

In [None]:
sns.heatmap(dados_numericos.corr(), annot=True)

## Explorando visualmente os dados

In [None]:
ax = dados.plot(kind='scatter', x='mileage', y='price', figsize=(18, 9), s=15, alpha=0.5)
ax.set_xlabel('Milhas', fontsize=20, color='grey', fontweight='bold')
ax.set_ylabel('Preço', fontsize=20, color='grey', fontweight='bold')
ax.spines['right'].set_visible(False)
ax.spines['top'].set_visible(False)
ax.spines['left'].set_visible(False)
ax.spines['bottom'].set_visible(False)
ax.axis(color='red')
ax.set_title("Relação entre preço e milhas rodadas", size=25, fontweight='bold', color='grey')
ax.axvline(dados['mileage'].mean(), color='red', label='Média de Milhas')
ax.axhline(dados['price'].mean(), color='blue', label='Média de Preço')
ax.axvspan(dados['mileage'].mean() - np.std(dados.mileage), dados['mileage'].mean() + np.std(dados.mileage),
           color='red', label='Desvio Padrão Milhas', alpha=0.1)
ax.axhspan(dados['price'].mean() - np.std(dados.price), dados['price'].mean() + np.std(dados.price),
           color='blue', label='Desvio Padrão Preço', alpha=0.1)

plt.legend(frameon=False)
plt.show()

In [None]:
ax = dados.plot(kind='scatter', x='year', y='price', figsize=(18, 9), s=15, alpha=0.5)
ax.set_xlabel('Ano', fontsize=20, color='grey', fontweight='bold')
ax.set_ylabel('Preço', fontsize=20, color='grey', fontweight='bold')
ax.spines['right'].set_visible(False)
ax.spines['top'].set_visible(False)
ax.spines['left'].set_visible(False)
ax.spines['bottom'].set_visible(False)
ax.axis(color='red')
ax.set_title("Relação entre preço e ano", size=25, fontweight='bold', color='grey')
ax.axhline(dados['price'].mean(), color='blue', label='Média de Preço')
ax.axhspan(dados['price'].mean() - np.std(dados.price), dados['price'].mean() + np.std(dados.price),
           color='blue', label='Desvio Padrão Preço', alpha=0.1)

plt.legend(frameon=False)
plt.show()

In [None]:
plt.subplots(figsize=(12,6))
plt.hist(dados['price'], bins=35)
plt.show()

In [None]:
dados_ml = dados.copy()
dummies_car = pd.get_dummies(dados['car'])
dados_ml.drop(['car','model'], inplace=True, axis=1)
dados_ml = pd.concat([dados_ml, dummies_car], axis=1)

In [None]:
dados_ml.head(10)

## Modelo de Machine Learning para prever o preço dos veículos com base nas características

In [None]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.ensemble import RandomForestRegressor

In [None]:
Y = dados_ml.iloc[:,0]
X = dados_ml.iloc[:,1:]

In [None]:
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)

## GridSearch optional part

In [None]:
#parameters = {'bootstrap':('False','True'), 'ccp_alpha':[0,2], 'min_impurity_decrease':[0,2], 'n_estimators':[100,150],
              'oob_score':('False','True')}

In [None]:
#modelo = RandomForestRegressor()
#gridsearch = GridSearchCV(estimator=modelo, param_grid=parameters, cv=4)
#gridsearch.fit(x_train, y_train)

#melhores_parametros = gridsearch.best_params_
#melhor_predicao = gridsearch.best_score_

In [None]:
#print(melhores_parametros)
#print(melhor_predicao)

In [None]:
modelo = RandomForestRegressor(bootstrap =True, ccp_alpha = 0, min_impurity_decrease = 2, n_estimators = 100, oob_score = True)
modelo.fit(x_train, y_train)

In [None]:
predicao = modelo.predict(x_test)

In [None]:
print(mean_squared_error(y_test, predicao))
print(r2_score(y_test, predicao))