In [2]:
#Algoritmo para detectar se serão vendidos carros ou não. 
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt 
from matplotlib.pyplot import plot, show, draw, figure, cm
from mpl_toolkits.mplot3d import Axes3D

#Fonte de dados
uri = "https://gist.githubusercontent.com/guilhermesilveira/e99a526b2e7ccc6c3b70f53db43a87d2/raw/1605fc74aa778066bf2e6695e24d53cf65f2f447/machine-learning-carros-simulacao.csv"

#Leitura dos dados do csv
dados = pd.read_csv(uri)

dados.head()

Unnamed: 0.1,Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano
0,0,30941.02,1,18,35085.22134
1,1,40557.96,1,20,12622.05362
2,2,89627.5,0,12,11440.79806
3,3,95276.14,0,3,43167.32682
4,4,117384.68,1,4,12770.1129


In [3]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

#Separando os dados de treinamento e teste 
x = dados [["preco", "idade_do_modelo", "km_por_ano"]]
y = dados ["vendido"]

#Determinando o SEED
SEED = 5
np.random.seed(SEED)

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25, stratify = y)
print("Treinamos com %d elementos e testamos como %d elementos" % (len(treino_x), len(teste_x)))

Treinamos com 7500 elementos e testamos como 2500 elementos


In [4]:
#Utilizando o DummyClassifier para obtermos um baseline.
from sklearn.dummy import DummyClassifier

dummy_stratified = DummyClassifier()
dummy_stratified.fit(treino_x, treino_y)
acuracia = dummy_stratified.score(teste_x, teste_y) * 100

print("A acurácia foi %.2f%%" % acuracia)

A acurácia foi 58.00%


In [5]:
#Utilizando o classificador Decition Tree
from sklearn.tree import DecisionTreeClassifier

SEED =10 
np.random.seed(SEED)

modelo = DecisionTreeClassifier(max_depth=2)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100 
print ("A acurácia foi %2.f%%" % acuracia)

A acurácia foi 77%


Note que dependendo da escolha do SEED, será gerado uma acurácia diferente. Não é adequado deixarmos a acurácia do nosso modelo tão dependente de uma variável com esse grau de aleatoriedade (valores diferentes podem ser escolhidos por pessoas em qualquer situação). Vamos buscar um método em que podemos reduzir o intervalo de acurácias possíveis, para aumentar a confiabilidade do nosso modelo. 

# Esse método se chama Validação cruzada 

# Para isso, iremos usar a técnica K-Fold

In [21]:
from sklearn.model_selection import cross_validate 

SEED = 20
np.random.seed(SEED)

modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x, y, cv=5, return_train_score=True)


In [20]:
media = results['test_score'].mean()
desvio_padrao = results['test_score'].std()

print ("O intervalo de acurácia com cross validation foi de [%.2f , %.2f]." % (media - 2 * desvio_padrao, media + 2 * desvio_padrao))

O intervalo de acurácia com cross validation foi de [0.72 , 0.80].


# Aleatoriedade na validação cruzada

In [None]:
from sklearn.model_selection import KFold

SEED = 20
np.random.seed(SEED)

cv = KFold(n_splits = 10)
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x, y, cv=cv, return_train_score=True)

media = results['test_score'].mean()
desvio_padrao = results['test_score'].std()

print ("O intervalo de acurácia com cross validation foi de [%.2f , %.2f]." % (media - 2 * desvio_padrao, media + 2 * desvio_padrao))