In [1]:
import pandas as pd

uri = "https://gist.githubusercontent.com/guilhermesilveira/e99a526b2e7ccc6c3b70f53db43a87d2/raw/1605fc74aa778066bf2e6695e24d53cf65f2f447/machine-learning-carros-simulacao.csv"

dados = pd.read_csv(uri).drop(columns=["Unnamed: 0"], axis=1)

x = dados[['preco', 'idade_do_modelo', 'km_por_ano']]
y = dados['vendido']

In [2]:
def imprimeResult(results):
    media = results['test_score'].mean()
    print("Resultados cross validation:",results['test_score'])
    print("Média da precisão: {0:.2f}".format(media*100),'%')

    #Acurracy fica entre a média + 2(desvio_padrao) e a média - 2(desvio_padrao)
    desvio_padrao = results['test_score'].std()
    print("Desvio padrão: {0:.2f}".format(desvio_padrao*100),'%')

    acumulo_baixo = media - 2*desvio_padrao
    acumulo_alto = media + 2*desvio_padrao
    print("Acurracy esta entre: [",acumulo_baixo*100,"---", acumulo_alto*100,"]")

In [3]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
import numpy as np

SEED = 1
np.random.seed(SEED)

raw_train_x, raw_test_x, train_y, test_y = train_test_split(x, y, test_size = 0.25, stratify = y)

model = DecisionTreeClassifier(max_depth = 3)
model.fit(raw_train_x, train_y)

print("Precisão do modelo:",model.score(raw_test_x, test_y)*100,'%')

Precisão do modelo: 78.36 %


<h1>Cross Validation (está sem aleatoriedade)</h1>

In [4]:
from sklearn.model_selection import cross_validate

model = DecisionTreeClassifier(max_depth = 2)

cv_results = cross_validate(model, x, y, cv = 5)    # CV Entre 5 e 10 está suficiente para o modelo ser bom

imprimeResult(cv_results)




Resultados cross validation: [0.756  0.7565 0.7625 0.7545 0.7595]
Média da precisão: 75.78 %
Desvio padrão: 0.29 %
Acurracy esta entre: [ 75.20868572571656 --- 76.35131427428342 ]


    Desvio padrão muito pequeno

<h1>Aleatoriedade no Cross validate...(KFold)</h1>

In [5]:
from sklearn.model_selection import KFold

model = DecisionTreeClassifier(max_depth = 2)

cv = KFold(n_splits = 5, shuffle = True) # suffle = True para não ficar em ordem, assim evita situações de azar

cv_results = cross_validate(model, x, y, cv = 5)    # CV Entre 5 e 10 está suficiente para o modelo ser bom

imprimeResult(cv_results)

Resultados cross validation: [0.756  0.7565 0.7625 0.7545 0.7595]
Média da precisão: 75.78 %
Desvio padrão: 0.29 %
Acurracy esta entre: [ 75.20868572571656 --- 76.35131427428342 ]


<h1>Kfold com stratify</h1>

In [6]:
from sklearn.model_selection import StratifiedKFold

model = DecisionTreeClassifier(max_depth = 2)

cv = StratifiedKFold(n_splits = 5, shuffle = True) # suffle = True para não ficar em ordem, assim evita situações de azar

cv_results = cross_validate(model, x, y, cv = 5)    # CV Entre 5 e 10 está suficiente para o modelo ser bom

imprimeResult(cv_results)

Resultados cross validation: [0.756  0.7565 0.7625 0.7545 0.7595]
Média da precisão: 75.78 %
Desvio padrão: 0.29 %
Acurracy esta entre: [ 75.20868572571656 --- 76.35131427428342 ]
