In [1]:
import pandas as pd

uri = "https://gist.githubusercontent.com/jessicadesousa/56ac5efd1b9f2a06ef503485e904a203/raw/d829a7204ad55506644f4a7058090c84424217e7/machine-learning-carros-simulacion.csv"
datos = pd.read_csv(uri)
datos.head()

Unnamed: 0,precio,vendido,edad_del_modelo,km_por_ano
0,30941.02,1,18,35085.22134
1,40557.96,1,20,12622.05362
2,89627.5,0,12,11440.79806
3,95276.14,0,3,43167.32682
4,117384.68,1,4,12770.1129


In [2]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

x = datos[["precio", "edad_del_modelo", "km_por_ano"]]
y = datos["vendido"]

SEED = 158020
np.random.seed(SEED)

train_x, test_x, train_y, test_y = train_test_split(x, y, 
                                                    test_size = 0.25, 
                                                    stratify = y)

print("Entrenaremos con %d elementos y evaluaremos con %d elementos" %(len(train_x), len(test_y)))

Entrenaremos con 7500 elementos y evaluaremos con 2500 elementos


In [3]:
from sklearn.dummy import DummyClassifier

dummy_stratified = DummyClassifier(strategy="stratified")
dummy_stratified.fit(train_x, train_y)
accuracy = dummy_stratified.score(test_x, test_y) * 100

print("La exactitud(accuracy) del dummy stratified fue %.2f%%" % accuracy)

La exactitud(accuracy) del dummy stratified fue 50.96%


In [4]:
from sklearn.tree import DecisionTreeClassifier

SEED = 158020
np.random.seed(SEED)

modelo = DecisionTreeClassifier(max_depth=2)
modelo.fit(train_x, train_y)

predicciones = modelo.predict(test_x)

accuracy = accuracy_score(test_y, predicciones) * 100
print("La exactitud(accuracy) fue %.2f%%" % accuracy)

La exactitud(accuracy) fue 71.92%


In [5]:
SEED = 5
np.random.seed(SEED)

train_x, test_x, train_y, test_y = train_test_split(x, y, 
                                                    test_size = 0.25, 
                                                    stratify = y)

modelo = DecisionTreeClassifier(max_depth=2)
modelo.fit(train_x, train_y)

predicciones = modelo.predict(test_x)

accuracy = accuracy_score(test_y, predicciones) * 100
print("La exactitud(accuracy) fue %.2f%%" % accuracy)

La exactitud(accuracy) fue 76.84%


In [10]:
from sklearn.model_selection import cross_validate

SEED = 234
np.random.seed(SEED)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x, y, cv = 3)
media = resultados['test_score'].mean()
deviacion_standard = resultados['test_score'].std()

print("Nuestro intervalo de confianza para cv = 3 es [%.2f, %.2f]" %( (media - 2*deviacion_standard)*100, (media + 2*deviacion_standard)*100 ))

Nuestro intervalo de confianza para cv = 3 es [74.99, 76.57]


In [11]:
resultados = cross_validate(modelo, x, y, cv = 5)
media = resultados['test_score'].mean()
deviacion_standard = resultados['test_score'].std()

print("Nuestro intervalo de confianza para cv = 5 es [%.2f, %.2f]" %( (media - 2*deviacion_standard)*100, (media + 2*deviacion_standard)*100 ))

Nuestro intervalo de confianza para cv = 5 es [75.21, 76.35]


In [12]:
resultados = cross_validate(modelo, x, y, cv = 10)
media = resultados['test_score'].mean()
deviacion_standard = resultados['test_score'].std()

print("Nuestro intervalo de confianza para cv = 10 es [%.2f, %.2f]" %( (media - 2*deviacion_standard)*100, (media + 2*deviacion_standard)*100 ))

Nuestro intervalo de confianza para cv = 10 es [74.24, 77.32]
