In [1]:
import pandas as pd

uri = "https://gist.githubusercontent.com/jessicadesousa/56ac5efd1b9f2a06ef503485e904a203/raw/d829a7204ad55506644f4a7058090c84424217e7/machine-learning-carros-simulacion.csv"
datos = pd.read_csv(uri)
datos.head()

Unnamed: 0,precio,vendido,edad_del_modelo,km_por_ano
0,30941.02,1,18,35085.22134
1,40557.96,1,20,12622.05362
2,89627.5,0,12,11440.79806
3,95276.14,0,3,43167.32682
4,117384.68,1,4,12770.1129


In [2]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

x = datos[["precio", "edad_del_modelo", "km_por_ano"]]
y = datos["vendido"]

SEED = 158020
np.random.seed(SEED)

train_x, test_x, train_y, test_y = train_test_split(x, y, 
                                                    test_size = 0.25, 
                                                    stratify = y)

print("Entrenaremos con %d elementos y evaluaremos con %d elementos" %(len(train_x), len(test_y)))

Entrenaremos con 7500 elementos y evaluaremos con 2500 elementos


In [3]:
from sklearn.dummy import DummyClassifier

dummy_stratified = DummyClassifier(strategy="stratified")
dummy_stratified.fit(train_x, train_y)
accuracy = dummy_stratified.score(test_x, test_y) * 100

print("La exactitud(accuracy) del dummy stratified fue %.2f%%" % accuracy)

La exactitud(accuracy) del dummy stratified fue 50.96%


In [4]:
from sklearn.tree import DecisionTreeClassifier

SEED = 158020
np.random.seed(SEED)

modelo = DecisionTreeClassifier(max_depth=2)
modelo.fit(train_x, train_y)

predicciones = modelo.predict(test_x)

accuracy = accuracy_score(test_y, predicciones) * 100
print("La exactitud(accuracy) fue %.2f%%" % accuracy)

La exactitud(accuracy) fue 71.92%


In [5]:
from sklearn.model_selection import cross_validate

SEED = 3
np.random.seed(SEED)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x, y, cv=3)
media = resultados['test_score'].mean()
desviacion_standard = resultados['test_score'].std()

print("Nuestro intervalo de confianza para cv = 3 es [%.2f, %.2f]" %((media - 2*desviacion_standard)*100, (media + 2*desviacion_standard)*100))

Nuestro intervalo de confianza para cv = 3 es [74.99, 76.57]


In [6]:
modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x, y, cv=5)
media = resultados['test_score'].mean()
desviacion_standard = resultados['test_score'].std()

print("Nuestro intervalo de confianza para cv = 5 es [%.2f, %.2f]" %((media - 2*desviacion_standard)*100, (media + 2*desviacion_standard)*100))

Nuestro intervalo de confianza para cv = 5 es [75.21, 76.35]


In [7]:
SEED = 123
np.random.seed(SEED)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x, y, cv=10)
media = resultados['test_score'].mean()
desviacion_standard = resultados['test_score'].std()

print("Nuestro intervalo de confianza para cv = 10 es [%.2f, %.2f]" %((media - 2*desviacion_standard)*100, (media + 2*desviacion_standard)*100))

Nuestro intervalo de confianza para cv = 10 es [74.24, 77.32]


In [8]:
def imprime_resultados(resultados):
  media = resultados['test_score'].mean()
  desviacion_standard = resultados['test_score'].std()

  print("Nuestra media es %.2f" %(media*100))
  print("Nuestro intervalo de confianza es [%.2f, %.2f]" %((media - 2*desviacion_standard)*100, (media + 2*desviacion_standard)*100))

In [9]:
from sklearn.model_selection import KFold

SEED = 123
np.random.seed(SEED)

cv = KFold(n_splits=10)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x, y, cv=cv)
imprime_resultados(resultados)

Nuestra media es 75.78
Nuestro intervalo de confianza es [74.37, 77.19]


In [10]:
SEED = 123
np.random.seed(SEED)

cv = KFold(n_splits=10, shuffle=True)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x, y, cv=cv)
imprime_resultados(resultados)

Nuestra media es 75.79
Nuestro intervalo de confianza es [72.01, 79.57]


# Simular datos ordenados - mala suerte

In [11]:
datos_ordenados = datos.sort_values(by="vendido", ascending=True)

x_ordenados = datos_ordenados[["precio", "edad_del_modelo", "km_por_ano"]]
y_ordenados = datos_ordenados["vendido"]
datos_ordenados.head()

Unnamed: 0,precio,vendido,edad_del_modelo,km_por_ano
4999,74023.29,0,12,24812.80412
5322,84843.49,0,13,23095.63834
5319,83100.27,0,19,36240.72746
5316,87932.13,0,16,32249.56426
5315,77937.01,0,15,28414.50704


In [12]:
cv = KFold(n_splits=10)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x_ordenados, y_ordenados, cv=cv)
imprime_resultados(resultados)

Nuestra media es 57.84
Nuestro intervalo de confianza es [34.29, 81.39]


In [13]:
cv = KFold(n_splits=10, shuffle=True)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x_ordenados, y_ordenados, cv=cv)
imprime_resultados(resultados)

Nuestra media es 75.79
Nuestro intervalo de confianza es [73.06, 78.52]


In [14]:
from sklearn.model_selection import StratifiedKFold

cv = StratifiedKFold(n_splits=10)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x_ordenados, y_ordenados, cv=cv)
imprime_resultados(resultados)

Nuestra media es 75.78
Nuestro intervalo de confianza es [73.83, 77.73]


In [15]:
cv = StratifiedKFold(n_splits=10, shuffle=True)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x_ordenados, y_ordenados, cv=cv)
imprime_resultados(resultados)

Nuestra media es 75.78
Nuestro intervalo de confianza es [73.36, 78.20]


In [16]:
datos.edad_del_modelo

0       18
1       20
2       12
3        3
4        4
        ..
9995    12
9996    16
9997     4
9998     7
9999    19
Name: edad_del_modelo, Length: 10000, dtype: int64

## Creando una columna simulada de modelo de carro

In [17]:
import numpy as np 
np.random.seed(1234)
datos['modelo'] = datos.edad_del_modelo + np.random.randint(-2, 3, size=len(datos))
datos['modelo'] = datos.modelo + abs(min(datos.modelo)) + 1
datos.head()

Unnamed: 0,precio,vendido,edad_del_modelo,km_por_ano,modelo
0,30941.02,1,18,35085.22134,21
1,40557.96,1,20,12622.05362,24
2,89627.5,0,12,11440.79806,16
3,95276.14,0,3,43167.32682,3
4,117384.68,1,4,12770.1129,5


In [18]:
datos.modelo.unique()

array([21, 24, 16,  3,  5, 12, 17, 22, 19,  6, 11, 13, 20,  8, 18,  7, 10,
       14, 23, 15,  9,  4,  2,  1])

In [19]:
from sklearn.model_selection import GroupKFold

cv = GroupKFold(n_splits=10)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x, y, cv=cv, groups=datos.modelo)
imprime_resultados(resultados)

Nuestra media es 75.78
Nuestro intervalo de confianza es [70.82, 80.74]


In [20]:
from sklearn.model_selection import GroupKFold
from sklearn.linear_model import LogisticRegression

cv = GroupKFold(n_splits=10)

modelo = LogisticRegression()

resultados = cross_validate(modelo, x, y, cv=cv, groups=datos.modelo)
imprime_resultados(resultados)

Nuestra media es 60.61
Nuestro intervalo de confianza es [55.84, 65.38]


In [23]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaler.fit(train_x)

train_x_scaled = scaler.transform(train_x)
test_x_scaled = scaler.transform(test_x)

train_x_scaled

array([[ 1.11714069,  0.66962606,  0.69493956],
       [-1.87037816,  1.30347487,  0.50415005],
       [ 0.07629632, -0.17550569, -1.10620185],
       ...,
       [-1.33343171,  0.03577724, -0.2021129 ],
       [-0.84608888, -1.02063745, -0.51031134],
       [ 0.81393836,  1.09219193,  1.0936072 ]])

In [24]:
SEED = 158020
np.random.seed(SEED)

modelo = LogisticRegression()
modelo.fit(train_x_scaled, train_y)

predicciones = modelo.predict(test_x_scaled)

accuracy = accuracy_score(test_y, predicciones) * 100
print("La exactitud(accuracy) fue %.2f%%" % accuracy)

La exactitud(accuracy) fue 67.48%


In [26]:
from sklearn.pipeline import Pipeline

SEED = 158020
np.random.seed(SEED)

scaler = StandardScaler()
modelo = LogisticRegression()
pipeline = Pipeline([('transforms', scaler), ('model', modelo)])

cv = GroupKFold(n_splits=10)

resultados = cross_validate(pipeline, x, y, cv=cv, groups=datos.modelo)
imprime_resultados(resultados)

Nuestra media es 70.39
Nuestro intervalo de confianza es [65.39, 75.38]
