In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import datetime

In [2]:
uri = "https://gist.githubusercontent.com/jessicadesousa/56ac5efd1b9f2a06ef503485e904a203/raw/d829a7204ad55506644f4a7058090c84424217e7/machine-learning-carros-simulacion.csv"
datos = pd.read_csv(uri)
datos.head()

Unnamed: 0,precio,vendido,edad_del_modelo,km_por_ano
0,30941.02,1,18,35085.22134
1,40557.96,1,20,12622.05362
2,89627.5,0,12,11440.79806
3,95276.14,0,3,43167.32682
4,117384.68,1,4,12770.1129


In [3]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

x = datos[["precio", "edad_del_modelo", "km_por_ano"]]
y = datos["vendido"]

SEED = 158020
np.random.seed(SEED)

train_x, test_x, train_y, test_y = train_test_split(x, y, 
                                                    test_size = 0.25, 
                                                    stratify = y)

print("Entrenaremos con %d elementos y evaluaremos con %d elementos" %(len(train_x), len(test_y)))

Entrenaremos con 7500 elementos y evaluaremos con 2500 elementos


In [4]:
from sklearn.dummy import DummyClassifier

dummy_stratified = DummyClassifier(strategy="stratified")
dummy_stratified.fit(train_x, train_y)
accuracy = dummy_stratified.score(test_x, test_y) * 100

print("La exactitud(accuracy) del dummy stratified fue %.2f%%" % accuracy)

La exactitud(accuracy) del dummy stratified fue 50.96%


In [5]:
from sklearn.tree import DecisionTreeClassifier



In [6]:
SEED = 5
np.random.seed(SEED)

train_x, test_x, train_y, test_y = train_test_split(x, y, 
                                                    test_size = 0.25, 
                                                    stratify = y)

modelo = DecisionTreeClassifier(max_depth=2)
modelo.fit(train_x, train_y)

predicciones = modelo.predict(test_x)

accuracy = accuracy_score(test_y, predicciones) * 100
print("La exactitud(accuracy) fue %.2f%%" % accuracy)

La exactitud(accuracy) fue 76.84%


In [7]:
from sklearn.model_selection import cross_validate

In [8]:
SEED = 234
np.random.seed(SEED)

modelo = DecisionTreeClassifier(max_depth=2)
resultados = cross_validate(modelo, x, y, cv=3)
resultado = resultados['test_score']
desviacion_standard = (resultados['test_score'].std())
resultados

{'fit_time': array([0.03254652, 0.04271388, 0.04577613]),
 'score_time': array([0.01005769, 0.00599957, 0.01007843]),
 'test_score': array([0.75704859, 0.7629763 , 0.75337534])}

In [9]:
media = resultados['test_score'].mean()*100

In [10]:
for i in resultado:
    print(f'{round(i,2)}%')

0.76%
0.76%
0.75%


In [11]:
print(f'Promedio Entrenamiento: {round(media.mean(),2)}%')

Promedio Entrenamiento: 75.78%


In [12]:
print(f'Nuestro intervalo de confianza para cv = 3 es {round(media-2*desviacion_standard*100,2)}% ,{round(media+2*desviacion_standard*100,2)}%')

Nuestro intervalo de confianza para cv = 3 es 74.99% ,76.57%


In [13]:
resultados = cross_validate(modelo, x, y, cv=3)
resultado = resultados['test_score']
desviacion_standard = (resultados['test_score'].std())
print(f'Nuestro intervalo de confianza para cv = 3 es {round(media-2*desviacion_standard*100,2)}% ,{round(media+2*desviacion_standard*100,2)}%')

Nuestro intervalo de confianza para cv = 3 es 74.99% ,76.57%


In [14]:
resultados = cross_validate(modelo, x, y, cv=5)
resultado = resultados['test_score']
desviacion_standard = (resultados['test_score'].std())
print(f'Nuestro intervalo de confianza para cv = 3 es {round(media-2*desviacion_standard*100,2)}% ,{round(media+2*desviacion_standard*100,2)}%')

Nuestro intervalo de confianza para cv = 3 es 75.21% ,76.35%


In [15]:
resultados = cross_validate(modelo, x, y, cv=10)
resultado = resultados['test_score']
desviacion_standard = (resultados['test_score'].std())
print(f'Nuestro intervalo de confianza para cv = 3 es {round(media-2*desviacion_standard*100,2)}% ,{round(media+2*desviacion_standard*100,2)}%')

Nuestro intervalo de confianza para cv = 3 es 74.24% ,77.32%


In [16]:
from sklearn.model_selection import KFold

In [17]:
def imprime_resultados(resultados):
    media = resultados['test_score'].mean()
    desviacion_standard = resultados['test_score'].std()
    print(f'Nuestra promedio es: {round(media*100,2)}%')
    print(f'Nuestro intervalo de confianza es {round(media-2*desviacion_standard,2)*100}% ,{round(media+2*desviacion_standard,2)*100}%')


In [18]:
SEED = 123
np.random.seed(SEED)

cv = KFold(n_splits=10)

modelo = DecisionTreeClassifier(max_depth=2)
resultados = cross_validate(modelo, x, y, cv=cv)
imprime_resultados(resultados)




Nuestra promedio es: 75.78%
Nuestro intervalo de confianza es 74.0% ,77.0%


In [19]:
SEED = 234
np.random.seed(SEED)

cv = KFold(n_splits=10, shuffle=True)

modelo = DecisionTreeClassifier(max_depth=2)
resultados = cross_validate(modelo, x, y, cv=cv)
imprime_resultados(resultados)


Nuestra promedio es: 75.78%
Nuestro intervalo de confianza es 72.0% ,80.0%


### Simular datos ordenados

In [20]:
datos.sort_values(by='vendido')

Unnamed: 0,precio,vendido,edad_del_modelo,km_por_ano
4999,74023.29,0,12,24812.80412
5322,84843.49,0,13,23095.63834
5319,83100.27,0,19,36240.72746
5316,87932.13,0,16,32249.56426
5315,77937.01,0,15,28414.50704
...,...,...,...,...
5491,71910.43,1,9,25778.40812
1873,30456.53,1,6,15468.97608
1874,69342.41,1,11,16909.33538
5499,70520.39,1,16,19622.68262


In [21]:
datos_ordenados = datos.sort_values(by='vendido')

In [22]:
x_ordenados = datos_ordenados[["precio", "edad_del_modelo", "km_por_ano"]]
y_ordenados = datos_ordenados["vendido"]

In [23]:
datos_ordenados.head()

Unnamed: 0,precio,vendido,edad_del_modelo,km_por_ano
4999,74023.29,0,12,24812.80412
5322,84843.49,0,13,23095.63834
5319,83100.27,0,19,36240.72746
5316,87932.13,0,16,32249.56426
5315,77937.01,0,15,28414.50704


In [24]:
cv = KFold(n_splits=10)

modelo = DecisionTreeClassifier(max_depth=2)
resultados = cross_validate(modelo, x_ordenados, y_ordenados, cv=cv)
imprime_resultados(resultados)

Nuestra promedio es: 57.84%
Nuestro intervalo de confianza es 34.0% ,81.0%


In [25]:
cv = KFold(n_splits=10,shuffle=True)

modelo = DecisionTreeClassifier(max_depth=2)
resultados = cross_validate(modelo, x_ordenados, y_ordenados, cv=cv)
imprime_resultados(resultados)

Nuestra promedio es: 75.78%
Nuestro intervalo de confianza es 74.0% ,78.0%


In [26]:
from sklearn.model_selection import StratifiedKFold

cv = StratifiedKFold(n_splits=10)

modelo = DecisionTreeClassifier(max_depth=2)
resultados = cross_validate(modelo, x_ordenados, y_ordenados, cv=cv)
imprime_resultados(resultados)

Nuestra promedio es: 75.78%
Nuestro intervalo de confianza es 74.0% ,78.0%


In [27]:
cv = StratifiedKFold(n_splits=10,shuffle=True)

modelo = DecisionTreeClassifier(max_depth=2)
resultados = cross_validate(modelo, x_ordenados, y_ordenados, cv=cv)
imprime_resultados(resultados)

Nuestra promedio es: 75.78%
Nuestro intervalo de confianza es 73.0% ,78.0%


In [28]:
datos['edad_del_modelo'].unique()

array([18, 20, 12,  3,  4, 11, 16, 10, 19, 15,  2, 17,  9, 13,  7,  6,  5,
       14,  8,  1], dtype=int64)

In [29]:
datos.query('edad_del_modelo.sort_values() ==  18')

Unnamed: 0,precio,vendido,edad_del_modelo,km_por_ano
0,30941.02,1,18,35085.22134
19,111136.80,1,18,25623.91148
34,80965.58,0,18,22527.54132
48,53268.18,0,18,41796.16914
49,102184.72,0,18,18414.06828
...,...,...,...,...
9960,3597.10,1,18,28699.36022
9961,29496.54,1,18,31584.90684
9963,57324.82,1,18,18554.08086
9970,62453.07,0,18,31234.07072


### Creando una columna simulada de modelo de carro

In [30]:
SEED = 1234
np.random.seed(SEED)
datos['modelo'] = datos['edad_del_modelo']+np.random.randint(-2, 3, size=len(datos))
datos['modelo']=datos['modelo']+abs(min(datos['modelo']))+1
datos.head()

Unnamed: 0,precio,vendido,edad_del_modelo,km_por_ano,modelo
0,30941.02,1,18,35085.22134,21
1,40557.96,1,20,12622.05362,24
2,89627.5,0,12,11440.79806,16
3,95276.14,0,3,43167.32682,3
4,117384.68,1,4,12770.1129,5


In [31]:
datos.modelo.unique()

array([21, 24, 16,  3,  5, 12, 17, 22, 19,  6, 11, 13, 20,  8, 18,  7, 10,
       14, 23, 15,  9,  4,  2,  1], dtype=int64)

In [32]:
from sklearn.model_selection import GroupKFold

In [33]:
cv = GroupKFold(n_splits=10)

modelo = DecisionTreeClassifier(max_depth=2)
resultados = cross_validate(modelo, x, y, cv=cv,groups=datos['modelo'])
imprime_resultados(resultados)

Nuestra promedio es: 75.78%
Nuestro intervalo de confianza es 71.0% ,81.0%


In [34]:
from sklearn.linear_model import LogisticRegression
cv = GroupKFold(n_splits=10)

modelo = LogisticRegression()
resultados = cross_validate(modelo, x, y, cv=cv,groups=datos['modelo'])
imprime_resultados(resultados)

Nuestra promedio es: 60.61%
Nuestro intervalo de confianza es 56.00000000000001% ,65.0%


In [35]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(train_x)
train_x_scaled = scaler.transform(train_x)
test_x_scaled = scaler.transform(test_x)
train_x_scaled

array([[ 1.62663622,  0.66907903, -0.62913537],
       [-0.33714655,  0.24235232, -1.31870128],
       [ 0.76029211,  0.66907903,  0.65698987],
       ...,
       [ 1.5520527 ,  0.45571567,  1.5672967 ],
       [ 0.44233999,  0.02898897, -0.99218034],
       [-0.0212041 ,  1.09580574, -0.67583824]])

In [36]:
SEED = 158020
np.random.seed(SEED)

modelo = LogisticRegression()
modelo.fit(train_x_scaled, train_y)

predicciones = modelo.predict(test_x_scaled)

accuracy = accuracy_score(test_y, predicciones) * 100
print("La exactitud(accuracy) fue %.2f%%" % accuracy)

La exactitud(accuracy) fue 71.08%


In [37]:
cv = GroupKFold(n_splits=10)

modelo = LogisticRegression()
resultados = cross_validate(modelo, x, y, cv=cv,groups=datos['modelo'])
imprime_resultados(resultados)

Nuestra promedio es: 60.61%
Nuestro intervalo de confianza es 56.00000000000001% ,65.0%


In [41]:
from sklearn.pipeline import Pipeline
SEED = 158020
np.random.seed(SEED)

scaler = StandardScaler()
model = LogisticRegression()
pipeline = Pipeline([('transform', scaler), ('model',modelo)])

cv = GroupKFold(n_splits=10)
resultados = cross_validate(pipeline, x, y, cv=cv,groups=datos['modelo'])
imprime_resultados(resultados)

Nuestra promedio es: 70.39%
Nuestro intervalo de confianza es 65.0% ,75.0%
