# Librerías

In [2]:
#Importamos las librerías estándar
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from google.colab import drive

In [3]:
#Importamos las librerías de Keras
from keras.models import Sequential
from keras.layers import Dense
from tensorflow.keras.optimizers import Adam, SGD

# Conexión al repositorio de datos

In [4]:
#Accedemos a Google Drive
drive.mount('/content/drive')

Mounted at /content/drive


# Lectura de datos

In [5]:
#Leemos el dataset
df = pd.read_csv('/content/drive/MyDrive/Data/compras.csv')
df

Unnamed: 0,Time (min),Buy
0,2.000000,0
1,0.683333,0
2,3.216667,1
3,0.900000,0
4,1.533333,1
...,...,...
95,3.750000,1
96,3.883333,1
97,1.566667,0
98,1.666667,0


# Definición de "features"

In [6]:
#Definimos los features (x), es decir los datos que nos ayudan a predecir
x = df['Time (min)'].values
x

array([2.        , 0.68333333, 3.21666667, 0.9       , 1.53333333,
       2.88333333, 0.8       , 1.46666667, 1.11666667, 0.6       ,
       1.35      , 3.18333333, 2.76666667, 2.18333333, 1.5       ,
       1.33333333, 1.53333333, 0.78333333, 2.98333333, 4.15      ,
       0.85      , 2.03333333, 1.6       , 2.61666667, 2.68333333,
       1.95      , 0.46666667, 2.71666667, 2.33333333, 3.41666667,
       0.26666667, 1.38333333, 0.51666667, 2.7       , 2.05      ,
       2.95      , 1.23333333, 3.61666667, 1.43333333, 2.06666667,
       2.06666667, 1.5       , 2.43333333, 2.95      , 2.21666667,
       0.91666667, 2.1       , 3.75      , 1.        , 0.        ,
       2.65      , 1.55      , 1.06666667, 2.01666667, 0.        ,
       0.        , 0.66666667, 2.51666667, 1.06666667, 1.25      ,
       2.95      , 0.        , 1.96666667, 2.2       , 2.9       ,
       3.85      , 2.38333333, 2.08333333, 3.18333333, 3.86666667,
       2.18333333, 2.83333333, 2.73333333, 1.38333333, 1.16666

# Definición de "labels"

In [7]:
#Definimos los labels (y), es decir el dato que se predice
y = df['Buy'].values
y

array([0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1,
       0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1,
       1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0,
       1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1])

# Definimos una función que construya nuestro modelo

In [17]:
#Vamos a definir una función que se encarga de crear y configurar un modelo
### El modelo más simple para hacer la prueba de cross-validation
### El objetivo es obtener el porcentaje para saber si dependemos de la aleatoriedad.
def compilar_modelo_de_regresion_logistica():
  #Instanciamos un modelo vacio
  model = Sequential()

  #Como estamos ante un problema de regresión logística, agregamos un perceptrón sigmoide
  model.add(Dense(1, input_shape=(1,), activation='sigmoid'))

  #Compilamos el modelo
  model.compile(SGD(learning_rate=0.5), 'binary_crossentropy', metrics=['accuracy'])

  return model

# Instanciamos el modelo con la función

In [18]:
#Importamos la librerías que nos permite crear un modelo con una función personalizada
from keras.wrappers.scikit_learn import KerasClassifier

#Instanciaremos un modelo del tipo clasificador con nuestra función
model = KerasClassifier(
    build_fn = compilar_modelo_de_regresion_logistica, #Indicamos la función que compila el modelo
    epochs = 25 #Número de iteraciones para calibrar
)

# Importamos las librerías para validación cruzada de skitlearn

In [19]:
#Importamos los objetos para implementar la validación cruzada
#KFold: Nos ayudará a definir el número de validaciones que queremos realizar
#cross_val_score: Ejecutará la validación cruzada
from sklearn.model_selection import KFold, cross_val_score

# Definimos la validación cruzada

In [58]:
#Definimos el número de validaciones que queremos
#Para el ejemplo, dividimos la data en 3 subconjuntos de igual tamaño
#También con shuffle le pedimos que antes de crear las 3 validaciones, aleatoriza la data
validaciones = KFold(10, shuffle = True)

# Ejecutamos la validación cruzada

In [63]:
#Ejecutamos las validaciones, indicando:
# - El modelo (model)
# - Los features (x)
# - Los labels (y)
# - La configuración de las validaciones cruzadas (cv)
scores = cross_val_score(model, x, y, cv=validaciones)

Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25
Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25
Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25
Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoc

# Obtenemos los accuracys de cada validación

In [64]:
#Acurracys de cada validación
scores

array([0.89999998, 0.80000001, 0.69999999, 0.80000001, 0.89999998,
       0.89999998, 0.69999999, 0.80000001, 0.89999998, 0.69999999])

In [65]:
#Obtenemos el accuracy promedio
scores.mean()

0.8099999904632569

In [66]:
#Obtenemos la desviación estándar
#2%, relativamente pequeña
#Eso significa que no hay mucha diferencia entre los modelos al entrenarlos con la data o sea hay poca aleatoriedad
# y podriamos resolver el problema con ANN.
# Esto nos indica la aleatoriedad del dataset, aquí es del 2.5%
# Se recomienda que este debajo del 15%, ideal más bajo del 10%
scores.std()

0.0830662326017148