# Librerías

In [1]:
#Librerías Base
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from google.colab import drive

#Librerías de Métricas
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

#Librerías de Machine Learning
from keras.models import Sequential
from keras.layers import Dense
from tensorflow.keras.optimizers import Adam, SGD

# Conexión al repositorio de datos

In [2]:
#Accedemos a Google Drive
drive.mount('/content/drive')

Mounted at /content/drive


# Lectura de datos

In [4]:
#Leemos el dataset
df = pd.read_csv('/content/drive/MyDrive/Data/compras.csv')
df

Unnamed: 0,Time (min),Buy
0,2.000000,0
1,0.683333,0
2,3.216667,1
3,0.900000,0
4,1.533333,1
...,...,...
95,3.750000,1
96,3.883333,1
97,1.566667,0
98,1.666667,0


# Definición de "features"

In [5]:
#Definimos los features (x), es decir los datos que nos ayudan a predecir
x = df['Time (min)'].values
x

array([2.        , 0.68333333, 3.21666667, 0.9       , 1.53333333,
       2.88333333, 0.8       , 1.46666667, 1.11666667, 0.6       ,
       1.35      , 3.18333333, 2.76666667, 2.18333333, 1.5       ,
       1.33333333, 1.53333333, 0.78333333, 2.98333333, 4.15      ,
       0.85      , 2.03333333, 1.6       , 2.61666667, 2.68333333,
       1.95      , 0.46666667, 2.71666667, 2.33333333, 3.41666667,
       0.26666667, 1.38333333, 0.51666667, 2.7       , 2.05      ,
       2.95      , 1.23333333, 3.61666667, 1.43333333, 2.06666667,
       2.06666667, 1.5       , 2.43333333, 2.95      , 2.21666667,
       0.91666667, 2.1       , 3.75      , 1.        , 0.        ,
       2.65      , 1.55      , 1.06666667, 2.01666667, 0.        ,
       0.        , 0.66666667, 2.51666667, 1.06666667, 1.25      ,
       2.95      , 0.        , 1.96666667, 2.2       , 2.9       ,
       3.85      , 2.38333333, 2.08333333, 3.18333333, 3.86666667,
       2.18333333, 2.83333333, 2.73333333, 1.38333333, 1.16666

# Definición de "labels"

In [6]:
#Definimos los labels (y), es decir el dato que se predice
y = df['Buy'].values
y

array([0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1,
       0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1,
       1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0,
       1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1])

# División de los datos en datos de entrenamiento (x_train, y_train) y datos de validación (x_test, y_test)

In [7]:
#Dividimos los datos en datos de entrenamiento (x_train, y_train) y datos de validación (x_test, y_test)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2)

In [8]:
#Features de entrenamiento
x_train

array([1.66666667, 1.51666667, 2.65      , 2.43333333, 3.86666667,
       3.21666667, 1.25      , 0.        , 1.96666667, 1.76666667,
       2.88333333, 1.35      , 0.        , 0.91666667, 0.78333333,
       2.95      , 3.75      , 2.88333333, 0.        , 2.03333333,
       0.        , 0.85      , 0.26666667, 2.06666667, 3.41666667,
       1.23333333, 1.56666667, 2.56666667, 0.75      , 0.38333333,
       2.68333333, 2.1       , 2.33333333, 3.88333333, 0.81666667,
       3.21666667, 1.11666667, 1.53333333, 2.01666667, 3.75      ,
       2.83333333, 1.38333333, 2.06666667, 1.33333333, 1.68333333,
       2.21666667, 1.38333333, 1.06666667, 0.        , 2.18333333,
       1.6       , 4.15      , 1.06666667, 0.6       , 2.38333333,
       2.61666667, 3.61666667, 1.26666667, 1.95      , 2.18333333,
       1.55      , 2.05      , 1.43333333, 3.18333333, 2.46666667,
       0.8       , 2.95      , 2.15      , 3.88333333, 0.        ,
       0.7       , 0.21666667, 0.51666667, 0.        , 2.9    

In [9]:
#Labels de entrenamiento
y_train

array([0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1,
       1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0,
       1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1])

In [10]:
#Features de validación
x_test

array([2.21666667, 1.5       , 1.46666667, 0.46666667, 2.71666667,
       0.68333333, 1.5       , 3.18333333, 2.08333333, 0.66666667,
       0.9       , 2.        , 1.        , 2.76666667, 2.2       ,
       1.16666667, 3.85      , 2.73333333, 1.16666667, 1.53333333])

In [11]:
#Labels de validación
y_test

array([1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1])

# Configuración del modelo

In [12]:
#Instaciamos un modelo de machine learning vacío con "Sequential"
model = Sequential()

In [13]:
#Agregamos las configuraciones con "Dense"
#Como es un modelo de regresión logística usaremos la función sigmoide
model.add(Dense(1, input_shape=(1,), activation='sigmoid'))

In [14]:
#Vemos un resumen del modelo
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 1)                 2         
Total params: 2
Trainable params: 2
Non-trainable params: 0
_________________________________________________________________


# Compilación del modelo

In [16]:
#Compilamos el modelo indicando el tipo de error con el que se calcula la solución
#Como es un modelo de regresión logística, usaremos la función "binary_crossentropy"
model.compile(SGD(learning_rate=0.5), 'binary_crossentropy', metrics=['accuracy'])

# Entrenamiento del modelo

In [17]:
#Entrenamos el modelo enviándole los features (x_train) y labels (y_train) de entrenamiento
#Configuramos el número de iteraciones (40)
model.fit(x_train, y_train, epochs=40)

Epoch 1/40
Epoch 2/40
Epoch 3/40
Epoch 4/40
Epoch 5/40
Epoch 6/40
Epoch 7/40
Epoch 8/40
Epoch 9/40
Epoch 10/40
Epoch 11/40
Epoch 12/40
Epoch 13/40
Epoch 14/40
Epoch 15/40
Epoch 16/40
Epoch 17/40
Epoch 18/40
Epoch 19/40
Epoch 20/40
Epoch 21/40
Epoch 22/40
Epoch 23/40
Epoch 24/40
Epoch 25/40
Epoch 26/40
Epoch 27/40
Epoch 28/40
Epoch 29/40
Epoch 30/40
Epoch 31/40
Epoch 32/40
Epoch 33/40
Epoch 34/40
Epoch 35/40
Epoch 36/40
Epoch 37/40
Epoch 38/40
Epoch 39/40
Epoch 40/40


<keras.callbacks.History at 0x7f6a96dc5050>

# Accuracy de entrenamiento (patrones encontrados en la data)

In [18]:
#Con los features (x_train) que usamos para entrenar el modelo, realizamos las predicciones (y_train_prediccion)
y_train_prediccion = model.predict(x_train).ravel()
y_train_prediccion

array([0.47744483, 0.40933084, 0.8483869 , 0.7896284 , 0.98137265,
       0.9408314 , 0.2977156 , 0.04062283, 0.6136353 , 0.52348727,
       0.8958591 , 0.3376242 , 0.04062283, 0.18655771, 0.1520944 ,
       0.90677726, 0.9770071 , 0.8958591 , 0.04062283, 0.6423287 ,
       0.04062283, 0.16862532, 0.0647375 , 0.65631586, 0.9583125 ,
       0.2913335 , 0.43178254, 0.82755834, 0.14434001, 0.07903951,
       0.8561209 , 0.67003703, 0.7573832 , 0.981926  , 0.1601874 ,
       0.9408314 , 0.24900359, 0.41677764, 0.6352413 , 0.9770071 ,
       0.886943  , 0.35149688, 0.65631586, 0.33078954, 0.48511308,
       0.71572816, 0.35149688, 0.23217264, 0.04062283, 0.70306504,
       0.44691363, 0.9888655 , 0.23217264, 0.11343223, 0.7739126 ,
       0.8403146 , 0.9707893 , 0.30417752, 0.60632783, 0.70306504,
       0.4242626 , 0.64935434, 0.37277836, 0.9373175 , 0.799652  ,
       0.15609816, 0.90677726, 0.6900821 , 0.981926  , 0.04062283,
       0.1333276 , 0.05937693, 0.09887961, 0.04062283, 0.89869

In [19]:
#Binarizamos las predicciones
#Todo lo que esté por encima de "0.5" será un "1"
#Todo lo que esté por debajo de "0.5" será un "0"
y_train_prediccion_binaria = y_train_prediccion > 0.5
y_train_prediccion_binaria

array([False, False,  True,  True,  True,  True, False, False,  True,
        True,  True, False, False, False, False,  True,  True,  True,
       False,  True, False, False, False,  True,  True, False, False,
        True, False, False,  True,  True,  True,  True, False,  True,
       False, False,  True,  True,  True, False,  True, False, False,
        True, False, False, False,  True, False,  True, False, False,
        True,  True,  True, False,  True,  True, False,  True, False,
        True,  True, False,  True,  True,  True, False, False, False,
       False, False,  True, False,  True,  True,  True,  True])

In [20]:
#Calculamos el error de entrenamiento
#INTERPRETACIÓN: El modelo encontró el 81.25% de los patrones existentes en la data
accuracy_score(y_train, y_train_prediccion_binaria)

0.85

# Accuracy de uso (accuracy de predicción)

In [21]:
#Con los features (x_test) que no usamos para entrenar al modelo, realizamos las predicciones (y_test_prediccion)
y_test_prediccion = model.predict(x_test).ravel()
y_test_prediccion

array([0.71572816, 0.40192533, 0.38725096, 0.09096688, 0.86352384,
       0.12981805, 0.40192533, 0.9373175 , 0.66321087, 0.12638739,
       0.18194118, 0.62809485, 0.21099293, 0.87402457, 0.7094374 ,
       0.26663098, 0.9808028 , 0.8671036 , 0.26663098, 0.41677764],
      dtype=float32)

In [22]:
#Binarizamos las predicciones
#Todo lo que esté por encima de "0.5" será un "1"
#Todo lo que esté por debajo de "0.5" será un "0"
y_test_prediccion_binaria = y_test_prediccion > 0.5
y_test_prediccion_binaria

array([ True, False, False, False,  True, False, False,  True,  True,
       False, False,  True, False,  True,  True, False,  True,  True,
       False, False])

In [23]:
#Calculamos el error
#INTERPRETACIÓN: El modelo al ser usado en un entorno productivo, de 100 casos acertará en 80 y se equivocará en 20 casos
accuracy_score(y_test, y_test_prediccion_binaria)

0.75

# Análisis final

In [None]:
###El modelo tuvo un 83% de reconocimiento de patrones, pero solo un 75% de acierto, esto significa que faltan datos porque los 
###resultados no son parecidos.
### La diferencia es de 7.5%, lo que significa que el modelo no predice tan bien la realidad del negocio.

#El modelo tiene un alto porcentaje de reconocimiento de patrones en los datos (81.25%)
#El modelo tiene un alto porcentaje de aciertos en nuestras predicciones (80.00%)
#La diferencia entre el porcentaje de reconocimiento de patrones (81.25%) y el porcentaje de aciertos (80.00%) es pequeña (1.25%)
#Como la diferencia es pequeña, estamos frente a un modelo que representa y predice muy bien la realidad de negocio
#Es un modelo que podemos usar en un entorno real de producción

# Uso del modelo para predecir nuevos casos

In [24]:
#Definimos algunos casos de prueba
#1 MINUTO DE NAVEGACION EN LA WEB
#5 MINUTOS DE NAVEGACION EN LA WEB
#10 MINUTOS DE NAVEGACION EN LA WEB
casos = [1, 5, 10]

#Obtenemos las predicciones
predicciones = model.predict(casos)
predicciones

array([[0.21099293],
       [0.99765486],
       [0.99999976]], dtype=float32)

In [25]:
#Las binarizamos
predicciones_binarias = predicciones > 0.5
predicciones_binarias

array([[False],
       [ True],
       [ True]])

# Despliegue del modelo en un entorno productivo

In [None]:
#Lo veremos luego de implementar:
# Redes neuronales
# Redes convolucionales
# Redes recurrentes