In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

from keras.models import Sequential
from keras.layers import Dense
from tensorflow.keras.optimizers import Adam, SGD

In [2]:
"""# Conexión a repositorio de datos"""

#Acceder a archivos en Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
"""# Lectura de datos"""

#Leemos los datos de las estaruras de las personas según sus pesos
df = pd.read_csv('/content/drive/MyDrive/Data/weight-height.csv')
df

Unnamed: 0,Gender,Height,Weight
0,Male,73.847017,241.893563
1,Male,68.781904,162.310473
2,Male,74.110105,212.740856
3,Male,71.730978,220.042470
4,Male,69.881796,206.349801
...,...,...,...
9995,Female,66.172652,136.777454
9996,Female,67.067155,170.867906
9997,Female,63.867992,128.475319
9998,Female,69.034243,163.852461


In [4]:
"""# Selección de features"""

#Obtenemos los valores X
x_real = df['Height'].values

"""# Selección de labels"""

#Obtenemos los valores Y
y_real = df['Weight'].values

In [5]:
"""# División de datos en datos de entrenamiento y validación"""

#Dividimos los datos:
#x_train será la variable que tiene los features X de entrenamiento
#x_test será la variable que tiene los features X de validación
#y_train será la variable que tiene los labels Y de entrenamiento
#y_test será la variable que tiene los labels Y de validación
#Con el parámetro "test_size" definimos el porcentaje de datos de testing (para validar), en este ejemplo 20% (0.2)
x_train, x_test, y_train, y_test = train_test_split(x_real, y_real, test_size = 0.2)

In [6]:
#Verificamos los tamaños

#Tamaño del dataset de entrenamiento para los features
len(x_train)

8000

In [7]:
#Tamaño del dataset de entrenamiento para los labels
len(y_train)

8000

In [8]:
#Tamaño del dataset de validación
len(x_test)

2000

In [9]:
#Tamaño del dataset de validación para los labels
len(y_test)

2000

In [10]:
"""# Entrenamiento del modelo con el 100% de los datos, sin validar"""

#Anteriormente habíamos entrenado nuestro modelo de la siguiente manera, envíandole toda la data
model = Sequential()
model.add(Dense(1, input_shape=(1,)))
model.compile(Adam(lr=0.8), 'mean_squared_error')
model.fit(x_real, y_real, epochs=40)

  "The `lr` argument is deprecated, use `learning_rate` instead.")


Epoch 1/40
Epoch 2/40
Epoch 3/40
Epoch 4/40
Epoch 5/40
Epoch 6/40
Epoch 7/40
Epoch 8/40
Epoch 9/40
Epoch 10/40
Epoch 11/40
Epoch 12/40
Epoch 13/40
Epoch 14/40
Epoch 15/40
Epoch 16/40
Epoch 17/40
Epoch 18/40
Epoch 19/40
Epoch 20/40
Epoch 21/40
Epoch 22/40
Epoch 23/40
Epoch 24/40
Epoch 25/40
Epoch 26/40
Epoch 27/40
Epoch 28/40
Epoch 29/40
Epoch 30/40
Epoch 31/40
Epoch 32/40
Epoch 33/40
Epoch 34/40
Epoch 35/40
Epoch 36/40
Epoch 37/40
Epoch 38/40
Epoch 39/40
Epoch 40/40


<keras.callbacks.History at 0x7f9f700d18d0>

In [12]:
"""# Definición del modelo"""

#Ahora lo entrenaremos usando solo la data de entrenamiento (x_train, y_train)
model_2 = Sequential()
model_2.add(Dense(1, input_shape=(1,)))
model_2.compile(Adam(learning_rate=0.8), 'mean_squared_error')

In [13]:
"""# Entrenamiento del modelo con la data de entrenamiento"""

model_2.fit(x_train, y_train, epochs=40)

Epoch 1/40
Epoch 2/40
Epoch 3/40
Epoch 4/40
Epoch 5/40
Epoch 6/40
Epoch 7/40
Epoch 8/40
Epoch 9/40
Epoch 10/40
Epoch 11/40
Epoch 12/40
Epoch 13/40
Epoch 14/40
Epoch 15/40
Epoch 16/40
Epoch 17/40
Epoch 18/40
Epoch 19/40
Epoch 20/40
Epoch 21/40
Epoch 22/40
Epoch 23/40
Epoch 24/40
Epoch 25/40
Epoch 26/40
Epoch 27/40
Epoch 28/40
Epoch 29/40
Epoch 30/40
Epoch 31/40
Epoch 32/40
Epoch 33/40
Epoch 34/40
Epoch 35/40
Epoch 36/40
Epoch 37/40
Epoch 38/40
Epoch 39/40
Epoch 40/40


<keras.callbacks.History at 0x7f9f7003f450>

In [14]:
"""# Error de entrenamiento del modelo y accuracy"""

#Vamos a ver cuál es el error de entrenamiento
#Con los datos que usamos para entrenar (x_train) realicemos las predicciones (y_train_prediccion)
#Adicionalmente, le agregamos la función "ravel" para que los datos se muestren como "array" en lugar de una columna
y_train_prediccion = model.predict(x_train).ravel()
y_train_prediccion

array([230.96661, 192.77905, 110.71887, ..., 141.50449, 198.24261,
       154.13062], dtype=float32)

In [15]:
#Ahora con los "y_train_prediccion", comparémoslo con los "y_train" que son los valores reales para obtener EL ERROR AL ENTRENAR EL MODELO

#Importamos el objeto "mean_squared_error"
from sklearn.metrics import mean_squared_error as mse

#Aplicamos la función "mse" para ver el error al entrenar el modelo
mse(y_train, y_train_prediccion)

151.64307314366374

In [16]:
#El problema con el "mse" es que el valor retornado depende del rango de valores que tomen los datos, hay que usar una medida de error genérica
#El r2 a diferencia del mse, nos devolverá un número entre 0 y 1, mientras más cercano este el valor a 1, el modelo es más exacto
#Gracias a esta métrica podemos comparar diferentes modelos

#Importamos la métrica "r2"
from sklearn.metrics import r2_score

#La usamos para calcular el error de entrenamiento
#Esto significa que nuestro modelo al ser entrenado pudo modelar el 84.46% de los patrones que representa la realidad de negocio
#En palabras simples: El modelo encontró el 84.46% de los patrones existentes en la data
r2_score(y_train, y_train_prediccion)

0.8529161467766939

In [17]:
"""# Error de uso del modelo"""

#Ahora, usaremos los datos "x_test" para que el modelo prediga sus valores "y"
y_test_prediccion = model.predict(x_test).ravel()
y_test_prediccion

array([139.24716, 116.64099, 111.2345 , ..., 144.41275, 208.6565 ,
       202.27777], dtype=float32)

In [18]:
#Ahora con los "y_test_prediccion", comparémoslo con los "y_test" que son los valores reales para obtener el error

#Aplicamos la función "mse" para ver el error al usar el modelo
#Notamos que son valores muy similares
#Esto significa que es un buen modelo ya que tiene un error muy similar al predecir data con la que no fue entrenada
mse(y_test, y_test_prediccion)

153.49218931981622

In [19]:
#Usamos el r2_score para calcular el error de uso
#Esto significa que nuestro modelo al ser usado puede predecir el 84.23% de los nuevos casos que le envíemos
#En palabras simples: El modelo al ser usado en un entorno productivo, de 100 casos acertará en 84 y se equivocará en 16 casos
r2_score(y_test, y_test_prediccion)

0.8508455224368847