# Librerías

In [2]:
#Librerías Base
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from google.colab import drive

#Librerías de Métricas
from sklearn.metrics import mean_squared_error as mse
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split

#Librerías de Machine Learning
from keras.models import Sequential
from keras.layers import Dense
from tensorflow.keras.optimizers import Adam, SGD

# Conexión al repositorio de datos

In [3]:
#Accedemos a Google Drive
drive.mount('/content/drive')

Mounted at /content/drive


# Lectura de datos

In [4]:
#Leemos el dataset
df = pd.read_csv('/content/drive/MyDrive/Data/weight-height.csv')
df

Unnamed: 0,Gender,Height,Weight
0,Male,73.847017,241.893563
1,Male,68.781904,162.310473
2,Male,74.110105,212.740856
3,Male,71.730978,220.042470
4,Male,69.881796,206.349801
...,...,...,...
9995,Female,66.172652,136.777454
9996,Female,67.067155,170.867906
9997,Female,63.867992,128.475319
9998,Female,69.034243,163.852461


# Definición de "features"

In [5]:
#Definimos los features (x), es decir los datos que nos ayudan a predecir
x = df['Height'].values
x

array([73.84701702, 68.78190405, 74.11010539, ..., 63.86799221,
       69.03424313, 61.94424588])

# Definición de "labels"

In [6]:
#Definimos los labels (y), es decir el dato que se predice
y = df['Weight'].values
y

array([241.89356318, 162.31047252, 212.74085556, ..., 128.47531878,
       163.85246135, 113.64910268])

# División de los datos en datos de entrenamiento (x_train, y_train) y datos de validación (x_test, y_test)

In [7]:
#Dividimos los datos en datos de entrenamiento (x_train, y_train) y datos de validación (x_test, y_test)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2)

In [8]:
#Features de entrenamiento
x_train

array([62.47625672, 62.59475897, 61.62720923, ..., 65.74773144,
       67.94539137, 64.56167877])

In [9]:
#Labels de entrenamiento
y_train

array([140.16065861, 145.98778678, 134.33528348, ..., 145.57624836,
       162.16397466, 142.84177112])

In [10]:
#Features de validación
x_test

array([65.92886874, 71.59068401, 69.86074638, ..., 66.69188002,
       65.27034552, 63.69530743])

In [11]:
#Labels de validación
y_test

array([125.51585486, 201.61149375, 198.32182812, ..., 151.81290663,
       168.6177462 , 120.96557632])

# Configuración del modelo

In [12]:
#Instaciamos un modelo de machine learning vacío con "Sequential"
model = Sequential()

In [13]:
#Agregamos las configuraciones con "Dense"
#Parámetro 1: Número de outputs labels (sólo 1, el Weight)
#Parámetro 2: Número de inputs features (sólo 1, el Height)
model.add(Dense(1, input_shape=(1,)))

In [14]:
#Vemos un resumen del modelo
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 1)                 2         
Total params: 2
Trainable params: 2
Non-trainable params: 0
_________________________________________________________________


# Compilación del modelo

In [15]:
#Compilamos el modelo indicando el tipo de error con el que se calcula la solución
model.compile(Adam(lr=0.8), 'mean_squared_error')

  "The `lr` argument is deprecated, use `learning_rate` instead.")


# Entrenamiento del modelo

In [16]:
#Entrenamos el modelo enviándole los features (x_train) y labels (y_train) de entrenamiento
#Configuramos el número de iteraciones (40)
model.fit(x_train, y_train, epochs=40)

Epoch 1/40
Epoch 2/40
Epoch 3/40
Epoch 4/40
Epoch 5/40
Epoch 6/40
Epoch 7/40
Epoch 8/40
Epoch 9/40
Epoch 10/40
Epoch 11/40
Epoch 12/40
Epoch 13/40
Epoch 14/40
Epoch 15/40
Epoch 16/40
Epoch 17/40
Epoch 18/40
Epoch 19/40
Epoch 20/40
Epoch 21/40
Epoch 22/40
Epoch 23/40
Epoch 24/40
Epoch 25/40
Epoch 26/40
Epoch 27/40
Epoch 28/40
Epoch 29/40
Epoch 30/40
Epoch 31/40
Epoch 32/40
Epoch 33/40
Epoch 34/40
Epoch 35/40
Epoch 36/40
Epoch 37/40
Epoch 38/40
Epoch 39/40
Epoch 40/40


<keras.callbacks.History at 0x7fefba4fdb90>

# Accuracy de entrenamiento (patrones encontrados en la data)

In [17]:
#Con los features (x_train) que usamos para entrenar el modelo, realizamos las predicciones (y_train_prediccion)
y_train_prediccion = model.predict(x_train).ravel()
y_train_prediccion

array([132.57977 , 133.48306 , 126.107605, ..., 157.5177  , 174.27008 ,
       148.47656 ], dtype=float32)

In [18]:
#Calculamos el error de entrenamiento
mse(y_train, y_train_prediccion)

150.71784207968017

In [19]:
#Calculamos el error de entrenamiento estándar con r2 para poder realizar la interpretación
#INTERPRETACIÓN: El modelo encontró el 83.13% de los patrones existentes en la data
r2_score(y_train, y_train_prediccion)

0.8540814437610962

# Accuracy de uso (accuracy de predicción)

In [20]:
#Con los features (x_test) que no usamos para entrenar al modelo, realizamos las predicciones (y_test_prediccion)
y_test_prediccion = model.predict(x_test).ravel()
y_test_prediccion

array([158.89847, 202.05756, 188.87054, ..., 164.71475, 153.87866,
       141.8724 ], dtype=float32)

In [21]:
#Calculamos el error de uso (error de predicción)
mse(y_test, y_test_prediccion)

147.4736833342699

In [22]:
#Calculamos el error de uso estándar con r2 para poder realizar la interpretación
#INTERPRETACIÓN: El modelo al ser usado en un entorno productivo, de 100 casos acertará en 83 y se equivocará en 17 casos
r2_score(y_test, y_test_prediccion)

0.8557943229248715

# Análisis final

In [23]:
#El modelo tiene un alto porcentaje de reconocimiento de patrones en los datos (83.13%)
#El modelo tiene un alto porcentaje de aciertos en nuestras predicciones (83.87%)
#La diferencia entre el porcentaje de reconocimiento de patrones (83.13%) y el porcentaje de aciertos (83.87%) es pequeña (0.74%)
#Como la diferencia es pequeña, estamos frente a un modelo que representa y predice muy bien la realidad de negocio
#Es un modelo que podemos usar en un entorno real de producción

# Uso del modelo para predecir nuevos casos

In [24]:
#Definimos la estatura de una persona
#1.60 METROS = 60 PULGADAS
#1.70 METROS = 65 PULGADAS
#1.80 METROS = 70 PULGADAS
estatura = [60, 65, 70]

#Peso según el modelo
peso_prediccion = model.predict(estatura)
peso_prediccion

array([[113.70364],
       [151.81784],
       [189.932  ]], dtype=float32)

In [25]:
#El peso está en libras, vamos a convertilo a kilogramos
peso_prediccion_kilogramos = peso_prediccion / 2.205
peso_prediccion_kilogramos

array([[51.56628],
       [68.85163],
       [86.13697]], dtype=float32)

# Despliegue del modelo en un entorno productivo

In [26]:
#Lo veremos luego de implementar:
# Redes neuronales
# Redes convolucionales
# Redes recurrentes