<a href="https://colab.research.google.com/github/DanielDialektico/dialektico-machine-learning-practices/blob/main/notebooks/Machine%20Learning/Aprendizaje%20Supervisado/descenso_de_gradiente.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://dialektico.com/wp-content/uploads/2023/03/MiniLogoW4.png" alt="Dial√©ktico Logo" />

# **Descenso de gradiente üå†**
---

# **Introducci√≥n**

En el recorrido [introductorio al descenso de gradiente](https://dialektico.com/introduccion-al-descenso-de-gradiente/) hemos revisado c√≥mo es el funcionamiento interno de este artefacto para la optimizaci√≥n de **funciones de costo** y su uso para entrenamiento de modelos de **aprendizaje autom√°tico**.

En esta pr√°ctica veremos c√≥mo luce la evoluci√≥n de los par√°metros para un nuevo modelo, operando sobre un conjunto de datos que no hab√≠amos utilizado anteriormente.  

<br>
<center><img src="https://dialektico.com/wp-content/uploads/2025/07/DGG_Colab.png" width="300" /></center>

<br>

#**Objetivo**

El objetivo de esta pr√°ctica es entrenar un modelo de aprendizaje supervisado utilizando el algoritmo de descenso de gradiente.

Debemos seguir los siguientes pasos:

* Comprender el problema y realizar un an√°lisis exploratorio de datos.
* Aplicar preprocesamiento de datos.
* Enrenar el modelo con descenso de gradiente.
* Evaluar el modelo y generar un reporte de resultados.

Con esto comprenderemos c√≥mo es que el descenso de gradiente es un recurso √∫til para el entrenamiento de modelos que hemos explorado con anterioridad.

<br>
<center><img src="https://dialektico.com/wp-content/uploads/2025/08/DGG_Colab_mision.png" width="400" /></center>

<br>

# Planteamiento del problema

En esta ocasi√≥n haremos uso de nuestras habilidades como cient√≠ficxs de datos y atenderemos un nuevo caso: **predicci√≥n de tarifas de taxis**.

Para esto utilizaremos un conjunto de datos con las siguientes caracter√≠sticas:
* **Distancia en kil√≥metros** (Trip_Distance_km): La longitud del viaje en kil√≥meros.
* **Momento del viaje** (Time_of_Day): Si se realiz√≥ durante la ma√±ana, tarde o noche.
* **D√≠a de la semana** (Day_of_Week): D√≠a de la semana en que se efectu√≥ el viaje.
* **Condiciones del tr√°fico** (Traffic_Conditions): Indicador de las caracer√≠sticas del tr√°fico (ligero, medio, pesado).
* **Cantidad de pasajeros** (Passenger_Count): N√∫mero de pasajeros para el viaje.
* **Condici√≥n clim√°tica** (Weather): Datos categ√≥ricos del clima (despejado, lluvia, nieve).
* **Duraci√≥n del viaje en minutos** (Trip_Duration_Minutes): Tiempo total del viaje.
* **Tarifa por kil√≥mero en d√≥lares** (Per_Km_Rate): La tarifa cobrada por kil√≥metro recorrido.
* **Tarifa cobrada por minuto en d√≥lares** (Per_Minute_Rate): La tarifa cobrada por minuto de duraci√≥n del viaje.
* **Tarifa base en d√≥lares** (Base_Fare): La tarifa base inicial del trayecto en taxi antes de aplicar cualquier recargo por distancia o tiempo.
* **Monto de la tarifa final en d√≥lares** (Trip_Price): El costo del viaje.

Nuestra misi√≥n es entrenar un modelo que, basado en las variables del conjunto de datos, nos permita estimar el costo de un viaje (monto de la tarifa).

<br>
<center><img src="https://dialektico.com/wp-content/uploads/2025/08/DDG_D2.jpg" width="400" /></center>

¬øLo sabes? Dado que la tarifa es un n√∫mero de tipo continuo, se trata de un problema de **regresi√≥n**, para lo cual podemos utilizar una regresi√≥n lineal multivariable.

<br>

#Preparaci√≥n de datos y librer√≠as

Comenzaremos por cargar las librer√≠as que utilizaremos. Volveremos a utilizar **mlektic**, la cual nos permite aplicar descenso de gradiente de manera sencilla, y obtener un reporte automatizado de resultados (la instalaci√≥n puede tardar un poco).

***Nota*:** *Las instalaciones se realizan a pesar de que algunas librer√≠as ya est√°n integradas de forma nativa en Colab, esto para asegurar que el Notebook no presente problemas de ejecuci√≥n si se dan cambios en la sintaxis entre versiones de librer√≠as.*

In [None]:
# Se instalan las librer√≠as necesarias.
!pip install mlektic==1.0.8

Se importan las librer√≠as y se establecen configuraciones adicionales:

In [None]:
# Se importan las librer√≠as.
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import OrdinalEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from mlektic.linear_reg import LinearRegressionArcht
from mlektic.reporting import ReportBuilder
from mlektic.plot_utils import plot_cost
from mlektic import preprocessing, methods
from google.colab import files
import seaborn as sns
import numpy as np
import warnings


# Se filtran las advertencias.
warnings.filterwarnings('ignore')

# Se define el estilo de las gr√°ficas.
plt.style.use('seaborn-v0_8-whitegrid')

# Se define el despliegue de flotantes en dataframes.
pd.options.display.float_format = '{:.2f}'.format

Ahora cargamos el conjunto de datos con el que trabajaremos:

In [None]:
# Se toma el conjunto de datos de un repositorio de GitHub.
dataset = pd.read_csv('https://raw.githubusercontent.com/DanielDialektico/dialektico-machine-learning-practices/refs/heads/main/data/viajes_taxi.csv', encoding='latin1')
dataset

Ahora mostramos informaci√≥n general de los datos:

In [None]:
dataset.info()

In [None]:
# Se imprime una tabla con datos estad√≠sticos de cada variable del conjuto de datos.
dataset.describe()

<br>

Podemos notar informaci√≥n de valor de manera r√°pida:
* Tenemos valores nulos en todas las variables, ya que deber√≠an ser 1000 registros no nulos de cada una.
* Existen valores no num√©ricos.
* En algunas variables la desviaci√≥n est√°ndar es en apariencia alta.
* Los m√≠mimos y m√°ximos globales est√°n bastante separados (valores m√°s altos y m√°s bajos del conjunto).

<br>

# **Preprocesamiento de datos**

Haremos un preprocesamiento r√°pido de los datos con las siguientes etapas:

* Limpieza de valores nulos.
* Transformaci√≥n de datos categ√≥ricos en num√©ricos.
* Limpieza de valores at√≠picos.
* Estandarizaci√≥n de datos.

***Nota***: *es posible realizar diferentes an√°lisis y etapas de preprocesamiento. Aqu√≠ lo haremos de forma sencilla para evitar extendernos en la pr√°ctica, pero eres libre de realizar las adecuaciones que consideres necesarias al conjunto de datos.*

<br>

## Limpieza de datos

Comenzaremos por mostrar el n√∫mero de valores nulos, a pesar de que pudimos vislumbrarlo en las tablas antes invocadas:

In [None]:
# Se imprimen los valores nulos de cada columna.
dataset.isnull().sum()

En promedio tenemos 50 valores nulos por variable, lo cual representa un 5% de la muestra total. Dado que queremos utilizar un proceso de limpieza simple, eliminamos los valores nulos:

In [None]:
# Removemos los valores nulos.
dataset_wnulls = dataset.dropna()

# Mostramos los nulos.
dataset_wnulls.isnull().sum()

Ahora que hemos realizado la remoci√≥n de los datos nulos, buscaremos alg√∫n tipo de valor extra√±o en las variables categ√≥ricas (con valores cualitativos), mostrando sus valores √∫nicos:

In [None]:
# Se seleccionan columnas tipo object (valores cualitativos).
obj_cols = dataset_wnulls.select_dtypes(include="object").columns

# Se imprimen los valores √∫nicos de cada columna.
for col in obj_cols:
    print(f"Columna: {col}")
    print(f"Valores √∫nicos: {dataset_wnulls[col].unique()}")
    print("\n")

Hemos comprobado que los valores no contienen alg√∫n tipo de error de escritura, por lo que podemos trabajar ahora en sustituir estos por valores num√©ricos.

<br>

## Tansformaci√≥n de datos

Para transformar los datos utilizaremos la librer√≠a [scikit-learn](https://scikit-learn.org/stable/), con la funci√≥n `OrdinalEncoder`, que asignar√° n√∫meros a cada valor cualitativo basado en un orden que le hayamos dado a las variables. En este caso, es importante el orden, ya que los valores de las variables se relacionan de esta manera, por ejemplo: la ma√±ana es antes de la noche, y la magnitud del tr√°fico va de menor a mayor.

In [None]:
# Se seleccionan las columnas categ√≥ricas a codificar.
ord_cols = ["Time_of_Day", "Day_of_Week", "Traffic_Conditions", "Weather"]

# Se define el orde de las categor√≠as.
categories = [
    ["Morning", "Afternoon", "Evening", "Night"],  # Tiempo del d√≠a.
    ["Weekday", "Weekend"],                        # D√≠a de la semana.
    ["Low", "Medium", "High"],                     # Condiciones del tr√°fico.
    ["Clear", "Rain", "Snow"],                     # Clima.
]

# Se instancia el codificador a utilizar.
enc = OrdinalEncoder(categories=categories, encoded_missing_value=-1)

# Se codifican los valores.
dataset_enc = dataset_wnulls.copy()
dataset_enc[ord_cols] = enc.fit_transform(dataset_enc[ord_cols])

# Se muestra la tabla con los valores codificados.
dataset_enc.head()

Verificamos que se haya asignado un n√∫mero a cada valor categ√≥rico:

In [None]:
# Columnas codificadas.
cols = ["Time_of_Day", "Day_of_Week", "Traffic_Conditions", "Weather"]

# Se imprimen los valores √∫nicos.
for col in cols:
    print(f"Columna: {col}")
    print(dataset_enc[col].unique())
    print("-" * 40)

<br>

## Revisi√≥n de correlaci√≥n entre variables.

Aqu√≠ a√±adiremos una r√°pido vistazo de la correlaci√≥n entre las variables, esto nos permitir√° ver si existen variables con una fuerte correlaci√≥n, de tal forma que podamos eliminar algunas para evitar redundancia:

In [None]:
# Se obtiene la matriz de correlaci√≥n.
corr = dataset_enc.corr(method="pearson")
corr

Observamos que existe poca correlaci√≥n entre las variables, por lo que mantenemos todas para ser modeladas por la regresi√≥n lineal m√°s adelante. En este sentido de limpieza de variables, exsten m√©todos m√°s avanzados como el an√°lisis de componentes principales (ACP), pero lo dejaremos para trabajos futuros (de cualquier manera, recuerda que eres libre de aplicar el preprocesamiento que gustes a tus datos).

<br>

## Eliminaci√≥n de datos at√≠picos

Proseguimos con la eliminaci√≥n de los valores at√≠picos. Idealmente, habr√≠a que revisar las distribuciones de los datos para decidir qu√© algoritmo utilizar para su detecci√≥n, pero lo haremos directamente con un m√©todo robusto llamado Median Absolute Deviation (desviaci√≥n absoluta de la mediana).


Creamos nuestra funci√≥n para detecci√≥n de valores at√≠picos con numpy:

In [None]:
def drop_outliers_mad(df, threshold=3.5):
    """
    Elimina filas con outliers usando Median Absolute Deviation (MAD).
    - threshold: valores mayores son m√°s tolerantes (3.5 ‚âà criterio habitual).
    """
    df_clean = df.copy()
    num_cols = df_clean.select_dtypes(include="number").columns
    mask = pd.Series(True, index=df_clean.index)

    for col in num_cols:
        x = df_clean[col]
        med = x.median()
        mad = (x - med).abs().median()
        if mad == 0:
            continue  # evita divisi√≥n por cero en columnas constantes
        robust_z = 0.6745 * (x - med).abs() / mad
        mask &= (robust_z <= threshold) | x.isna()

    return df_clean[mask]


Aplicamos la funci√≥n a nuestro conjunto de datos:

In [None]:
# Se aplica el m√©todo MAD al conjunto de datos.
no_outliers_dataset = drop_outliers_mad(dataset_enc, threshold=3.5)

# Se imprimen las dimensiones del conjunto de datos antes y despu√©s.
print("Tama√±o antes de la limpieza:", dataset_enc.shape)
print("Tama√±o despu√©s de la limpieza:", no_outliers_dataset.shape)

El resultado ha sido la remoci√≥n de 14 valores at√≠picos, lo cual representa un muy bajo porcentaje del conjunto de datos (aprox. 2.5%).

<br>

## Estandarizaci√≥n de datos

Un paso t√≠pico en el preprocesamiento de los datos es la estandarizaci√≥n, la cual consiste en una transformaci√≥n que convierte los valores de cada variable a una escala comparable, haciendo que:

\begin{align}
        \text{media}=0, \text{desviaci√≥n est√°ndar=1} \tag{1.1}
    \end{align}

Cuando se utilizan m√©todos de optimizaci√≥n como descenso de gradiente, se recomienda estandarizar los datos, ya que tener las variables en una misma escala acelera la convergencia y evita pasos desbalanceados.

Procedemos a escalar los datos utilizando `StandardScaler()` de scikit-learn, donde cuidamos el no estandarizar la variable objetivo, ya que buscamos mantener las predicciones en la escala original:

In [None]:
# Se define la variable objetivo.
target_col = "Trip_Price"

# Se separan las variables de entrada y salida.
X = no_outliers_dataset.drop(columns=[target_col])
y = no_outliers_dataset[target_col]

# Se escalan los datos.
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Se reconstruye la tabla de datos.
preprocessed_dataset = pd.DataFrame(
    X_scaled,
    columns=X.columns,
    index=no_outliers_dataset.index
)

preprocessed_dataset[target_col] = y

# Se muestra la tabla.
preprocessed_dataset


Hemos concluido con las etapas de preprocesamiento, recuerda que aqu√≠ lo hemos dejado simple, pero un buen preprocesamiento implica an√°lisis rigurosos, visualizaciones gr√°ficas, y diversos procesos contextualizados a las caracter√≠sticas de los datos.



<br>
<center><img src="https://dialektico.com/wp-content/uploads/2025/08/DDG_K3.jpg" width="400" /></center>

<br>

# Entrenamiento del modelo

Para entrenar el modelo, utilizaremos una **regresi√≥n lineal** con mlektik, la cual utiliza [Pytorch](https://pytorch.org/) de forma subyacente para entrenar el modelo con descenso de gradiente. El descenso de gradiente se puede realizar con otras librer√≠as, pero aqu√≠ lo haremos con mlektik por su simplicidad y transparencia en la aplicaci√≥n a regresiones lineales y log√≠sticas.

Entrenaremos al modelo eligiendo los siguientes hiperpar√°metros explicados en el recorrido:
* Tasa de aprendizaje = 0.05
* Iteraciones = 10

Adem√°s, utilizaremos el 80% de los datos para entrenamiento, y el 20% restante para evaluaci√≥n, esto lo haremos con `preprocessing.pd_dataset` de mlektic.

In [None]:
# Separamos las variables de entrada de la variable objetivo.
cols = preprocessed_dataset.columns.drop("Trip_Price").tolist()

# Se separa el conjunto de datos para entrenamiento y prueba.
train_set, test_set = preprocessing.pd_dataset(
    preprocessed_dataset,
    input_columns = cols,
    output_column = "Trip_Price",
    train_fraction = 0.8,
)

# Se selecciona el optimizador, en este caso, un descenso de gradiente,
# con la tasa de aprendizaje seleccionada.
optimizer = methods.optimizer_archt("sgd-standard", learning_rate=0.05)

# Se prepara la fase de entrenamiento, configurando 10 iteraciones.
linreg = LinearRegressionArcht(
    method     = "batch",
    optimizer  = optimizer,
    iterations = 10,
    metric = "r2"
)

# Se entrena el modelo.
linreg.train(train_set);

Ver√°s que se desglosaron algunos datos sobre la ejecuci√≥n, estas son las definiciones:
*   **Epoch**: √©poca o n√∫mero de iteraci√≥n del entrenamiento.
*   **Loss**: valor de la funci√≥n de p√©rdida.
*   **R2**: m√©trica $R^2$ para calcular el rendimiento del modelo.



Evaluamos el $R^2$ en el conjunto de pruebas:

In [None]:
linreg.eval(test_set, 'r2')

Podemos notar que el $R^2$ indica un modelo deficiente, ya que, como hemos visto anteriormente, deber√≠a acercarse a $1$ para indicar un buen desempe√±o del modelo; por ello, buscaremos modificar los hiperpar√°metros utilizados.

<br>

# Configuraci√≥n de hiperpar√°metros y generaci√≥n de reportes

Antes de hacer modificaciones en los par√°metros, quiero que aprendas c√≥mo generar un reporte autom√°tico del entrenamiento que acabas de ejecutar. Es bastante sencillo y r√°pido, simplementa se utiliza la funci√≥n ```ReportBuilder``` de mlektic.

Solo debes pasar el modelo que entrenaste (en este caso, `linreg`), y de manera opcional, la descripci√≥n de tu conjunto de datos y las etapas de preprocesamiento.

Lo hacemos de la siguiente manera:



In [None]:
# Descripci√≥n opcional del conjunto de datos.
dataset_description = "Conjunto de datos de precios de viajes en Taxi"

# Descripci√≥n opcional del preprocesamiento de datos.
preprocessing_steps = [
    "Limpieza de valores nulos.",
    "Transformaci√≥n de datos categ√≥ricos en num√©ricos.",
    "Limpieza de valores at√≠picos.",
    "Estandarizaci√≥n de datos.",
]

# Se utiliza el constructor de reportes, pasando el modelo y descripciones.
builder = ReportBuilder(
    mdl          = linreg,
    dataset_name = dataset_description,
    preprocessing = preprocessing_steps,
)

# Se genera el reporte.
builder.to_html("reporte.html")

# Se descarga.
files.download("reporte.html")
print('Reporte generado y descargado.')

El reporte deber√≠a haberse descargado autom√°ticamente, busca en tus descargas y abre el archivo *reporte.html*, donde encontrar√°s algo como esto:

<br>
<center><img src="https://dialektico.com/wp-content/uploads/2025/08/DDG_report.png" width="800" /></center>

<br>
<center><img src="https://dialektico.com/wp-content/uploads/2025/08/DDG_D3.png" width="400" /></center>

Desglosaremos con m√°s detalle el reporte en lo subsiguiente, por el momento, buscaremos mejorar el desempe√±o del modelo.

Haremos de nuevo el entrenamiento, pero modificando un hiperpar√°metro, el n√∫mero de iteraciones:
* Tasa de aprendizaje = 0.05
* Iteraciones = 50 (nuevo valor)

In [None]:
optimizer = methods.optimizer_archt("sgd-standard", learning_rate=0.05)

# Se entrena el modelo, seleccionando
linreg = LinearRegressionArcht(
    method     = "batch",
    optimizer  = optimizer,
    iterations = 50, # Nuevo valor
    metric     = 'r2'
)

linreg.train(train_set);

Mostramos el valor de $R^2$ en el conjunto de datos de pruebas:

In [None]:
linreg.eval(test_set, 'r2')

Hemos notado que el desempe√±o ha mejorado bastante, ya que $R^2$ se acerca mucho m√°s a $1$ de lo que se acercaba anteriormente. Esto implica que el modelo ha mejorado al a√±adir un mayor n√∫mero de iteraciones.

Podemos observar c√≥mo evolucion√≥ el valor de la funci√≥n de p√©rdida con la siguiente gr√°fica:

In [None]:
%matplotlib inline

cost_history = linreg.get_cost_history()
plot_cost(cost_history, dim = (7, 5))

Puedes notar que a lo largo de las iteraciones el valor de la funci√≥n de costo ha disminuido, por lo que el descenso de gradientes ha realizado bien su trabajo minimizando este valor a lo largo de las √©pocas.

Como √∫ltimo paso, genera tu reporte:

In [None]:
# Se utiliza el constructor de reportes, pasando el modelo y descripciones.
builder = ReportBuilder(
    mdl          = linreg,
    dataset_name = dataset_description,
    preprocessing = preprocessing_steps,
)

# Se genera el reporte.
builder.to_html("reporte.html")

# Se descarga
files.download("reporte.html")
print('Reporte generado y descargado.')

<br>

# Taxonom√≠a del reporte

Abre el reporte y revisa cada una de las secciones:

* **Detalles de ejecuci√≥n**: detalles sobre el algoritmo utilizado.
* **Conjunto de Datos**: informaci√≥n sobre el conjunto de datos y las variables utilizadas.
* **Hiperpar√°metros y configuraciones**: hiperpar√°metros seleccionados para la ejecuci√≥n del entrenamiento.
* **Resultados**: m√©tricas de evaluaci√≥n para cada subconjunto de datos.
* **Evoluci√≥n de entrenamiento**: gr√°ficas que muestran la evoluci√≥n de los valores de la funci√≥n de p√©rdida y la m√©trica de evaluaci√≥n a lo largo de las iteraciones.


Y finalmente, dos secciones importantes para volver transparente el producto final del entrenamiento con machine learning:

* **Muestreo de par√°metros durante entrenamiento**: aqu√≠ puedes ver c√≥mo cambiaron los valores de algunos par√°metros de tu modelo. Se inici√≥ con valores aleadorios y fueron modificados por el descenso de gradiente.


<br>
<center><img src="https://dialektico.com/wp-content/uploads/2025/08/DDG_report_2.png" width="800" /></center>

Y la √∫ltima secci√≥n:
* **Modelo obtenido**: muestra la forma final del modelo que has entrenado y utilizas para hacer predicciones con datos nuevos.


<br>
<center><img src="https://dialektico.com/wp-content/uploads/2025/08/DDG_report_3.png" width="800" /></center>

Con estos reportes puedes observar los detalles matem√°ticos de tus modelos de aprendizaje autom√°tico, manteni√©ndote conectado con las t√©cnicas subyacentes que generan a la inteligencia artificial, y permitiendo compartir f√°cilmente res√∫menes de tu trabajo.

<br>

# Ejecicio (opcional)

El ejercicio adicional es bastante sencillo. Modifica los hiperpar√°metros de entrenamiento para ver sus efectos en el rendimiento del modelo.

El siguiente bloque entrena el modelo y genera el reporte de manera autom√°tica:

In [None]:
optimizer = methods.optimizer_archt("sgd-standard",
                                    learning_rate=0.05) # Tasa de aprendizaje.

# Se entrena el modelo, seleccionando
linreg = LinearRegressionArcht(
    method     = "batch",
    optimizer  = optimizer,
    iterations = 50, # N√∫mero de iteraciones.
    metric     = 'r2'
)

linreg.train(train_set);

# Se utiliza el constructor de reportes, pasando el modelo y descripciones.
builder = ReportBuilder(
    mdl          = linreg,
    dataset_name = dataset_description,
    preprocessing = preprocessing_steps,
)

# Se genera el reporte.
builder.to_html("reporte.html")

# Se descarga
files.download("reporte.html")
print('\nReporte generado y descargado.')

<br>

La pr√°ctica ha concluido aqu√≠. Has aplicado descenso de gradiente para ajustar los par√°metros de una ecuaci√≥n lineal, que permite estimar el precio de un viaje dado un conjunto de valores de variables.

‚ñ∂ [Regresar a la lecci√≥n](https://dialektico.com/descenso-de-gradiente/) üßô

#Ap√©ndice

## Conjunto de datos

El conjunto de datos utilizado se obtuvo de Kaggle, sus detalles pueden ser consultados en la siguiente liga: https://www.kaggle.com/datasets/denkuznetz/taxi-price-prediction/data

In [None]:
# Dialektico Machine learning practices ¬© 2024 by Daniel Antonio Garc√≠a Escobar
# is licensed under CC BY-NC 4.0. To view a copy of this license,
# visit https://creativecommons.org/licenses/by-nc/4.0/

# Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
# Public License