# <font color="#3A40A2">📘 Pipeline completo de Machine Learning aplicado a predicción</font>

En este taller aplicaremos conceptos de análisis y graficación de datos para la extracción, preparación (normalización, estandarización, manejo de variables categóricas) y fusión de características para entrenar, testear y analizar la performance de diferentes modelos de Machine Learning (ML) con el objetivo de predecir el precio de viviendas. El taller será eminentemente práctico, utilizaremos Google Colab para generar gráficas y tablas que nos permitan entender los datos y así obtener indicadores claves para luego aplicar diferentes técnicas de procesamiento y extracción de características antes de entrenar diferentes modelos de ML para compararlos. El taller está dirigido a personas que no tengan experiencia previa en este tipo de problemas, no se requiere conocimientos en programación. El nivel es básico/intermedio.

- Duración: 1 hora
- **Nivel: Básico**
- Modalidad: Virtual
 
 Taller para el día 8 de octubre de 2025 en la [**Conferencia Internacional: Aplicaciones en Inteligencia Artificial | 2025**](https://sites.google.com/view/cintia-aria/2025/ponentes?authuser=0).


## Autor

[MSc. BALDEZZARI Lucas](https://www.linkedin.com/in/lucasbaldezzari/)

Lucas BALDEZZARI es Profesor Adjunto de la carrera de Ingeniería [Biomédica de la Universidad Tecnológica](https://utec.edu.uy/es/). Es el fundador y responsable del Laboratorio de Neurociencias e Inteligencia Artificial Aplicada (Neuro-IA LAB) del ITR-SO (Fray Bentos). Es Bioingeniero por la facultad de Ingeniería de la Universidad Nacional de Entre Ríos (UNER, Argentina), posee una Maestría en Ciencia de Datos por la UTEC y el Massachusetts Institute of Technology (MIT), es candidato a Doctor en Ingeniería con mención en Bioingeniería por la UNER. Su tesis doctoral trata sobre el estudio de biomarcadores a partir de electroencefalograma de superficie para la decodificación de trazos de escritura a mano alzada para comunicación alternativa a través de Interfaces Cerebro Computadora (ICC). Sus intereses son el procesamiento avanzado de señales, Machine Learning e Inteligencia Artificial aplicada a Neurociencias, particularmente a las ICCs.


### <font color="#004eb3">Info general</font>

Es importante prestar atención a los siguientes íconos o emojis que aparezcan a lo largo de la Colab.

- 📘 **Teoría**: Conceptos teóricos.
- 📚 **Lectura**: Material adicional que puedes consultar para profundizar en el tema.
- 📊 **Ejemplo**: Ejemplo para demostrar y/o reforzar conceptos.
- 🔗 **Enlace**: Recursos externos que puedes visitar para obtener más información.
- ❓ **Pregunta**: Preguntas disparadas a lo largo del contenido para reflexionar sobre los ejemplos y conceptos tratados.
- 💻 **Código**: Indica que la celda de abajo es una celda con código y debe ser ejecutada para ver su contenido.
- 📝 **Respuestas**: Respuestas a las preguntas planteadas.

💻 Por favor, ejecuta la celda de abajo para clonar el repositorio y poder trabajar 💻

In [6]:
## **** CÓDIGO PYTHON ****

##Clonamos el repositorio para poder usar las funciones
## Esperar unos segundos hasta ver un 100% de descarga
# !git clone https://github.com/lucasbaldezzari/cdan.git

##importamos las funciones a usar
from funciones.cintia2025 import *

# 📊 **<font color="#d6b302">1. Problema a resolver</font>**

Nuestra tarea es predecir el precio de casas dentro de diferentes distritos de California, Estados Unidos. El set de datos cuanta con información acerca de la población por distrito, ingreso medio, precio medio de las casas, entre otras características.

### **<font color="#0205d6">Objetivo</font>**

Predecir el precio medio de las casas en un distrito de California a partir de las demás características disponibles.

Nuestro modelo **debe entregar un valor numérico** (precio medio de las casas), por lo que se trata de un problema de **regresión**.

Para lograr esto, aplicaremos un pipeline completo de Machine Learning que incluye:
- Análisis exploratorio de datos (EDA)
- Preparación y limpieza de datos
- Extracción y selección de características
- Entrenamiento y evaluación de modelos de Machine Learning
- Optimización de hiperparámetros

### 📚 <font color="#00b351">Conceptos</font>

#### Regresión

La regresión es una técnica de aprendizaje supervisado utilizada para predecir valores continuos. A diferencia de la clasificación, donde el objetivo es asignar una etiqueta a una entrada, en la regresión se busca predecir un valor numérico basado en las características de entrada.

En este ejemplo entrenaremos un modelo de regresión múltiple, dado que usaremos múltiples características (variables independientes) para predecir una variable dependiente (precio medio de las casas). Además, el modelo será univariado, ya que predeciremos una sola variable (precio medio de las casas).

#### Pipeline de Machine Learning

> Un *pipeline* (o *tubería* 🥴) es una secuencia de componentes o módulos de extracción y procesamiento de datos.

Los pipelines son comunes en machine learning, ya que suele haber una gran cantidad de datos que manipular y muchas transformaciones que aplicar, y usando un pipeline se puede organizar todo de manera clara y modular.

Cada módulo normalmente se ejecuta de manera asíncrona. Cada componente extrae datos, los procesa y los retorna para ser utilizado en el siguiente módulo, el cual ejecuta su extracción, procesamiento y produce su propia salida.

Cada módulo dentro del pipeline es bastante autónomo. Esto hace que el sistema sea fácil de comprender (por ejemplo, con la ayuda de un gráfico de flujo de datos) y permite que distintos equipos se concentren en diferentes componentes.

Un requisito importante es que cada componente acepte la entrada y produzca la salida en el formato esperado.


##### **<font color="#d60202">PONER EL PIPELINE QUE OBTENGAMOS CON PYTHON</font>**

##### **<font color="#d60202">CONVERTIR LOS PRECIOS A CATEGORÍAS - BARATO, MEDIO, CARO</font>** ASÍ PASAMOS A UN PROBLEMA DE CLASIFICACIÓNs

### 📚 <font color="#00b351">Cuantificando el rendimiento del modelo</font>

En todo problema de Machine Learning es fundamental contar con métricas que nos permitan cuantificar el rendimiento del modelo. Existen múltiples métricas, algunas son ampliamente utilizadas, otras son específicas para ciertos tipos de problemas. En última instancia, la elección de la métrica dependerá del problema a resolver y de los objetivos del proyecto o problema que se quiera resolver. En un problema de clasificación, por ejemplo, se suelen utilizar métricas como la exactitud (accuracy), precisión (precision), recall (sensibilidad) y F1-score. En problemas de regresión, en cambio, se suelen utilizar métricas como el error cuadrático medio (MSE), el error absoluto medio (MAE) y el coeficiente de determinación (R²).

En este caso usaremos la *root mean squared error* (RMSE). El RMSE mide la diferencia entre los valores predichos por el modelo y los valores reales, y se calcula como la raíz cuadrada del promedio de los errores al cuadrado, es decir,

$$ RMSE(X,h) = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (h(x_{i}) - y_{i})^{2}} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (\hat{y}_{i} - y_{i})^{2}} $$

Donde,

- $n$ es el número de muestras
- $y_{i}$ es el valor real de la muestra $i$
- $\hat{y}_{i}$ es el valor predicho por el modelo para la muestra $i$ a partir de aplicar la función $h(x_{i})$
- $h(x_{i})$ es la función que representa el modelo entrenado, que toma como entrada las características de la muestra $x_{i}$ y devuelve la predicción $\hat{y}_{i}$
- $h$ es la *función de predicción*, también conocida como *hipótesis*.- $x_{i}$ es la característica de la muestra $i$.
- $X$ es el conjunto de datos de entrada.
- RMSE es la *función de costo* que queremos minimizar.

El término $(\hat{y}_{i} - y_{i})$ se conoce como error o residuo, y representa la diferencia entre el valor real y el valor predicho por el modelo. Al elevar al cuadrado los errores, se penalizan más los errores grandes, lo que hace que el RMSE sea sensible a valores atípicos (outliers).

El RMSE <font color="#5100b3">**mide la distancia entre dos vectores: el vector de predicciones y el vector de valores reales**</font>. El RMSE se expresa en las mismas unidades que la variable objetivo, lo que facilita su interpretación. Por otror lado, el RMSE es la norma L2 del vector de errores. Existen otras métricas basadas en normas, como el MAE (norma L1) y el MSE (norma L2 al cuadrado).

Un RMSE más bajo indica un mejor rendimiento del modelo, ya que significa que las predicciones están más cerca de los valores reales. Un RMSE de 0 indica que el modelo predice perfectamente todos los valores.

In [None]:
from pathlib import Path
import pandas as pd
import urllib.request

def load_housing_data():
    dataset_dir = Path("datasets")
    dataset_dir.mkdir(parents=True, exist_ok=True)
    
    csv_path = dataset_dir / "housing.csv"
    if not csv_path.is_file():
        url = "https://github.com/lucasbaldezzari/cintia2025/blob/main/datasets/housing/housing.csv"
        print(f"Descargando dataset desde {url} ...")
        urllib.request.urlretrieve(url, csv_path)
        print("Descarga completa.")
    
    return pd.read_csv(csv_path)

# Ejemplo de uso
housing = load_housing_data()
print(housing.head())

Descargando dataset desde https://github.com/lucasbaldezzari/cintia2025/blob/main/datasets/housing/housing.csv ...
Descarga completa.


ParserError: Error tokenizing data. C error: Expected 1 fields in line 38, saw 2


In [None]:
housing.to_csv("datasets/housing/housing.csv", index=False)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND
