# Proyecto de aprendizaje automático de extremo a extremo

### Trabajar con datos reales

Si queremos obtener resultados confiables, es fundamental trabajar con datos reales y no con datos inventados. Los modelos de aprendizaje automático solo pueden aprender patrones útiles si la información que reciben representa el mundo tal como es, con sus imperfecciones, ruido y complejidad.

Afortunadamente, existen múltiples plataformas que recopilan y publican conjuntos de datos abiertos. Muchas de ellas cuentan con comunidades activas que actualizan y comparten información de forma continua, lo que permite acceder a datos variados y de buena calidad.

Algunos de los repositorios de datos abiertos más populares son:

* **OpenML.org**
* **Kaggle.com**
* **PapersWithCode.com**

En este capítulo trabajaremos con el conjunto de datos **California Housing Prices**, que contiene información de un censo realizado en 1990. Nuestro objetivo será utilizar estos datos para construir un modelo capaz de predecir el precio de las viviendas en distintas zonas de California.

### Pipelines

Una **pipeline** es una secuencia de etapas automatizadas que transforman datos de forma organizada y reproducible.

En sistemas de *machine learning*, las pipelines son muy comunes cuando se necesita transformar, limpiar o manipular grandes volúmenes de datos antes de entrenar un modelo. En lugar de hacer cada paso manualmente, se encadenan procesos que se ejecutan uno tras otro.

Cada componente de la pipeline suele cumplir una función específica:

* Extraer datos (por ejemplo, desde una base de datos o un archivo).
* Procesarlos (limpieza, normalización, transformación, generación de características).
* Guardar el resultado en otro almacenamiento para que la siguiente etapa lo utilice.

En muchos sistemas modernos, estas etapas pueden ejecutarse de forma asíncrona o distribuida, lo que permite manejar grandes cantidades de información de manera eficiente.


### Antes de comenzar

Antes de iniciar un proyecto real, debemos preguntarnos cómo vamos a abordar el problema. No se trata solo de “entrenar algo”, sino de elegir correctamente el enfoque desde el principio.

En el caso de **California Housing Prices**, podemos plantearnos varias preguntas clave:

* ¿Qué tipo de aprendizaje necesitamos?
  ¿Supervisado, no supervisado, semi-supervisado, self-supervised o reinforcement learning?

* ¿Usaremos *batch learning* o *online learning*?

Empecemos por lo más sencillo:
¿Nuestro sistema recibirá un flujo constante de datos nuevos para actualizar el modelo? No. El conjunto de datos es histórico y está cerrado; queremos entrenar el modelo para hacer predicciones sobre ese mismo tipo de información. No necesitamos que el modelo se actualice continuamente con datos nuevos, así que utilizaremos **batch learning**.

Ahora, ¿qué tipo de aprendizaje es?
Tenemos el precio de las casas (la variable objetivo) y múltiples características asociadas a cada vivienda. Es decir, conocemos la respuesta correcta durante el entrenamiento. Por lo tanto, se trata claramente de **aprendizaje supervisado**.

Finalmente, ¿qué tipo de modelo utilizaremos?
El comportamiento que buscamos modelar es esencialmente lineal. Sin embargo, no tenemos una sola variable explicativa, sino varias características que influyen en el precio. Por esta razón, no basta con una regresión lineal simple: utilizaremos **regresión lineal múltiple**, que nos permite considerar múltiples variables de entrada al mismo tiempo.

### Métrica de desempeño

Para asegurarnos de que nuestro modelo realmente funciona bien, necesitamos definir una **métrica de desempeño**. Sin una métrica, no hay forma rigurosa de saber si el modelo está aprendiendo o simplemente ajustándose al azar.

En problemas de **regresión lineal**, una de las métricas más utilizadas es el **Root Mean Square Error (RMSE)**. Esta métrica nos indica, en promedio, qué tan lejos están nuestras predicciones de los valores reales.

Una característica importante del RMSE es que **penaliza más fuertemente los errores grandes**, ya que eleva cada error al cuadrado antes de promediarlos. Esto lo hace especialmente útil cuando queremos evitar predicciones con fallos extremos.

La fórmula del RMSE es:

$$
RMSE = \sqrt{\frac{1}{m} \sum_{i=1}^{m} \left( \hat{y}^{(i)} - y^{(i)} \right)^2}
$$

donde:

* ( $m$ ) es el número total de ejemplos,
* ( $\hat{y}^{(i)} = h_\theta(x^{(i)}) $) es la predicción generada por la hipótesis para el ejemplo ( i ),
* ( $y^{(i)}$ ) es el valor real correspondiente.

Aquí es importante recordar que ( $h_\theta(\cdot)$ ) es la **función hipótesis**, mientras que ( $\hat{y}^{(i)}$ ) es el resultado de evaluarla en un ejemplo específico.

En la mayoría de problemas reales, las entradas no son números individuales sino **vectores de características**. En ese caso, la hipótesis en regresión lineal se define como:

$$
h_\theta(x) = \theta^T x
$$

Por lo tanto, la predicción para el ejemplo ( i ) es:

$$
\hat{y}^{(i)} = \theta^T x^{(i)}
$$

Y el RMSE puede escribirse como:

$$
RMSE = \sqrt{\frac{1}{m} \sum_{i=1}^{m} \left( \theta^T x^{(i)} - y^{(i)} \right)^2}
$$

Sin embargo, en algunos contextos puede ser preferible utilizar otra función de error. Por ejemplo, podemos considerar el **Mean Absolute Error (MAE)**, también llamado **promedio de desviación absoluta**.

Su expresión es:

$$
MAE = \frac{1}{m} \sum_{i=1}^{m} \left| \hat{y}^{(i)} - y^{(i)} \right|
$$

A diferencia del RMSE, aquí **no elevamos al cuadrado los errores**, sino que tomamos su valor absoluto. Esto hace que el MAE sea menos sensible a valores atípicos (outliers), ya que no amplifica los errores grandes.

### Interpretación geométrica

Tanto el **RMSE** como el **MAE** pueden interpretarse como formas de medir la distancia entre dos vectores:

* El vector de predicciones
* El vector de valores reales (etiquetas)

Si definimos:

$$
\mathbf{\hat{y}} =
\begin{bmatrix}
\hat{y}^{(1)} \
\hat{y}^{(2)} \
\vdots \
\hat{y}^{(m)}
\end{bmatrix}
\quad
\text{y}
\quad
\mathbf{y} =
\begin{bmatrix}
y^{(1)} \
y^{(2)} \
\vdots \
y^{(m)}
\end{bmatrix}
$$

Entonces estamos midiendo la distancia entre esos dos vectores en ( $\mathbb{R}^m$ ).

* Cuando elevamos al cuadrado y sumamos, estamos usando la **norma euclidiana** ( $\ell_2$ ).
* Cuando usamos valores absolutos, estamos usando la **norma Manhattan** ( $\ell_1$ ).

La norma ( $\ell_2$ ) mide la distancia “en línea recta” entre dos puntos (como un dron que vuela directo).

La norma ( $\ell_1$ ) mide la distancia como si te movieras por una ciudad en cuadrícula, avanzando solo en direcciones horizontales y verticales (de ahí el nombre Manhattan).

Estas dos son casos particulares de una familia más general llamada **norma ( $\ell_k$ )**:

$$
|v|_k =
\left(
|v_1|^k + |v_2|^k + \dots + |v_n|^k
\right)^{1/k}
$$

Cuanto mayor sea el valor de ( $k$ ), **más peso tendrán los valores grandes del vector**, y menor influencia relativa tendrán los pequeños.

En otras palabras:
si aumentas ( $k$ ), el modelo se vuelve cada vez más intolerante a errores grandes.


# Empecemos con el código

## Descargar los datos

En un entorno real, lo más común es que la información esté almacenada en una **base de datos relacional**, como PostgreSQL o MySQL, o incluso en sistemas distribuidos más complejos.

Sin embargo, en este proyecto simplificaremos el proceso: trabajaremos con un archivo **CSV** que ya estará disponible dentro del repositorio. Esto nos permitirá concentrarnos en el análisis y el modelado sin distraernos con la infraestructura.

Aunque en un escenario profesional podríamos descargar los datos dinámicamente desde una API o una base de datos externa, para efectos del curso mantendremos todo organizado localmente.

Crearemos una función encargada de:

1. Localizar el archivo dentro del proyecto.
2. Leer el archivo CSV.
3. Cargar los datos en memoria para comenzar a explorarlos.

In [1]:
import os
import pandas as pd
import tarfile

In [2]:
def load_housing_data():
    data_root = os.getcwd()
    data_dir = os.path.join(data_root, "..", "data")
    tgz_path = os.path.join(data_dir, "housing.tgz")
    csv_path = os.path.join(data_dir, "housing/housing.csv")

    # descomprimir si el csv no existe
    if not os.path.exists(csv_path):
        with tarfile.open(tgz_path, "r:gz") as tar:
            tar.extractall(path=data_dir)

    return pd.read_csv(csv_path)

In [3]:
housing = load_housing_data()
housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


Usamos el método `info()` para obtener una descripción rápida y general del conjunto de datos.

Este método nos permite ver:

* El número total de filas.
* El número de columnas.
* El nombre de cada atributo.
* El tipo de dato de cada columna (`int`, `float`, `object`, etc.).
* La cantidad de valores no nulos en cada atributo.

Esta información es clave en las primeras etapas del análisis, porque nos ayuda a detectar posibles problemas como valores faltantes, tipos de datos incorrectos o columnas que necesiten transformación.

En otras palabras, `info()` es una inspección inicial que nos permite entender con qué tipo de datos estamos trabajando antes de empezar a modelar.

In [4]:
housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


Como podemos observar, el dataset contiene **20 640 instancias**.

Si analizamos, por ejemplo, la columna `total_bedrooms`, vemos que solo tiene **20 433 valores no nulos**. Esto significa que existen **207 valores faltantes** en ese atributo.

Este tipo de detalle es importante, porque los modelos de machine learning no manejan valores faltantes de forma automática: tendremos que decidir más adelante cómo tratarlos (eliminarlos, imputarlos, etc).

Por otro lado, todos los atributos del dataset son numéricos, excepto `ocean_proximity`, que es un atributo categórico.

Para conocer qué categorías existen en esa columna y cuántas veces aparece cada una, podemos utilizar el método `value_counts()`. Esto nos permite entender la distribución de esa variable antes de transformarla para el modelo.


In [5]:
housing["ocean_proximity"].value_counts()

ocean_proximity
<1H OCEAN     9136
INLAND        6551
NEAR OCEAN    2658
NEAR BAY      2290
ISLAND           5
Name: count, dtype: int64

También contamos con el método `describe()`, que nos permite obtener un resumen estadístico de todos los atributos numéricos del dataset.

Este método calcula automáticamente métricas importantes:

In [6]:
housing.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0
