# Modelos de regresión

### Información del curso:
- **Nombre del curso**: Introducción al aprendizaje automático
- **Profesor**: Dr. Jesús Emmanuel Solís Pérez
- **Email**: jsolisp@unam.mx
- **Semestre**: 2025-1
- **Fecha**: Diciembre 09, 2024
- **Enlace del curso**: [https://jesolisp.github.io/Curso-Introduccion-Aprendizaje-Automatico](https://jesolisp.github.io/Curso-Introduccion-Aprendizaje-Automatico/docs/home.html)

---

### Información del Notebook:
- **Título del Notebook**: Modelos de regresión
- **Versión**: 1.0
- **Última modificación**: November 17, 2024
- **Descripción**: Este cuaderno tiene como finalidad dar a conocer las aplicaciones y tipos de aprendizaje automático.

---

### Instrucciones:
1. **Orden de ejecución de celdas**: Ejecute las celdas en el orden presentado para garantizar que las dependencias se manejen adecuadamente.
2. **Envío**: Guarde y envíe este cuaderno como un archivo `.ipynb` antes de la fecha de vencimiento.
3. **Comentarios y documentación**: asegúrese de agregar comentarios y documentación adecuados a su código.

---

### Licencia:
- Este cuaderno se proporciona únicamente con fines educativos. Todos los derechos reservados © 2024 ENES Juriquilla.

---

## Regresión y clasificación

Existen dos tipos de problemas de ML supervisados: **clasificación** y **regresión**. 

* **Clasificación.** El objetivo es predecir una _etiqueta clase_.
    * _Binaria_. Clasifica entre dos clases (verdadero/falso, positivo/negativo, si/no).
    * _Multiclase_. Clasifica entre dos o más clases.
    
* **Regresión.** Predecir números contínuos, _números de punto flotante_ (término de programación), o _números reales_ (término en matemáticas.)

## Generalization, Overfitting, and Underfitting
En AS, queremos construir un modelo a partir de datos de entrenamiento capaz de realizar predicciones precisas sobre nuevas. Es decir, sobre datos no conocidos (datos de prueba) que tienen las mismas características que los datos que utilizamos para entrenar al modelo.

Si un modelo es capaz de realizar predicciones precisas sobre datos nuevos, entonces el modelo puede **generalizar** de los datos de entrada a los datos de prueba.

```{figure} images/navaja.jpg
 ---
 height: 380px
 width: 540px
 name: fig:navaja
 ---
```

> _"La explicación más simple es la más probable, aunque no necesariamente la verdadera."_

Un error común es construir un modelo complejo para la cantidad de datos que tenemos, este error suele llevar a un **overfitting** (sobre ajuste). El sobreajuste se produce cuando un modelo es ajustado demasiado a los datos de entrenamiento. Se desempeña bien ante los datos de entrenamiento pero no generaliza a datos nuevos.

Si un modelo es muy simple, es posible que éste no pueda capturar la variabilidad de los datos y sus aspectos. A esto se le conoce como **underfitting** (desajuste).

```{figure} images/diagrama_dispersion.png
 ---
 height: 380px
 width: 540px
 name: fig:diagrama_dispersion
 ---
 Ejemplo de diagrama de dispersión.
```

# Modelos lineales
Son modelos ampliamente utilizados en la práctica y muy usados en las últimas décadas. Los modelos lineales hacen una predicción utilizando una función lineal:

$$
 \hat{y} = \beta_{0}\cdot x_{0} + \beta_{1}\cdot x_{1} + \cdots + \beta_{p}\cdot x_{p} + b,
$$
donde $x_{0}$ a $x_{p}$ denota las características, $\beta$ y $b$ los parámetros del modelo, $\hat{y}$ la predicción hecha por el modelo. Para un conjunto de datos con una sola característica está dada como sigue:

$$
 \hat{y} = \beta_{0}\cdot x_{0} + b.
$$

Aquí, $\beta_{0}$ es la pendiente y $b$ el intercepto.

## Regresión lineal (mínimos cuadrados ordinarios)
Regresión lineal o *ordinary least squares (OLS)* es el modelo más simple de regresión. Se trata de encontrar los parámetros $\beta$ y $b$ que minimicen el *MSE* entre los datos predichos y los datos reales. Es decir:

$$
 \underset{\beta_{0},\beta_{1}}{\min} \left\{ \frac{1}{N} \sum_{k=1}^{N} \left( y - \hat{y} \right)^{2} \right\},
$$
donde

$$
 \hat{y} = \beta_{0} + \beta_{1}\cdot x.
$$

In [1]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn import datasets

In [2]:
boston = datasets.load_boston()
boston.keys()
boston.info()

ImportError: 
`load_boston` has been removed from scikit-learn since version 1.2.

The Boston housing prices dataset has an ethical problem: as
investigated in [1], the authors of this dataset engineered a
non-invertible variable "B" assuming that racial self-segregation had a
positive impact on house prices [2]. Furthermore the goal of the
research that led to the creation of this dataset was to study the
impact of air quality but it did not give adequate demonstration of the
validity of this assumption.

The scikit-learn maintainers therefore strongly discourage the use of
this dataset unless the purpose of the code is to study and educate
about ethical issues in data science and machine learning.

In this special case, you can fetch the dataset from the original
source::

    import pandas as pd
    import numpy as np

    data_url = "http://lib.stat.cmu.edu/datasets/boston"
    raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
    data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
    target = raw_df.values[1::2, 2]

Alternative datasets include the California housing dataset and the
Ames housing dataset. You can load the datasets as follows::

    from sklearn.datasets import fetch_california_housing
    housing = fetch_california_housing()

for the California housing dataset and::

    from sklearn.datasets import fetch_openml
    housing = fetch_openml(name="house_prices", as_frame=True)

for the Ames housing dataset.

[1] M Carlisle.
"Racist data destruction?"
<https://medium.com/@docintangible/racist-data-destruction-113e3eff54a8>

[2] Harrison Jr, David, and Daniel L. Rubinfeld.
"Hedonic housing prices and the demand for clean air."
Journal of environmental economics and management 5.1 (1978): 81-102.
<https://www.researchgate.net/publication/4974606_Hedonic_housing_prices_and_the_demand_for_clean_air>
