---

<span style='color:red'>
    
# CAPÍTULO 1 - PANORAMA DEL MACHINE LEARNING

---

## Importar las Librerías

<div style="background-color:rgba(241, 196, 15, 0.15); border-left: 5px solid #f1c40f; padding: 15px; border-radius: 5px;">
<strong style="color: #f1c40f;">Atención:</strong>

        
Primeramente validamos que las versiones de nuestro entorno virtual sean mínimamente las mismas que el autor **Aurélien Géron** nos recomienda tener instaladas en nuestras computadoras (*ver archivo `pyproject.toml`*):
  * Python >= 3.11
  * Jupyter Lab >= 4.4.9
  * Matplotlib >= 3.10.6
  * Numpy >= 2.3.3
  * Pandas >= 2.3.3
  * Scikit-Learn >= 1.7.2

</div>

In [1]:
import sys
print(f'Python:       {sys.version[:8]}')

# Jupyter Lab
print('Jupyter Lab: ', end=' ')
!jupyter lab --version

# Matplotlib
import matplotlib
print(f'Matplotlib: {matplotlib.__version__:>8}')

# Numpy
import numpy
print(f'Numpy: {numpy.__version__:>12}')

# Pandas
import pandas
print(f'Pandas: {pandas.__version__:>11}')

# Scikit-Learn
import sklearn
print(f'Scikit-Learn: {sklearn.__version__}')

Python:       3.12.12 
Jupyter Lab:  4.5.1
Matplotlib:   3.10.8
Numpy:        2.4.0
Pandas:       2.3.3
Scikit-Learn: 1.8.0


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [3]:
# definimos los tamaños de letras para la impresión de las visualizaciones:
plt.rc('font', size=12)
plt.rc('axes', labelsize=14, titlesize=18)
plt.rc('legend', fontsize=10)
plt.rc('xtick', labelsize=10)
plt.rc('ytick', labelsize=10)

---

## Entrenamiento Básico de un Modelo de Regresión Lineal

<div style="background-color:rgba(255, 255, 255, 0.05); border-left: 5px solid #bdc3c7; padding: 15px; border-radius: 5px;">
  <strong style="color: #bdc3c7;">OBJETIVO DEL LABORATORIO:</strong>

Imagina que queremos saber si el dinero hace más feliz a la gente


---

Para poder dar una respuesta a esta duda, el autor **Aurélien Géron** propone:

  1. Obtener los datos del `Índice de Calidad de Vida` (*Better Life Index*) de la página de la **OECD** (*Organización para la Cooperación y el Desarrollo Económico*) [OECD](https://www.oecd.org/en/data/tools/well-being-data-monitor.html)

  2. Obtener los datos del `Producto Interno Bruto per Cápita` (*Gross Domestic Product - GDP*) de la página del **World Bank Stats** (*Estadísticas del Banco Mundial*) [Our World in Data](https://ourworldindata.org/)


In [4]:
# PASO 1. Descargamos los datos del repositorio de GitHub del autor Aurélien Géron
data_root = 'https://github.com/ageron/data/raw/main/lifesat/lifesat.csv'
lifesat = pd.read_csv(data_root)
lifesat.head()

Unnamed: 0,Country,GDP per capita (USD),Life satisfaction
0,Russia,26456.387938,5.8
1,Greece,27287.083401,5.4
2,Turkey,28384.987785,5.5
3,Latvia,29932.49391,5.9
4,Hungary,31007.768407,5.6


In [5]:
lifesat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 3 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Country               27 non-null     object 
 1   GDP per capita (USD)  27 non-null     float64
 2   Life satisfaction     27 non-null     float64
dtypes: float64(2), object(1)
memory usage: 780.0+ bytes


In [6]:
# PASO 2. Preparamos los datos para el entrenamiento del modelo de Regresión Lineal
X = lifesat[['GDP per capita (USD)']].values # (Matriz de Características) Numpy array 2D
y = lifesat['Life satisfaction'].values # Numpy array 1D

In [7]:
print(f'- Número de Dimensiones para "X" (feature): {X.ndim}\n- Número de Dimensiones para "y" (target) : {y.ndim}')

- Número de Dimensiones para "X" (feature): 2
- Número de Dimensiones para "y" (target) : 1


<div style="background-color:rgba(241, 196, 15, 0.15); border-left: 5px solid #f1c40f; padding: 15px; border-radius: 5px;">
  <strong style="color: #f1c40f;">TOMA NOTA:</strong>

Cuando entrenas un modelo (*como una Regresión Lineal*), la librería Scikit-Learn espera dos cosas distintas:

- **La Matriz de Características ($X$):** Debe ser siempre 2D (*filas, columnas*). Incluso si solo tienes una característica (*como el PIB per cápita*), Scikit-Learn necesita entenderla como una "tabla de una sola columna".

- **El Vector Objetivo` ($y$):** Suele ser 1D. Es simplemente una lista de las etiquetas (*labels, targets*) que queremos predecir.

</div>

In [8]:
X[:5]

array([[26456.38793813],
       [27287.08340093],
       [28384.98778463],
       [29932.49391006],
       [31007.76840654]])

In [9]:
y[:5]

array([5.8, 5.4, 5.5, 5.9, 5.6])

In [None]:
# PASO 3. Visualización de los datos 
lifesat.plot(kind='scatter', x='GDP per capita (USD)',
             y='Life satisfaction', grid=True, figsize=(10,5), 
             title='GDP per Capita in USD - Life Satisfaction Index')
plt.axis([23_500, 62_500, 4, 9])
plt.show()

<div style="background-color:rgba(0, 190, 255, 0.1); border-left: 5px solid #00beff; padding: 15px; border-radius: 5px;">
  <strong style="color: #00beff;">Concepto Clave:</strong>


```python

from sklearn.linear_model import LinearRegression


```

1. **El Paquete**: `sklearn`
    * **Concepto:** Es la librería principal, el contenedor "padre". Literalmente es una carpeta llamada $sklear$ dentro del entorno activo de Python.
>

2. **El Sub-Módulo**: `.linear_model`
    * **Concepto:** Es una división lógica dentro del paquete $sklearn$.
      * Sckikt-Learn es inmenso, por lo que los desarrolladores agruparon todos los algorítmos que se basan en modelos lineales en este compartimiento.
      * *Físicamente es una sub-carpeta dentro de $sklearn$*
>

3. **La Clase**: `LinearRegression`
    * **Concepto:** "$LinearRegression$" Es el "plano" o la receta. No hace nada por sí misma, solo define cómo debería comportarse una regresión lineal.
>

4. **El Objeto o Instancia**: `model`
    * **Concepto:** "$model$" es el Objeto (o Instancia). Es una "casa" construida a partir del plano anterior. Es una entidad viva en la memoria de tu computador.
>

5. **El Método**: `.fit(X, y)`
    * **Concepto:** $.fit()$ y $.predict()$ son Métodos.
      * En Python, un método es simplemente una función que pertenece a un objeto.
      * A diferencia de una función normal (como print() o len()), un método actúa sobre el objeto que lo llama.

</div>

<div style="background-color:rgba(0, 190, 255, 0.1); border-left: 5px solid #00beff; padding: 15px; border-radius: 5px;">
  <strong style="color: #00beff;">Resumen de Terminología:</strong>

|Término|Ejemplo de Código|Definición Profesional|
|:---|:---|:---|
|**Paquete**|`sklearn`|Librería principal, contenedor "padre"|
|**Sub-módulo**|`.linear_model`|división lógica dentro del paquete `sklearn`|
|**Clase**|`LinearRegression`|La definición abstracta del modelo|
|**Instancia**|`model`|El modelo específico que reside en memoria|
|**Método**|`.fit()`, `.predict()`|Las acciones que el modelo puede realizar|
|**Argumentos**|`X`, `y`|Los datos que le pasas al método para que trabaje|

</div>

In [None]:
# PASO 4. Entrenando el Modelo de Regresión Lineal
from sklearn.linear_model import LinearRegression

# Seleccionamos un modelo
model = LinearRegression()

# Entrenamos el modelo
model.fit(X, y)

In [None]:
# PASO 5. Realizamos una predicción en función al modelo entrenado

# Imaginemos que el valor del PIB per capita de Puerto Rico (33_442 USD), pero no tenemos el dato del "Indice de Satisfacción de Vida",
# ...sin embargo este dato lo podemos predecir gracias a nuestro modelo recientemente entrenado, de la siguiente manera:
X_pr = [[33_442]]

print(model.predict(X_pr))

<div style="background-color:rgba(0, 190, 255, 0.1); border-left: 5px solid #00beff; padding: 15px; border-radius: 5px;">
  <strong style="color: #00beff;">¿Qué ocurre realmente dentro del Método .fit()?:</strong>

>

Cuando llamas a $model.fit(X, y)$, no es solo una caja negra.

  1. El método toma tus datos (X, y).
    
  2. Ejecuta el algoritmo matemático (*Descenso de Gradiente*).

  3. Modifica el estado interno de la instancias u objeto $model$.

     * **Aquí es donde ocurre la magia:** El método $.fit()$ calcula los parámetros (*como la pendiente y la intersección*) y los guarda dentro del objeto model.

**CUIDADO**: Si intentas usar $.predict()$ antes de usar $.fit()$, te daría un error `(NotFittedError)`, porque el método $.predict()$ necesita leer la información que el método $.fit()$ guardó.

</div>

<div style="background-color:rgba(155, 89, 182, 0.15); border-left: 5px solid #9b59b6; padding: 15px; border-radius: 5px;">
  <strong style="color: #9b59b6;">Ecuación de un modelo Lineal Simple:</strong>
  
   
$$\LARGE \text{life\_satisfaction} = \theta_0 + \theta_1 \times \text{GDP\_per\_capita}$$

</div>

In [None]:
print(f'- El intercepto de la recta es: {model.intercept_}')
print(f'- La pendiente de la recta es: {model.coef_}')

<div style="background-color:rgba(0, 190, 255, 0.1); border-left: 5px solid #00beff; padding: 15px; border-radius: 5px;">
  <strong style="color: #00beff;">El misterio del guion bajo "_":</strong>

>

Esta es una convención de Scikit-Learn:
   * Todo atributo que termina en guion bajo significa que **es un valor calculado/aprendido por el modelo durante el proceso de entrenamiento**.
   * Si el atributo no tiene guion bajo, suele ser un **parámetro que tú configuraste antes de entrenar** (hiperparámetro).

---

1. `model.intercept_` ($\theta_0$)

      * **Significado**: Es el punto donde la línea recta corta al eje vertical (Y).
      * **Interpretación en el proyecto**: Es el valor predicho de la satisfacción de vida si el GDP per capita fuera exactamente 0. Es como el "punto de partida" base de la felicidad antes de considerar el dinero.
      * **Formato**: Generalmente es un solo número (un flotante).

>

2. `model.coef_` ($\theta_1$)

   * Este atributo representa la Pendiente (o el "Peso/Weight").
      * **Significado**: Indica la inclinación de la recta. Nos dice cuánto cambia $Y$ por cada unidad que aumenta $X$.
      * **Interpretación en el proyecto**: Nos dice cuánto aumenta la satisfacción de vida por cada dólar extra en el GDP per capita. Si el número es positivo, a más dinero, más felicidad. Si fuera negativo, sería lo contrario.
      * **Formato**: Es un array de Numpy. ¿Por qué? Porque si tuvieras múltiples variables (GDP, Educación, Salud), tendrías múltiples coeficientes. Como aquí solo tienes una variable, será un array con un solo elemento.



</div>

<div style="background-color:rgba(0, 190, 255, 0.1); border-left: 5px solid #00beff; padding: 15px; border-radius: 5px;">
  <strong style="color: #00beff;">Concepto Clave:</strong>
  Aquí iría tu explicación sobre la Regresión Lineal. Se ve futurista y limpio.
</div>

<div style="background-color:rgba(46, 204, 113, 0.15); border-left: 5px solid #2ecc71; padding: 15px; border-radius: 5px;">
  <strong style="color: #2ecc71;">Resultado:</strong>
  El modelo ha convergido exitosamente con un score de 0.85.
</div>

<div style="background-color:rgba(155, 89, 182, 0.15); border-left: 5px solid #9b59b6; padding: 15px; border-radius: 5px;">
  <strong style="color: #9b59b6;">Ecuación Matemática:</strong>
  Aquí iría tu fórmula LaTeX. Da un toque muy "Senior".
</div>

<div style="background-color:rgba(241, 196, 15, 0.15); border-left: 5px solid #f1c40f; padding: 15px; border-radius: 5px;">
  <strong style="color: #f1c40f;">Atención:</strong>
  Recuerda siempre escalar los datos antes de entrenar este modelo.
</div>

<div style="background-color:rgba(255, 255, 255, 0.05); border-left: 5px solid #bdc3c7; padding: 15px; border-radius: 5px;">
  <strong style="color: #bdc3c7;">Nota Técnica:</strong>
  Este bloque es sutil y muy elegante para comentarios menores.
</div>