## Ayudantía (3) Extra

### Profesor: Luis Cossio
### Ayudante: Gabriel Díaz

# **Regresión Lineal con el Dataset del Titanic**  

## **¿Qué es la Regresión Lineal?**  
La **Regresión Lineal** es un método estadístico que permite modelar la relación entre una variable dependiente (objetivo) y una o más variables independientes (predictoras). Se basa en la ecuación:  

$$ y = b_0 + b_1x_1 + b_2x_2 + \dots + b_nx_n $$  

Donde:  
- \( y \) es la variable objetivo.  
- $x_1, x_2, ... x_n $ son las variables predictoras.  
- $ b_0 $ es el **intercepto** (valor de \( y \) cuando todas las \( x \) son 0).  
- $ b_1, b_2, ..., b_n $ son los **coeficientes** de cada variable.  

---

## **1. Preparación de los Datos**  
### **Carga del dataset y selección de variables**  
En este análisis, usamos el dataset **Titanic**, que contiene información sobre los pasajeros, como la tarifa del boleto (`fare`), la edad (`age`), la clase del boleto (`pclass`), y el número de familiares a bordo (`sibsp` y `parch`).  

Para construir el modelo, seleccionamos las siguientes variables:  

- **Variable objetivo:** `fare` (Tarifa del boleto)  
- **Variables predictoras:**  
  - `pclass` (Clase del boleto: 1, 2, 3)  
  - `age` (Edad del pasajero)  

---

## **2. División en Datos de Entrenamiento y Prueba**  
Para evaluar el rendimiento del modelo, se divide el dataset en dos partes:  

1. **Datos de Entrenamiento (80%)**: Se usan para ajustar el modelo.  
2. **Datos de Prueba (20%)**: Se usan para evaluar qué tan bien predice el modelo en datos no vistos.  

Esto se debe a que es un algoritmo supervisado, los datos de entrenamiento y de prueba.

Usamos la función `train_test_split()` de `sklearn.model_selection`, que separa aleatoriamente los datos en estas dos partes.  

---

## **3. Creación y Entrenamiento del Modelo**  
1. Se crea una instancia del modelo de **Regresión Lineal** con `LinearRegression()`.  
2. Se entrena el modelo con los datos de entrenamiento usando `.fit(X_train, y_train)`.  

Durante el entrenamiento, el modelo **ajusta los coeficientes $b_1, b_2, \dots $** para minimizar el error entre las predicciones y los valores reales.  

---

## **4. Predicción y Evaluación del Modelo**  
Después del entrenamiento, usamos `.predict(X_test)` para hacer predicciones en los datos de prueba.  

Para evaluar el modelo, calculamos:  
- **Error Cuadrático Medio (MSE):**  
  
  $$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

  - Mide cuánto se desvían las predicciones de los valores reales.  
  - Valores menores indican mejor ajuste.  

- **Coeficiente de Determinación (\( R^2 \)):**  

  $$ R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} $$ 
  - Indica qué porcentaje de la variabilidad en `fare` es explicado por las variables predictoras.  
  - Valores cercanos a 1 indican un buen ajuste.  

Dependiendo del tipo de problema, usamos diferentes métricas de evaluación. Para regresión es distinto que para clasificación.

---

## **5. Visualización de la Regresión**  
Para interpretar los resultados, se grafica la relación entre **Edad (`age`) y Tarifa (`fare`)**.  
Se superpone la línea de **Regresión Lineal**, que muestra la tendencia general de los datos.  


In [None]:
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Cargar la base de datos del Titanic
df = sns.load_dataset("titanic")

# Seleccionar solo columnas numéricas y eliminar valores nulos
df = df[['fare', 'age', 'pclass', 'sibsp', 'parch']].dropna()

# Mostrar las primeras filas
df.head()


In [None]:
# Definir variables predictoras (X) y variable objetivo (y)
X = df[['pclass', 'age']]
y = df['fare']

# Dividir los datos en conjunto de entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo de Regresión Lineal
modelo = LinearRegression()

# Entrenar el modelo
modelo.fit(X_train, y_train)

# Hacer predicciones
y_pred = modelo.predict(X_test)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Mostrar resultados
print("Coeficientes del modelo:", modelo.coef_)
print("Intercepto del modelo:", modelo.intercept_)
print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R²):", r2)


In [None]:
# Crear una nueva variable: Total de familiares a bordo
df["family_size"] = df["sibsp"] + df["parch"]

# Definir variables
X = df[['family_size']]
y = df['fare']

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo
modelo_familia = LinearRegression()
modelo_familia.fit(X_train, y_train)

# Predicciones
y_pred_familia = modelo_familia.predict(X_test)

# Evaluar el modelo
mse_familia = mean_squared_error(y_test, y_pred_familia)
r2_familia = r2_score(y_test, y_pred_familia)

# Mostrar resultados
print("Coeficiente del modelo:", modelo_familia.coef_[0])
print("Intercepto:", modelo_familia.intercept_)
print("MSE:", mse_familia)
print("R²:", r2_familia)


In [None]:
# Gráfico de regresión: Tarifa vs Edad
plt.figure(figsize=(8,5))
sns.scatterplot(x=df['age'], y=df['fare'], alpha=0.5, label="Datos reales")
sns.lineplot(x=df['age'], y=modelo.predict(df[['pclass', 'age']]), color="red", label="Regresión lineal")
plt.title("Relación entre Edad y Tarifa del Boleto")
plt.xlabel("Edad")
plt.ylabel("Tarifa (Fare)")
plt.legend()
plt.show()

# Distancias en Machine Learning

En muchos algoritmos de machine learning (como KNN, clustering, reducción de dimensionalidad, etc.) es fundamental medir **qué tan cerca o lejos** están dos puntos entre sí. Para eso, usamos **métricas de distancia**.

A continuación, veremos 3 distancias comunes:

---

## 1. Distancia Euclidiana

La **distancia euclidiana** es la más común y se calcula como la raíz cuadrada de la suma de las diferencias al cuadrado entre cada dimensión:

$$
d(p, q) = \sqrt{(p_1 - q_1)^2 + (p_2 - q_2)^2 + \dots + (p_n - q_n)^2}
$$

Se puede imaginar como una regla entre dos puntos en un espacio.

---

## 2. Distancia de Minkowski

La **distancia de Minkowski** generaliza la euclidiana y la de Manhattan. Se define como:

$$
d(p, q) = \left( \sum_{i=1}^{n} |p_i - q_i|^r \right)^{1/r}
$$

- Si \( r = 1 \) → es la **distancia de Manhattan**.  
- Si \( r = 2 \) → es la **distancia euclidiana**.  
- Se puede ajustar según el problema.

---

## 3. Distancia de Mahalanobis

Esta distancia tiene en cuenta la **distribución de los datos** (correlación y escala), por lo que es útil cuando las variables tienen distinta escala o están correlacionadas.

$$
d(p, q) = \sqrt{(p - q)^T \, S^{-1} \, (p - q)}
$$

- \( S \) es la **matriz de covarianza** de los datos.  
- Penaliza más las diferencias en dimensiones con baja varianza.  
- Se usa mucho en detección de outliers y análisis multivariado.


In [None]:
import seaborn as sns
import numpy as np
import pandas as pd
from scipy.spatial import distance
from sklearn.preprocessing import StandardScaler

# Cargar el dataset de pingüinos y seleccionar algunas columnas numéricas
df = sns.load_dataset("penguins").dropna()
df = df[['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm']]

# Tomamos dos muestras cualquiera
p1 = df.iloc[0].values
p2 = df.iloc[50].values

print("Punto 1:", p1)
print("Punto 2:", p2)

# 1. Distancia Euclidiana
eucl = distance.euclidean(p1, p2)
print(f"Distancia Euclidiana: {eucl:.2f}")

# 2. Distancia de Minkowski (r = 3, por ejemplo)
mink = distance.minkowski(p1, p2, 3)
print(f"Distancia de Minkowski (r=3): {mink:.2f}")

# 3. Distancia de Mahalanobis
# Necesitamos estandarizar los datos primero
scaler = StandardScaler()
scaled_df = scaler.fit_transform(df)

# Matriz de covarianza
cov = np.cov(scaled_df, rowvar=False)
inv_covmat = np.linalg.inv(cov)

# Calcular distancia de Mahalanobis entre los mismos puntos (ya escalados)
scaled_p1 = scaled_df[0]
scaled_p2 = scaled_df[50]

maha = distance.mahalanobis(scaled_p1, scaled_p2, inv_covmat)
print(f"Distancia de Mahalanobis: {maha:.2f}")


Punto 1: [ 39.1  18.7 181. ]
Punto 2: [ 39.   17.5 186. ]
Distancia Euclidiana: 5.14
Distancia de Minkowski (r=3): 5.02
Distancia de Mahalanobis: 0.65


### ¿Qué representan estos puntos?

Cada punto representa las características de un pingüino:
- `bill_length_mm`: Largo del pico en milímetros.
- `bill_depth_mm`: Profundidad del pico.
- `flipper_length_mm`: Largo de la aleta.

---

### Interpretación de las Distancias

#### **Distancia Euclidiana: 5.14**
- Es la distancia “normal” entre dos puntos en el espacio tridimensional definido por las 3 variables.
- Es sensible a las unidades y escalas de las variables.
- Aquí nos indica que los dos pingüinos están **moderadamente separados** en ese espacio.

#### **Distancia de Minkowski (r=3): 5.02**
- Generaliza la euclidiana (que es el caso cuando r=2).
- Al usar \( r = 3 \), se penalizan un poco más las diferencias grandes.
- El valor es **ligeramente menor**, indicando una penalización distinta al hacer el cálculo.

#### **Distancia de Mahalanobis: 0.65**
- Esta distancia **toma en cuenta la correlación y la escala de los datos**.
- Un valor bajo (como 0.65) indica que **aunque numéricamente las diferencias parecen grandes**, según la distribución de los datos **los puntos no están tan alejados estadísticamente**.
- En otras palabras, están cerca **en términos del comportamiento de la población**.

---

### ¿Qué aprendemos?

- Si solo usamos distancia euclidiana, **podemos sobrevalorar la diferencia** si no consideramos la correlación entre variables.
- Mahalanobis **normaliza las variables** y ajusta según la distribución general del dataset.
- Es ideal cuando las variables están en **diferentes escalas** o tienen correlaciones (como suele pasar en datos reales).

---

### Reflexión

Dos puntos pueden estar lejos según una distancia, pero **cerca según otra**, dependiendo de cómo consideramos la estructura interna de los datos.

Esto es clave al usar algoritmos como **KNN**, **detector de outliers** o **modelos de clustering**, donde **la elección de la distancia importa mucho**.


# Clasificador K-Nearest Neighbors (KNN)

## ¿Qué es KNN?

KNN (K-Nearest Neighbors) es un algoritmo de **clasificación supervisada** (también puede usarse para regresión). Su idea principal es **predecir la clase de un dato nuevo** observando las clases de sus **k vecinos más cercanos** en el espacio de características.

---

## ¿Cómo funciona?

1. Se calcula la distancia entre el nuevo punto y todos los puntos del conjunto de entrenamiento (usualmente con distancia **euclidiana**).
2. Se seleccionan los **k puntos más cercanos** (los vecinos).
3. Se vota por la clase más frecuente entre esos k vecinos.
4. Se asigna esa clase al nuevo punto.

---

## ¿Qué tan importante es la distancia?

Muy importante. El algoritmo depende completamente de **medir distancias correctamente** entre puntos. Por eso se puede usar:

- Distancia Euclidiana
- Distancia de Manhattan
- Distancia de Mahalanobis (menos común en KNN, pero posible)

---

## ¿Cómo elegir k?

- Si **k es muy pequeño**, el modelo puede ser sensible al ruido (sobreajuste).
- Si **k es muy grande**, puede volverse muy general (subajuste).
- Se recomienda probar varios valores de k y usar **validación cruzada**.

---

## Ventajas y desventajas

(Ventaja) Simple de entender y aplicar.  
(Ventaja) No necesita entrenamiento (lazy learning).  
(Desventaja) Lento si hay muchos datos.  
(Desventaja) Sensible a escala y ruido.

---


In [3]:
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix

# Cargar dataset de penguins
df = sns.load_dataset("penguins").dropna()

# Variables predictoras (X) y clase a predecir (y)
X = df[['bill_length_mm', 'flipper_length_mm']]
y = df['species']

# Escalar los datos (importante para KNN)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo KNN con k=5
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

# Hacer predicciones
y_pred = knn.predict(X_test)

# Evaluar el modelo
print(" Matriz de Confusión:\n", confusion_matrix(y_test, y_pred))
print("\n Reporte de Clasificación:\n", classification_report(y_test, y_pred))


 Matriz de Confusión:
 [[31  0  0]
 [ 1 12  0]
 [ 0  0 23]]

 Reporte de Clasificación:
               precision    recall  f1-score   support

      Adelie       0.97      1.00      0.98        31
   Chinstrap       1.00      0.92      0.96        13
      Gentoo       1.00      1.00      1.00        23

    accuracy                           0.99        67
   macro avg       0.99      0.97      0.98        67
weighted avg       0.99      0.99      0.98        67



### Entonces como una forma simple de ver el algoritmo

1. Selección del valor óptimo de K: K representa el número de vecinos
más cercanos que deben considerarse al realizar una predicción.

2. Cálculo de la distancia Para medir la similitud entre el objetivo y los
puntos de datos de entrenamiento, se utiliza la distancia euclidiana. Se
calcula la distancia entre cada uno de los puntos de datos en el
conjunto de datos y el punto objetivo.

3. Encontrar los vecinos más cercanos Los k puntos de datos con las
distancias más pequeñas al punto objetivo son los vecinos más
cercanos.

4. Votación para clasificación o tomar el promedio para regresión: En el
problema de clasificación, las etiquetas de clase se determinan
realizando una votación mayoritaria. La clase con más ocurrencias
entre los vecinos se convierte en la clase predicha para el punto de
datos objetivo.

## Se recomienda tomar **k impar** para evitar empates.

---

# ¿Qué significa escalar o normalizar los datos?

Cuando hablamos de **escalar** o **normalizar** los datos en Machine Learning, nos referimos a **transformar las variables numéricas** para que tengan una escala similar.

---

## ¿Por qué es importante?

Muchos algoritmos (como **KNN**, **SVM**, **Regresión logística**, etc.) dependen de cálculos de **distancias** o **gradientes**.  
Si una variable tiene valores mucho más grandes que otra, puede **dominar** la predicción, incluso si no es la más importante.

**Ejemplo:**  
- `flipper_length_mm` puede ir de **170 a 230**  
- `bill_depth_mm` puede ir de **13 a 21**

Sin escalar, la distancia entre dos pingüinos va a estar influenciada mucho más por `flipper_length_mm`, solo porque sus números son más grandes.

---

## Técnicas más comunes

### 1. Normalización Min-Max  
Convierte los datos a un rango entre 0 y 1:  
$$
X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}
$$

### 2. Estandarización (Z-score scaling)  
Convierte los datos para que tengan **media 0** y **desviación estándar 1**:  
$$
X_{std} = \frac{X - \mu}{\sigma}
$$
Es la técnica que usamos con `StandardScaler()` de sklearn.

---

## ¿Cuándo es obligatorio escalar?

- (Sí) Algoritmos basados en distancias (**KNN**, **SVM**, **Clustering**)
- (Sí) Algoritmos que usan derivadas (**Regresión logística**, **Redes neuronales**)
- (No) No es necesario en modelos basados en árboles (**Random Forest**, **XGBoost**)

---

## En sklearn se hace así:

```python
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)


Dentro del siguiente link podrán visualizar como se utiliza KNN, -> ["Cómo funciona KNN"](https://youtu.be/zeFt_JCA3b4?si=uVV7XqJOxQNRcvHG)

# Regresión Logística – Clasificación Supervisada

## ¿Qué es la Regresión Logística?

La **regresión logística** es un modelo de **clasificación supervisada** que se usa para predecir **probabilidades** de pertenecer a una clase.  
Aunque se llama "regresión", se usa para **clasificación binaria** (Sí/No, 0/1, Verdadero/Falso).

---

## ¿Cómo funciona?

1. A diferencia de la regresión lineal, no predice directamente un número real, sino la **probabilidad** de que un ejemplo pertenezca a la clase positiva (por ejemplo, "sobrevive").
2. Utiliza la **función sigmoide** para transformar la salida en un valor entre 0 y 1:

$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$

donde $z = w_0 + w_1x_1 + w_2x_2 + \dots + w_nx_n $

---

## ¿Cómo se interpreta?

- Si $ \sigma(z) \geq 0.5 $, el modelo predice **clase 1**
- Si $ \sigma(z) < 0.5 $, el modelo predice **clase 0**

>  También puedes cambiar ese umbral si lo necesitas (por ejemplo: 0.6, 0.3...).

---

## ¿Cuándo usarla?

- Problemas de **clasificación binaria** (spam/no spam, enfermo/sano, etc.).
- Cuando quieres obtener una **probabilidad** y no solo una clase.
- Cuando tus variables de entrada son numéricas o categóricas.

---

## Ventajas

(Ventaja) Modelo simple, rápido y fácil de interpretar.  
(Ventaja) Bueno para datos linealmente separables.  
(Ventaja) Devuelve probabilidades, lo que permite controlar umbrales.  

(Desventaja) No funciona bien cuando los datos **no se separan linealmente**.  
(Desventaja) Sensible a **outliers y escala** → por eso es buena idea escalar los datos.

---


In [5]:
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix

# Cargar dataset de pingüinos
df = sns.load_dataset("penguins").dropna()

# Clasificación binaria: ¿es 'Adelie' o no?
df['is_adelie'] = (df['species'] == 'Adelie').astype(int)

# Variables predictoras
X = df[['bill_length_mm', 'flipper_length_mm']]
y = df['is_adelie']

# Escalar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo
modelo = LogisticRegression()
modelo.fit(X_train, y_train)

# Hacer predicciones
y_pred = modelo.predict(X_test)

# Evaluar el modelo
print(" Matriz de Confusión:\n", confusion_matrix(y_test, y_pred))
print("\n Reporte de Clasificación:\n", classification_report(y_test, y_pred))

# Mostrar probabilidades predichas
probas = modelo.predict_proba(X_test)
print("\n🔍 Probabilidades del primer pingüino en test:\n", probas[0])


 Matriz de Confusión:
 [[35  1]
 [ 0 31]]

 Reporte de Clasificación:
               precision    recall  f1-score   support

           0       1.00      0.97      0.99        36
           1       0.97      1.00      0.98        31

    accuracy                           0.99        67
   macro avg       0.98      0.99      0.99        67
weighted avg       0.99      0.99      0.99        67


🔍 Probabilidades del primer pingüino en test:
 [0.01623011 0.98376989]



### Matriz de Confusión

- **35** pingüinos que **no eran Adelie (clase 0)** fueron correctamente clasificados.
- **31** pingüinos **Adelie (clase 1)** fueron correctamente clasificados.
- Solo **1 error**: un pingüino no-Adelie fue clasificado como Adelie (falso positivo).
- No hubo falsos negativos (no se confundió ningún Adelie como no-Adelie).

---

###  Reporte de Clasificación
- **Precisión (Precision):**
  - Clase 0: Todas las veces que el modelo dijo "no es Adelie", acertó (100%).
  - Clase 1: Cuando dijo "es Adelie", acertó el 97% de las veces.
  
- **Recall:**
  - Clase 0: Detectó correctamente el 97% de los casos no-Adelie.
  - Clase 1: Detectó correctamente el 100% de los casos Adelie.

- **F1-score:** Equilibrio entre precisión y recall. Ambos son altos (≈0.98 - 0.99), lo que indica un excelente desempeño.

---

### Accuracy General

- El modelo clasificó correctamente **66 de 67 pingüinos**, logrando una **exactitud de 99%**.
- Esto significa que el modelo **generaliza bien** y tiene muy buen rendimiento en este problema de clasificación binaria.

---

### Conclusión

- La regresión logística funcionó **de forma excelente** para predecir si un pingüino es de la especie Adelie.
- El modelo es confiable y balanceado.
- Solo cometió **un error**, lo que es normal en la práctica.

