<a href="https://colab.research.google.com/github/chiaravanin/CursoCoder/blob/main/01_regresion_lineal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Regresión lineal supervisada:

### 1. **Regresión Lineal Simple**

* **Qué es**: Relaciona una sola variable independiente $X$ con la variable dependiente $y$.
  Ejemplo: predecir el precio de una casa usando únicamente los metros cuadrados.
* **Cuándo usarla**:

  * Si tienes **una única feature**.
  * Cuando quieras interpretar fácilmente la pendiente e intercepto.
* **Afectación por outliers**: Muy sensible 🚨, porque un valor extremo puede “inclinar” la recta hacia él.

---

### 2. **Regresión Lineal Múltiple**

* **Qué es**: Usa varias variables independientes para explicar el target.
  Ejemplo: predecir el precio de una casa usando metros cuadrados, número de habitaciones, ubicación, etc.
* **Cuándo usarla**:

  * Cuando el fenómeno depende de **varios factores**.
  * Si quieres un modelo más explicativo y no solo predictivo.
* **Afectación por outliers**: También sensible 🚨, ya que los valores extremos en alguna variable pueden distorsionar los coeficientes.

---

### 3. **Regresión Ridge (L2 Regularization)**

* **Qué es**: Variante de la lineal múltiple con una penalización al tamaño de los coeficientes ($\lambda \sum \beta^2$).
* **Cuándo usarla**:

  * Si tienes **muchas variables** y riesgo de *multicolinealidad*.
  * Cuando quieres evitar sobreajuste.
* **Afectación por outliers**: Sigue siendo sensible 🚨, aunque la regularización reduce un poco el impacto.

---

### 4. **Regresión Lasso (L1 Regularization)**

* **Qué es**: Similar a Ridge, pero la penalización es la suma de los valores absolutos ($\lambda \sum |\beta|$). Esto hace que algunos coeficientes puedan ser exactamente **0** → selecciona variables.
* **Cuándo usarla**:

  * Cuando quieres hacer **selección de features**.
  * Útil si sospechas que solo algunas variables son realmente importantes.
* **Afectación por outliers**: Aún sensible, pero algo más robusta que la lineal simple/múltiple.

---

### 5. **Regresión Elastic Net**

* **Qué es**: Combinación de Lasso y Ridge.
* **Cuándo usarla**:

  * Cuando tienes **muchas variables correlacionadas** y además quieres **selección de features**.
  * Más flexible que usar solo Ridge o solo Lasso.
* **Afectación por outliers**: Sigue siendo sensible, aunque la regularización ayuda a mitigar un poco el efecto.

---

### 6. **Regresión Robusta**

* **Qué es**: Métodos como **RANSAC**, **Huber Regressor**, **Theil-Sen**. Están diseñados para ser menos sensibles a los outliers.
* **Cuándo usarla**:

  * Cuando sabes que en tus datos hay outliers inevitables (errores de medición, datos muy ruidosos).
  * Cuando los métodos lineales clásicos “se tuercen” mucho con pocos valores extremos.
* **Afectación por outliers**: Mucho más **robusta ✅**, ignoran o reducen el peso de los valores extremos.

---

## 🔹 Resumen visual (qué usar y sensibilidad a outliers)

| Modelo                  | Cuándo usarlo                                       | Sensibilidad a outliers      |
| ----------------------- | --------------------------------------------------- | ---------------------------- |
| Lineal simple           | 1 variable                                          | 🚨 Alta                      |
| Lineal múltiple         | Varias variables                                    | 🚨 Alta                      |
| Ridge                   | Evitar sobreajuste, multicolinealidad               | 🚨 Alta                      |
| Lasso                   | Selección de variables                              | 🚨 Alta (pero algo mitigada) |
| Elastic Net             | Mix Ridge + Lasso, muchas variables correlacionadas | 🚨 Alta                      |
| Robusta (RANSAC, Huber) | Datos con outliers                                  | ✅ Baja                       |

---

Conclusion:

* Si tu dataset está **limpio, sin outliers fuertes** → usa lineal simple/múltiple o con regularización (Ridge, Lasso, Elastic Net).
* Si tu dataset **tiene outliers inevitables** → considera **RANSAC, Huber o Theil-Sen**.


---


## Vamos a hacer un ejemplo de regresion simple con LASSO

# Análisis de Autos Usados

## ¿Qué es Lasso?

**Lasso (Least Absolute Shrinkage and Selection Operator)** es una técnica de regularización utilizada en modelos de regresión lineal. Su principal objetivo es **prevenir el sobreajuste** (*overfitting*) y **mejorar la interpretabilidad** del modelo, ya que puede reducir algunos coeficientes exactamente a cero. Esto permite que el modelo use solo las variables más relevantes.

---

## ¿En qué consiste?

Lasso agrega una penalización basada en la suma de los valores absolutos de los coeficientes al término de pérdida del modelo.

La función de costo se expresa de la siguiente manera:

$$
\text{Costo}_{Lasso} = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{p}|\beta_j|
$$

Donde:

* $y_i$: valor real.
* $\hat{y}_i$: valor predicho.
* $\beta_j$: coeficientes del modelo.
* $\lambda$: parámetro de regularización (controla la penalización).
* $n$: número de muestras.
* $p$: número de características (features).

El parámetro $\lambda$ es clave:

* Si $\lambda = 0$, el modelo se comporta como una regresión lineal normal.
* Si $\lambda$ aumenta, más coeficientes tienden a reducirse a cero.

---

## ¿Qué es la “matriz de Lasso”?

En sentido estricto, no existe una matriz especial llamada “matriz de Lasso”.
Lo que sí se utiliza en el entrenamiento es:

1. **La matriz de características (X):** contiene los datos de entrada, de tamaño $(n \times p)$.
2. **El vector de salida (y):** contiene los valores que se quieren predecir.
3. **El modelo Lasso:** que encuentra los coeficientes $\beta$ resolviendo un problema de optimización regularizado.

Por lo tanto, cuando se habla de la “matriz de Lasso”, normalmente se hace referencia de forma informal a la **matriz de diseño (X)**, que es la base para ajustar el modelo.

---

## Ventajas de Lasso

* Realiza **selección automática de variables**, eliminando aquellas menos relevantes.
* Produce modelos más simples y fáciles de interpretar.
* Ayuda a **controlar el sobreajuste**, especialmente cuando hay muchas variables o cuando algunas están muy correlacionadas.

---

## Cuándo usar Lasso

* Cuando se sospecha que muchas variables no aportan información útil.
* Cuando se busca un modelo con menos variables y más fácil de interpretar.
* En casos con **más características que observaciones**, o cuando existe **multicolinealidad** entre las variables.


In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn import metrics
import warnings
warnings.simplefilter(action='ignore', category=Warning)

In [4]:
#df = pd.read_csv(r"./datasets/car_data.csv")
df= pd.read_csv(r'https://docs.google.com/spreadsheets/d/e/2PACX-1vR29whDmIIZPFVH2yRZ8DlenGuO-esZmjGBPpKMo-1lhA3JLpaA9SrlGTiKvUSyFRsYC6_h_dQQqe4q/pub?gid=0&single=true&output=csv')
df_raw = df.copy()
df.head()

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner
0,ritz,2014,3.35,5.59,27000,Petrol,Dealer,Manual,0
1,sx4,2013,4.75,9.54,43000,Diesel,Dealer,Manual,0
2,ciaz,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0
3,wagon r,2011,2.85,4.15,5200,Petrol,Dealer,Manual,0
4,swift,2014,4.6,6.87,42450,Diesel,Dealer,Manual,0


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 301 entries, 0 to 300
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Car_Name       301 non-null    object 
 1   Year           301 non-null    int64  
 2   Selling_Price  301 non-null    float64
 3   Present_Price  301 non-null    float64
 4   Kms_Driven     301 non-null    int64  
 5   Fuel_Type      301 non-null    object 
 6   Seller_Type    301 non-null    object 
 7   Transmission   301 non-null    object 
 8   Owner          301 non-null    int64  
dtypes: float64(2), int64(3), object(4)
memory usage: 21.3+ KB


In [6]:
print(df.Fuel_Type.value_counts())
print(df.Seller_Type.value_counts())
print(df.Transmission.value_counts())

Fuel_Type
Petrol    239
Diesel     60
CNG         2
Name: count, dtype: int64
Seller_Type
Dealer        195
Individual    106
Name: count, dtype: int64
Transmission
Manual       261
Automatic     40
Name: count, dtype: int64


In [None]:
# encoding "Fuel_Type" Column
df.replace({'Fuel_Type':{'Petrol':0,'Diesel':1,'CNG':2}},inplace=True)

# encoding "Seller_Type" Column
df.replace({'Seller_Type':{'Dealer':0,'Individual':1}},inplace=True)

# encoding "Transmission" Column
df.replace({'Transmission':{'Manual':0,'Automatic':1}},inplace=True)

In [None]:
df.head()

In [None]:
X = df.drop(['Car_Name','Selling_Price'],axis=1)
Y = df['Selling_Price']

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.1, random_state=2)


stats OLS

In [None]:
import statsmodels.api as sm

X_intercepto = sm.add_constant(X_train)  # Intercepto + variables numéricas
model_sm = sm.OLS(Y_train.astype(float), X_intercepto).fit()  # Asegurar que 'y' también sea float


In [None]:
print(model_sm.summary())

## Trainning -> Regression Lineal

In [None]:
lin_reg_model = LinearRegression()

In [None]:
lin_reg_model.fit(X_train,Y_train)

In [None]:
training_data_prediction = lin_reg_model.predict(X_train)

In [None]:
error_score = metrics.r2_score(Y_train, training_data_prediction)
print("R squared Error : ", error_score)

In [None]:
plt.scatter(Y_train, training_data_prediction)
plt.xlabel("Precio Real")
plt.ylabel("Precio Predicho")
plt.title("Precios Reales vs Precios Predichos")
plt.show()

## Testing -> Regresion Lineal

In [None]:
test_data_prediction = lin_reg_model.predict(X_test)


In [None]:
error_score = metrics.r2_score(Y_test, test_data_prediction)
print("R squared Error : ", error_score)

In [None]:
plt.scatter(Y_test, test_data_prediction)
plt.xlabel("Precio Real")
plt.ylabel("Precio Predicho")
plt.title("Precios Reales vs Precios Predichos")
plt.show()

In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from scipy import stats

def regression_summary(model, X, y, feature_names=None):
    """
    Genera un resumen tipo statsmodels para modelos lineales de scikit-learn.
    """
    # Predicciones
    y_pred = model.predict(X)

    # Número de observaciones y variables
    n = X.shape[0]
    p = X.shape[1]

    # Error residual
    residuals = y - y_pred
    RSS = np.sum(residuals ** 2)
    MSE = RSS / (n - p - 1)

    # Matriz de diseño (agregamos intercepto)
    X_design = np.column_stack([np.ones(n), X])

    # Varianza de los coeficientes
    var_beta = MSE * np.linalg.inv(X_design.T @ X_design).diagonal()
    std_err = np.sqrt(var_beta)

    # Coeficientes (incluyendo intercepto)
    coef = np.insert(model.coef_, 0, model.intercept_)

    # Estadístico t y p-values
    t_stats = coef / std_err
    p_values = [2 * (1 - stats.t.cdf(np.abs(t), df=n - p - 1)) for t in t_stats]

    # Intervalos de confianza
    conf_int_low = coef - 1.96 * std_err
    conf_int_high = coef + 1.96 * std_err

    # Nombres de las variables
    if feature_names is None:
        feature_names = [f"x{i}" for i in range(1, p + 1)]
    feature_names = ["Intercept"] + feature_names

    # Construir DataFrame resumen
    summary_df = pd.DataFrame({
        "Coef": coef,
        "Std Err": std_err,
        "t": t_stats,
        "P>|t|": p_values,
        "[0.025": conf_int_low,
        "0.975]": conf_int_high
    }, index=feature_names)

    # R² y métricas globales
    r2 = r2_score(y, y_pred)
    rmse = np.sqrt(mean_squared_error(y, y_pred))

    print("\nResumen de Regresión")
    print("============================================")
    print(f"Observaciones: {n}")
    print(f"Variables: {p}")
    print(f"R²: {r2:.4f}")
    print(f"RMSE: {rmse:.4f}")
    print(summary_df)


In [None]:
regression_summary(lin_reg_model, X_train, Y_train, feature_names=X.columns.tolist())

## Lasso

In [None]:
lass_reg_model = Lasso()


In [None]:
lass_reg_model.fit(X_train,Y_train)


In [None]:
training_data_prediction = lass_reg_model.predict(X_train)

In [None]:
error_score = metrics.r2_score(Y_train, training_data_prediction)
print("R squared Error : ", error_score)

In [None]:
plt.scatter(Y_train, training_data_prediction)
plt.xlabel("Precio Real")
plt.ylabel("Precio Predicho")
plt.title("Precios Reales vs Precios Predichos")
plt.show()

In [None]:
test_data_prediction = lass_reg_model.predict(X_test)


In [None]:

error_score = metrics.r2_score(Y_test, test_data_prediction)
print("R squared Error : ", error_score)

In [None]:
plt.scatter(Y_test, test_data_prediction)
plt.xlabel("Precio Real")
plt.ylabel("Precio Predicho")
plt.title("Precios Reales vs Precios Predichos")
plt.show()

In [None]:
regression_summary(lass_reg_model, X_train, Y_train, feature_names=X.columns.tolist())

##  **Modelo 1: Regresión Lineal**

* **R² = 0.8799** → el modelo explica \~88% de la variabilidad en el precio.
* **RMSE = 1.8053** → error promedio bastante bajo.
* Todas las variables (excepto quizás `Kms_Driven` y `Owner`) tienen **coeficientes distintos de cero** y con cierta significancia estadística.
* `Fuel_Type`, `Seller_Type`, `Transmission` y `Owner` parecen aportar algo de información.

---

##  **Modelo 2: Lasso**

* **R² = 0.8428** → explica un poco menos (\~84%).
* **RMSE = 2.0659** → el error es un poco mayor.
* Muchos coeficientes quedaron en **cero exacto**:

  * `Fuel_Type`, `Seller_Type`, `Transmission`, `Owner` fueron eliminados.
* En la práctica, Lasso se quedó con lo “esencial”: `Year`, `Present_Price`, y (en menor medida) `Kms_Driven`.

---

##  **¿Cuál conviene?**

Depende del objetivo:

1. **Si querés máxima capacidad predictiva (menor error):**
   → Te conviene la **Regresión Lineal OLS** (porque tiene mejor R² y menor RMSE).

2. **Si querés simplicidad e interpretabilidad (modelo más “limpio” con menos variables):**
   → Te conviene el **Lasso**, porque elimina automáticamente variables con poco aporte.

3. **Si hay riesgo de sobreajuste (overfitting):**

   * OLS puede sobreajustar si tenés muchas variables correlacionadas.
   * Lasso reduce ese riesgo al forzar algunos coeficientes a cero.

---

## Recomendación práctica

* Probá con **validación cruzada** (`cross_val_score` en `scikit-learn`) para medir el desempeño real fuera de la muestra.
* Si la diferencia de error entre OLS y Lasso no es grande, **quédate con Lasso**, porque el modelo es más sencillo y generaliza mejor.
* Si necesitás máxima precisión en tu dataset actual y no te importa la complejidad, **quédate con OLS**.