## Regresi√≥n lineal supervisada:

### 1. **Regresi√≥n Lineal Simple**

* **Qu√© es**: Relaciona una sola variable independiente $X$ con la variable dependiente $y$.
  Ejemplo: predecir el precio de una casa usando √∫nicamente los metros cuadrados.
* **Cu√°ndo usarla**:

  * Si tienes **una √∫nica feature**.
  * Cuando quieras interpretar f√°cilmente la pendiente e intercepto.
* **Afectaci√≥n por outliers**: Muy sensible üö®, porque un valor extremo puede ‚Äúinclinar‚Äù la recta hacia √©l.

---

### 2. **Regresi√≥n Lineal M√∫ltiple**

* **Qu√© es**: Usa varias variables independientes para explicar el target.
  Ejemplo: predecir el precio de una casa usando metros cuadrados, n√∫mero de habitaciones, ubicaci√≥n, etc.
* **Cu√°ndo usarla**:

  * Cuando el fen√≥meno depende de **varios factores**.
  * Si quieres un modelo m√°s explicativo y no solo predictivo.
* **Afectaci√≥n por outliers**: Tambi√©n sensible üö®, ya que los valores extremos en alguna variable pueden distorsionar los coeficientes.

---

### 3. **Regresi√≥n Ridge (L2 Regularization)**

* **Qu√© es**: Variante de la lineal m√∫ltiple con una penalizaci√≥n al tama√±o de los coeficientes ($\lambda \sum \beta^2$).
* **Cu√°ndo usarla**:

  * Si tienes **muchas variables** y riesgo de *multicolinealidad*.
  * Cuando quieres evitar sobreajuste.
* **Afectaci√≥n por outliers**: Sigue siendo sensible üö®, aunque la regularizaci√≥n reduce un poco el impacto.

---

### 4. **Regresi√≥n Lasso (L1 Regularization)**

* **Qu√© es**: Similar a Ridge, pero la penalizaci√≥n es la suma de los valores absolutos ($\lambda \sum |\beta|$). Esto hace que algunos coeficientes puedan ser exactamente **0** ‚Üí selecciona variables.
* **Cu√°ndo usarla**:

  * Cuando quieres hacer **selecci√≥n de features**.
  * √ötil si sospechas que solo algunas variables son realmente importantes.
* **Afectaci√≥n por outliers**: A√∫n sensible, pero algo m√°s robusta que la lineal simple/m√∫ltiple.

---

### 5. **Regresi√≥n Elastic Net**

* **Qu√© es**: Combinaci√≥n de Lasso y Ridge.
* **Cu√°ndo usarla**:

  * Cuando tienes **muchas variables correlacionadas** y adem√°s quieres **selecci√≥n de features**.
  * M√°s flexible que usar solo Ridge o solo Lasso.
* **Afectaci√≥n por outliers**: Sigue siendo sensible, aunque la regularizaci√≥n ayuda a mitigar un poco el efecto.

---

### 6. **Regresi√≥n Robusta**

* **Qu√© es**: M√©todos como **RANSAC**, **Huber Regressor**, **Theil-Sen**. Est√°n dise√±ados para ser menos sensibles a los outliers.
* **Cu√°ndo usarla**:

  * Cuando sabes que en tus datos hay outliers inevitables (errores de medici√≥n, datos muy ruidosos).
  * Cuando los m√©todos lineales cl√°sicos ‚Äúse tuercen‚Äù mucho con pocos valores extremos.
* **Afectaci√≥n por outliers**: Mucho m√°s **robusta ‚úÖ**, ignoran o reducen el peso de los valores extremos.

---

## üîπ Resumen visual (qu√© usar y sensibilidad a outliers)

| Modelo                  | Cu√°ndo usarlo                                       | Sensibilidad a outliers      |
| ----------------------- | --------------------------------------------------- | ---------------------------- |
| Lineal simple           | 1 variable                                          | üö® Alta                      |
| Lineal m√∫ltiple         | Varias variables                                    | üö® Alta                      |
| Ridge                   | Evitar sobreajuste, multicolinealidad               | üö® Alta                      |
| Lasso                   | Selecci√≥n de variables                              | üö® Alta (pero algo mitigada) |
| Elastic Net             | Mix Ridge + Lasso, muchas variables correlacionadas | üö® Alta                      |
| Robusta (RANSAC, Huber) | Datos con outliers                                  | ‚úÖ Baja                       |

---

Conclusion:

* Si tu dataset est√° **limpio, sin outliers fuertes** ‚Üí usa lineal simple/m√∫ltiple o con regularizaci√≥n (Ridge, Lasso, Elastic Net).
* Si tu dataset **tiene outliers inevitables** ‚Üí considera **RANSAC, Huber o Theil-Sen**.


---


## Vamos a hacer un ejemplo de regresion simple con LASSO

# An√°lisis de Autos Usados

## ¬øQu√© es Lasso?

**Lasso (Least Absolute Shrinkage and Selection Operator)** es una t√©cnica de regularizaci√≥n utilizada en modelos de regresi√≥n lineal. Su principal objetivo es **prevenir el sobreajuste** (*overfitting*) y **mejorar la interpretabilidad** del modelo, ya que puede reducir algunos coeficientes exactamente a cero. Esto permite que el modelo use solo las variables m√°s relevantes.

---

## ¬øEn qu√© consiste?

Lasso agrega una penalizaci√≥n basada en la suma de los valores absolutos de los coeficientes al t√©rmino de p√©rdida del modelo.

La funci√≥n de costo se expresa de la siguiente manera:

$$
\text{Costo}_{Lasso} = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{p}|\beta_j|
$$

Donde:

* $y_i$: valor real.
* $\hat{y}_i$: valor predicho.
* $\beta_j$: coeficientes del modelo.
* $\lambda$: par√°metro de regularizaci√≥n (controla la penalizaci√≥n).
* $n$: n√∫mero de muestras.
* $p$: n√∫mero de caracter√≠sticas (features).

El par√°metro $\lambda$ es clave:

* Si $\lambda = 0$, el modelo se comporta como una regresi√≥n lineal normal.
* Si $\lambda$ aumenta, m√°s coeficientes tienden a reducirse a cero.

---

## ¬øQu√© es la ‚Äúmatriz de Lasso‚Äù?

En sentido estricto, no existe una matriz especial llamada ‚Äúmatriz de Lasso‚Äù.
Lo que s√≠ se utiliza en el entrenamiento es:

1. **La matriz de caracter√≠sticas (X):** contiene los datos de entrada, de tama√±o $(n \times p)$.
2. **El vector de salida (y):** contiene los valores que se quieren predecir.
3. **El modelo Lasso:** que encuentra los coeficientes $\beta$ resolviendo un problema de optimizaci√≥n regularizado.

Por lo tanto, cuando se habla de la ‚Äúmatriz de Lasso‚Äù, normalmente se hace referencia de forma informal a la **matriz de dise√±o (X)**, que es la base para ajustar el modelo.

---

## Ventajas de Lasso

* Realiza **selecci√≥n autom√°tica de variables**, eliminando aquellas menos relevantes.
* Produce modelos m√°s simples y f√°ciles de interpretar.
* Ayuda a **controlar el sobreajuste**, especialmente cuando hay muchas variables o cuando algunas est√°n muy correlacionadas.

---

## Cu√°ndo usar Lasso

* Cuando se sospecha que muchas variables no aportan informaci√≥n √∫til.
* Cuando se busca un modelo con menos variables y m√°s f√°cil de interpretar.
* En casos con **m√°s caracter√≠sticas que observaciones**, o cuando existe **multicolinealidad** entre las variables.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn import metrics
import warnings
warnings.simplefilter(action='ignore', category=Warning)

In [None]:
df = pd.read_csv(r"./datasets/car_data.csv")
df_raw = df.copy()
df.head()

In [None]:
df.info()

In [None]:
print(df.Fuel_Type.value_counts())
print(df.Seller_Type.value_counts())
print(df.Transmission.value_counts())

In [None]:
# encoding "Fuel_Type" Column
df.replace({'Fuel_Type':{'Petrol':0,'Diesel':1,'CNG':2}},inplace=True)

# encoding "Seller_Type" Column
df.replace({'Seller_Type':{'Dealer':0,'Individual':1}},inplace=True)

# encoding "Transmission" Column
df.replace({'Transmission':{'Manual':0,'Automatic':1}},inplace=True)

In [None]:
df.head()

In [None]:
X = df.drop(['Car_Name','Selling_Price'],axis=1)
Y = df['Selling_Price']

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.1, random_state=2)


stats OLS

In [None]:
import statsmodels.api as sm

X_intercepto = sm.add_constant(X_train)  # Intercepto + variables num√©ricas
model_sm = sm.OLS(Y_train.astype(float), X_intercepto).fit()  # Asegurar que 'y' tambi√©n sea float


In [None]:
print(model_sm.summary())

## Trainning -> Regression Lineal

In [None]:
lin_reg_model = LinearRegression()

In [None]:
lin_reg_model.fit(X_train,Y_train)

In [None]:
training_data_prediction = lin_reg_model.predict(X_train)

In [None]:
error_score = metrics.r2_score(Y_train, training_data_prediction)
print("R squared Error : ", error_score)

In [None]:
plt.scatter(Y_train, training_data_prediction)
plt.xlabel("Precio Real")
plt.ylabel("Precio Predicho")
plt.title("Precios Reales vs Precios Predichos")
plt.show()

## Testing -> Regresion Lineal

In [None]:
test_data_prediction = lin_reg_model.predict(X_test)


In [None]:
error_score = metrics.r2_score(Y_test, test_data_prediction)
print("R squared Error : ", error_score)

In [None]:
plt.scatter(Y_test, test_data_prediction)
plt.xlabel("Precio Real")
plt.ylabel("Precio Predicho")
plt.title("Precios Reales vs Precios Predichos")
plt.show()

In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from scipy import stats

def regression_summary(model, X, y, feature_names=None):
    """
    Genera un resumen tipo statsmodels para modelos lineales de scikit-learn.
    """
    # Predicciones
    y_pred = model.predict(X)
    
    # N√∫mero de observaciones y variables
    n = X.shape[0]
    p = X.shape[1]
    
    # Error residual
    residuals = y - y_pred
    RSS = np.sum(residuals ** 2)
    MSE = RSS / (n - p - 1)
    
    # Matriz de dise√±o (agregamos intercepto)
    X_design = np.column_stack([np.ones(n), X])
    
    # Varianza de los coeficientes
    var_beta = MSE * np.linalg.inv(X_design.T @ X_design).diagonal()
    std_err = np.sqrt(var_beta)
    
    # Coeficientes (incluyendo intercepto)
    coef = np.insert(model.coef_, 0, model.intercept_)
    
    # Estad√≠stico t y p-values
    t_stats = coef / std_err
    p_values = [2 * (1 - stats.t.cdf(np.abs(t), df=n - p - 1)) for t in t_stats]
    
    # Intervalos de confianza
    conf_int_low = coef - 1.96 * std_err
    conf_int_high = coef + 1.96 * std_err
    
    # Nombres de las variables
    if feature_names is None:
        feature_names = [f"x{i}" for i in range(1, p + 1)]
    feature_names = ["Intercept"] + feature_names
    
    # Construir DataFrame resumen
    summary_df = pd.DataFrame({
        "Coef": coef,
        "Std Err": std_err,
        "t": t_stats,
        "P>|t|": p_values,
        "[0.025": conf_int_low,
        "0.975]": conf_int_high
    }, index=feature_names)
    
    # R¬≤ y m√©tricas globales
    r2 = r2_score(y, y_pred)
    rmse = np.sqrt(mean_squared_error(y, y_pred))
    
    print("\nResumen de Regresi√≥n")
    print("============================================")
    print(f"Observaciones: {n}")
    print(f"Variables: {p}")
    print(f"R¬≤: {r2:.4f}")
    print(f"RMSE: {rmse:.4f}")
    print(summary_df)
    

In [None]:
regression_summary(lin_reg_model, X_train, Y_train, feature_names=X.columns.tolist())

## Lasso

In [None]:
lass_reg_model = Lasso()


In [None]:
lass_reg_model.fit(X_train,Y_train)


In [None]:
training_data_prediction = lass_reg_model.predict(X_train)

In [None]:
error_score = metrics.r2_score(Y_train, training_data_prediction)
print("R squared Error : ", error_score)

In [None]:
plt.scatter(Y_train, training_data_prediction)
plt.xlabel("Precio Real")
plt.ylabel("Precio Predicho")
plt.title("Precios Reales vs Precios Predichos")
plt.show()

In [None]:
test_data_prediction = lass_reg_model.predict(X_test)


In [None]:

error_score = metrics.r2_score(Y_test, test_data_prediction)
print("R squared Error : ", error_score)

In [None]:
plt.scatter(Y_test, test_data_prediction)
plt.xlabel("Precio Real")
plt.ylabel("Precio Predicho")
plt.title("Precios Reales vs Precios Predichos")
plt.show()

In [None]:
regression_summary(lass_reg_model, X_train, Y_train, feature_names=X.columns.tolist())

##  **Modelo 1: Regresi√≥n Lineal**

* **R¬≤ = 0.8799** ‚Üí el modelo explica \~88% de la variabilidad en el precio.
* **RMSE = 1.8053** ‚Üí error promedio bastante bajo.
* Todas las variables (excepto quiz√°s `Kms_Driven` y `Owner`) tienen **coeficientes distintos de cero** y con cierta significancia estad√≠stica.
* `Fuel_Type`, `Seller_Type`, `Transmission` y `Owner` parecen aportar algo de informaci√≥n.

---

##  **Modelo 2: Lasso**

* **R¬≤ = 0.8428** ‚Üí explica un poco menos (\~84%).
* **RMSE = 2.0659** ‚Üí el error es un poco mayor.
* Muchos coeficientes quedaron en **cero exacto**:

  * `Fuel_Type`, `Seller_Type`, `Transmission`, `Owner` fueron eliminados.
* En la pr√°ctica, Lasso se qued√≥ con lo ‚Äúesencial‚Äù: `Year`, `Present_Price`, y (en menor medida) `Kms_Driven`.

---

##  **¬øCu√°l conviene?**

Depende del objetivo:

1. **Si quer√©s m√°xima capacidad predictiva (menor error):**
   ‚Üí Te conviene la **Regresi√≥n Lineal OLS** (porque tiene mejor R¬≤ y menor RMSE).

2. **Si quer√©s simplicidad e interpretabilidad (modelo m√°s ‚Äúlimpio‚Äù con menos variables):**
   ‚Üí Te conviene el **Lasso**, porque elimina autom√°ticamente variables con poco aporte.

3. **Si hay riesgo de sobreajuste (overfitting):**

   * OLS puede sobreajustar si ten√©s muchas variables correlacionadas.
   * Lasso reduce ese riesgo al forzar algunos coeficientes a cero.

---

## Recomendaci√≥n pr√°ctica

* Prob√° con **validaci√≥n cruzada** (`cross_val_score` en `scikit-learn`) para medir el desempe√±o real fuera de la muestra.
* Si la diferencia de error entre OLS y Lasso no es grande, **qu√©date con Lasso**, porque el modelo es m√°s sencillo y generaliza mejor.
* Si necesit√°s m√°xima precisi√≥n en tu dataset actual y no te importa la complejidad, **qu√©date con OLS**.