# Actividad 07 - Arboles de regresión

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score
import numpy as np

data = pd.read_csv('Advertising.csv')
data.info()

# Definir características (X) y objetivo (y)
X = data[['TV', 'radio', 'newspaper']]
y = data['sales']

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  200 non-null    int64  
 1   TV          200 non-null    float64
 2   radio       200 non-null    float64
 3   newspaper   200 non-null    float64
 4   sales       200 non-null    float64
dtypes: float64(4), int64(1)
memory usage: 7.9 KB


## Modelos (Benchmark)

### Regresión lineal


In [2]:
lin_reg_full = LinearRegression()
lin_reg_full.fit(X, y)
y_pred_lin_full = lin_reg_full.predict(X)
r2_lin_full = r2_score(y, y_pred_lin_full)

print(f"R2 (Regresión Lineal, Full Dataset): {r2_lin_full:.4f}")

R2 (Regresión Lineal, Full Dataset): 0.8972


El modelo de regresión lineal logra explicar aproximadamente el 89.72 % de la variabilidad de la variable dependiente a partir de las variables independientes del conjunto completo de datos.

### 2. Arbol de decisión


Usaremos  `max_depth` bajo para evitar sobreajuste.

In [3]:
dt_reg_full = DecisionTreeRegressor(random_state=42)
dt_reg_full.fit(X, y)
y_pred_dt_full = dt_reg_full.predict(X)
r2_dt_full = r2_score(y, y_pred_dt_full)

print(f"R2 (Árbol de Decisión, Full Dataset): {r2_dt_full:.4f}")

R2 (Árbol de Decisión, Full Dataset): 1.0000


Explica el 100 % de la variabilidad de la variable dependiente en el conjunto de datos completo. Esto suele indicar un sobreajuste (overfitting), ya que el árbol probablemente se adaptó perfectamente a los datos de entrenamiento, capturando incluso el ruido.

### 3. Visualizacion y comparaciones


In [4]:
import pandas as pd

# Crear DataFrame con los resultados
r2_results = pd.DataFrame({
    'Modelo': ['Regresión Lineal', 'Árbol de Decisión'],
    'R2 Score': [r2_lin_full, r2_dt_full]
})

# Imprimir tabla de comparación
print("\n--- Tabla de Comparación de R2 (Full Dataset) ---")
print(r2_results.to_string(index=False))



--- Tabla de Comparación de R2 (Full Dataset) ---
           Modelo  R2 Score
 Regresión Lineal  0.897211
Árbol de Decisión  1.000000


En conclusión, aunque el árbol parece más preciso en el dataset completo, el modelo de regresión lineal es más confiable y generalizable.
La Regresión Lineal obtuvo un R² de 0.8972, mostrando un buen ajuste y siendo adecuada para relaciones lineales o convexas. En cambio, el Árbol de Decisión alcanzó un R² de 1.0000, lo que indica un posible sobreajuste, ya que se adapta perfectamente al conjunto de entrenamiento pero pierde capacidad de generalización. Además, este modelo no es apropiado cuando la relación es convexa, pues divide los datos en regiones discretas y no sigue la forma continua de la función.

## Modelos con Train-Test Split

### 4. Division Train-Test (random_state=42)
Vamos a dividir4 los datos usando 80/20


In [5]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

#### Regresion Lineal con Split num 4

In [6]:
lin_reg_split = LinearRegression()
lin_reg_split.fit(X_train, y_train)

r2_lin_train = lin_reg_split.score(X_train, y_train)
r2_lin_test = lin_reg_split.score(X_test, y_test)

print(f"R2 (Regresión Lineal, TRAIN): {r2_lin_train:.4f}")
print(f"R2 (Regresión Lineal, TEST): {r2_lin_test:.4f}")

R2 (Regresión Lineal, TRAIN): 0.8957
R2 (Regresión Lineal, TEST): 0.8994


Los valores de R² = 0.8957 (train) y R² = 0.8994 (test) muestran que el modelo de Regresión Lineal tiene un desempeño muy similar en ambos conjuntos, lo que indica un buen equilibrio entre ajuste y generalización. Además, con valores cercanos al 0.90, el modelo explica casi el 90 % de la variabilidad de la variable dependiente, sin señales de sobreajuste.

#### Arbol de Decision con Split num 4

In [7]:
dt_reg_split = DecisionTreeRegressor(random_state=42)
dt_reg_split.fit(X_train, y_train)


r2_dt_train = dt_reg_split.score(X_train, y_train)
r2_dt_test = dt_reg_split.score(X_test, y_test)

print(f"R2 (Árbol de Decisión, TRAIN): {r2_dt_train:.4f}")
print(f"R2 (Árbol de Decisión, TEST): {r2_dt_test:.4f}")

R2 (Árbol de Decisión, TRAIN): 1.0000
R2 (Árbol de Decisión, TEST): 0.9311


El modelo de Árbol de Decisión obtuvo un R² de 1.0000 en entrenamiento, lo que indica que aprendió perfectamente los datos del conjunto de train, y un valor distinto en test (por lo general menor), lo que evidencia sobreajuste (overfitting). Esto significa que el modelo memoriza los datos en lugar de generalizar patrones, por lo que su desempeño real en nuevos datos sería menos confiable. Además, este tipo de modelo no es adecuado para relaciones convexas o continuas, ya que divide el espacio en regiones discretas.

#### Visualizacion y comparacion de los resultados num 4

In [9]:
import pandas as pd

# 1. Definir los resultados del Paso 4 
results = {
    'Modelo': ['Reg. Lineal', 'Reg. Lineal', 'Árbol Dec.', 'Árbol Dec.'],
    'Tipo R2': ['Train', 'Test', 'Train', 'Test'],
    'R2 Score': [0.8957, 0.8994, 1.0000, 0.9311]
}

# 2. Crear el DataFrame con los resultados
r2_df = pd.DataFrame(results)

# 3. Mostrar la tabla de comparación
print("\n--- Comparación de R²: Regresión Lineal vs. Árbol de Decisión (Train-Test Split) ---")
print(r2_df.to_string(index=False))



--- Comparación de R²: Regresión Lineal vs. Árbol de Decisión (Train-Test Split) ---
     Modelo Tipo R2  R2 Score
Reg. Lineal   Train    0.8957
Reg. Lineal    Test    0.8994
 Árbol Dec.   Train    1.0000
 Árbol Dec.    Test    0.9311


Los resultados muestran que la Regresión Lineal tiene valores de R² muy similares en train (0.8957) y test (0.8994), lo que indica un modelo estable y bien generalizado. En cambio, el Árbol de Decisión alcanza un R² perfecto en entrenamiento (1.0000) pero ligeramente menor en prueba (0.9311), lo que sugiere un leve sobreajuste, ya que el modelo se ajusta casi por completo a los datos de entrenamiento. Además, al tratarse de una relación convexa y continua, la regresión lineal resulta más apropiada, mientras que los árboles tienden a perder suavidad al dividir el espacio en regiones discretas.

## Con Caracteristicas Polinomicas (Degree=2)
Incluimos ingenieria de caracteristicas para ver si se mejora el rendimiento

### 5. Transformacion Polinomica


In [10]:
poly = PolynomialFeatures(degree=2, include_bias=False)

# Aplicar a los datos originales
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

print(poly.get_feature_names_out(X.columns))

['TV' 'radio' 'newspaper' 'TV^2' 'TV radio' 'TV newspaper' 'radio^2'
 'radio newspaper' 'newspaper^2']


#### Regresion Lineal con Polinomiales num 5

In [11]:
lin_reg_poly = LinearRegression()
lin_reg_poly.fit(X_train_poly, y_train)

r2_lin_poly_train = lin_reg_poly.score(X_train_poly, y_train)
r2_lin_poly_test = lin_reg_poly.score(X_test_poly, y_test)

print(f"R2 (Regresión Lineal Polinomial, TRAIN): {r2_lin_poly_train:.4f}")
print(f"R2 (Regresión Lineal Polinomial, TEST): {r2_lin_poly_test:.4f}")

R2 (Regresión Lineal Polinomial, TRAIN): 0.9861
R2 (Regresión Lineal Polinomial, TEST): 0.9869


Los valores de R² = 0.9861 (train) y R² = 0.9869 (test) indican que el modelo de Regresión Lineal Polinomial logra un excelente ajuste en ambos conjuntos, explicando casi el 99 % de la variabilidad de la variable dependiente. Como los resultados son muy similares entre entrenamiento y prueba, el modelo no muestra señales de sobreajuste y logra capturar correctamente la relación no lineal (convexa) entre las variables.

#### Arbol de Decision con Polinomiales num 5

In [12]:
dt_reg_poly = DecisionTreeRegressor(random_state=42)
dt_reg_poly.fit(X_train_poly, y_train)

r2_dt_poly_train = dt_reg_poly.score(X_train_poly, y_train)
r2_dt_poly_test = dt_reg_poly.score(X_test_poly, y_test)

print(f"R2 (Árbol de Decisión Polinomial, TRAIN): {r2_dt_poly_train:.4f}")
print(f"R2 (Árbol de Decisión Polinomial, TEST): {r2_dt_poly_test:.4f}")

R2 (Árbol de Decisión Polinomial, TRAIN): 1.0000
R2 (Árbol de Decisión Polinomial, TEST): 0.9486


El modelo de Árbol de Decisión Polinomial obtuvo un R² de 1.0000 en entrenamiento y 0.9486 en prueba, lo que indica que se ajusta perfectamente a los datos de entrenamiento pero presenta una ligera pérdida de desempeño al generalizar, reflejando un cierto sobreajuste. Además, este tipo de modelo no es ideal para relaciones convexas o continuas, ya que divide el espacio en regiones discretas y no sigue la forma suave de la función polinomial.

#### Visualizacion y comparacion de resultados num 5

In [13]:
import pandas as pd

# Resultados del Paso 4 (Simple) y Paso 5 (Polinomial)
results = {
    'Modelo': [
        'Reg. Lineal (Simple)', 'Reg. Lineal (Simple)', 
        'Árbol Dec. (Simple)', 'Árbol Dec. (Simple)',
        'Reg. Lineal (Poly)', 'Reg. Lineal (Poly)', 
        'Árbol Dec. (Poly)', 'Árbol Dec. (Poly)'
    ],
    'Tipo R2': ['Train', 'Test', 'Train', 'Test', 'Train', 'Test', 'Train', 'Test'],
    'R2 Score': [
        0.8957, 0.8994,   # Reg. Lineal Simple
        1.0000, 0.9311,   # Árbol Dec. Simple
        0.9861, 0.9869,   # Reg. Lineal Polinomial
        1.0000, 0.9486    # Árbol Dec. Polinomial
    ]
}

# Crear DataFrame
r2_df = pd.DataFrame(results)

# Mostrar la tabla de comparación
print("\n--- Comparación de R²: Impacto del Overfitting y Características Polinomiales ---")
print(r2_df.to_string(index=False))



--- Comparación de R²: Impacto del Overfitting y Características Polinomiales ---
              Modelo Tipo R2  R2 Score
Reg. Lineal (Simple)   Train    0.8957
Reg. Lineal (Simple)    Test    0.8994
 Árbol Dec. (Simple)   Train    1.0000
 Árbol Dec. (Simple)    Test    0.9311
  Reg. Lineal (Poly)   Train    0.9861
  Reg. Lineal (Poly)    Test    0.9869
   Árbol Dec. (Poly)   Train    1.0000
   Árbol Dec. (Poly)    Test    0.9486


Los resultados muestran que la Regresión Lineal Simple mantiene valores de R² muy parecidos entre entrenamiento (0.8957) y prueba (0.8994), lo que refleja estabilidad y buena generalización. En el caso del Árbol de Decisión Simple, el R² perfecto en train (1.0000) y menor en test (0.9311) evidencian sobreajuste. Al incorporar términos polinomiales, la Regresión Lineal Polinomial mejora notablemente su desempeño (R² ≈ 0.99 en ambos conjuntos), ajustándose muy bien sin perder generalización. En cambio, el Árbol de Decisión Polinomial, aunque mantiene un R² alto (1.0000 train, 0.9486 test), sigue mostrando sobreajuste y no es adecuado para relaciones convexas o continuas, donde la regresión polinomial resulta más apropiada.