**Lista de Ejercicios 3** 


Grupo:
1. Mayra Gavilán (20131530)
2. Milagros Meza (20120186)
3. Paola Cordova (20130365)
4. Serghi Arista (20125341)

**Pregunta 1**

Brinde una explicación detallada del algoritmo que se utiliza para implementar un Árbol de Regresión.

**1) División de los datos**

El algoritmo comienza con todos los datos en un nodo raíz y busca la característica (o variable) que mejor divide los datos en subconjuntos más homogéneos en términos de la variable de respuesta (el valor que estamos tratando de predecir).

**2) Criterio de división**

Para determinar la mejor característica de división, se utiliza un criterio de impureza como el error cuadrático medio (MSE), que mide la dispersión de los valores de la variable de respuesta en un nodo. Se calcula la reducción en la impureza (o la ganancia en la pureza) que se obtiene al dividir los datos según una característica específica.

**3) División recursiva**

Una vez que se selecciona la mejor característica de división, los datos se dividen en dos o más subconjuntos en función de los valores de esa característica. Este proceso se repite recursivamente en cada subconjunto hasta que se alcanza un criterio de parada, como una profundidad máxima del árbol, un número mínimo de muestras en cada nodo hoja o una impureza mínima.

**4) Predicción**

Una vez construido el árbol, para hacer una predicción para una nueva observación, se sigue el árbol desde la raíz hasta llegar a una hoja, y se predice el valor promedio de las observaciones de entrenamiento en esa hoja.

**5) Regularización**

Para evitar el sobreajuste (overfitting), se pueden aplicar técnicas de regularización como la poda del árbol (eliminación de nodos innecesarios), la limitación de la profundidad máxima del árbol o la especificación de un número mínimo de muestras requeridas para dividir un nodo.

**Pregunta 3**

In [1]:
# Importar bibliotecas necesarias
import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor, BaggingRegressor
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, accuracy_score

# Cargar conjunto de datos de diabetes
diabetes = load_diabetes()
X = diabetes.data
y = diabetes.target

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizar los datos (solo para modelos lineales)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Inicializar modelos
boosting_model = GradientBoostingRegressor(random_state=42)
bagging_model = BaggingRegressor(random_state=42)
random_forest_model = RandomForestRegressor(random_state=42)
linear_regression_model = LinearRegression()
logistic_regression_model = LogisticRegression(max_iter=1000)

# Entrenar modelos
boosting_model.fit(X_train, y_train)
bagging_model.fit(X_train, y_train)
random_forest_model.fit(X_train, y_train)
linear_regression_model.fit(X_train_scaled, y_train)
logistic_regression_model.fit(X_train_scaled, y_train)

# Evaluar modelos
boosting_pred = boosting_model.predict(X_test)
bagging_pred = bagging_model.predict(X_test)
random_forest_pred = random_forest_model.predict(X_test)
linear_regression_pred = linear_regression_model.predict(X_test_scaled)
logistic_regression_pred = logistic_regression_model.predict(X_test_scaled)

# Calcular métricas de desempeño
boosting_rmse = np.sqrt(mean_squared_error(y_test, boosting_pred))
bagging_rmse = np.sqrt(mean_squared_error(y_test, bagging_pred))
random_forest_rmse = np.sqrt(mean_squared_error(y_test, random_forest_pred))
linear_regression_rmse = np.sqrt(mean_squared_error(y_test, linear_regression_pred))
logistic_regression_accuracy = accuracy_score(y_test, logistic_regression_pred)

# Imprimir resultados
print("Desempeño de los modelos:")
print("------------------------------------")
print(f"Boosting RMSE: {boosting_rmse}")
print(f"Bagging RMSE: {bagging_rmse}")
print(f"Random Forest RMSE: {random_forest_rmse}")
print(f"Regresión Lineal RMSE: {linear_regression_rmse}")
print(f"Regresión Logística Accuracy: {logistic_regression_accuracy}")


Desempeño de los modelos:
------------------------------------
Boosting RMSE: 53.837130987019755
Bagging RMSE: 57.06979759691468
Random Forest RMSE: 54.332408273184846
Regresión Lineal RMSE: 53.85344583676593
Regresión Logística Accuracy: 0.0


In [2]:
# Importar GridSearchCV
from sklearn.model_selection import GridSearchCV

# Definir lista de modelos y sus hiperparámetros
models = [
    {
        'name': 'Boosting',
        'model': GradientBoostingRegressor(),
        'params': {
            'n_estimators': [50, 100, 150],
            'learning_rate': [0.01, 0.1, 0.5],
            'max_depth': [3, 5, 7]
        }
    },
    {
        'name': 'Bagging',
        'model': BaggingRegressor(),
        'params': {
            'n_estimators': [10, 50, 100],
            'max_samples': [0.5, 1.0],
            'max_features': [0.5, 1.0]
        }
    },
    {
        'name': 'Random Forest',
        'model': RandomForestRegressor(),
        'params': {
            'n_estimators': [50, 100, 150],
            'max_depth': [None, 5, 10],
            'min_samples_split': [2, 5, 10]
        }
    },
    {
        'name': 'Linear Regression',
        'model': LinearRegression(),
        'params': {}
    },
    {
        'name': 'Logistic Regression',
        'model': LogisticRegression(max_iter=1000),
        'params': {'C': [0.1, 1, 10]}
    }
]

# List to store results
results = []

# Iterate over models
for model_info in models:
    model_name = model_info['name']
    model = model_info['model']
    params = model_info['params']

    # Apply GridSearchCV
    grid = GridSearchCV(model, params, cv=5, scoring='neg_mean_squared_error', return_train_score=True)
    grid.fit(X_train, y_train)

    # Get best model
    best_model = grid.best_estimator_

    # Predict on test set
    y_pred = best_model.predict(X_test)

    # Calculate metrics
    mse = mean_squared_error(y_test, y_pred)
    r2 = best_model.score(X_test, y_test)

    # Store results
    results.append({
        'Model': model_name,
        'MSE': round(mse, 3),
        'R Squared': round(r2, 3),
        'Best Params': grid.best_params_
    })

# Print results
print("Results:")
print("------------------------------------")
for result in results:
    print(result)




Results:
------------------------------------
{'Model': 'Boosting', 'MSE': 2836.864, 'R Squared': 0.465, 'Best Params': {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 50}}
{'Model': 'Bagging', 'MSE': 2810.76, 'R Squared': 0.469, 'Best Params': {'max_features': 1.0, 'max_samples': 0.5, 'n_estimators': 100}}
{'Model': 'Random Forest', 'MSE': 2869.245, 'R Squared': 0.458, 'Best Params': {'max_depth': 5, 'min_samples_split': 2, 'n_estimators': 150}}
{'Model': 'Linear Regression', 'MSE': 2900.194, 'R Squared': 0.453, 'Best Params': {}}
{'Model': 'Logistic Regression', 'MSE': 5705.472, 'R Squared': 0.0, 'Best Params': {'C': 10}}


In [3]:
import pandas as pd

# Crear DataFrame con los resultados
df_results = pd.DataFrame(results)
# Ordenar por R cuadrado de manera descendente
df_results = df_results.sort_values(by='R Squared', ascending=False)
# Restablecer el índice
df_results = df_results.reset_index(drop=True)
# Eliminar la columna 'Best Params'
df_results.drop(columns='Best Params', inplace=True)

# Imprimir DataFrame de resultados
print("Results:")
print(df_results)

Results:
                 Model       MSE  R Squared
0              Bagging  2810.760      0.469
1             Boosting  2836.864      0.465
2        Random Forest  2869.245      0.458
3    Linear Regression  2900.194      0.453
4  Logistic Regression  5705.472      0.000


In [4]:
# Importar bibliotecas necesarias
import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor, BaggingRegressor
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, accuracy_score

# Cargar conjunto de datos de diabetes
diabetes = load_diabetes()
X = diabetes.data
y = diabetes.target

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizar los datos (solo para modelos lineales)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Inicializar modelos
models = [
    ('Boosting', GradientBoostingRegressor(random_state=42)),
    ('Bagging', BaggingRegressor(random_state=42)),
    ('Random Forest', RandomForestRegressor(random_state=42)),
    ('Linear Regression', LinearRegression()),
    ('Logistic Regression', LogisticRegression(max_iter=1000))
]

# Almacenar resultados en un diccionario
results = []
for name, model in models:
    model.fit(X_train, y_train)
    if name == 'Logistic Regression':
        y_pred = model.predict(X_test_scaled)
        accuracy = accuracy_score(y_test, y_pred)
        results.append({'Model': name, 'Score': accuracy})
    else:
        y_pred = model.predict(X_test)
        rmse = np.sqrt(mean_squared_error(y_test, y_pred))
        results.append({'Model': name, 'Score': rmse})

# Crear DataFrame con los resultados
df_results = pd.DataFrame(results)

# Imprimir DataFrame de resultados
print("Desempeño de los modelos:")
print(df_results)

Desempeño de los modelos:
                 Model      Score
0             Boosting  53.837131
1              Bagging  57.069798
2        Random Forest  54.332408
3    Linear Regression  53.853446
4  Logistic Regression   0.000000


In [5]:
# Importar bibliotecas necesarias
import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor, BaggingRegressor
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, accuracy_score, r2_score

# Cargar conjunto de datos de diabetes
diabetes = load_diabetes()
X = diabetes.data
y = diabetes.target

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizar los datos (solo para modelos lineales)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Inicializar modelos
models = [
    ('Boosting', GradientBoostingRegressor(random_state=42)),
    ('Bagging', BaggingRegressor(random_state=42)),
    ('Random Forest', RandomForestRegressor(random_state=42)),
    ('Linear Regression', LinearRegression()),
    ('Logistic Regression', LogisticRegression(max_iter=1000))
]

# Almacenar resultados en un diccionario
results = []
for name, model in models:
    model.fit(X_train, y_train)
    if name == 'Logistic Regression':
        y_pred = model.predict(X_test_scaled)
        accuracy = accuracy_score(y_test, y_pred)
        results.append({'Model': name, 'RMSE': np.nan, 'Accuracy': accuracy, 'R Squared': np.nan})
    else:
        y_pred = model.predict(X_test)
        rmse = np.sqrt(mean_squared_error(y_test, y_pred))
        r2 = r2_score(y_test, y_pred)
        results.append({'Model': name, 'RMSE': rmse, 'Accuracy': np.nan, 'R Squared': r2})

# Crear DataFrame con los resultados
df_results = pd.DataFrame(results)

# Imprimir DataFrame de resultados
print("Desempeño de los modelos:")
print(df_results)

Desempeño de los modelos:
                 Model       RMSE  Accuracy  R Squared
0             Boosting  53.837131       NaN   0.452934
1              Bagging  57.069798       NaN   0.385265
2        Random Forest  54.332408       NaN   0.442823
3    Linear Regression  53.853446       NaN   0.452603
4  Logistic Regression        NaN       0.0        NaN
