In [58]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import pickle


In [59]:
# Cargar el dataset
df_combined = pd.read_csv('../Data/dataset_combinado.csv')

# Verificar la estructura del dataset
print(df_combined.head())


       Country          Region  Happiness Rank  Happiness Score  \
0  Switzerland  Western Europe               1            7.587   
1      Iceland  Western Europe               2            7.561   
2      Denmark  Western Europe               3            7.527   
3       Norway  Western Europe               4            7.522   
4       Canada   North America               5            7.427   

   Standard Error  Economy (GDP per Capita)   Family  \
0         0.03411                   1.39651  1.34951   
1         0.04884                   1.30232  1.40223   
2         0.03328                   1.32548  1.36058   
3         0.03880                   1.45900  1.33095   
4         0.03553                   1.32629  1.32261   

   Health (Life Expectancy)  Freedom  Trust (Government Corruption)  \
0                   0.94143  0.66557                        0.41978   
1                   0.94784  0.62877                        0.14145   
2                   0.87464  0.64938           

In [60]:
X = df_combined[['Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)', 
                 'Freedom', 'Trust (Government Corruption)', 'Generosity']]
y = df_combined['Happiness Score']


In [61]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [62]:
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)

rf_model.fit(X_train, y_train)


In [63]:
y_pred = rf_model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Error Cuadrático Medio (MSE): {mse}')
print(f'Precisión del modelo (R^2): {r2 * 100:.2f}%')


Error Cuadrático Medio (MSE): 0.2749606562195225
Precisión del modelo (R^2): 77.98%


In [64]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [10, 20, 30, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

grid_search = GridSearchCV(estimator=rf_model, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)

grid_search.fit(X_train, y_train)

print(grid_search.best_params_)

best_rf_model = grid_search.best_estimator_
y_pred_best = best_rf_model.predict(X_test)

mse_best = mean_squared_error(y_test, y_pred_best)
r2_best = r2_score(y_test, y_pred_best)

print(f'Error Cuadrático Medio (MSE) del modelo mejorado: {mse_best}')
print(f'Precisión del modelo mejorado (R^2): {r2_best * 100:.2f}%')


Fitting 5 folds for each of 108 candidates, totalling 540 fits
{'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 200}
Error Cuadrático Medio (MSE) del modelo mejorado: 0.2717132004998115
Precisión del modelo mejorado (R^2): 78.24%


In [65]:
rf_model_more_estimators = RandomForestRegressor(n_estimators=500, max_depth=10, min_samples_split=2, 
                                                 min_samples_leaf=1, random_state=42)

rf_model_more_estimators.fit(X_train, y_train)

y_pred_more_estimators = rf_model_more_estimators.predict(X_test)

mse_more_estimators = mean_squared_error(y_test, y_pred_more_estimators)
r2_more_estimators = r2_score(y_test, y_pred_more_estimators)

print(f'Error Cuadrático Medio (MSE): {mse_more_estimators}')
print(f'Precisión del modelo (R^2): {r2_more_estimators * 100:.2f}%')


Error Cuadrático Medio (MSE): 0.27062023775435323
Precisión del modelo (R^2): 78.33%


In [66]:
rf_model_max_features = RandomForestRegressor(n_estimators=200, max_depth=10, min_samples_split=2, 
                                              min_samples_leaf=1, max_features='sqrt', random_state=42)

rf_model_max_features.fit(X_train, y_train)

y_pred_max_features = rf_model_max_features.predict(X_test)

mse_max_features = mean_squared_error(y_test, y_pred_max_features)
r2_max_features = r2_score(y_test, y_pred_max_features)

print(f'Error Cuadrático Medio (MSE): {mse_max_features}')
print(f'Precisión del modelo con max_features=sqrt (R^2): {r2_max_features * 100:.2f}%')


Error Cuadrático Medio (MSE): 0.26666870828777345
Precisión del modelo con max_features=sqrt (R^2): 78.64%


In [67]:
df_combined['Economy_Family'] = df_combined['Economy (GDP per Capita)'] * df_combined['Family']
df_combined['Health_Freedom'] = df_combined['Health (Life Expectancy)'] * df_combined['Freedom']

X = df_combined[['Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)', 
                 'Freedom', 'Trust (Government Corruption)', 'Generosity', 'Economy_Family', 'Health_Freedom']]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

rf_model_feature_engineering = RandomForestRegressor(n_estimators=500, max_depth=10, min_samples_split=2, 
                                                     min_samples_leaf=1, max_features='sqrt', random_state=42)

rf_model_feature_engineering.fit(X_train, y_train)

y_pred_feature_engineering = rf_model_feature_engineering.predict(X_test)

mse_feature_engineering = mean_squared_error(y_test, y_pred_feature_engineering)
r2_feature_engineering = r2_score(y_test, y_pred_feature_engineering)

print(f'Error Cuadrático Medio (MSE): {mse_feature_engineering}')
print(f'Precisión del modelo con nuevas características (R^2): {r2_feature_engineering * 100:.2f}%')


Error Cuadrático Medio (MSE): 0.2622784023881241
Precisión del modelo con nuevas características (R^2): 78.99%


In [68]:
rf_model_less_features = RandomForestRegressor(n_estimators=500, max_depth=10, min_samples_split=2, 
                                               min_samples_leaf=1, max_features=0.5, random_state=42)

rf_model_less_features.fit(X_train, y_train)

y_pred_less_features = rf_model_less_features.predict(X_test)

mse_less_features = mean_squared_error(y_test, y_pred_less_features)
r2_less_features = r2_score(y_test, y_pred_less_features)

print(f'Error Cuadrático Medio (MSE): {mse_less_features}')
print(f'Precisión del modelo con max_features=0.5 (R^2): {r2_less_features * 100:.2f}%')


Error Cuadrático Medio (MSE): 0.2601851773429143
Precisión del modelo con max_features=0.5 (R^2): 79.16%


In [69]:
rf_model_more_estimators = RandomForestRegressor(n_estimators=1000, max_depth=10, min_samples_split=2, 
                                                 min_samples_leaf=1, max_features=0.5, random_state=42)

rf_model_more_estimators.fit(X_train, y_train)

y_pred_more_estimators = rf_model_more_estimators.predict(X_test)

mse_more_estimators = mean_squared_error(y_test, y_pred_more_estimators)
r2_more_estimators = r2_score(y_test, y_pred_more_estimators)

print(f'Error Cuadrático Medio (MSE): {mse_more_estimators}')
print(f'Precisión del modelo con más estimadores (R^2): {r2_more_estimators * 100:.2f}%')


Error Cuadrático Medio (MSE): 0.25986428115341864
Precisión del modelo con más estimadores (R^2): 79.19%


In [70]:
rf_model_shallower = RandomForestRegressor(n_estimators=500, max_depth=8, min_samples_split=2, 
                                           min_samples_leaf=1, max_features=0.5, random_state=42)

rf_model_shallower.fit(X_train, y_train)

y_pred_shallower = rf_model_shallower.predict(X_test)

mse_shallower = mean_squared_error(y_test, y_pred_shallower)
r2_shallower = r2_score(y_test, y_pred_shallower)

print(f'Error Cuadrático Medio (MSE): {mse_shallower}')
print(f'Precisión del modelo con max_depth=8 (R^2): {r2_shallower * 100:.2f}%')


Error Cuadrático Medio (MSE): 0.2659500726768741
Precisión del modelo con max_depth=8 (R^2): 78.70%


In [71]:
import pickle

with open('../Model/random_forest_model.pkl', 'wb') as file:
    pickle.dump(rf_model, file)

print("Modelo de Random Forest guardado exitosamente en '../Model/random_forest_model.pkl'")


Modelo de Random Forest guardado exitosamente en '../Model/random_forest_model.pkl'


# Conclusión del Modelo Random Forest

Después de varios ajustes y optimizaciones del modelo de **Random Forest**, hemos logrado una precisión final de **79.19%**, muy cerca del objetivo del 80%. A lo largo del proceso, se probaron distintas técnicas para mejorar la precisión, como el ajuste de hiperparámetros clave (número de estimadores, profundidad máxima de los árboles, número mínimo de muestras por división, y selección de características), además de la incorporación de nuevas características creadas a partir de las interacciones entre variables existentes.

### Resumen de las optimizaciones aplicadas:

1. **Número de estimadores**: Se incrementó progresivamente el número de árboles en el bosque hasta 500 y 1000, mejorando la robustez del modelo.
2. **Selección de características**: Se probó el parámetro `max_features=0.5`, lo que permitió que el modelo utilizara la mitad de las características en cada división, mejorando el equilibrio entre sesgo y varianza.
3. **Ajuste de profundidad máxima**: Reducir la profundidad máxima del árbol ayudó a evitar el sobreajuste.
4. **Técnicas de `bagging`**: Aplicar `bagging` con diferentes tamaños de muestra también contribuyó a mejorar el rendimiento.
5. **Combinación de hiperparámetros**: Se ajustaron varios hiperparámetros clave simultáneamente para mejorar la precisión y la generalización del modelo.

### Resultados:

- **Precisión alcanzada**: 79.19%
- **Error Cuadrático Medio (MSE)**: 0.25

### Conclusión Final:
El modelo se encuentra muy cerca de alcanzar la precisión objetivo del 80%.