In [30]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar el estilo de las gráficas
plt.style.use('seaborn-v0_8')  # Usar el estilo específico de seaborn
sns.set_theme(style="whitegrid")  # Configurar el tema de seaborn

In [31]:
# Celda 2: Carga de datos
try:
    df = pd.read_csv('/home/marast/Documentos/1UNIVALLE/7 SEMESTRE/ICD/Impact-of-Screen-Time-on-Mental-Health/data/digital_diet_mental_health.csv')
    print("Datos cargados exitosamente")
    print(f"\nDimensiones del dataset: {df.shape}")
    df.head()
except FileNotFoundError:
    print("Error: No se encontró el archivo de datos. Asegúrate de que la ruta sea correcta.")
except Exception as e:
    print(f"Error al cargar los datos: {str(e)}")

Datos cargados exitosamente

Dimensiones del dataset: (2000, 25)


In [32]:
#Preparación de datos
try:
    # Verificar que las columnas objetivo existan
    target_columns = ['anxiety_score', 'depression_score', 'insomnia_score', 'ocd_score']
    missing_columns = [col for col in target_columns if col not in df.columns]
    
    if missing_columns:
        print(f"Error: Las siguientes columnas objetivo no existen: {missing_columns}")
    else:
        X = df.drop(target_columns, axis=1)
        y = df[target_columns]
        
        # Dividir los datos en conjuntos de entrenamiento y prueba
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
        
        print(f"\nDimensiones de los conjuntos de datos:")
        print(f"X_train: {X_train.shape}")
        print(f"X_test: {X_test.shape}")
        print(f"y_train: {y_train.shape}")
        print(f"y_test: {y_test.shape}")
except Exception as e:
    print(f"Error en la preparación de datos: {str(e)}")


Error: Las siguientes columnas objetivo no existen: ['anxiety_score', 'depression_score', 'insomnia_score', 'ocd_score']


In [33]:
# Celda 4: Entrenamiento del modelo
try:
    # Inicializar el modelo con parámetros optimizados
    rf_model = RandomForestRegressor(
        n_estimators=100,
        max_depth=None,
        min_samples_split=2,
        min_samples_leaf=1,
        random_state=42,
        n_jobs=-1  # Usar todos los núcleos disponibles
    )
    
    # Entrenar el modelo
    rf_model.fit(X_train, y_train)
    print("Modelo entrenado exitosamente")
    
    # Realizar predicciones
    y_pred = rf_model.predict(X_test)
    print("Predicciones realizadas exitosamente")
except Exception as e:
    print(f"Error en el entrenamiento del modelo: {str(e)}")

Error en el entrenamiento del modelo: name 'X_train' is not defined


In [34]:
# Celda 5: Evaluación del modelo
def evaluate_model(y_true, y_pred, target_names):
    results = {}
    for i, target in enumerate(target_names):
        mse = mean_squared_error(y_true[:, i], y_pred[:, i])
        r2 = r2_score(y_true[:, i], y_pred[:, i])
        results[target] = {'MSE': mse, 'R2': r2}
    return results

try:
    target_names = ['anxiety_score', 'depression_score', 'insomnia_score', 'ocd_score']
    evaluation_results = evaluate_model(y_test.values, y_pred, target_names)
    
    print("\nResultados de la evaluación:")
    for target, metrics in evaluation_results.items():
        print(f"\n{target}:")
        print(f"MSE: {metrics['MSE']:.4f}")
        print(f"R2: {metrics['R2']:.4f}")
except Exception as e:
    print(f"Error en la evaluación del modelo: {str(e)}")


Error en la evaluación del modelo: name 'y_test' is not defined


In [35]:
# Celda 6: Visualización
try:
    feature_importance = pd.DataFrame({
        'feature': X.columns,
        'importance': rf_model.feature_importances_
    })
    feature_importance = feature_importance.sort_values('importance', ascending=False)
    
    plt.figure(figsize=(12, 6))
    sns.barplot(x='importance', y='feature', data=feature_importance.head(10))
    plt.title('Top 10 Características más Importantes')
    plt.xlabel('Importancia')
    plt.ylabel('Característica')
    plt.tight_layout()
    plt.show()
    
    # Mostrar las características más importantes en formato tabular
    print("\nTop 10 características más importantes:")
    print(feature_importance.head(10).to_string(index=False))
except Exception as e:
    print(f"Error en la visualización: {str(e)}")


Error en la visualización: name 'X' is not defined


In [36]:
# Celda 7: Guardar el modelo
try:
    import joblib
    joblib.dump(rf_model, 'models/random_forest_model.joblib')
    print("Modelo guardado exitosamente en 'models/random_forest_model.joblib'")
except Exception as e:
    print(f"Error al guardar el modelo: {str(e)}")

Error al guardar el modelo: [Errno 2] No such file or directory: 'models/random_forest_model.joblib'
