<a href="https://colab.research.google.com/github/DANCAR1969/programacion/blob/master/Modelopredictivocsv.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Modelo predictivo usando un CSV**

El código realiza un análisis predictivo para detectar casos de depresión en estudiantes utilizando un modelo de clasificación basado en Random Forest. Incluye pasos clave como: carga y limpieza de datos, codificación de variables categóricas, normalización de características, división de datos en conjuntos de entrenamiento y prueba, entrenamiento del modelo y evaluación de su rendimiento.

In [None]:

# Importar librerías necesarias
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
import os

# Verificar si el archivo existe
ruta_archivo = r"C:\Users\danie\OneDrive\Documentos\student_depression_dataset.csv" #"C:\Users\danie\Student Depression Dataset.csv"

if os.path.isfile(ruta_archivo):
    # Cargar archivo CSV
    data = pd.read_csv(ruta_archivo)
    print("Primeras filas del archivo cargado:\n")
    print(data.head())

    # Limpieza de datos
    # Eliminar filas con valores nulos
    data.dropna(inplace=True)

    # Codificación de variables categóricas
    categorical_columns = ['Gender', 'City', 'Profession', 'Sleep Duration',
                           'Dietary Habits', 'Degree', 'Have you ever had suicidal thoughts ?',
                           'Family History of Mental Illness']

    # Aplicar codificación a las columnas categóricas
    label_encoders = {}
    for col in categorical_columns:
        le = LabelEncoder()
        data[col] = le.fit_transform(data[col])
        label_encoders[col] = le

    # Normalización de características numéricas
    numerical_columns = ['Age', 'Academic Pressure', 'Work Pressure', 'CGPA',
                         'Study Satisfaction', 'Job Satisfaction', 'Work/Study Hours',
                         'Financial Stress']
    scaler = MinMaxScaler()
    data[numerical_columns] = scaler.fit_transform(data[numerical_columns])

    # Separar características y variable objetivo
    X = data.drop('Depression', axis=1)
    y = data['Depression']

    # Dividir datos en conjuntos de entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    # Crear y entrenar el modelo predictivo
    model = RandomForestClassifier(random_state=42)
    model.fit(X_train, y_train)

    # Realizar predicciones
    y_pred = model.predict(X_test)

    # Evaluar el modelo
    accuracy = accuracy_score(y_test, y_pred)
    report = classification_report(y_test, y_pred, target_names=['No Depression', 'Depression'])

    # Mostrar resultados
    print(f"Precisión del modelo: {accuracy:.2%}")
    print("\nReporte de clasificación:\n")
    print(report)
else:
    print(f"Error: El archivo no se encuentra en la ruta especificada: {ruta_archivo}")

Error: El archivo no se encuentra en la ruta especificada: C:\Users\danie\Student Depression Dataset.csv


Fases del Código y Explicación Detallada

1. Importación de Librerías

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
import os


Explicación:

Importa librerías necesarias para la manipulación de datos (pandas), preprocesamiento (sklearn.preprocessing), división de datos (train_test_split), creación de modelos (RandomForestClassifier), y evaluación del rendimiento (accuracy_score, classification_report).
Nos permite verificar si el archivo existe en una ruta específica.

2. Verificación y Carga de Datos

In [None]:
ruta_archivo = "C:/Users/danie/Student Depression Dataset.csv"

if os.path.isfile(ruta_archivo):
    data = pd.read_csv(ruta_archivo)
    print("Primeras filas del archivo cargado:\n")
    print(data.head())
else:
    print(f"Error: El archivo no se encuentra en la ruta especificada: {ruta_archivo}")


Explicación:

Comprueba si el archivo existe en la ruta especificada.
Si existe, lo carga como un DataFrame data usando pd.read_csv.
Muestra las primeras filas para verificar la carga correcta.
Si no encuentra el archivo, muestra un mensaje de error.

3. Limpieza de Datos

In [None]:
data.dropna(inplace=True)

Explicación:

Elimina filas que contienen valores nulos para evitar errores durante el entrenamiento.

4. Codificación de Variables Categóricas

In [None]:
categorical_columns = ['Gender', 'City', 'Profession', 'Sleep Duration',
                       'Dietary Habits', 'Degree', 'Have you ever had suicidal thoughts ?',
                       'Family History of Mental Illness']

label_encoders = {}
for col in categorical_columns:
    le = LabelEncoder()
    data[col] = le.fit_transform(data[col])
    label_encoders[col] = le


Explicación:

Define columnas categóricas.
Usa LabelEncoder para transformar estas columnas en valores numéricos.
Almacena cada codificador en label_encoders para referencia futura.

5. Normalización de Características Numéricas

In [None]:
numerical_columns = ['Age', 'Academic Pressure', 'Work Pressure', 'CGPA',
                     'Study Satisfaction', 'Job Satisfaction', 'Work/Study Hours',
                     'Financial Stress']
scaler = MinMaxScaler()
data[numerical_columns] = scaler.fit_transform(data[numerical_columns])


Explicación:

Define columnas numéricas que necesitan ser escaladas.
Utiliza MinMaxScaler para escalar los valores a un rango de 0 a 1, mejorando el rendimiento del modelo.

6. Preparación de Datos

In [None]:
X = data.drop('Depression', axis=1)
y = data['Depression']

Explicación:

Separa las características (X) eliminando la columna Depression.
Define la variable objetivo (y) como la columna Depression.

7. División de Datos

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


Explicación:

Divide los datos en conjuntos de entrenamiento (70%) y prueba (30%) utilizando train_test_split.
Utiliza random_state=42 para garantizar resultados reproducibles.

8. Creación y Entrenamiento del Modelo

In [None]:
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)


Explicación:

Crea un modelo RandomForestClassifier.
Entrena el modelo usando fit() con los datos de entrenamiento.

9. Predicción

In [None]:
y_pred = model.predict(X_test)


Explicación:

Realiza predicciones en el conjunto de prueba utilizando predict().

10. Evaluación del Modelo

In [None]:
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=['No Depression', 'Depression'])


Explicación:

Calcula la precisión utilizando accuracy_score.
Genera un informe de clasificación detallado usando classification_report.

11. Visualización de Resultados

In [None]:
print(f"Precisión del modelo: {accuracy:.2%}")
print("\nReporte de clasificación:\n")
print(report)


Explicación:

Muestra la precisión del modelo en porcentaje.
Imprime el informe de clasificación con métricas como precisión, recall y F1-score.
Resumen Final
El código sigue un flujo estructurado de ciencia de datos que incluye:

Carga y Verificación de Datos: Asegura que el archivo está disponible y cargado correctamente.
Limpieza de Datos: Elimina datos faltantes para asegurar datos consistentes.
Preprocesamiento: Codifica variables categóricas y normaliza valores numéricos.
División de Datos: Separa los datos en conjuntos de entrenamiento y prueba.
Entrenamiento del Modelo: Crea y entrena un modelo de Random Forest.
Predicción y Evaluación: Predice y evalúa el rendimiento mediante métricas estándar.