# Proyecto 06 – Sistema Predictivo de Abandono en Formación Multisectorial

Este notebook aplica análisis exploratorio y modelos de predicción de abandono sobre datos educativos en distintos sectores: universitario, corporativo y subvencionado.

## 1. Carga y Exploración de Datos

In [3]:
import pandas as pd

df = pd.read_csv("dataset_formacion_multisectorial.csv")
df.head()

ModuleNotFoundError: No module named 'pandas'

## 2. Análisis Descriptivo General

In [None]:
df['sector'].value_counts()

## 3. Preparación de Datos para el Modelo

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

features = ['edad', 'progreso_percent', 'dias_inactivo', 'interacciones', 'evaluaciones_completadas', 'tiempo_total_horas', 'n_sesiones']
X = df[features]
y = df['abandono']

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

## 4. Entrenamiento del Modelo de Predicción

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

## 5. Conclusiones y Próximos Pasos

Este modelo permite anticipar el abandono de alumnos en distintas plataformas de formación. Se puede mejorar con datos temporales y alertas en tiempo real para intervenciones proactivas.