## **Taller 1. Comparte tu pregunta SMART**

### **Contexto del problema.** 
La deserción estudiantil es un problema crítico en el sector educativo, afectando tanto a instituciones educativas como a los propios estudiantes. Los altos **índices de deserción** tienen consecuencias negativas significativas a corto, mediano y largo plazo, incluyendo la pérdida de talento potencial, disminución de la reputación institucional, y un *impacto financiero negativo en el flujo de caja* tanto para las instituciones como para los estudiantes y sus familias. En muchas universidades y colegios, **la tasa de deserción** puede superar el 30%, lo que refleja una necesidad urgente de abordar esta problemática de manera efectiva

Las causas de la deserción son multifactoriales abarcando aspectos académicos, personales, sociales, económicos, comportamentales, asi como la **identificación tardía de este fenómeno**, por lo tanto, y para este caso de estudio, la *identificación temprana de estudiantes en riesgo de deserción* es fundamental para activar estrategias que permitan su permanencia y finalización exitosa de su proceso de formación

### **¿Cómo se puede solucionar?** 
Este caso es posible trabajarlo entrenando un *modelo de ML de aprendizaje supervisado que permita la identificación temprana de aquellos estudiantes con riesgo de deserción*, lo cuál servirá para activar estrategias preventivas.

Tecnicamente, este modelo se categoriza como un modelo de clasificación (Regresión Logística, K-Nearest Neighbors -Knn, Árbol de decisión, SVM, Naive Bayes) y será entrenado con datos que caractericen diferentes aspectos de estudiantes que han pasado por el sistema educativo, lo que permitirá identificar patrones y factores de riesgo asociados a la deserción, por lo tanto, para impactar el indicador (**la tasa de deserción**) es necesario:

1. Contar con la voluntad y autorización de las partes involucradas (Instituciones académicas, entes gubernamentales, nucleo familiar, estudiantes) 
2. Acceso a las bases de datos o
3. Levantamiento de información 
4. Extracción y limpieza de datos
5. Exploración y Análisis de los datos
6. Selección de features - Transformación (encoding, normalización, estandarización)
7. Entrenamiento de modelos de clasificación
8. Evaluación del rendimiento de los modelos
9. Despliegue en local
10. Generación de alertas tempranas de nuevos registros direccionando a tomadores de decisión

### **Indicador a impactar**

**Efectividad de la predicción de deserción estudiantil**

*Nota: Actualmente este indicador no existe, por lo tanto, se supone en 0%*

Predecir la deserción estudiantil con una efectividad de al menos el 70% de los casos en las Instituciones Educativas del Dpto para el próximo periodo académico

### **¿Por qué se puede solucionar con Ciencia de Datos?**
Porque el problema de la deserción está influenciado por una combinación de los factores descritos en el contexto, y la ciencia de datos permite analizar grandes volúmenes de datos de diversas fuentes lo que permite analizar patrones y correlaciones complejas que no son tan evidentes, por otro lado, los modelos predictivos permiten anticipar aquellos estudiantes que tienen alto riesgo de abandonar sus estudios lo que le facilitaría a las instuticiones activar estrategias antes de que este fenomeno se presente.

### **Tipos de datos a usar para solucionar el problema**
Se podrán usar datos de diferentes tipos, desde los datos almacenados de manera estructurada como los cualitativos (nominales, categóricos y binarios), hasta los cuantitativos (discretos y contínuos), además, podrán usarse datos no estructurados como estructuras de texto, videos e imagenes que sean compartidos por diferentes medios (este último en avances posteriores)

A continuación se presentan los datos a usar:

1. Datos demográficos-personal:(edad, género, grupo étnico, nivel de educación de los padres)

2. Datos de aspectos académicos:(horas de estudio por semana, inasistencias, asistencia a tutorías, apoyo de padres, actividades extracurriculares, práctica de deportes, participación en actividades musicales, participación en voluntariados, Promedio de notas, Estado del estudiante)

A continuación se presentan otros datos que **no están contemplados en el estudio y que enriquecerían el análisis en avances posteriores**: 

Datos personales (tipo de id, estado civil, Número de hijos, ocupación, cant de personas a cargo, país-ciudad-comuna de residencia, zona de residencia, sistema de salud, participación de algun programa social, cant de integrantes del núcleo familiar, parentezco de custodio/responsable, estrato socieconómico, tipo de residencia, ingresos promedios familiares, nivel educativo del custodio/responsable, ocupación de los padres, ocupación del custodio/responsable, estado civil de los padres, estado civil del custodio/responsable, cant de herman@s, nivel educativo de los herman@s, Distribución de los gastos familiares, prom mensual de ingresos personales, prom mensual de gastos personales, religión, No de computadores en casa, acceso a internet, acceso a cable, acceso a smartphone, gama del smartphone, idiomas hablados, idiomas hablados por el custodio/responsable, medio de transporte usado, tipo de medio de transporte) Datos sociales (cant de amigos, prom de encuentros sociales al mes, hobbies, frecuencia de practica de deporte, redes sociales usadas, prom de minutos diarios en redes sociales por tipo, cant de publicaciones diarias en redes por tipo) Datos de aspectos académicos: (prom de rendimiento académico por nivel de estudio, prom de calificaciones por área, calificaciones individuales por asignatura, uso de servicios de apoyo academico, participación en órganos colegiados, evaluación de actividades extracurriculares, frecuencia de acceso a recursos educativos, indicadores de intercambios, frecuencia de participación en clase, participacion en conferencias/seminarios/otros, resultado global y por competencias en pruebas de estado, Número y tipo de instituciones educativas en las que ha estudiado, horario de preferencia para estudiar)

### **Técnica a usar (tentativa)**
Modelo de aprendizaje supervisado de clasificación (Regresión Logística, K-Nearest Neighbors -Knn, Árbol de decisión, SVM, Naive Bayes)

### **Pregunta SMART**
¿Es posible predecir la deserción estudiantil en las Instuticiones Educativas del Departamento para el próximo periodo, usando datos demográficos y académicos con una efectividad de al menos el 70%?

Ref. dataset tomado de: https://www.kaggle.com/datasets/rabieelkharoua/students-performance-dataset