# PROYECTO DE MACHINE LEARNING
___________________

## Hacia el Éxito o la Deserción: Predicciones sobre el Futuro Académico de los Estudiantes

Elaborado por: **Soraya Malpica Montes**

Fecha: **22/11/2024**


### **ÍNDICE**
1. [Introducción](#introducción)
2. [Descripción de los datos](#descripción-de-los-datos)
3. [Fase de procesamiento de datos](#fase-de-procesamiento-de-datos)
4. [Features Selection](#features-selection)
5. [Fase de transformacion de datos](#fase-de-transfomación-de-datos)
6. [Entrenamiento](#entrenamiento)
7. [Evaluación contra test](#evaluación-contra-test)
8. [Estrategias para mejorar la métrica](#estrategias-para-poder-mejorar-la-métrica)
9. [Predicción sobre datos nuevos](#predicción-sobre-datos-nuevos)
10. [Conclusiones](#conclusiones)

### **RESUMEN**
Este proyecto utiliza **Machine Learning** para predecir el rendimiento y la retención de estudiantes en educación superior, basado en datos del dataset [Higher Education Predictors of Student Retention](https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student-retention). 

El **objetivo principal** es *identificar patrones que influyen en el éxito estudiantil y mejorar estrategias de intervención académica*.

**Tecnologías utilizadas**: Python, Pandas, Numpy, Scikit-learn, Inbalanced-learn, Matplotlib, Seaborn...

**Resultados destacados**:

 - Mejor modelo: XGBoost (Recall del 89%)





### **INTRODUCCIÓN**
El **abandono de estudios** avanzados, ya sea en nivel de maestría, doctorado o programas especializados, tiene efectos profundos tanto en los estudiantes como en la sociedad en general. 
- A **nivel personal**, los estudiantes que abandonan sus estudios pueden enfrentar consecuencias como una menor autoestima, frustración por no alcanzar sus metas y la pérdida de oportunidades de desarrollo intelectual. Además, la falta de un título avanzado limita las oportunidades profesionales, ya que muchos campos requieren de estudios especializados para acceder a empleos de alto nivel.
- A **nivel profesional**, las instituciones educativas y las empresas pierden el potencial de contar con futuros líderes y expertos en áreas clave. Estos abandonos representan una pérdida de talento valioso para la economía y la sociedad, ya que los estudios avanzados son la puerta de entrada a la innovación, la investigación y el avance en diversas disciplinas.

Las instituciones educativas están cada vez más enfocadas en **optimizar sus recursos** para apoyar a los estudiantes en riesgo de abandonar. Esto no solo implica ofrecer recursos académicos como tutorías y programas de mentoría, sino también implementar soluciones basadas en datos que permitan predecir cuáles estudiantes enfrentan un riesgo mayor de abandono. Mediante el uso de **técnicas de aprendizaje automático**, las universidades pueden identificar patrones y factores de riesgo (como rendimiento académico, situación financiera o aspectos emocionales) que contribuyen al abandono.

Al predecir de manera temprana a los estudiantes en riesgo, las instituciones pueden intervenir de manera más efectiva, personalizando el apoyo y asignando recursos de manera estratégica. De este modo, se optimizan no solo los esfuerzos y presupuestos disponibles, sino que también se mejora la tasa de graduación, lo que impacta positivamente en la comunidad académica y en la futura fuerza laboral.




### **DESCRIPCIÓN DE LOS DATOS**
Los datos se han obtenido de [**Kaggel**](https://www.kaggle.com/datasets), en concreto en el dataset de [Higher Education Predictors of Student Retention](https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student-retention).

Estos datos, a su vez, han sido elaborados a partir de una institución de educación superior relacionado con estudiantes matriculados en diferentes carreras de pregrado, como agronomía, diseño, educación, enfermería, periodismo, administración, servicio social y tecnologías.

El dataset empleado para este proyecto dispone de una serie de características:

|Variable|Descripción|Tipo|
|--------|-----------|-------|
|`Marital status`|Estado civil del estudiante|Demográfica|
|`Application mode`|Método de aplicación utilizado por el estudiante|Académica|
|`Course`|Curso que ha tomado el estudiante|Académica|
|`Previous qualification`|Título obtenido por el estudiante antes de matricularse en la educación superior|Académica|
|`Nacionality`|Nacionalidad del estudiante|Demográfica|
|`Daytime/evening attendance`|Si el estudiante asiste a clases durante el día o la noche|Académica|
|`Displaced`|Si el estudiante ha tenido que mudarse de su lugar de origen debido a diversos motivos|Demográfica|
|`Educational special needs`|Si el estudiante tiene alguna necesidad educativa especial|Socioeconímica|
|`Debtor`|Si el estudiante es deudor|Socioeconímica|
|`Tuition fees up to date`|Si el estudiante está al día en el pago de sus cuotas de matrícula|Socioeconímica|
|`Gender`|Género del estudiante|Demográfica|
|`Scholarship holder`|Si el estudiante es becario|Socioeconímica|
|`International`|Si el estudiante es un estudiante internacional.|Demográfica|
|`Mother's qualification` y `Father's qualification`|Cualificación de la madre y del padre del estudiante|Socioeconímica|
|`Mother's occupation` y `Father's occupation` |Ocupación de la madre y del padre del estudiante|Socioeconímica|
|`Age at enrollment`|Edad del estudiante al momento de la inscripción|Demográfica|
|`Curricular units 1st/2nd sem (credited)`|Número de unidades curriculares acreditadas por el estudiante en el primer semestre/segundo semestre|Académica|
|`Curricular units 1st/2nd sem (enrolled)`|Número de unidades curriculares matriculadas por el estudiante en el primer semestre/segundo semestre|Académica|
|`Curricular units 1st/2nd sem (evaluations)`|Número de unidades curriculares evaluadas por el estudiante en el primer semestre/segundo semestre|Académica|
|`Curricular units 1st/2nd sem (approved)`|Número de unidades curriculares aprovadas por el estudiante en el primer semestre/segundo semestre|Académica|
|`Curricular units 1st/2nd sem (without evaluations)`|Número de unidades curriculares sin evaluar por el estudiante en el primer semestre/segundo semestre|Académica|
|`Curricular units 1st/2nd sem (grade)`|Calificación obtenida en las unidades curriculares del primer semestre/segundo semestre|Académica|
|`Application order`|Orden en el que el estudiante presentó la solicitud|Académica|
|`Unemployment rate`|Tasa de desempleo del país en el cual vive el estudiante|Macroeconómicas|
|`Inflation rate`|Tasa de inflación del país en el cual vive el estudiante|Macroeconómicas|
|`GDP`|PIB del país en el cual vive el estudiante|Macroeconómicas|
|`Target`| Valores que indican si se han graduado, han abandonado o únicamente están matriculados|Variable Objetivo|

Todos los valores iniciales son valores numéricos, exceptuando el **Target**, y en la misma fuente de los datos están los valores en formato de texto que corresponden a los valores numéricos para poder comprenderlos mejor y analizarlos. Incluso existe un [repositorio](https://github.com/carmelh/SQL_projects/tree/main/student_data_analysis/Datasets), donde han creado archivos de tipo `.csv` con las categorías en formato de texto y lo que corresponde cada valor numérico de esas variables categóricas.

### **FASE DE PROCESAMIENTO DE DATOS**
Como he mencionado anteriormente, todas las variables tienen un contenido numérico, exceptuando nuestro **Target**.

Realizaré un análisis de cada variable según si son categóricas, numéricas dicretas o continuas.

Detallaremos que las variables categóricas no tendrán más de **22 variables únicas** y que las cardinalidad de las variables numéricas discretas no sean mayor del **20,1%**.

|nombre_variable|tipo_sugerido|
|--------|-----------|
|`Marital status`|Categórica|
|`Application mode`|Categórica|
|`Course`|Categórica|
|`Previous qualification`|Categórica|
|`Nacionality`|Categórica|
|`Daytime/evening attendance`|Categórica|
|`Displaced`|Categórica|
|`Educational special needs`|Categórica|
|`Debtor`|Categórica|
|`Tuition fees up to date`|Categórica|
|`Gender`|Categórica|
|`Scholarship holder`|Categórica|
|`International`|Categórica|
|`Mother's qualification` y `Father's qualification`|Numérica discreta|
|`Mother's occupation` y `Father's occupation` |Numérica discreta|
|`Age at enrollment`|Numérica discreta|
|`Curricular units 1st/2nd sem (credited)`|Categórica|
|`Curricular units 1st/2nd sem (enrolled)`|Numérica discreta|
|`Curricular units 1st/2nd sem (evaluations)`|Numérica discreta|
|`Curricular units 1st sem (approved)`|Numérica discreta|
|`Curricular units 2nd sem (approved)`|Categórica|
|`Curricular units 1st/2nd sem (without evaluations)`|Categórica|
|`Curricular units 1st/2nd sem (grade)`|Numérica discreta|
|`Application order`|Categórica|
|`Unemployment rate`|Categórica|
|`Inflation rate`|Categórica|
|`GDP`|Categórica|
|`Target`| Categórica|

Hay variables como: `Application order`, `Curricular units 1st sem (credited)`, `Curricular units 1st sem (without evaluations)`, `Curricular units 2nd sem (credited)`, `Curricular units 2nd sem (approved)`, `Curricular units 2nd sem (without evaluations)`, `Unemployment rate`, `Inflation rate` y `GDP` que son datos numéricos realmente pero con muy pocos valores únicos por lo que lo consideraremos **variables numéricas**.

Además, dentro de la categorización *Numérica discreta* también se han añadido variables que son realmente categóricas ya que sus componentes únicos superan los 21 valores únicos por lo que las consideraremos como **variables categóricas**, y estas variables son: `Mother's qualification`, `Father's qualification`, `Mother's occupation`, `Father's occupation`

Por lo que la tabla definitiva quedaría de la siguiente manera:

|nombre_variable|tipo_sugerido|
|--------|-----------|
|`Marital status`|Categórica|
|`Application mode`|Categórica|
|`Course`|Categórica|
|`Previous qualification`|Categórica|
|`Nacionality`|Categórica|
|`Daytime/evening attendance`|Categórica|
|`Displaced`|Categórica|
|`Educational special needs`|Categórica|
|`Debtor`|Categórica|
|`Tuition fees up to date`|Categórica|
|`Gender`|Categórica|
|`Scholarship holder`|Categórica|
|`International`|Categórica|
|`Mother's qualification` y `Father's qualification`|Categórica|
|`Mother's occupation` y `Father's occupation` |Categórica|
|`Age at enrollment`|Numérica discreta|
|`Curricular units 1st/2nd sem (credited)`|Numérica discreta|
|`Curricular units 1st/2nd sem (enrolled)`|Numérica discreta|
|`Curricular units 1st/2nd sem (evaluations)`|Numérica discreta|
|`Curricular units 1st sem (approved)`|Numérica discreta|
|`Curricular units 2nd sem (approved)`|Numérica discreta|
|`Curricular units 1st/2nd sem (without evaluations)`|Numérica discreta|
|`Curricular units 1st/2nd sem (grade)`|Numérica discreta|
|`Application order`|Numérica discreta|
|`Unemployment rate`|Numérica discreta|
|`Inflation rate`|Numérica discreta|
|`GDP`|Numérica discreta|
|`Target`| Categórica|

#### **Tratamiento de las variables categóricas**

Las variables categóricas y binarias están representadas de forma numérica. Sin embargo, ¿qué representan estas cifras?

Para poder realizar mejor los análisis de las variables junto con el **Target**, se realizará una **transformación a la inversa** mapeando todos los valores de las variables categóricas a formato de texto. Además, transformamos aquellas que no son binarias, ya que éstas corresponden a sí o no y el valor númerico **0** corresponde a "No" y el **1** a "Sí".

Una vez transformadas realizando el mapeo, visualizamos el DataFrame con estas variables:

![df_mapeo.png](attachment:df_mapeo.png)

### **FEATURES SELECTION**
Voy a realizar varios tipos de análisis para poder elegir las mejores **Features** que estén relacionadas con el **Target** y así realizar un mejor entrenamiento.

#### **Análisis Visual**
Con este análisis se va a ver la relación, de manera gráfica, entre cada una de las variables con el **Target**.

##### **VARIABLES CATEGÓRICAS**
Dividimos en dos partes este análisis:

Primero hacemos un tipo de gráfica para aquellas que tengan **menos de 10 valores únicos**.

![analisis_visual.png](attachment:analisis_visual.png)

![analisis_visual_2.png](attachment:analisis_visual_2.png)

![analisis_visual_3.png](attachment:analisis_visual_3.png)

![analisis_visual_4.png](attachment:analisis_visual_4.png)

![analisis_visual_5.png](attachment:analisis_visual_5.png)

![analisis_visual_6.png](attachment:analisis_visual_6.png)

![analisis_visual_7.png](attachment:analisis_visual_7.png)

![analisis_visual_8.png](attachment:analisis_visual_8.png)

![analisis_visual_9.png](attachment:analisis_visual_9.png)

*Observacion*:
- `Marital status` no hay una relación significativa ya que tienen la misma proporción en todas las clases. Es decir, la gran mayoría que aprubea, abandona o está incrito es soltera.
- `Daytime/evening attendance` ocurre exactamente como la anterior, tienen la misma proporción para las tres clases, siendo la categoría prioritaria en las 3, el día.
- `Displaced` sí que hay una diferencia: Abandona más la gente que NO se ha desplazada de la que sí. En cambio, en las otras dos clases, es al revés.
- `Educational special needs` es exactamente la misma proporción en todas las clases.
- `Debtor`, no existe mucha diferencia en proporción pero sí hay un ligero incremento en los estudiantes no duedores que se graduan en relación con los que abandonan.
- `Tuition fees up to date`, la clase predominante en las 3 clases objetivo es que el estudiante SÍ esta al día con el pago de la matrícula. Sin embargom hay un incremento considerable en los estudiantes que NO van al día y que abandonan y el resto de las clases objetivo.
- `Gender`, el género femenino es la clase predominante en las 3 clases objetivo, sin embargo, en los estudiantes que abandonan es casi la misma proporción en cuanto al género. En cambio, con los esudiantes que se gradúan, el desequilibrio entre géneros es mucho mayor.
- `Sholarchip holder`, los estudiantes que no son becarios predominan en las 3 clases objetivo, pero en los que son becarios incrementa el número en los graduados con respecto a las otras dos.
- `International` son las mismas proporciones en las 3 clases.

Ahora analizaremos aquellas que tengan más de **10 valores únicos** de la siguiente forma para que se puedan visualizar de la mejor forma posible:

![analisis_visual_10.png](attachment:analisis_visual_10.png)

![analisis_visual_11.png](attachment:analisis_visual_11.png)

![analisis_visual_12.png](attachment:analisis_visual_12.png)

![analisis_visual_13.png](attachment:analisis_visual_13.png)

![analisis_visual_14.png](attachment:analisis_visual_14.png)

![analisis_visual_15.png](attachment:analisis_visual_15.png)

![analisis_visual_16.png](attachment:analisis_visual_16.png)

![analisis_visual_18.png](attachment:analisis_visual_18.png)

*Observaciones*:
- `Application mode`, aunque predomina más los estudiantes que han accedido mediante la 1ª fase: contingente general, donde sube de manera importante en los graduados, hay diferencias con, por ejemplo, los estudiantes que han accedido mediante el régimen mayores de 23, donde hay más abandono en esta categoría con respexto a otros. 
-`Course`, hay ligeras diferencias en proporición teniendo picos considerables en la categoría de enfermería
- `Previous qualification`, es más o menos la misma proporción de categorías en las 3 clases objetivo.
- `Nacionality`, es más o menos la misma proporción de categorías en las 3 clases objetivo.
- `Mother's quaification`, tienen más o menos la misma proporición con un ligero despunte en las madres que tienen el *2º ciclo del bachillerato general*, ya que sube un poco en abandoo y graduados con respecto a los que únicamente están inscritos. 
- `Father's qualification`, parecido a la variable anterior pero, esta vez, despuntan la categoría *Desconocida* en los abandonos. 
- `Mother's occupation`, la categoría predominante en las 3 clases es *Trabajadores no cualificados*, teniendo un importante incremento en graduados. Hay despuntes en *Estudiante* y en *Representantes del poder legislativo y cuerpos ejecutivos, directores*
- `Father's occupation`, ocurre los mismo que en el anterior.

##### **VARIABLES NUMÉRICAS**
Ahora se realizará la relación de las variables numéricas con el target mediante histogramas y su KDE para seleccionar aquellas que se observen que tienen más relevancia.

![analisis_visual_19.png](attachment:analisis_visual_19.png)

![analisis_visual_20.png](attachment:analisis_visual_20.png)

![analisis_visual_21.png](attachment:analisis_visual_21.png)

![analisis_visual_22.png](attachment:analisis_visual_22.png)

![analisis_visual_23.png](attachment:analisis_visual_23.png)

![analisis_visual_24.png](attachment:analisis_visual_24.png)

![analisis_visual_25.png](attachment:analisis_visual_25.png)

![analisis_visual_26.png](attachment:analisis_visual_26.png)

![analisis_visual_27.png](attachment:analisis_visual_27.png)

![analisis_visual_28.png](attachment:analisis_visual_28.png)

![analisis_visual_29.png](attachment:analisis_visual_29.png)

![analisis_visual_30.png](attachment:analisis_visual_30.png)

![analisis_visual_31.png](attachment:analisis_visual_31.png)

![analisis_visual_32.png](attachment:analisis_visual_32.png)

![analisis_visual_33.png](attachment:analisis_visual_33.png)

![analisis_visual_34.png](attachment:analisis_visual_34.png)

![analisis_visual_35.png](attachment:analisis_visual_35.png)

*Observaciones*:
- `Age at enrollment`, tiene una disribución parecida aunque, a lo mejor los graduados baja, en un momento dado para parecerse o ser menor que los inscritos.
- `Curricular units 1st sem (enrolled)`, es muy parecida pero tiene un corte entre graduado y abandono a la alturs de 5 unidades.
- `Curricular units 1st sem (evaluations)`, hay bastante cortes entre las clases objetivo.
- `Curricular units 1st sem (approved)`, hay bastante cortes entre las clases objetivo.
- `Curricular units 1st sem (grade)`, hay un corte entre inscrito y graduados teniendo un ligero desplazamiento de los graduados.
- `Curricular units 2nd sem (enrolled)`, la distribución es muy parecida aunque tiene un pico significativo  de graduados a la altura de 8 unidades.
- `Curricular units 2nd sem (evaluations)`, hay bastantes cortes.
- `Curricular units 2nd sem (grade)`, hay algún corte.
- `Application order`, tiene una distribución parecida.
- `Curricular units 1st sem (credited)`, tiene una distribución parecida. 
- `Curricular units 1st sem (without evaluations)`, tiene una distribución parecida.
- `Curricular units 2nd sem (credited)`, tiene una distribución parecida.
- `Curricular units 2nd sem (approved)`, hay varios cortes.
- `Curricular units 2nd sem (without evaluations)`, tiene una distribución parecida.
- `Unemployment`, tienen la misma distribución.
- `Inflation rate`, la distribución es muy parecida pero con un ligero desplazamiento.
- `GDP`, ocurre lo mismo que en la anterior

Finalmente, seleccionaremos las siguientes **Features** teniendo en cuenta este ánalisis visual:
```python
features_visual = ['Displaced', 'Debtor', 'Tuition fees up to date', 'Gender', 'Scholarship holder', 'Application mode', 'Course', "Mother's qualification", "Father's qualification", "Mother's occupation", "Father's occupation", 'Age at enrollment', 'Curricular units 1st sem (enrolled)', 'Curricular units 1st sem (evaluations)', 'Curricular units 1st sem (approved)', 'Curricular units 1st sem (grade)', 'Curricular units 2nd sem (enrolled)', 'Curricular units 2nd sem (evaluations)', 'Curricular units 2nd sem (grade)', 'Curricular units 2nd sem (approved)', 'Inflation rate', 'GDP']
```

#### **Análisis de variables con Test**
##### **Test Mutual Information** para variables categórica
Hago uso de este test ya que es una de las mejores opciones para ver la relación entre variables categóricas y el target categórico. Este test mide la cantidad de información que una variable contiene sobre otra.

El **resultado** de cada variable con el target es el siguiente:

```python
{'Marital status': 0.007029104129105663,
 'Application mode': 0.05205784532811698,
 'Course': 0.06986754629237585,
 'Daytime/evening attendance': 0.0035731241652743884,
 'Previous qualification': 0.023985048830443643,
 'Nacionality': 0.006583218699265164,
 "Mother's qualification": 0.025003663045773835,
 "Father's qualification": 0.02494402547594575,
 "Mother's occupation": 0.03556763423623305,
 "Father's occupation": 0.03071098523555259,
 'Displaced': 0.006750136290765957,
 'Educational special needs': 0.0001448831718603473,
 'Debtor': 0.03007307953379472,
 'Tuition fees up to date': 0.08807554999488997,
 'Gender': 0.02603838063012559,
 'Scholarship holder': 0.0465156835639883,
 'International': 0.0002813022321554448}
```


Cuanto mayor sea el resultado, más fuerte es la relación entre variable y target, por lo que realizaremos un filtrado del 0.03 y nos quedaremos con aquellas que hayan obtenido un resultado mayor.

Ahora voy a ver, con este mismo test, si existe colinealidad entre ellas.

Si existe entre las que he seleccionado anteriormente mediante el filtrado, me quedo con una de ellas.

Después de realizar todo este análisis, concluimos que las variables que más significancia tiene con el **Target** y NO entre ellas son:

```python
features_mi_cat = ['Application mode', "Mother's occupation", 'Debtor', 'Tuition fees up to date', 'Scholarship holder']

##### **Test ANOVA** para variables numéricas
Como el test anterior solo permitía valores categóricos, con este test **ANOVA** se podrá realizar con variables numéricas y nuestro target ya que es categórica.

Lo que vamos a ver es el resultado del **p-value**, la correlación:

```python
{'Application order': 5.825970123670699e-07,
 'Age at enrollment': 1.40530545332881e-47,
 'Curricular units 1st sem (credited)': 0.017925915643666662,
 'Curricular units 1st sem (enrolled)': 6.410566815412188e-20,
 'Curricular units 1st sem (evaluations)': 5.727841785353362e-15,
 'Curricular units 1st sem (approved)': 5.987407189374934e-246,
 'Curricular units 1st sem (grade)': 8.800993918919405e-203,
 'Curricular units 1st sem (without evaluations)': 0.0021469515386709787,
 'Curricular units 2nd sem (credited)': 0.002993551452659728,
 'Curricular units 2nd sem (enrolled)': 1.5375777356134055e-25,
 'Curricular units 2nd sem (evaluations)': 1.5043466680524314e-29,
 'Curricular units 2nd sem (approved)': 0.0,
 'Curricular units 2nd sem (grade)': 1.56607749459326e-309,
 'Curricular units 2nd sem (without evaluations)': 3.5416661102946615e-07,
 'Unemployment rate': 0.10306787217806464,
 'Inflation rate': 0.09294633039126488,
 'GDP': 0.11401007278915397}

Con estos resultado, vamos a seleccionar aquellas que tengan un **p-valor** de menos o igual a 0,05.

Una vez hecho este filtrado, realizamos el mismo proceso que con Mutual-Information, ver la colinealidad entre las Features gracias a un *Mapa de calor* haciendo uso de la **correlación de Pearson** entre las variables numéricas únicamente.

![heatmap.png](attachment:heatmap.png)

*Observaciones*

- Hay varias columnas que tienen colinealidad entre sí. Obsservando el mapa podemos concluir que existe colinealidad entre todas los números de unidades por semestre independientemente de si estan aprovadas, evaluadas, matriculadas... Por lo tanto, elegiremos la que más relación tenga con el target.
- En este grupo no meteremos las que están sin evaluar porque éstas no tiene relación con el resto pero sí entre sí por lo que únicamente elegiremos una de ellas.

Finalmente, después de este proceso concluimos que las features seleccionadas a través del **Test ANOVA** son:

```python
features_anova = ['Application order',
 'Age at enrollment',
 'Curricular units 1st sem (approved)',
 'Curricular units 1st sem (without evaluations)']
 ```

Y aunando estas variables junto con las seleccionadas con el **Mutual-Information** creamos la selección de features con **Test**.


#### **Análisis de variables con Eliminación Recursiva de Features**
Para este análisis escogeremos un modelo y un número de Features. Se lanza el estimador con TODAS las features y se calcula el `feature_importance` del estimador. La peor feature se
elimina y se tira otro modelo con una feature menos, asi hasta alcanzar el número de Features dado.

El inconveniente de este tipo de análisis es que únicamente se realiza mediante las **variables numéricas**.

Por lo tanto, vamos a seleccionar las 7 variables más importante según este método.

Una vez ejecutada esta ténica, nos hace un **ranking**:

![rfe.png](attachment:rfe.png)


Entonces, las **Features** seleccionadas mediante este análisis son:

```python
features_rfe = ['Age at enrollment', 'Curricular units 1st sem (approved)', 'Curricular units 1st sem (grade)',  'Curricular units 2nd sem (evaluations)', 'Curricular units 2nd sem (approved)', 'Curricular units 2nd sem (grade)', 'GDP']

#### **Hard-voting**
Con todas las variables seleccionada en los diferentes análisis haremos un votado para filtrar las más votadas en todas ellas.

El resultado de las votaciones es el siguiente:

```python
{'Age at enrollment': 3,
'Curricular units 1st sem (approved)': 3,
'Debtor': 2,
'Tuition fees up to date': 2,
'Scholarship holder': 2,
'Application mode': 2,
"Mother's occupation": 2,
'Curricular units 1st sem (grade)': 2,
'Curricular units 2nd sem (evaluations)': 2,
'Curricular units 2nd sem (grade)': 2,
'Curricular units 2nd sem (approved)': 2,
'GDP': 2,
'Displaced': 1,
'Gender': 1,
'Course': 1,
"Mother's qualification": 1,
"Father's qualification": 1,
"Father's occupation": 1,
'Curricular units 1st sem (enrolled)': 1,
'Curricular units 1st sem (evaluations)': 1,
'Curricular units 2nd sem (enrolled)': 1,
'Inflation rate': 1,
'Application order': 1,
'Curricular units 1st sem (without evaluations)': 1}

Voy a seleccionar aquellas features que hayan recibido al menos dos votos.

Por lo que las variables ganadoras son:

```python
features_hard = ['Debtor', 'Tuition fees up to date', 'Scholarship holder', 'Application mode', "Mother's occupation", 'Age at enrollment', 'Curricular units 1st sem (approved)', 'Curricular units 1st sem (grade)', 'Curricular units 2nd sem (evaluations)', 'Curricular units 2nd sem (grade)', 'Curricular units 2nd sem (approved)', 'GDP']

### **FASE DE TRANSFOMACIÓN DE DATOS**
En esta fase crearemos **Pipelines** para el preprocesamiento de los datos y así transformarlos para que el modelo pueda entrenar nuestros datos.

Antes de realizar este paso, se necesita separar nuestro Dataset en diversas partes.

#### **Separación de Train, Validación y Test**

Voy a separar en 3 partes:
- **Train**: 80% de los datos
- **Validación**: 10% de los datos
- **Test**: 10% de los datos

Por lo que el número de valores que tendrán cada set será de:

- **Valores de Train** --> 3538
- **Valores de Validación** --> 443
- **Valores de Test** --> 443

#### **Análisis del Target**
Es el momento de ver cómo se distribuyen los datos por cada clase.

![target.png](attachment:target.png)

Como se observa, hay **tres clases**: graduado, abandono e inscrito. 

Existe un **desbalanceo** de la proporción, siendo la mitad de ellos graduados y la clase con menos predominio es inscrito.

Este desequilibrio lo tendré en cuenta a la hora de realizar la métrica y, además, de hacerle una transformación.

#### **Transformación de Features mediante Pipeline**

##### **VARIABLES NUMÉRICAS**
Realizaremos una transformación a las **variables numéricas** viendo, en primer lugar su distribución.

![distribucion_num.png](attachment:distribucion_num.png)

Observando las distintas distribuciones, aunque haya datos que tienen una forma "gausiana", hay valores que se acumulan en un único punto. También hay variables que van como a "saltos" pero no tienen una forma normal.

Por lo tanto, realizaremos una tranformación logarítmica a todas las variables numéricas teniendo en cuenta que hay valores negativos y 0s

Además de esta tranformación, escalaremos con un `StandardScaler()`.

A continuación, estructuramos el **Pipeline** para las variables numéricas que será de la siguiente forma:

![pipe_num.png](attachment:pipe_num.png)

Dentro de `FunctionTransformer()` se realizará el paso de la transformación logarítmica.

##### **VARIABLES CATEGÓRICAS**
En este caso, con algunas variables categóricas realizaremos un `OneHotEncoder()` para aquellas que no tengan un sentido ordinal, y para las que sí la tenga, un `OrdinalEncoder()` donde le daremos el orden específico por cada categoría.

Para estas últimas, elaboraré el orden específico que quiero que vaya. Además, las variables que van a sufrir esta tranformación tienen un orden diferente de categorías por lo que también se especificará.

Todo este procesamiento lo elaboraré dentro de un `ColumnTransformer()` donde añadiré como primer paso el Pipeline de las variables numéricas.

Nuestro **Pipeline** de preprocesamiento de todas las **Features** tendrá la siguiente estructura:

![pipe_prepro.png](attachment:pipe_prepro.png)

### **ENTRENAMIENTO**

Antes de llevar a cabo mi entrenamiento, como quiero probar todo tipo de posibilidades, y como dispongo de mi **Pipeline** de preprocesamiento, voy a realizar otro tipo de ánalisis para entrenar.

#### **PCA**
LLega el momento de que entre en juego la **PCA**. 

Como ya tenemos la posibilidad de escalar nuetros datos, haremos una selección de componentes según la varianza acumulada.

Dado que tenemos 164 features en total, usaremos una PCA para reducir la dimensionalidad.

En primer lugar, veremos la varianza acumulada de cada uno de los componentes, que sería la siguiente:

```python
[0.56800657, 0.78144224, 0.83588364, 0.86315204, 0.88431535,
0.89772804, 0.90944987, 0.91908754, 0.92826357, 0.93649685,
0.9428733 , 0.94863793, 0.95387503, 0.95813049, 0.9616062 ,
0.96445777, 0.9666996 , 0.96871209, 0.97038522, 0.97196662,
0.97343011, 0.97476475, 0.97597642, 0.9771284 , 0.97820596,
0.97923027, 0.98022041, 0.98113707, 0.9820242 , 0.98281405,
0.98357518, 0.98432862, 0.98503936, 0.9857219 , 0.9863977 ,
0.98705935, 0.98768945, 0.98829689, 0.98889279, 0.98945495,
0.99000484, 0.99054377, 0.99106763, 0.99157625, 0.99207424,
0.99256153, 0.99302784, 0.99347296, 0.99391192, 0.99432516,
0.99471362, 0.99506041, 0.99538812, 0.99570843, 0.99599361,
0.99627349, 0.99654789, 0.99680901, 0.99705991, 0.99728748,
0.99750908, 0.9976916 , 0.99787128, 0.99804314, 0.99820247,
0.9983463 , 0.99848347, 0.99859556, 0.99870504, 0.99879652,
0.99888334, 0.99896092, 0.99903574, 0.99910488, 0.99917216,
0.9992347 , 0.99929494, 0.99935463, 0.99941145, 0.99945977,
0.99949809, 0.99953412, 0.99956317, 0.99958974, 0.99961267,
0.9996333 , 0.99965135, 0.9996689 , 0.99968588, 0.9997004 ,
0.9997139 , 0.99972708, 0.99973984, 0.9997516 , 0.99976256,
0.99977341, 0.99978387, 0.99979399, 0.99980392, 0.99981344,
0.99982181, 0.9998297 , 0.99983742, 0.99984474, 0.99985195,
0.99985894, 0.99986537, 0.99987172, 0.99987798, 0.99988407,
0.99988925, 0.99989421, 0.99989916, 0.99990409, 0.99990897,
0.99991382, 0.99991858, 0.99992321, 0.99992775, 0.99993211,
0.9999363 , 0.99994017, 0.99994356, 0.99994688, 0.99994973,
0.99995239, 0.99995488, 0.99995737, 0.99995984, 0.99996231,
0.99996478, 0.99996724, 0.99996969, 0.99997214, 0.99997458,
0.999977  , 0.99997942, 0.99998179, 0.99998415, 0.99998603,
0.99998787, 0.99998966, 0.99999141, 0.99999307, 0.99999462,
0.99999595, 0.99999706, 0.99999797, 0.99999874, 0.9999993 ,
0.99999978, 0.99999995, 1.        , 1.        , 1.        ,
1.        , 1.        , 1.        , 1.        , 1.        ,
1.        , 1.        , 1.        , 1.        ]

Fijamos un umbral para seleccionar el número de componentes ídoneo según esta varianza acumulada. 

Observamos que con un 99% de esta varianza acumulada conseguimos reducir bastante la dimensionadlidad, por lo que el **umbral** será del **99%** y como resultado da que el número de componentes necesarias para alcanzar este umbral es de **41**

#### **BASELINE**
En primer lugar, realizaré un *BaseLine* con las diversas selecciones de Features. 

Este entrenamiento lo realizaremos con 4 modelos de clasificación:
- RandomForest.
- XGBoost
- LightGBM
- CatBoost

Este *BaseLine* lo realizaremos mediante **CrossValidation** y el mejor score que se obtenga, realizaremos la optimización de hiperparámetros para esa selección de Features y del modelo. Además, añadimos que pruebe con TODAS las features para ver si esta opción es mejor que seleccionando features en concreto.

La **métrica** que utilizaremos dentro de este proceso será `balanced_accuracy` para paliar un poco el desbalanceo del **Target**

El primer resultado de esta *BaseLine* es la siguiente:


Entrenando con selección de features: **features_visual**
 - **RandomForest** tiene un score de 0.6656637781183656
 - **XGBoost** tiene un score de 0.70431336016383
 - **LightGBM** tiene un score de 0.6982629350949776
 - **CatBoost** tiene un score de 0.7009710787886634

Entrenando con selección de features: **features_test**
 - **RandomForest** tiene un score de 0.5833100056719458
 - **XGBoost** tiene un score de 0.5924270907599974
 - **LightGBM** tiene un score de 0.5901055317776238
 - **CatBoost** tiene un score de 0.6045932682246893

Entrenando con selección de features: **features_rfe**
 - **RandomForest** tiene un score de 0.6179030723612169
 - **XGBoost** tiene un score de 0.6255396666753817
 - **LightGBM** tiene un score de 0.6264851018469455
 - **CatBoost** tiene un score de 0.6176076105728677

Entrenando con selección de features: **features_hard**
 - **RandomForest** tiene un score de 0.6495442561420808
 - **XGBoost** tiene un score de 0.6705611513357823
 - **LightGBM** tiene un score de 0.6736590261779243
 - **CatBoost** tiene un score de 0.6741926508027009

Entrenando con selección de features: **features_all**
 - **RandomForest** tiene un score de 0.6732941988709968
 - **XGBoost** tiene un score de 0.7054599959010053
 - **LightGBM** tiene un score de 0.7065446167317646
 - **CatBoost** tiene un score de 0.699018596894942

Entrenando con selección de **PCA**:
 - **RandomForest** tiene un score de 0.6176131221678475
 - **XGBoost** tiene un score de 0.6555701952850097
 - **LightGBM** tiene un score de 0.6504309115952953
 - **CatBoost** tiene un score de 0.6686267608553866


Sorprendentemente, después de analizar y hacer una exhaustiva selección de features,  podemos concluir que el mejor modelo es **LightGBM** con la selección de **features_all** con un score del **0.7065**

#### **Optimización de hiperparámetros**
Para optimizar los hiperparámetros, ajustaré los mismos dependiendo del modelo que vaya optimizar y haré uso de `GridSearchCV()` para llevar a cabo el mejor rendimiento del modelo.

##### **MODELO LIGHTGBM CON IMBALANCED-LEARN Y FEATURES_ALL**
La librería **Imbalanced-Learn** ofrece estrategias para manejar targets desbalanceados. En este caso nuestro target tiene la siguiente distribución.

Se puede realizar dos tipos de estrategias:
- **Oversampling** --> Genera datos sintéticos para las clases minoritarias.
- **Undersampling** --> Reduce las muestras de las clases mayoritarias.

Para nuestro entrenamiento, vamos a probar las dos posibilidades ya que no se sabe con exactitud cuál sería la mejor estrategia.

Optimizando con **SMOTE**:
 - **Mejores parámetros**: {'model__class_weight': None, 'model__learning_rate': 0.1, 'model__max_depth': 10, 'model__n_estimators': 100, 'model__num_leaves': 15}
 - **Score**: 0.7207

Optimizando con **Under**:
 - **Mejores parámetros**: {'model__class_weight': None, 'model__learning_rate': 0.05, 'model__max_depth': 20, 'model__n_estimators': 100, 'model__num_leaves': 31}
 - **Score**: 0.7266


##### **MODELO LIGHTGBM SIN IMBALANCED-LEARN Y FEATURES_ALL**
No conseguimos unos resultados muy óptimos. Probaremos sin la librería Imbalanced-learn optimizando los mismos hiperparámetros.

- **Mejores parámetros**: {'model__class_weight': 'balanced', 'model__learning_rate': 0.05, 'model__max_depth': -1, 'model__n_estimators': 100, 'model__num_leaves': 31}
 - **Score**: 0.7313

Viendo los resultados, el mejor modelo es el entrenado con todas las features, con el modelo LGBClassifier y sin la librería imbalanced.

### **EVALUACIÓN CONTRA TEST**
En este apartado se verá reflejado todas las evaluaciones realizadas tras la optimización de hiperparámetros.

##### **MODELO LIGHTGBM CON UNDERSAMPLER Y FEATURES_ALL**

||**Precision**|**Recall**|**F1-score**|**Support**|
|-|------------|----------|------------|-----------|
|**Dropout**|0.82|0.73|0.78|147|
|**Enrolled**|0.48|0.67|0.56|83|
|**Graduate**|0.84|0.77|0.80|213|
||
|**accuracy**|||0.74|443|
|**macro avg**|0.71|0.73|0.71|443|
|**weighted avg**|0.77|0.74|0.75|443|



Teniendo en cuenta que lo que más me interesa son las clases `Dropout` y `Graduate`:
- Para la clase **`Dropout`**:
    - **Precisión (82%)** -> El model identifica correctamente la mayoría de los casos clasificados con esta clase.
    - **Recall (73%)** -> El modelo pierde alrededor del 27% de los estudiantes que realmente abandonan.
    - **F1-score (78%)** -> Indica un buen balance entre las dos métricas anteriores.
- Para la clase **`Graduate`**:
    - **Precisión (84%)** -> EL modelo clasifica casi a la perfección la mayoría de los estudiantes que se gradúan.
    - **Recall (77%)** -> EL modelo identifica la mayoría de los graduados.
    - **F1-score (80%)** -> Refleja la solidez de ambas métricas.
- Para la clase **`Enrolled`**:
    - Baja considerablemente las métricas debido al desequilibrio aunque hagamos uso de téncicas que puedan paliar este problema.

##### **MODELO LIGHTGBM Y FEATURES_ALL**

||**Precision**|**Recall**|**F1-score**|**Support**|
|-|------------|----------|------------|-----------|
|**Dropout**|0.82|0.76|0.79|147|
|**Enrolled**|0.52|0.59|0.55|83|
|**Graduate**|0.85|0.84|0.84|213|
||
|**accuracy**|||0.77|443|
|**macro avg**|0.74|0.73|0.74|443|
|**weighted avg**|0.78|0.77|0.77|443|

*Análisis*:

Para la clase **`Dropout`**:
- **Precision: (82%)** -> (bueno). Esto indica que el modelo identifica correctamente la mayoría de los casos etiquetados como Dropout.
- **Recall: (76%)** -> (ligeramente mejor que antes). Esto muestra que el modelo está capturando más de los casos reales de Dropout.
- **F1-score: (79%)** -> Un equilibrio adecuado entre precisión y recall.  

Para la clase **`Graduate`**:
- **Precision: (85%)** -> Excelente precisión, similar a la obtenida antes.
- **Recall: (84%)** -> (mejor) Esto asegura que el modelo identifica correctamente más estudiantes que realmente se gradúan.
- **F1-score: (84%)** -> Sólido y consistente, lo que es importante dado que esta es una clase prioritaria.

Para la clase **`Enrolled`**:
    - Mejora ligeramente que en la anterior pero no logramos conseguir mejores resultados.

*Mejoras*:
 - Hay mejoras claras en las clases prioritarias (`Dropout` y `Graduate`) tanto en recall como en f1-score.
- La precisión general de `Dropout` y `Graduate` es similar o superior sin aplicar técnicas de desbalanceo.

### **ESTRATEGIAS PARA PODER MEJORAR LA MÉTRICA**
El primer resultado que nos ofreció nuestro dataset, haciendo primero una *BaseLine* y después optimizando los hiperparámetros del mejor modelo, nos hizo pensar y cambiar de estrategia ya que iba a ser complicado mejorar ese *score*.

#### **Split de train, validación y test estratificando por el Target**
Primero realizamos un estrateficado por el **Target** para que tengan una distribución parecida de las clases en todos los sets.

##### **ENTRENAMIENTOS Y EVALUACIONES CON ESTRATIFICACIÓN**

**MODELO LIGHTGBM CON UNDERSAMPLER Y FEATURES_ALL**

Probé con el estratificado y aumenté los valores para ajustar los hiperparámetros.

Interrumpí el entrenamiento cuando llevaba 742 minutos. Descarté la posibilidad de entrenar con este modelo y estas técnicas.

**MODELO LIGHTGBM CON SMOTE Y FEATURES_ALL**

Optimizando con **SMOTE estratificando**:
 - **Mejores parámetros**: {'model__class_weight': None, 'model__learning_rate': 0.1, 'model__max_depth': 10, 'model__n_estimators': 100, 'model__num_leaves': 63}
 - **Score**: 0.7083

**Evaluación contra test**:

||**Precision**|**Recall**|**F1-score**|**Support**|
|-|------------|----------|------------|-----------|
|**Dropout**|0.81|0.76|0.78|142|
|**Enrolled**|0.52|0.40|0.45|80|
|**Graduate**|0.83|0.92|0.87|221|
||
|**accuracy**|||0.78|443|
|**macro avg**|0.72|0.69|0.70|443|
|**weighted avg**|0.76|0.78|0.77|443|

*Análisis*:

Para la clase **`Dropout`**:
- **Precision: (81%)** -> Muy similar a los resultados anteriores, lo que indica que el modelo identifica correctamente los casos etiquetados como Dropout.
- **Recall: (76%)** -> Esto es consistente con los resultados previos, mostrando que el modelo mantiene su capacidad de capturar casos de Dropout.
- **F1-score: (78%)** -> Indica un balance adecuado entre precisión y recall para esta clase prioritaria.

Para la clase **`Graduate`**:
- **Precision: (83%)** -> Muy alta, consistente con los resultados previos.
- **Recall: (92%)** -> Una mejora significativa, lo que sugiere que SMOTE ha ayudado a capturar correctamente más casos de Graduate.
- **F1-score: (87%)** -> El puntaje más alto entre las clases, lo cual es excelente dado que es otra clase prioritaria.

*Comparación con las anteriores*:
- El recall de `Graduate` mejoró significativamente con SMOTE (de 0.84 a 0.92).
- Sin embargo, el desempeño de `Dropout` y `Graduate` en general es comparable entre los dos enfoques.
- La clase `Enrolled` sigue siendo muy baja y puede afectar a las otras clases.

**MODELO XGBOOST CON SMOTE Y FEATURES_VISUAL**

Previamente realizamos de nuevo un *BaseLine* con el **Target estratificado** y obtuvimos un score del **0.71** con el modelo **XGBoost** y con la selección de **features_visual**.

Optimizando con **SMOTE estratificando, features_visual y XGBoost**:
 - **Mejores parámetros**: {'model__colsample_bytree': 0.6, 'model__gamma': 0.3, 'model__learning_rate': 0.1, 'model__max_depth': 6, 'model__min_child_weight': 1, 'model__n_estimators': 300}
 - **Score**: 0.7124


**Evaluación contra test**:
||**Precision**|**Recall**|**F1-score**|**Support**|
|-|------------|----------|------------|-----------|
|**Dropout**|0.83|0.74|0.78|142|
|**Enrolled**|0.47|0.47|0.47|80|
|**Graduate**|0.85|0.90|0.87|221|
||
|**accuracy**|||0.77|443|
|**macro avg**|0.71|0.70|0.71|443|
|**weighted avg**|0.77|0.77|0.77|443|

*Análisis*:

Para la Cclase **`Graduate`**:
- **Precision: (85%)** -> El modelo identifica correctamente la mayoría de los casos predichos como Graduate.
- **Recall: (90%)** -> El modelo captura casi todos los casos reales de Graduate, lo cual es excelente.
- **F1-score: (87%)** -> Refleja un desempeño muy sólido para esta clase prioritaria.

Para la clase **`Dropout`**:
- **Precision: (83%)** -> Indica una buena capacidad para predecir correctamente los casos de Dropout.
- **Recall: (74%)** -> Una ligera mejora respecto a iteraciones anteriores, pero todavía hay margen para capturar más casos reales de Dropout.
- **F1-score: (78%)** -> Muestra un buen balance entre precisión y recall para esta clase prioritaria.

*Comparación*:
- Ambas clases (`Graduate` y `Dropout`) mantienen un buen desempeño (F1-score >= 0.78), lo que es positivo dado su importancia prioritaria.
- El uso de **SMOTE** no parece haber afectado significativamente su desempeño en comparación con enfoques sin técnicas de desbalanceo.
- La clase `Enrolled` sigue sin mejorar a pesar de utilizar diferentes técnicas.

**MODELO COMBINANDO SMOTE y UnderSampler**

Investigando para poder mejorar nuestro modelo, encontramos que eciste otra técnica que combina **SMOTE** con **UnderSampler** llamada, **SMOTEENN**.

Optimizando con **SMOTEENN estratificando, XGBoost y features_all**:
- **Mejores parámetros**: {'model__colsample_bytree': 1.0, 'model__gamma': 0.1, 'model__learning_rate': 0.1, 'model__max_depth': 3, 'model__min_child_weight': 3, 'model__n_estimators': 100, 'model__subsample': 0.6}
 - **Score**: 0.6864

 No da muy buenos resultado por lo que no evaluamos contra test.

#### **Eliminación de la categoría `Enrolled`**
Como, en realidad, la clase `Enrolled` no interesa demasiado en este proyecto, y, al tener una distribución tan baja, hace que mis predicciones en las dos clases restantes se vean afectadas. Por lo cual, reflexionando he tomado la decisión de eliminar los datos que corresponden a esta clase en el entrenamiento.

Sin embargo, estos datos no van a ser deshechados, es decir, como esos estudiantes están matriculados pero aún ni han abandonado ni se han graduado, ¿qué mejor que predecir lo que van a hacer esos estudiantes?

##### **BASELINE ESTRATIFICANDO POR EL TARGET**
Vuelvo a realizar un *BaseLine* estratificando por el target previamente.


Entrenando con selección de features: **features_visual**
 - **RandomForest** tiene un score de 0.8863960828186366
 - **XGBoost** tiene un score de 0.892675380735173
 - **LightGBM** tiene un score de 0.8929274679423713
 - **CatBoost** tiene un score de 0.8945334509908032

Entrenando con selección de features: **features_test**
 - **RandomForest** tiene un score de 0.8343476451156014
 - **XGBoost** tiene un score de 0.8366735995045996
 - **LightGBM** tiene un score de 0.8404746340824081
 - **CatBoost** tiene un score de 0.8532943257504744

Entrenando con selección de features: **features_rfe**
 - **RandomForest** tiene un score de 0.8495873938814427
 - **XGBoost** tiene un score de 0.8402474438480168
 - **LightGBM** tiene un score de 0.8524765874292978
 - **CatBoost** tiene un score de 0.8593684246298843

Entrenando con selección de features: **features_hard**
 - **RandomForest** tiene un score de 0.8826504599387549
 - **XGBoost** tiene un score de 0.8804856332248955
 - **LightGBM** tiene un score de 0.8841344423469399
 - **CatBoost** tiene un score de 0.8846896164525833

Entrenando con selección de features: **features_all**
 - **RandomForest** tiene un score de 0.8878507775846817
 - **XGBoost** tiene un score de 0.8966904539490091
 - **LightGBM** tiene un score de 0.8949161302745285
 - **CatBoost** tiene un score de 0.895603923782953

 Entrenando con selección de **PCA**:
 - **RandomForest** tiene un score de 0.8693257887889224
 - **XGBoost** tiene un score de 0.8752637356358697
 - **LightGBM** tiene un score de 0.877524402011302
 - **CatBoost** tiene un score de 0.8794810651884033


Con estas métricas podemos conlcuir que el modelo va a ser mejor habiendo eliminado los datos correspondientes a `Enrolled`.

Observamos que la mejor métrica es de **0.8966** y corresponde al modelo **XGBoost** con **features_all**.

##### **Optimización del modelo XGBoost, SMOTE y features_all**
Como quiero que rinda mejor en la clase minoritaria, en este caso, **Dropout**, realizo la técnica de **SMOTE**.

Además, elijo como métrica dentro de esta optimización con **`GridSearchCV()`**, **F1-score** siendo un balanceo entre precision y recall.

Los resultados de este entrenamiento son:
 - **Mejores parámetros**: {'model__colsample_bytree': 1.0, 'model__learning_rate': 0.1, 'model__max_depth': 7, 'model__n_estimators': 200, 'model__scale_pos_weight': 2.0, 'model__subsample': 0.8}
 - **Score**: 0.9054

Mejora ligeramente comparado con el *BaseLine* siendo un score bastante óptimo.

##### **Evaluación contra test**
||**Precision**|**Recall**|**F1-score**|**Support**|
|-|------------|----------|------------|-----------|
|**Dropout**|0.91|0.89|0.90|142|
|**Graduate**|0.93|0.95|0.94|221|
||
|**accuracy**|||0.92|363|
|**macro avg**|0.92|0.92|0.92|363|
|**weighted avg**|0.92|0.92|0.92|363|

*Análisis*

Para la clase **`Graduate`**:
- **Precision (93%)** -> El modelo predijo correctamente que un estudiante se graduará en el 93% de los casos en los que hizo esa predicción.
- **Recall (95%)** -> El modelo identificó correctamente el 95% de los estudiantes que realmente se graduaron.
- **F1-Score (94%)** -> Combina precisión y recall, lo que indica un equilibrio muy bueno para esta clase.

Para la clase **`Dropout`**:
- **Precision (91%)** -> El modelo predijo correctamente que un estudiante abandonará en el 91% de los casos en los que hizo esa predicción.
- **Recall (89%)** -> El modelo identificó correctamente el 89% de los estudiantes que realmente abandonaron.
- **F1-Score (90%)** -> Buen equilibrio entre precisión y recall para esta clase, aunque ligeramente menor que para los graduados.

*Comparación*
- Ambas clases han experimentado un aumento en sus métricas descartando en el entrenamiento la clase `Enrolled` teniendo un mejor rendimiento.
- El uso de **SMOTE** ha paliado el desbalandeo de ambas clases para que la diferencia de métricas no sea muy significativa.

### **PREDICCIÓN SOBRE DATOS NUEVOS**
Ahora vamos a probar nuestro modelo sobre los datos que hemos apartado anteriormente sobre los estudiantes que están matriculados pero que aún ni se han graduado y no han abandonado, de momento.

Al realizar las predicciones con nuestro modelo conseguimos lo siguiente:
- El 51% de los estudiantes están en **riesgo de abandonar** sus estudios.
- El 48% restante se van a **graduar**.

Por lo que, gracias a este descubrimiento, se podrá actuar de manera prematura sobre esos estudiantes que están en riesgo de abandono.

### **CONCLUSIONES**
#### **Recapitulación del modelo**

Obervando que con los datos que correspondían a la clase **`Enrolled`** no mejoraba mucho las métricas del resto de clases, se optó a descartar estos datos y realizar el entrenamiento con **`Graduate`** y **`Dropout`**.

El mejor modelo fue **XGBoost** con **todas las Features**, incluyendo la ténica de **SMOTE** de la librería **Imbalanced-lear**.

Con este modelo conseguimos un **Recall** del **89%** de la clase **`Dropout`**, teniendo una matriz de confusión:

![matrix_confussion.png](attachment:matrix_confussion.png)

Donde predice correctamente 209 graduados y 126 abandonos, clasificando erróneamente 12 graduados que son abandonos y 16 abandonos que son graduados.

#### **¿Cómo podemos mejorar aún más nuestro modelo?**

- Recolectando **datos adicionales**, como la participación en actividades extracurriculares o encuestas de satisfacción, estilo de vida...

- Además, es esencial **revisar periódicamente** el rendimiento del modelo y actualizarlo con nuevos datos para mantener su relevancia.

#### **¿Cómo puede transformar este modelo la educación?**

- Identificando estudiantes en riesgo y ofrecer **apoyo personalizado**.
- Optimizando los **recursos educativos** para mejorar tasas de graduación.
- Con este proyecto, no solo buscamos predecir el futuro académico de los estudiantes, sino también brindar **herramientas** concretas para **transformar la educación** y potenciar el **éxito estudiantil**.