# Introducción

En el ámbito educativo, comprender los factores que contribuyen al éxito o fracaso estudiantil es esencial para mejorar los sistemas educativos y garantizar que cada estudiante tenga la oportunidad de alcanzar su máximo potencial. En este contexto, este estudio se enfoca en investigar y analizar el rendimiento estudiantil, con el objetivo de identificar los factores que influyen en el éxito y el fracaso académico.

Para ello, llevaremos a cabo un análisis exploratorio de los datos (EDA). Luego, limpiaremos esos datos y los prepararemos para la fase de regresión. Por último, crearemos un modelo de regresión y comprobaremos su eficacia.

Los objetivos finales son:
- Conocer las principales variables que influyen en fracaso o éxito estudiantil.
- Desarrollar un modelo de regresión que nos permita predecir si un estudiante se graduará o no con, al menos, un 85% de precisión.

# Descripción de los datos

El conjunto de datos que vamos a usar ofrece información sobre estudiantes inscritos en diversos programas de pregrado en una institución educativa. Incluye datos demográficos, socioeconómicos y académicos que nos ayudarán a analizar las causas del abandono y el éxito estudiantil.

In [1]:
# Opción para poder visualizar todas las columnas
options(repr.matrix.max.cols=50, repr.matrix.max.rows=100)
# Carga de los datos. Nos aseguramos de que las
# columnas string se carguen como factores
dataset <- read.csv("dataset.csv", stringsAsFactors=TRUE)

Vemos que todas las columnas tienen valores numéricos, excepto la columna objetivo:

In [2]:
head(dataset, 5)

Unnamed: 0_level_0,Marital.status,Application.mode,Application.order,Course,Daytime.evening.attendance,Previous.qualification,Nacionality,Mother.s.qualification,Father.s.qualification,Mother.s.occupation,Father.s.occupation,Displaced,Educational.special.needs,Debtor,Tuition.fees.up.to.date,Gender,Scholarship.holder,Age.at.enrollment,International,Curricular.units.1st.sem..credited.,Curricular.units.1st.sem..enrolled.,Curricular.units.1st.sem..evaluations.,Curricular.units.1st.sem..approved.,Curricular.units.1st.sem..grade.,Curricular.units.1st.sem..without.evaluations.,Curricular.units.2nd.sem..credited.,Curricular.units.2nd.sem..enrolled.,Curricular.units.2nd.sem..evaluations.,Curricular.units.2nd.sem..approved.,Curricular.units.2nd.sem..grade.,Curricular.units.2nd.sem..without.evaluations.,Unemployment.rate,Inflation.rate,GDP,Target
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<dbl>,<dbl>,<dbl>,<fct>
1,1,8,5,2,1,1,1,13,10,6,10,1,0,0,1,1,0,20,0,0,0,0,0,0.0,0,0,0,0,0,0.0,0,10.8,1.4,1.74,Dropout
2,1,6,1,11,1,1,1,1,3,4,4,1,0,0,0,1,0,19,0,0,6,6,6,14.0,0,0,6,6,6,13.66667,0,13.9,-0.3,0.79,Graduate
3,1,1,5,5,1,1,1,22,27,10,10,1,0,0,0,1,0,19,0,0,6,0,0,0.0,0,0,6,0,0,0.0,0,10.8,1.4,1.74,Dropout
4,1,8,2,15,1,1,1,23,27,6,4,1,0,0,1,0,0,20,0,0,6,8,6,13.42857,0,0,6,10,5,12.4,0,9.4,-0.8,-3.12,Graduate
5,2,12,1,3,0,1,1,22,28,10,10,0,0,0,1,0,0,45,0,0,6,9,5,12.33333,0,0,6,6,6,13.0,0,13.9,-0.3,0.79,Graduate


Aún así, que sean valores numéricos, no significa que sean columnas numéricas. La mayoría, como veremos en un apartado posterior, son columnas categóricas.

El dataset tiene 4424 filas y 35 columnas.

In [3]:
dim(dataset)

Un resumen de las características de todas las columnas:

In [4]:
summary(dataset)

 Marital.status  Application.mode Application.order     Course      
 Min.   :1.000   Min.   : 1.000   Min.   :0.000     Min.   : 1.000  
 1st Qu.:1.000   1st Qu.: 1.000   1st Qu.:1.000     1st Qu.: 6.000  
 Median :1.000   Median : 8.000   Median :1.000     Median :10.000  
 Mean   :1.179   Mean   : 6.887   Mean   :1.728     Mean   : 9.899  
 3rd Qu.:1.000   3rd Qu.:12.000   3rd Qu.:2.000     3rd Qu.:13.000  
 Max.   :6.000   Max.   :18.000   Max.   :9.000     Max.   :17.000  
 Daytime.evening.attendance Previous.qualification  Nacionality    
 Min.   :0.0000             Min.   : 1.000         Min.   : 1.000  
 1st Qu.:1.0000             1st Qu.: 1.000         1st Qu.: 1.000  
 Median :1.0000             Median : 1.000         Median : 1.000  
 Mean   :0.8908             Mean   : 2.531         Mean   : 1.255  
 3rd Qu.:1.0000             3rd Qu.: 1.000         3rd Qu.: 1.000  
 Max.   :1.0000             Max.   :17.000         Max.   :21.000  
 Mother.s.qualification Father.s.qualific

## Descripción de las columnas

| Nombre de la columna                                | Descripción                                                                                    |
|--------------------------------------------|------------------------------------------------------------------------------------------------|
| Marital status                             | El estado civil del estudiante. (Categórico)                                                    |
| Application mode                           | El método de aplicación utilizado por el estudiante. (Categórico)                               |
| Application order                          | El orden en el que el estudiante presentó la solicitud. (Numérico)                               |
| Course                                     | El curso realizado por el estudiante. (Categórico)                                               |
| Daytime/evening attendance                 | Si el estudiante asiste a clases durante el día o por la noche. (Categórico)                    |
| Previous qualification                     | La calificación obtenida por el estudiante antes de inscribirse en educación superior. (Categórico)|
| Nacionality                                | La nacionalidad del estudiante. (Categórico)                                                     |
| Mother's qualification                     | La calificación de la madre del estudiante. (Categórico)                                         |
| Father's qualification                     | La calificación del padre del estudiante. (Categórico)                                           |
| Mother's occupation                        | La ocupación de la madre del estudiante. (Categórico)                                            |
| Father's occupation                        | La ocupación del padre del estudiante. (Categórico)                                              |
| Displaced                                  | Si el estudiante es una persona desplazada. (Categórico)                                          |
| Educational special needs                  | Si el estudiante tiene alguna necesidad educativa especial. (Categórico)                          |
| Debtor                                     | Si el estudiante es deudor. (Categórico)                                                          |
| Tuition fees up to date                   | Si las cuotas de matrícula del estudiante están al día. (Categórico)                              |
| Gender                                     | El género del estudiante. (Categórico)                                                            |
| Scholarship holder                         | Si el estudiante es beneficiario de una beca. (Categórico)                                        |
| Age at enrollment                         | La edad del estudiante al momento de la inscripción. (Numérico)                                    |
| International                              | Si el estudiante es un estudiante internacional. (Categórico)                                      |
| Curricular units 1st sem (credited)         | El número de unidades curriculares acreditadas por el estudiante en el primer semestre. (Numérico)  |
| Curricular units 1st sem (enrolled)         | El número de unidades curriculares inscritas por el estudiante en el primer semestre. (Numérico)    |
| Curricular units 1st sem (evaluations)      | El número de unidades curriculares evaluadas por el estudiante en el primer semestre. (Numérico)    |
| Curricular units 1st sem (approved)         | El número de unidades curriculares aprobadas por el estudiante en el primer semestre. (Numérico)    |


Nuestro objetivo es la columna Target, la cual tiene 3 valores:

In [5]:
unique(as.vector.factor(dataset$Target))

Cuando preparemos los datos, nos aseguraremos de quedarnos solo con las columnas Dropout y Graduate, ya que los alumnos que están aún cursando sus estudios no nos aportan información.

# Preparación del dataset

Como hemos comentado anteriormente, no tendremos en cuenta los alumnos que aún están cursando sus estudios.

In [6]:
dataset_limpio <- dataset[!(dataset$Target=="Enrolled"),]

Tras esto el dataset pasa de tener 4424 columnas a 3630 columnas.

In [7]:
dim(dataset_limpio)

La columna Target es categórica y debemos transformarla a numérica. En este caso será una variable binaria:

In [8]:
# Label encoding
dataset_limpio$Target <- unclass(dataset_limpio$Target)
# Transformación a valor numérico
dataset_limpio$Target <- as.numeric(dataset_limpio$Target)
# Binarizamos al variable
dataset_limpio$Target[dataset_limpio$Target == 1] <- 0
dataset_limpio$Target[dataset_limpio$Target == 3] <- 1

Vemos que ahora la columna Target es binaria:

In [9]:
head(dataset_limpio["Target"], 3)

Unnamed: 0_level_0,Target
Unnamed: 0_level_1,<dbl>
1,0
2,1
3,0


Calculamos las correlaciones de las distintas columnas con respecto a nuestra columna objetivo:

In [10]:
columnas <- c(colnames(dataset)!="Target")
correlaciones <- round(cor(dataset_limpio[,columnas], dataset_limpio$Target), 2)

Obtenemos las 10 columnas que más correlación tienen con nuestra columna objetivo para usarlas en el modelo de regresión:

In [11]:
head(correlaciones[order(correlaciones,decreasing=TRUE),], 10)

Colinearidad

In [12]:
columnas <- c("Curricular.units.2nd.sem..approved.", "Curricular.units.2nd.sem..grade.", "Curricular.units.1st.sem..approved.",
"Curricular.units.1st.sem..grade.", "Tuition.fees.up.to.date", "Scholarship.holder", "Curricular.units.2nd.sem..enrolled.",
"Curricular.units.1st.sem..enrolled.",	"Displaced")
correlaciones <- round(cor(dataset_limpio[,columnas], dataset_limpio[,columnas]), 2)
correlaciones

Unnamed: 0,Curricular.units.2nd.sem..approved.,Curricular.units.2nd.sem..grade.,Curricular.units.1st.sem..approved.,Curricular.units.1st.sem..grade.,Tuition.fees.up.to.date,Scholarship.holder,Curricular.units.2nd.sem..enrolled.,Curricular.units.1st.sem..enrolled.,Displaced
Curricular.units.2nd.sem..approved.,1.0,0.79,0.92,0.69,0.33,0.21,0.7,0.67,0.08
Curricular.units.2nd.sem..grade.,0.79,1.0,0.71,0.85,0.32,0.21,0.4,0.37,0.08
Curricular.units.1st.sem..approved.,0.92,0.71,1.0,0.71,0.28,0.17,0.74,0.77,0.06
Curricular.units.1st.sem..grade.,0.69,0.85,0.71,1.0,0.28,0.2,0.41,0.38,0.08
Tuition.fees.up.to.date,0.33,0.32,0.28,0.28,1.0,0.17,0.1,0.07,0.11
Scholarship.holder,0.21,0.21,0.17,0.2,0.17,1.0,0.02,-0.01,0.09
Curricular.units.2nd.sem..enrolled.,0.7,0.4,0.74,0.41,0.1,0.02,1.0,0.94,-0.05
Curricular.units.1st.sem..enrolled.,0.67,0.37,0.77,0.38,0.07,-0.01,0.94,1.0,-0.07
Displaced,0.08,0.08,0.06,0.08,0.11,0.09,-0.05,-0.07,1.0


# Regresión logística

## Función de precisión

La función de precisión será simple: el número de predicciones correctas entre el total de predicciones realizadas.

In [13]:
check_accuracy <- function(predictions, true_values) {
  count <- 0
  total <- length(true_values)
  for (x in 1:total) {
    if (predictions[x]==true_values[x]) {
      count <- count +1
    }
  }
  round(count/total, 3)
}

## Creación del modelo

Usaremos las filas desde la 1 hasta la 3000 para entrenar el modelo y de la 3001 a la 3630 para test.

In [14]:
modelo <- glm(
  Target ~ Curricular.units.2nd.sem..approved. + Curricular.units.2nd.sem..grade. + Curricular.units.1st.sem..approved. +
Curricular.units.1st.sem..grade. + Tuition.fees.up.to.date + Scholarship.holder + Curricular.units.2nd.sem..enrolled.	+
Curricular.units.1st.sem..enrolled.	+ Displaced, data = dataset_limpio[1:3000,], family = "binomial")

In [15]:
summary(modelo)


Call:
glm(formula = Target ~ Curricular.units.2nd.sem..approved. + 
    Curricular.units.2nd.sem..grade. + Curricular.units.1st.sem..approved. + 
    Curricular.units.1st.sem..grade. + Tuition.fees.up.to.date + 
    Scholarship.holder + Curricular.units.2nd.sem..enrolled. + 
    Curricular.units.1st.sem..enrolled. + Displaced, family = "binomial", 
    data = dataset_limpio[1:3000, ])

Coefficients:
                                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         -2.88281    0.34976  -8.242  < 2e-16 ***
Curricular.units.2nd.sem..approved.  1.03591    0.07010  14.778  < 2e-16 ***
Curricular.units.2nd.sem..grade.     0.13751    0.05309   2.590  0.00959 ** 
Curricular.units.1st.sem..approved.  0.52175    0.07545   6.916 4.66e-12 ***
Curricular.units.1st.sem..grade.    -0.05850    0.05209  -1.123  0.26145    
Tuition.fees.up.to.date              2.97801    0.28631  10.401  < 2e-16 ***
Scholarship.holder                   0.87887    0.16999  

## Predicción

In [16]:
test = dataset_limpio[3001:3630, c("Curricular.units.2nd.sem..approved.", "Curricular.units.2nd.sem..grade.", "Curricular.units.1st.sem..approved.",
"Curricular.units.1st.sem..grade.", "Tuition.fees.up.to.date", "Scholarship.holder", "Curricular.units.2nd.sem..enrolled.",
"Curricular.units.1st.sem..enrolled.",	"Displaced")]
test$Target_prob <- predict(modelo, newdata = test, type = "response")

In [17]:
test$Target_prediction[test$Target_prob >= 0.5] <- 1
test$Target_prediction[test$Target_prob < 0.5] <- 0

In [18]:
predictions <- test$Target_prediction

In [19]:
true_values <- dataset_limpio[3001:3630, "Target"]

In [20]:
check_accuracy(predictions, true_values)

# Conclusiones

Vemos que con un modelo simple de regresión logística hemos conseguido un 90% de precisión. Siempre se trata a las regresiones como modelos débiles pero, usados en el problema correcto, pueden ser muy pontentes.


# Recursos

https://www.mdpi.com/2306-5729/7/11/146  
https://stats.oarc.ucla.edu/r/dae/logit-regression/  
https://statisticsbyjim.com/regression/multicollinearity-in-regression-analysis/