# Análisis de Desempeño Estudiantil en Educación Secundaria

### Introducción
En este notebook, se analizará el desempeño de estudiantes de educación secundaria en dos asignaturas: Matemáticas y Lengua Portuguesa. El dataset, obtenido de [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/Student+Performance), contiene datos sobre logros académicos, así como características demográficas, sociales y de entorno familiar de los estudiantes. Este análisis tiene como objetivo identificar patrones y factores que pueden influir en el desempeño académico.

En particular, nos centraremos en entender la relación entre las características de los estudiantes y sus notas en cada período, buscando aquellas variables que más impactan en el rendimiento académico.

### Objetivos
- Realizar un análisis exploratorio de las variables categóricas y numéricas.
- Estudiar la correlación entre las diferentes características y las notas de los estudiantes.
- Visualizar las distribuciones y relaciones clave mediante gráficos.

### Descripción de las Variables
El dataset incluye las siguientes variables:

1. **school** - Escuela del estudiante (categórica: 'GP' - Gabriel Pereira o 'MS' - Mousinho da Silveira)
2. **sex** - Sexo del estudiante (categórica: 'F' - femenino o 'M' - masculino)
3. **age** - Edad del estudiante (numérica: de 15 a 22 años)
4. **address** - Tipo de dirección del hogar (categórica: 'U' - urbano o 'R' - rural)
5. **famsize** - Tamaño de la familia (categórica: 'LE3' - menor o igual a 3 o 'GT3' - mayor a 3)
6. **Pstatus** - Estado de convivencia de los padres (categórica: 'T' - juntos o 'A' - separados)
7. **Medu** - Nivel de educación de la madre (numérica: 0 - sin educación, 1 - primaria, 2 - secundaria baja, 3 - secundaria alta, 4 - educación superior)
8. **Fedu** - Nivel de educación del padre (numérica: 0 - sin educación, 1 - primaria, 2 - secundaria baja, 3 - secundaria alta, 4 - educación superior)
9. **Mjob** - Ocupación de la madre (categórica: 'teacher', 'health', 'services', 'at_home' u 'other')
10. **Fjob** - Ocupación del padre (categórica: 'teacher', 'health', 'services', 'at_home' u 'other')
11. **reason** - Razón para escoger esta escuela (categórica: 'home', 'reputation', 'course' u 'other')
12. **guardian** - Tutor del estudiante (categórica: 'mother', 'father' u 'other')
13. **traveltime** - Tiempo de viaje de casa a la escuela (numérica: 1 - <15 min, 2 - 15 a 30 min, 3 - 30 min a 1 h, 4 - >1 h)
14. **studytime** - Tiempo semanal de estudio (numérica: 1 - <2 h, 2 - 2 a 5 h, 3 - 5 a 10 h, 4 - >10 h)
15. **failures** - Número de fallos en materias anteriores (numérica: n si 1 <= n < 3, sino 4)
16. **schoolsup** - Apoyo educativo extra (categórica: 'yes' o 'no')
17. **famsup** - Apoyo educativo de la familia (categórica: 'yes' o 'no')
18. **paid** - Clases extras dentro del curso (categórica: 'yes' o 'no')
19. **activities** - Actividades extracurriculares (categórica: 'yes' o 'no')
20. **nursery** - Asistió a guardería (categórica: 'yes' o 'no')
21. **higher** - Desea cursar educación superior (categórica: 'yes' o 'no')
22. **internet** - Acceso a Internet en el hogar (categórica: 'yes' o 'no')
23. **romantic** - En una relación romántica (categórica: 'yes' o 'no')
24. **famrel** - Calidad de las relaciones familiares (numérica: de 1 - muy mala a 5 - excelente)
25. **freetime** - Tiempo libre después de la escuela (numérica: de 1 - muy bajo a 5 - muy alto)
26. **goout** - Frecuencia de salida con amigos (numérica: de 1 - muy baja a 5 - muy alta)
27. **Dalc** - Consumo de alcohol entre semana (numérica: de 1 - muy bajo a 5 - muy alto)
28. **Walc** - Consumo de alcohol los fines de semana (numérica: de 1 - muy bajo a 5 - muy alto)
29. **health** - Estado de salud actual (numérica: de 1 - muy malo a 5 - muy bueno)
30. **absences** - Número de ausencias escolares (numérica: de 0 a 93)
31. **G1** - Nota del primer período (numérica: de 0 a 20)
32. **G2** - Nota del segundo período (numérica: de 0 a 20)
33. **G3** - Nota final (numérica: de 0 a 20, variable objetivo)

### Plan de Análisis y Visualización

1. **Carga y Exploración Inicial de Datos**:
   - **Carga de Datos**: Leer los dos archivos `student-mat.csv` y `student-por.csv` en Pandas, y observar la estructura y tamaño de los datos.
   - **Resumen de Datos**: Revisar la cantidad de valores nulos y tipos de datos, y hacer una limpieza preliminar.
   - **Conversión de Tipos de Variables**: Asegurarse de que las variables categóricas, como `school`, `sex`, `address`, estén adecuadamente categorizadas.

2. **Análisis Descriptivo y Métricas**:
   - **Variables Categóricas**:
     - **Distribución por Escuelas y Género**: Visualizar y comparar la distribución de género y características escolares, lo que puede influir en diferencias de rendimiento.
     - **Gráficos de Barras para Variables Binarias**: Por ejemplo, variables como `schoolsup`, `famsup`, `higher`, `internet`, etc., que indican si un estudiante tiene soporte adicional, acceso a internet, etc.
   - **Variables Numéricas**:
     - **Estadísticas Básicas**: Calcular media, mediana, desviación estándar y percentiles de variables numéricas como `age`, `studytime`, `failures`, `absences`, etc.
     - **Distribución de Notas**: Histograma de las notas `G1`, `G2` y `G3` para ver cómo están distribuidas.

3. **Visualización de Relaciones entre Variables**:
   - **Correlación entre Variables Numéricas**:
     - **Mapa de Calor de Correlaciones**: Usar un heatmap para ver la correlación entre variables, especialmente `G1`, `G2`, y `G3`, junto con otras variables numéricas como `studytime`, `failures`, y `absences`.
   - **Análisis de Factores Sociales y Demográficos**:
     - **Boxplots o Violin Plots** para comparar la nota final (`G3`) entre diferentes categorías como `sex`, `famsize`, `schoolsup`, etc.
     - **Gráfico de Dispersión**: Estudiar cómo variables como `studytime`, `absences`, `Dalc` (consumo de alcohol en días de semana), y `Walc` (consumo en fines de semana) afectan la nota final `G3`.

4. **Análisis de Subgrupos y Tendencias**:
   - **Explorar Subgrupos Específicos**: Filtrar el dataset para analizar subgrupos, como estudiantes con y sin soporte educativo, estudiantes con alta frecuencia de ausencias, etc.
   - **Comparaciones de Promedio**: Comparar el promedio de `G3` entre estudiantes con distintas combinaciones de `famsup`, `schoolsup`, `internet`, y `romantic`.

5. **Conclusión y Resumen de Hallazgos**:
   - Hacer un resumen de las observaciones clave, especialmente en cuanto a los factores que parecen tener la mayor influencia sobre el rendimiento final (`G3`). 

---

Empecemos instalando las librerias necesarias, cargando el dataset y explorando su estructura básica.

In [1]:
!pip install matplotlib
!pip install pandas
!pip install numpy

Collecting matplotlib
  Obtaining dependency information for matplotlib from https://files.pythonhosted.org/packages/d2/92/c2b9464a0562feb6ae780bdc152364810862e07ef5e6affa2b7686028db2/matplotlib-3.9.2-cp312-cp312-win_amd64.whl.metadata
  Downloading matplotlib-3.9.2-cp312-cp312-win_amd64.whl.metadata (11 kB)
Collecting contourpy>=1.0.1 (from matplotlib)
  Obtaining dependency information for contourpy>=1.0.1 from https://files.pythonhosted.org/packages/0c/89/9830ba00d88e43d15e53d64931e66b8792b46eb25e2050a88fec4a0df3d5/contourpy-1.3.0-cp312-cp312-win_amd64.whl.metadata
  Downloading contourpy-1.3.0-cp312-cp312-win_amd64.whl.metadata (5.4 kB)
Collecting cycler>=0.10 (from matplotlib)
  Obtaining dependency information for cycler>=0.10 from https://files.pythonhosted.org/packages/e7/05/c19819d5e3d95294a6f5947fb9b9629efb316b96de511b418c53d245aae6/cycler-0.12.1-py3-none-any.whl.metadata
  Downloading cycler-0.12.1-py3-none-any.whl.metadata (3.8 kB)
Collecting fonttools>=4.22.0 (from matplot


[notice] A new release of pip is available: 23.2.1 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Collecting pandas
  Obtaining dependency information for pandas from https://files.pythonhosted.org/packages/29/d4/1244ab8edf173a10fd601f7e13b9566c1b525c4f365d6bee918e68381889/pandas-2.2.3-cp312-cp312-win_amd64.whl.metadata
  Using cached pandas-2.2.3-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting pytz>=2020.1 (from pandas)
  Obtaining dependency information for pytz>=2020.1 from https://files.pythonhosted.org/packages/11/c3/005fcca25ce078d2cc29fd559379817424e94885510568bc1bc53d7d5846/pytz-2024.2-py2.py3-none-any.whl.metadata
  Using cached pytz-2024.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Obtaining dependency information for tzdata>=2022.7 from https://files.pythonhosted.org/packages/a6/ab/7e5f53c3b9d14972843a647d8d7a853969a58aecc7559cb3267302c94774/tzdata-2024.2-py2.py3-none-any.whl.metadata
  Using cached tzdata-2024.2-py2.py3-none-any.whl.metadata (1.4 kB)
Using cached pandas-2.2.3-cp312-cp312-win_amd64.whl (11.5 MB)
Using cached pyt


[notice] A new release of pip is available: 23.2.1 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip





[notice] A new release of pip is available: 23.2.1 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [10]:
import pandas as pd 
import numpy as np
from matplotlib import pyplot as plt

df1 = pd.read_csv('../data/student-mat.csv', delimiter = ';')
df2 = pd.read_csv('../data/student-por.csv', delimiter = ';')

In [7]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 33 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   school      395 non-null    object
 1   sex         395 non-null    object
 2   age         395 non-null    int64 
 3   address     395 non-null    object
 4   famsize     395 non-null    object
 5   Pstatus     395 non-null    object
 6   Medu        395 non-null    int64 
 7   Fedu        395 non-null    int64 
 8   Mjob        395 non-null    object
 9   Fjob        395 non-null    object
 10  reason      395 non-null    object
 11  guardian    395 non-null    object
 12  traveltime  395 non-null    int64 
 13  studytime   395 non-null    int64 
 14  failures    395 non-null    int64 
 15  schoolsup   395 non-null    object
 16  famsup      395 non-null    object
 17  paid        395 non-null    object
 18  activities  395 non-null    object
 19  nursery     395 non-null    object
 20  higher    

In [8]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 649 entries, 0 to 648
Data columns (total 33 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   school      649 non-null    object
 1   sex         649 non-null    object
 2   age         649 non-null    int64 
 3   address     649 non-null    object
 4   famsize     649 non-null    object
 5   Pstatus     649 non-null    object
 6   Medu        649 non-null    int64 
 7   Fedu        649 non-null    int64 
 8   Mjob        649 non-null    object
 9   Fjob        649 non-null    object
 10  reason      649 non-null    object
 11  guardian    649 non-null    object
 12  traveltime  649 non-null    int64 
 13  studytime   649 non-null    int64 
 14  failures    649 non-null    int64 
 15  schoolsup   649 non-null    object
 16  famsup      649 non-null    object
 17  paid        649 non-null    object
 18  activities  649 non-null    object
 19  nursery     649 non-null    object
 20  higher    