## **<u> Motivaciones para la elección del dataset </u>**

**<u> Orígen y autoría </u>**

El dataset seleccionado, titulado *'Students Performance Dataset: Academic Success Factors in High School Students'*, ha sido obtenido de Kaggle. El dataset específico se puede encontrar en la URL 'https://www.kaggle.com/datasets/rabieelkharoua/students-performance-dataset/data', y fue creado por Rabie El Kharoua, quien tiene una amplio abanico de datasets en la plataforma, todos ellos de gran calidad.

**<u> Razones para seleccionar este dataset </u>**

Este dataset es una gran herramienta para explorar y comprender los factores que ingluyen en el rendimiento académico de los estudiantes de secundaria. Poder identificar tales factores no solo enriquece el entendimiento teórico, sino que también tiene aplicaciones prácticas. Como educador esta información puede utilizarse para desarrollar estrategias basadas en datos para promover el éxtio académico de jovenes estudiantes.

**<u> Beneficios y contribuciones esperadas </u>**

El estudio de este dataset proporcionará insights para poder orientar a los estudiantes de manera correcta y efectiva en su trayectoria académica.

**<u> Conclusión </u>**

La elección de este dataset se fundamenta en la necesidad de entender mejor los factores que impulsan el éxito académico entre los estudiantes de secundaria. Este conocimiento no solo tiene aplicaciones teóricas, sino que también tiene el potencial de impactar positivamente en la educación de los jovenes de nuestro entorno.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [364]:
df = pd.read_csv('./data/Student_performance_data.csv')
df

Unnamed: 0,StudentID,Age,Gender,Ethnicity,ParentalEducation,StudyTimeWeekly,Absences,Tutoring,ParentalSupport,Extracurricular,Sports,Music,Volunteering,GPA,GradeClass
0,1001,17,1,0,2,19.833723,7,1,2,0,0,1,0,2.929196,2.0
1,1002,18,0,0,1,15.408756,0,0,1,0,0,0,0,3.042915,1.0
2,1003,15,0,2,3,4.210570,26,0,2,0,0,0,0,0.112602,4.0
3,1004,17,1,0,3,10.028829,14,0,3,1,0,0,0,2.054218,3.0
4,1005,17,1,0,2,4.672495,17,1,3,0,0,0,0,1.288061,4.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2387,3388,18,1,0,3,10.680555,2,0,4,1,0,0,0,3.455509,0.0
2388,3389,17,0,0,1,7.583217,4,1,4,0,1,0,0,3.279150,4.0
2389,3390,16,1,0,2,6.805500,20,0,2,0,0,0,1,1.142333,2.0
2390,3391,16,1,1,0,12.416653,17,0,2,0,1,1,0,1.803297,1.0


In [None]:
df.head()

In [None]:
df['StudyTimeWeekly'].min()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.isnull().sum()

## **<u> Descripción de las variables </u>**

<u> Información del estudiante </u>

* **StudentID**: Número de identificación único de cada estudiante (1001 hasta 3392) *(Categórica, nominal, politómica)*

<u> Información demográfica </u>

* **Age**: Edad de los estudiantes en años enteros entre 15 y 18 *(Númerica, discreta, razón)*
* **Gender**: Genero *(Categórica, nominal, dicotómica)*
  * 0 -> hombre 
  * 1 -> mujer
* **Ethnicity**: Étnia de los estudiantes *(Categórica, nominal, politómica)*
  * 0 -> Caucasian
  * 1 -> African American
  * 2 -> Asian
  * 3 -> Other
* **ParentalEducation**: El nivel de educación de los padres *(Categórica, ordinal, politómica)*
  * 0 -> None
  * 1 -> High School
  * 2 -> Some College
  * 3 -> Bachelor's
  * 4 -> Higher

<u> Hábitos de estudio </u>

* **StudyTimeWeekly**: Horas de estudio semanal en horas con decimales entre 0 y 20 *(Númerica, continua, intervalo)*
* **Absences**: Numero de absencias en dias enteros entre 0 y 30 *(Númerica, discreta, razón)*
* **Tutoring**: El alumno esta 'tutoreado' *(Categórica, nominal, dicotómica)*
  * 0 -> No
  * 1 -> Si

<u> Participación de los padres </u>

* **ParentalSupport**: Nivel de participación de los padres *(Categórica, ordinal, politómica)*
  * 0 -> None
  * 1 -> Low
  * 2 -> Moderate
  * 3 -> High
  * 4 -> Very High

<u> Actividades extracurriculares </u>

* **Extracurricular**: Participación en actividades extracurriculares *(Categórica, nominal, dicotómica)*
  * 0 -> No
  * 1 -> Si
* **Sports**: Práctica de deporte *(Categórica, nominal, dicotómica)*
  * 0 -> No
  * 1 -> Si
* **Music**: Práctica de música *(Categórica, nominal, dicotómica)*
  * 0 -> No
  * 1 -> Si
* **Volunteering**: Práctica de voluntariado *(Categórica, nominal, dicotómica)*
  * 0 -> No
  * 1 -> Si

<u> Rendimiento académico </u>

* **GPA**: Siglas para 'Grade Point Average' que es la media de una puntuación entre 2.0 y 4.0, influenciada por los hábitos de estudio, la participación de los padres y las actividades extracurriculares *(Númerica, continua, intervalo)*

<u> Variable objetivo </u>

* **GradeClass**: Clasificación de los estudiantes basada en el GPA *(Categórica, ordinal, politómica)*
  * 0 -> 'A' (GPA >= 3.5)
  * 1 -> 'B' (3.0 <= GPA < 3.5)
  * 2 -> 'C' (2.5 <= GPA < 3.0)
  * 3 -> 'D' (2.0 <= GPA < 2.5)
  * 4 -> 'F' (GPA < 2.0)
  


## **<u> Estadística descriptiva </u>**

#### **Conteo y tasa de alumnos**

In [None]:
# Conteo del numero de alumnos por cada grado
numero_total_alumnos = df['StudentID'].count()
numero_alumnos_por_grado = df['GradeClass'].value_counts().sort_index()
tasa_alumnos_por_grado = (numero_alumnos_por_grado / numero_total_alumnos) * 100

print(f"El número total de alumnos es: {numero_total_alumnos}")
print(f"\nEl numero de alumnos por grado es:\n{numero_alumnos_por_grado}")
print(f"\nLa tasa de alumnos por grado es:\n{tasa_alumnos_por_grado}")

#### **Separación de las variables númericas y categóricas**

In [None]:
# Creación de dos variables para separar las variables númericas y las categóricas
variables_numericas = ['Age', 'StudyTimeWeekly', 'Absences', 'GPA', 'GradeClass']
df_numericas = df[variables_numericas]

variables_categoricas = ['Gender', 'Ethnicity', 'ParentalEducation', 'Tutoring', 'ParentalSupport', 'Extracurricular', 'Sports', 'Music', 'Volunteering']
df_categoricas = df[variables_categoricas]

print(f"Dataframe con las variables númericas:\n{df_numericas}")
print(f"\nDataframe con las variables categóricas:\n{df_categoricas}")

In [None]:
# Calcular descriptivos de las variables númericas
def calcular_estadisticos_descriptivos(df, variables):
  estadisticos_por_gradeclass = {}
  estadisticos_totales = {}
  
  for variable in variables:
    # Estadisticos por GradeClass
    estadisticos_por_gradeclass[variable] = df.groupby('GradeClass')[variable].agg(
      ['mean', 'median', lambda x: x.mode().iloc[0], 'std', 'min', 'max', 'skew']
      ).rename(columns={'<lambda_0>': 'mode'})
    
    # Estadoisticos en conjunto
    estadisticos_totales[variable] = df[variable].agg(
      ['mean', 'median', lambda x: x.mode().iloc[0], 'std', 'min', 'max', 'skew']
      ).rename(index={'<lambda>': 'mode'})
    
  return estadisticos_por_gradeclass, estadisticos_totales

estadisticos_por_gradeclass, estadisticos_totales = calcular_estadisticos_descriptivos(df_numericas, variables_numericas)

# Imprimir estadísticos descriptivos en conjunto
print("Estadísticos descriptivos en conjunto:")
for variable, stats in estadisticos_totales.items():
    print(f"\n{variable} en conjunto:\n")
    print(stats)

# Imprimir estadísticos descriptivos por GradeClass
print("\nEstadísticos descriptivos por GradeClass:")
for variable, stats in estadisticos_por_gradeclass.items():
    print(f"\n{variable} por GradeClass:\n")
    print(stats)

## **<u> Gráficos iniciales </u>**

#### **Variables númericas**

In [None]:
# Gráfico de barras que muestra el número de alumnos en cada grado
plt.figure(figsize=(10, 6))
barras = plt.bar(numero_alumnos_por_grado.index.astype(str), numero_alumnos_por_grado.values)

# Añadir numero y porcentaje encima de cada barra
for barra, grado in zip(barras, numero_alumnos_por_grado.index):
  h = barra.get_height()
  p = tasa_alumnos_por_grado[grado]
  plt.text(barra.get_x() + barra.get_width() / 2, h, f'{h:.0f}\n({p:.1f}%)', ha='center', va='bottom')

plt.xlabel('GradeClass')
plt.ylabel('Cantidad de alumnos')
plt.title('Número de alumnos por GradeClass', fontweight='bold', fontsize=16)

plt.show()

In [None]:
# Histogramas y boxplots para la distribución de las variables numericas
def generar_graficos_numericos(df, variables):
  fig, ax = plt.subplots(len(variables), 2, figsize=(15, 5 * len(variables)))
  fig.suptitle('Distribución de Variables Numéricas', fontweight='bold', fontsize=16)
  
  for i, variable in enumerate(variables):
    # Histogramas
    sns.histplot(df[variable], bins=20, kde=True, ax=ax[i, 0])
    ax[i, 0].set_title(f'Histograma de {variable}')
    ax[i, 0].set_xlabel(variable)
    ax[i, 0].set_ylabel('Frecuencia')
    
    # Boxplots
    sns.boxplot(x=df[variable], ax=ax[i, 1])
    ax[i, 1].set_title(f'Boxplot de {variable}')
    ax[i, 1].set_xlabel(variable)
  
  plt.tight_layout()
  plt.show()

generar_graficos_numericos(df_numericas, variables_numericas)

In [None]:
# Gráficos de violín y boxplots para comparar las variables númericas con GradeClass
def comparar_numericas_con_gradeclass(df, variables):
  fig, ax = plt.subplots(len(variables), 2, figsize=(15, 5 * len(variables)))
  fig.suptitle('Comparación de Variables Numéricas con GradeClass', fontweight='bold', fontsize=16)

  for i, variable in enumerate(variables):
    # Gráficos de violín
    sns.violinplot(x='GradeClass', y=variable, data=df, ax=ax[i, 0])
    ax[i, 0].set_title(f'Violin plot de {variable} vs GradeClass')
    ax[i, 0].set_xlabel('GradeClass')
    ax[i, 0].set_ylabel(variable)
    
    # Boxplots
    sns.boxplot(x='GradeClass', y=variable, data=df, ax=ax[i, 1])
    ax[i, 1].set_title(f'Box plot de {variable} vs GradeClass')
    ax[i, 1].set_xlabel('GradeClass')
    ax[i, 1].set_ylabel(variable)
    
  plt.tight_layout()
  plt.show()
  
# Generar gráficos comparativos
comparar_numericas_con_gradeclass(df_numericas, variables_numericas)

In [None]:
# Gráfico de correlación para las variables númericas vs. GradeClass
plt.figure(figsize=(10, 8))
sns.heatmap(df_numericas.corr(), annot=True, cmap='coolwarm')
plt.title('Correlación entre variables numéricas y GradeClass', fontweight='bold', fontsize=16)
plt.show()
# GradeClass presenta una fuerte relación con Absences

In [None]:
# Crear un pairplot de las variables númericas vs. 'GradeClass'
sns.pairplot(df_numericas, hue='GradeClass', palette='coolwarm', diag_kind='hist')
plt.suptitle('Pairplot de Variables Numéricas vs. GradeClass', y=1.03, fontweight='bold', fontsize=16)
plt.show()

#### **Variables categóricas**

In [None]:
# Crear labels de las variables categoricas para mostrar en los gráficos

# Definir los diccionarios de mapeo
gender_map = {0: 'Hombre', 1: 'Mujer'}
ethnicity_map = {0: 'Caucasian', 1: 'African American', 2: 'Asian', 3: 'Other'}
parental_education_map = {0: 'None', 1: 'High School', 2: 'Some College', 3: "Bachelor's", 4: 'Higher'}
tutoring_map = {0: 'No', 1: 'Si'}
parental_support_map = {0: 'None', 1: 'Low', 2: 'Moderate', 3: 'High', 4: 'Very High'}
extracurricular_map = {0: 'No', 1: 'Si'}
sports_map = {0: 'No', 1: 'Si'}
music_map = {0: 'No', 1: 'Si'}
volunteering_map = {0: 'No', 1: 'Si'}

# Copiar el df para no modificar el original
df_graficos = df.copy()
  
# Mapear las variables categóricas
df_graficos['Gender'] = df_graficos['Gender'].map(gender_map)
df_graficos['Ethnicity'] = df_graficos['Ethnicity'].map(ethnicity_map)
df_graficos['ParentalEducation'] = df_graficos['ParentalEducation'].map(parental_education_map)
df_graficos['Tutoring'] = df_graficos['Tutoring'].map(tutoring_map)
df_graficos['ParentalSupport'] = df_graficos['ParentalSupport'].map(parental_support_map)
df_graficos['Extracurricular'] = df_graficos['Extracurricular'].map(extracurricular_map)
df_graficos['Sports'] = df_graficos['Sports'].map(sports_map)
df_graficos['Music'] = df_graficos['Music'].map(music_map)
df_graficos['Volunteering'] = df_graficos['Volunteering'].map(volunteering_map)

# Crear la lista de labels para las variables categóricas
labels_categoricas = ['Gender', 'Ethnicity', 'ParentalEducation', 'Tutoring', 'ParentalSupport', 'Extracurricular', 'Sports', 'Music', 'Volunteering']

In [None]:
# Crear gráficos de pastel para ver las proporciones de las variables categóricas
fig, ax = plt.subplots(3,3, figsize=(12,10))
fig.suptitle('Proporciones en las variables categóricas', fontweight='bold', fontsize=16)

# Recorrer la lista para ir creando los gráficos
for i, var in enumerate(labels_categoricas):
  fila = i // 3
  col = i % 3
  data = df_graficos[var].value_counts()
  ax[fila, col].pie(data, labels=data.index, autopct='%1.1f%%')
  ax[fila, col].set_title(var)
    
plt.tight_layout()
plt.show()

In [None]:
# Crear gráficos de barras para todas las variables categóricas y dataframes de resumen con conteos y tasas
def generar_graficos_categoricas(df, categoria):
  total_por_categoria = df.groupby(categoria).size() # Calcular total por categoria
  total_categoria_por_grado = df.groupby([categoria, 'GradeClass']).size().unstack() # Conteo de cada categoria por grado
    
  df_conteo = total_categoria_por_grado.copy() # df para almacenar conteo
  df_tasa = pd.DataFrame(index=total_categoria_por_grado.index, columns=total_categoria_por_grado.columns) # df para almacenar tasa
    
  # Llenar df con conteos y tasas
  for grado in total_categoria_por_grado.columns:
    for cat in total_categoria_por_grado.index:
      conteo = total_categoria_por_grado.loc[cat, grado]
      total = total_por_categoria[cat]
      tasa = (conteo / total) * 100
      df_tasa.loc[cat, grado] = f'{tasa:.2f}%'
            
  fig, ax = plt.subplots(figsize=(12,6))
    
  # Posición y ancho de las barras
  num_categorias = len(df_conteo.index)
  bar_width = 0.8 / num_categorias  # Ajuste dinámico del ancho de las barras según el número de categorias
  index = np.arange(len(df_conteo.columns))
    
  for i, cat in enumerate(df_conteo.index):
    bars = ax.bar(index + (i - num_categorias / 2) * bar_width + bar_width / 2, df_conteo.loc[cat], bar_width, label=cat)
        
    # Añadir etiquetas encima de las barras
    for j, bar in enumerate(bars):
      height = bar.get_height()
      tasa = df_tasa.loc[cat, df_conteo.columns[j]]
      ax.text(bar.get_x() + bar.get_width() / 2., height, f'{int(height)}\n{tasa}', ha='center', va='bottom')
    
  ax.set_xlabel('Grado')
  ax.set_ylabel('Número de alumnos')
  ax.set_title(f'Número de alumnos y tasas por {categoria} y grado')
  ax.set_xticks(index)
  ax.set_xticklabels(df_conteo.columns)
  ax.legend()
    
  plt.show()
    
  print(f"Conteos por grado y {categoria}")
  print(df_conteo)
  print(f"\nTasas por grado y {categoria}")
  print(df_tasa)

# Iterar sobre cada variable categórica y generar gráficos
for categoria in labels_categoricas:
    generar_graficos_categoricas(df_graficos, categoria)

In [None]:
# Resumen de todos los gráficos juntos de las variables categóricas
def generar_graficos_grid(df, categorias):
    fig, ax = plt.subplots(3, 3, figsize=(18, 14))
    fig.suptitle('GradeClass vs. variables categóricas', fontweight='bold', fontsize=16)

    for i, categoria in enumerate(categorias):
        total_por_categoria = df.groupby(categoria).size()
        total_categoria_por_grado = df.groupby([categoria, 'GradeClass']).size().unstack(fill_value=0)

        df_conteo = total_categoria_por_grado.copy()
        df_tasa = pd.DataFrame(index=total_categoria_por_grado.index, columns=total_categoria_por_grado.columns)

        for grado in total_categoria_por_grado.columns:
            for cat in total_categoria_por_grado.index:
                conteo = total_categoria_por_grado.loc[cat, grado]
                total = total_por_categoria[cat]
                tasa = (conteo / total) * 100
                df_tasa.loc[cat, grado] = f'{tasa:.2f}%'
                
        fila = i // 3
        col = i % 3

        num_categorias = len(df_conteo.index)
        bar_width = 0.8 / num_categorias
        index = np.arange(len(df_conteo.columns))

        for j, cat in enumerate(df_conteo.index):
            bars = ax[fila, col].bar(index + (j - num_categorias / 2) * bar_width + bar_width / 2, df_conteo.loc[cat], bar_width, label=cat)

            for k, bar in enumerate(bars):
                height = bar.get_height()
                tasa = df_tasa.loc[cat, df_conteo.columns[k]]
                ax[fila, col].text(bar.get_x() + bar.get_width() / 2., height, f'{int(height)}\n{tasa}', ha='center', va='bottom')

        ax[fila, col].set_xlabel('Grado')
        ax[fila, col].set_ylabel('Número de alumnos')
        ax[fila, col].set_title(categoria)
        ax[fila, col].set_xticks(index)
        ax[fila, col].set_xticklabels(df_conteo.columns)
        ax[fila, col].legend()

    plt.tight_layout(rect=[0, 0, 1, 0.96])
    plt.show()

# Generar gráficos en un grid
generar_graficos_grid(df_graficos, labels_categoricas)


In [None]:
# Crear gráficos de barras para ver las proporciones de cada grado de las variables categóricas
fig, ax = plt.subplots(3,3, figsize=(18,14))
fig.suptitle('GradeClass vs. variables categóricas', fontweight='bold', fontsize=16)

# Recorrer la lista para ir creando los gráficos
for i, var in enumerate(labels_categoricas):
  fila = i // 3
  col = i % 3
  sns.countplot(x=var, hue='GradeClass', data=df_graficos, ax=ax[fila, col])
  ax[fila, col].set_title(var)
      
plt.tight_layout()
plt.show()