## Efecto de la ayuda con los deberes en el rendimiento académico

**- Hipótesis:**
*Los estudiantes que reciben ayuda con los deberes de sus padres, hermanos o profesores particulares tienen un mejor rendimiento académico que aquellos que no reciben ayuda.*


### Selección de datos


Para validar esta hipótesis, seleccionaremos tanto las calificaciones como las variables relacionadas con la ayuda que reciben los estudiantes.


**Variables seleccionadas para `egd10`:**

- `S19A`: Ayuda deberes-De mis padres
- `S19B`: Ayuda deberes-De mis hermanos
- `S19C`: Ayuda deberes-De mis amigos
- `S19D`: Ayuda deberes-De un profesor o profesora particular
- `S19E`: Ayuda deberes-Asisto a una academia
- `S19F`: Ayuda deberes-No recibo ayuda de nadie
- `S26D`: Recibo ayuda extra de mis profesores y profesoras si la necesito
- `S31B`: Relación con tu madre-Se preocupa por mis hábitos de trabajo y estudio
- `S31C`: Relación con tu madre-Me anima a estudiar
- `S31D`: Relación con tu madre-Me pregunta si tengo deberes
- `S31E`: Relación con tu madre-Comprueba que hago los deberes
- `S31F`: Relación con tu madre-Me ayuda a hacer los deberes y trabajos
- `S31G`: Relación con tu madre-Me pregunta cómo me ha ido en clase
- `S31H`: Relación con tu madre-Se preocupa por mis resultados y calificaciones escolares
- `S32B`: Relación con tu padre-Se preocupa por mis hábitos de trabajo y estudio
- `S32C`: Relación con tu padre-Me anima a estudiar
- `S32D`: Relación con tu padre-Me pregunta si tengo deberes
- `S32E`: Relación con tu padre-Comprueba que hago los deberes
- `S32F`: Relación con tu padre-Me ayuda a hacer los deberes y trabajos
- `S32G`: Relación con tu padre-Me pregunta cómo me ha ido en clase
- `S32H`: Relación con tu padre-Se preocupa por mis resultados y calificaciones escolares
- `PV1ling`: Puntuación PV1-LINGÜÍSTICA
- `PV2ling`: Puntuación PV2-LINGÜÍSTICA
- `PV3ling`: Puntuación PV3-LINGÜÍSTICA
- `PV4ling`: Puntuación PV4-LINGÜÍSTICA
- `PV5ling`: Puntuación PV5-LINGÜÍSTICA
- `PV1mat`: Puntuación PV1-MATEMÁTICA
- `PV2mat`: Puntuación PV2-MATEMÁTICA
- `PV3mat`: Puntuación PV3-MATEMÁTICA
- `PV4mat`: Puntuación PV4-MATEMÁTICA
- `PV5mat`: Puntuación PV5-MATEMÁTICA
- `PV1mfis`: Puntuación PV1-C I MUNDO FÍSICO
- `PV2mfis`: Puntuación PV2-C I MUNDO FÍSICO
- `PV3mfis`: Puntuación PV3-C I MUNDO FÍSICO
- `PV4mfis`: Puntuación PV4-C I MUNDO FÍSICO
- `PV5mfis`: Puntuación PV5-C I MUNDO FÍSICO
- `PV1syc`: Puntuación PV1-SOCIAL Y CIUDADANA
- `PV2syc`: Puntuación PV2-SOCIAL Y CIUDADANA
- `PV3syc`: Puntuación PV3-SOCIAL Y CIUDADANA
- `PV4syc`: Puntuación PV4-SOCIAL Y CIUDADANA
- `PV5syc`: Puntuación PV5-SOCIAL Y CIUDADANA


Cabe destacar que, en el dataset `egd09`, hay variables que tratan sobre los mismos temas, pero desde la perspectiva de los padres y los alumnos. Específicamente, se incluyen las variables P20[A-C] (alumnos) y PF12[A-E] (familiares). Sin embargo, las variables relacionadas con la ayuda en ambos datasets difieren en algunos aspectos.

Para simplificar el procesamiento de datos, al menos en esta entrega, consideraremos únicamente los datos del dataset `egd10`, ya que nos centramos en los adolescentes, quienes presentan un desempeño cognitivo más exigente que el de los niños, lo que resulta más interesante para extraer conclusiones.



Hemos decidido seleccionar también las variables que reflejan la preocupación de los padres por los hábitos de estudio de sus hijos, ya que consideramos que podrían estar relacionadas con la ayuda que reciben los estudiantes.


In [None]:
import pandas as pd

In [None]:
# Load the data from the Excel file
# WARNING TAKES A LONG TIME
# only loads the first sheet, thats the one that contains the data
# other sheets contain metadata

egd10 = pd.read_excel("data/EGD10.xlsx")

In [None]:
selected_features = [
    "S19A",
    "S19B",
    "S19C",
    "S19D",
    "S19E",
    "S19F",
    "S26D",
    "S31B",
    "S31C",
    "S31D",
    "S31E",
    "S31F",
    "S31G",
    "S31H",
    "S32B",
    "S32C",
    "S32D",
    "S32E",
    "S32F",
    "S32G",
    "S32H",
]

targets = [
    "PV1LING",
    "PV2LING",
    "PV3LING",
    "PV4LING",
    "PV5LING",
    "PV1MAT",
    "PV2MAT",
    "PV3MAT",
    "PV4MAT",
    "PV5MAT",
    "PV1MFIS",
    "PV2MFIS",
    "PV3MFIS",
    "PV4MFIS",
    "PV5MFIS",
    "PV1SYC",
    "PV2SYC",
    "PV3SYC",
    "PV4SYC",
    "PV5SYC",
]

In [None]:
egd10 = egd10[selected_features + targets]

### Tratamiento y limpieza de datos


Tenemos una gran cantidad de variables, muchas de estas se refieren a lo mismo y hay demasiada redundancia de datos por estructuras de variables del dataset como las "checkboxes". Adicionalmente, tendremos que tratar los valores nulos de cada una de las variables que vayamos a tener en cuenta. Empezaremos por esto último.

#### Tratamiento de valores nulos

Debemos prestar especial atención a los valores por defecto.  
Actualmente, las variables de ayuda parecen representar preguntas de tipo "sí o no", donde el valor por defecto se interpreta como "no". Por lo tanto, estos "no" deben considerarse adecuadamente y no descartarse. Para tratarlos, realizaremos una reducción de dimensionalidad, unificando todas las variables de ayuda en una sola. Explicaremos esto posterioremente en profundidad.  
Por el momento eliminaremos los valores nulos.

Primeramente haremos un recuento de ellos para el caso de `selected_features`:

In [None]:
pca_help_variables = [
    "S19A",
    "S19B",
    "S19C",
    "S19D",
    "S19E",
    "S19F",
]
pca_mother_interest_variables = [
    "S31B",
    "S31C",
    "S31D",
    "S31E",
    "S31F",
    "S31G",
    "S31H",
]
pca_father_interest_variables = [
    "S32B",
    "S32C",
    "S32D",
    "S32E",
    "S32F",
    "S32G",
    "S32H",
]

# Imprimir valores nulos y valores por defecto
print(f"EGD 10 help nulls:\n{egd10[pca_help_variables].isnull().sum()}\n")
print(f"EGD 10 help default values:\n{egd10[pca_help_variables].eq(9).sum()}\n")

print(
    f"EGD 10 mother interest nulls:\n{egd10[pca_mother_interest_variables].isnull().sum()}\n"
)
print(
    f"EGD 10 mother interest default values:\n{egd10[pca_mother_interest_variables].eq(9).sum()}\n"
)

print(
    f"EGD 10 father interest nulls:\n{egd10[pca_father_interest_variables].isnull().sum()}\n"
)
print(
    f"EGD 10 father interest default values:\n{egd10[pca_father_interest_variables].eq(9).sum()}\n"
)

En el caso de `pca_father_interest_variables` y `pca_mother_interest_variables`, el valor "9" está correctamente definido para "No contesta", por lo que podemos tratarlo como un nulo con normalidad:


In [None]:
variables = pca_father_interest_variables + pca_mother_interest_variables
egd10[variables] = egd10[variables].replace(9, pd.NA)

A continuación, eliminamos las instancias con valores nulos:

In [None]:
egd10.dropna(subset=selected_features, inplace=True)

Para el caso de las variables de `targets`, realizaremos un tratamiento de las mismas que se ocupará de lidiar con estos valores nulos en el siguiente apartado, por lo tanto lo ignoraremos por el momento.

#### Tratamiento de las variables

Con el principal objetivo de reducir la dimensionalidad de las variables y mejorar la claridad de las mismas de cara a evaluar posteriormente la hipótesis, realizaremos el siguiente tratamiento de los datos.  

Comenzaremos con las variables de `target` referentes a las calificaciones:  

En este caso, realizaremos una media aritmética. Esto nos facilita el manejo de la variable objetivo y nos trata de manera automática los valores nulos con la función mean(), ignorándolos.
Esto tiene sentido, ya que en un caso hipotético de que algún alumno no cursara alguna asignatura por convalidación o cualquier otra razón, la nota media no tendría en cuenta esa asignatura en concreto.

In [None]:
egd10.loc[:, "Nota_Media"] = egd10[targets].mean(axis=1)
egd10.loc[:, "Nota_Media"] = egd10["Nota_Media"].apply(lambda x: x / 100)

Eliminamos las instancias con valores de nota completamente nulos:

In [None]:
print(f"Sin nota: {egd10["Nota_Media"].isnull().sum()}")
egd10.dropna(subset=["Nota_Media"], inplace=True)

Continuaremos con las referentes a la ayuda recibida:  

En este caso, tenemos un grupo de variables de tipo "checkbox". Este grupo de variables funciona de la siguiente manera:  
(A la izquierda está escrita la variable y a la derecha los valores que puede tomar)

- **`S19A`** -> `1` o `9`
- **`S19B`** -> `2` o `9`
- **`S19C`** -> `3` o `9`
- **`S19D`** -> `4` o `9`
- **`S19E`** -> `5` o `9`
- **`S20E`** -> `6` o `9`

Los valores tienen el siguiente significado:  
- `1, 2, 3, 4`,`5` o `6` indican "Sí".  
- `9` indica "No".

Aunque estas variables deberían ser booleanas, en el dataset no lo son, lo que complica su entendimiento y su manipulación. Por lo tanto, sería recomendable transformarlas para facilitar su análisis.


Por lo tanto, realizaremos una media aritmética ponderada, otorgándole más peso a las ayudas más relevantes o de más calidad, para unificar todo este grupo de variables en una característica que represente el **prcentaje total de ayuda recibida**:

In [None]:
# Eliminar S19F, que representa que el alumno no recibió ningun tipo de ayuda (Esto se puede calcular observando si el resto de variables es 9)
important_help_variables = [
    "S19A",
    "S19B",
    "S19C",
    "S19D",
    "S19E",
]

# Pesos asignados a cada variable en función a la calidad o importancia de la auyda
pesos = {
    "S19A": 2,  # Importancia media
    "S19B": 2,  # Importancia media
    "S19C": 1,  # Importancia baja
    "S19D": 3,  # Importancia alta
    "S19E": 3,  # Importancia alta
}

# Función para calcular el porcentaje de ayuda ponderado
def calcular_porcentaje_ponderado(fila):
    suma_ponderada = sum((fila[var] != 9) * pesos[var] for var in pesos)
    suma_pesos = sum(pesos.values())
    return suma_ponderada / suma_pesos


# Aplicar la función a cada fila del DataFrame
egd10.loc[:, "Porcentaje_Ayuda"] = egd10.apply(calcular_porcentaje_ponderado, axis=1)

# Mostrar el resultado
print(egd10["Porcentaje_Ayuda"])

Para los grupos de variables `pca_father_interest_variables` y `pca_mother_interest_variables`, haremos un promedio y lo normalizaremos para que quede en modo de porcentaje. Esto tiene sentido ya que, en cierto modo, las variables del grupo deberían estar correlacionadas, pues los valores que estas pueden adquirir son los siguientes:

- **1** -> Nunca o casi nunca  
- **2** -> Algunas veces  
- **3** -> Casi siempre  
- **4** -> Siempre  

Estos valores siguen un criterio de ordenación, por lo que podemos observar claramente la correlación.


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Calcular la matriz de correlación (ignorando los NaN)
correlation_matrix = egd10[pca_mother_interest_variables].corr()

# Visualizar la matriz de correlación con un heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(
    correlation_matrix,
    annot=True,  # Mostrar los valores de correlación en el heatmap
    cmap="coolwarm",
    vmin=-1,
    vmax=1,
)
plt.title("Matriz de Correlación - Relación con la Madre")
plt.show()

Observamos en la mayoría de los casos un nivel medio-alto de correlación entre variables. Procedemos a unificarlas de la manera comentada anterioremente:

In [None]:
import numpy as np

# Calcular promedio normalizado de la relación con la madre
egd10["Relacion_Madre_Promedio"] = (
    egd10[pca_mother_interest_variables].mean(axis=1, skipna=True) - 1
) / (4 - 1)

# Calcular promedio normalizado de la relación con el padre
egd10["Relacion_Padre_Promedio"] = (
    egd10[pca_father_interest_variables].mean(axis=1, skipna=True) - 1
) / (4 - 1)

# Redondear a dos decimales
egd10["Relacion_Madre_Promedio"] = egd10["Relacion_Madre_Promedio"].map("{:.2f}".format)
egd10["Relacion_Padre_Promedio"] = egd10["Relacion_Padre_Promedio"].map("{:.2f}".format)


# Mostrar los datos
print(egd10["Relacion_Madre_Promedio"].head())
print(egd10["Relacion_Padre_Promedio"].head())

### Características de la tarjeta de datos


El nuevo dataset generado, `tarjeta_H1`, representa una versión refinada y simplificada de los datos originales, obtenida a través de la transformación y selección de las características más relevantes para la hipotésis que nos atañe en este caso.  
Las transformaciones empleada en las características de importancia seleccionadas ha sido principalmente la reducción de la dimensionalidad mediante métricas agregadas, como medias y medias ponderadas, y la conversión de tipos de datos para facilitar la posterior comprobación de la hipótesis.

In [None]:
# Filtrar las columnas deseadas
egd10_h1 = egd10[["Porcentaje_Ayuda", "Relacion_Madre_Promedio", "Relacion_Padre_Promedio", "Nota_Media"]]

# Guardar el nuevo DataFrame en un archivo CSV
egd10_h1.to_csv("data/tarjeta_H1.csv", index=False, float_format="%.2f")

Las variables finales del dataset son:
- `Porcentaje Ayuda`: porcentaje de ayuda recibida por el estudiante
- `Relacion_Madre_Promedio`: porcentaje de apoyo o interés de la madre por los estudios del alumno
- `Relacion_Padre_Promedio`: porcentaje de apoyo o interés del padre por los estudios del alumno
- `Nota Media`: nota media del estudiante

Sin valores nulos ni valores por defecto.

### Líneas de Trabajo


Para validar la hipótesis de que la ayuda con los deberes influye en el rendimiento académico, se podría realizar un análisis de correlación entre las variables que reflejan la ayuda recibida por los estudiantes y sus calificaciones. Alternativamente, podrían emplearse técnicas de clustering para identificar agrupaciones de estudiantes en función de los niveles de ayuda y su impacto en el desempeño académico.

Este análisis permitirá determinar si existe una relación estadísticamente significativa entre ambas variables, así como evaluar la magnitud de dicha relación.


### Validacíon de hipótesis

In [None]:
# Análisis de correlación
correlation_matrix = egd10_h1.corr()

# Visualizar la matriz de correlación con un heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(
    correlation_matrix,
    annot=True,  # Mostrar los valores de correlación en el heatmap
    cmap="coolwarm",
    vmin=-1,
    vmax=1,
)
plt.title("Matriz de Correlación - Relación con la Madre")
plt.show()

El análisis de correlación realizado sobre el dataset indica que no existe una relación significativa entre las variables relacionadas con la ayuda o el apoyo parental y el rendimiento académico (medido como Nota Media). A continuación, se resumen las principales observaciones:

1. **Porcentaje de Ayuda y Nota Media:** La correlación es negativa y muy baja (-0.076), lo que sugiere que el nivel de ayuda recibido por los estudiantes no tiene un impacto claro en su desempeño académico.

2. **Relación con la Madre y Nota Media:** La correlación es prácticamente nula (-0.011), lo que indica que el apoyo percibido de la madre no muestra una asociación directa con las notas.

3. **Relación con el Padre y Nota Media:** Similar al caso anterior, la correlación es muy baja (-0.014), mostrando una falta de relación significativa.

#### Interpretación
Estos resultados sugieren que las variables incluidas en el análisis no son predictores fuertes del rendimiento académico. Esto podría deberse a:

- La existencia de otros factores más relevantes que no están considerados en el dataset, como motivación intrínseca, entorno escolar o socioeconómico.
- La posibilidad de que la relación entre estas variables y las notas no sea lineal.

#### Conclusión 
Con base en este análisis, no se valida la hipótesis inicial de que los estudiantes que reciben ayuda con los deberes de padres, hermanos o profesores particulares tienen un mejor rendimiento académico.