# Impacto de la situación laboral de los padres en el rendimiento académico

**- Hipótesis:**
*Los estudiantes cuyos padres tienen una situación laboral estable o más estudios formales obtienen mejores resultados académicos en comparación con aquellos cuyos padres tienen menos estudios o están desempleados.*

## Selección de datos


Como en el resto de hipótesis, debemos seleccionar las notas de los estudiantes.
En este caso también necesitaremos la situación laboral de los padres y su nivel de educación.


**Variables seleccionadas para `egd09`:**

- `PF15`: Profesión de la madre
- `PF16`: Estudios de la madre
- `PF17`: Situación laboral de la madre
- `PF19`: Profesión del padre
- `PF20`: Estudios del padre
- `PF21`: Situación laboral del padre


Como ya hemos mencionado en hipótesis anteriores, el conjunto de datos `egd09` incluye variables correspondientes a los cuestionarios realizados tanto por los alumnos como por sus padres.
En esta hipótesis, nos centraremos en el cuestionario completado por los padres, dado que consideramos que tienen una perspectiva más precisa en comparación con sus hijos.


Es importante señalar que, para esta hipótesis, no se considerarán variables del conjunto de datos `egd10`. Esta decisión se basa en la intención de simplificar el análisis y la manipulación de los datos, priorizando el uso de las variables del dataset `egd09`, que se consideran más fiables al tratarse de información recopilada directamente por los padres.

Asimismo, resulta interesante evaluar esta hipótesis en niños de menor edad, dado que la situación económica de los padres podría tener un impacto más significativo en esta etapa de desarrollo, en comparación con adolescentes, quienes podrían estar más habituados a dicha situación.

In [None]:
import pandas as pd

In [None]:
# Load the data from the Excel file
# WARNING TAKES A LONG TIME
# only loads the first sheet, thats the one that contains the data
# other sheets contain metadata
egd09 = pd.read_excel("data/EGD09.xlsx")

In [None]:
selected_features = [
    "PF15",
    "PF16",
    "PF17",
    "PF18",
    "PF19",
    "PF20",
    "PF21",
]
targets = [
    "PV1ling",
    "PV2ling",
    "PV3ling",
    "PV4ling",
    "PV5ling",
    "PV1mat",
    "PV2mat",
    "PV3mat",
    "PV4mat",
    "PV5mat",
    "PV1mfis",
    "PV2mfis",
    "PV3mfis",
    "PV4mfis",
    "PV5mfis",
    "PV1syc",
    "PV2syc",
    "PV3syc",
    "PV4syc",
    "PV5syc",
]

In [None]:
egd09 = egd09[selected_features + targets]

## Tratamiento y limpieza de datos


El tratamiento para esta hipótesis es muy simple:  
En primer lugar, para los targets, tomaremos la media de las calificaciones como en la hipótesis 1.  
Para las variables de la situación laboral de los padres, al ser un número pequeño, no es necesario hacer un tratamiento especial.
Sólo eliminaremos los valores nulos y por defecto, que en este caso no nos interesan.


### Tratamiento de valores nulos

In [None]:
print(f"Removing {egd09.isna().sum().sum()} rows with missing values")
egd09.dropna(inplace=True)

In [None]:
egd09[selected_features] = egd09[selected_features].astype(int).astype("category")

In [None]:
print(f"Removing {egd09[["PF15", "PF19"]].isin([99]).sum().sum() + egd09[["PF16", "PF17", "PF18", "PF19", "PF20", "PF21"]].isin([9]).sum().sum()} rows with default values")
egd09 = egd09[(egd09[["PF15", "PF19"]] != 99).all(axis=1)]
egd09 = egd09[
    (egd09[["PF16", "PF17", "PF18", "PF19", "PF20", "PF21"]] != 9).all(axis=1)
]

En las columnas de la situación laboral de los padres, hay otro tipo de valores con comportamientos similares a los valores por defecto, como el "no sabe", representado por el valor 13. Los eliminamos de la misma manera:

In [None]:
print(f"Removing {egd09[["PF15", "PF19"]].isin([13]).sum().sum()} rows with default values")
egd09 = egd09[(egd09[["PF15", "PF19"]] != 13).all(axis=1)]

### Tratamiento de las variables

Para el caso de las variables del grupo `target`, seguiremos la misma estrategia que en la hipótesis 1:

In [None]:
egd09.loc[:, "Nota_Media"] = egd09[targets].mean(axis=1)
egd09.drop(targets, axis=1, inplace=True)
egd09.loc[:, "Nota_Media"] = egd09["Nota_Media"].apply(lambda x: x / 100)

## Características de la tarjeta de datos


El nuevo dataset generado, `tarjeta_H2`, representa una versión refinada y simplificada de los datos originales, obtenida a través de la transformación y selección de las características más relevantes para la hipotésis que nos atañe en este caso.  
Las transformaciñon empleada en las características de importancia seleccionadas ha sido principalmente la reducción de la dimensionalidad.



In [None]:
# Guardar el nuevo DataFrame en un archivo CSV
egd09.to_csv("data/tarjeta_H2.csv", index=False, float_format="%.2f")

Las variables finales son:

- `PF15`: Profesión de la madre
- `PF16`: Estudios de la madre
- `PF17`: Situación laboral de la madre
- `PF19`: Profesión del padre
- `PF20`: Estudios del padre
- `PF21`: Situación laboral del padre
- `Nota_Media`: Nota media de los estudiantes

Sin valores nulos ni valores por defecto.

Las variables `PF16` y `PF20` presentan valores organizados de manera ordinal, de menor a mayor nivel educativo. Este orden permite realizar comparaciones jerárquicas en función del nivel de estudios de los padres.

En contraste, las variables relacionadas con la situación laboral y las profesiones de los padres no presentan un orden implícito entre sus categorías. Por lo tanto, estas deben tratarse como variables categóricas no ordinales. Esto diferencia su análisis del de las variables educativas, en las cuales sí es posible establecer una comparación basada en el nivel de estudios.



## Líneas de Trabajo

Para validar la hipótesis de que las características laborales y educativas de los padres influyen en el rendimiento académico de sus hijos, podríamos realizar un análisis de correlación entre las variables relacionadas con el nivel educativo y la situación laboral de los padres y las calificaciones promedio de los estudiantes.

Además, podríamos complementar este análisis utilizando técnicas como el clustering para identificar patrones en los datos y determinar si existen grupos distintivos en función de estas características parentales.
Este enfoque permitirá evaluar si existe una relación estadísticamente significativa y medir la magnitud de dicha influencia.
