# Impacto de la situación laboral de los padres en el rendimiento académico

Los estudiantes cuyos padres tienen una situación laboral estable o más estudios formales obtienen mejores resultados académicos en comparación con aquellos cuyos padres tienen menos estudios o están desempleados.

## Selección de datos


Como en el resto de hipótesis, debemos seleccionar la nota de los estudiantes.
En este caso también necesitamos la situación laboral de los padres y el nivel de educación de estos.


En egd09, las variables son:

- `P6A`: Estudios de la madre
- `P6B`: Estudios del padre
- `P7A`: Situación laboral madre
- `P7B`: Situación laboral padre
- `P8`: Trabajo de tu madre
- `P10`: Trabajo de tu padre
- `PF15`: Profesión de la madre
- `PF16`: Estudios de la madre
- `PF17`: Situación laboral de la madre
- `PF19`: Profesión del padre
- `PF20`: Estudios del padre
- `PF21`: Situación laboral del padre


Para el dataset egd10, las columnas que necesitamos son:

- `S6M`: Estudios de la madre
- `S6P`: Estudios del padre
- `S7M`: Situación laboral madre
- `S7P`: Situación laboral padre
- `S8`: Trabajo de tu madre
- `S10`: Trabajo de tu padre


Como en las otras hipótesis, en el dataset egd09, hay variables para el cuestionario hecho por los alumnos y el hecho por los padres.
En esta hipótesis, nos interesa el cuestionario hecho por los padres ya que estos tienen mejor idea que los hijos.
Por lo que, para esta hipótesis, usaremos las variables del dataset egd09.


In [None]:
import pandas as pd


In [None]:
# Load the data from the Excel file
# WARNING TAKES A LONG TIME
# only loads the first sheet, thats the one that contains the data
# other sheets contain metadata
egd09 = pd.read_excel("data/EGD09.xlsx")


In [None]:
best_features = [
    "PF15",
    "PF16",
    "PF17",
    "PF18",
    "PF19",
    "PF20",
    "PF21",
]
targets_09 = [
    "PV1ling",
    "PV2ling",
    "PV3ling",
    "PV4ling",
    "PV5ling",
    "PV1mat",
    "PV2mat",
    "PV3mat",
    "PV4mat",
    "PV5mat",
    "PV1mfis",
    "PV2mfis",
    "PV3mfis",
    "PV4mfis",
    "PV5mfis",
    "PV1syc",
    "PV2syc",
    "PV3syc",
    "PV4syc",
    "PV5syc",
]


In [None]:
egd09 = egd09[best_features + targets_09]


## Tratamiento y limpieza de datos


El tratamiento para esta hipótesis es muy simple, tomaremos la media de las notas como en el resto.
Para las variables de la situación laboral de los padres, al ser un número pequeño de categorías, no es necesario hacer un tratamiento especial.
Sólo eliminaremos aquellos valores por defecto.


In [None]:
egd09.loc[:, "mean_score"] = egd09[targets_09].mean(axis=1)
egd09.drop(targets_09, axis=1, inplace=True)
egd09.loc[:, "mean_score"] = egd09["mean_score"].apply(lambda x: x/100)


In [None]:
print(f"Removing {egd09.isna().sum().sum()} rows with missing values")

In [None]:
egd09.dropna(inplace=True)

In [None]:
egd09[best_features] = egd09[best_features].astype(int).astype("category")

In [None]:
print(f"Removing {egd09[["PF15", "PF19"]].isin([99]).sum().sum() + egd09[["PF16", "PF17", "PF18", "PF19", "PF20", "PF21"]].isin([9]).sum().sum()} rows with default values")

In [None]:
egd09 = egd09[(egd09[["PF15", "PF19"]] != 99).all(axis=1)]
egd09 = egd09[(egd09[["PF16", "PF17", "PF18", "PF19", "PF20", "PF21"]] != 9).all(axis=1)]


En las columnas de la situación laboral de los padres, hay valores que tampoco tienen sentido, como el "no sabe", representado por el valor 13.

In [None]:
print(f"Removing {egd09[["PF15", "PF19"]].isin([13]).sum().sum()} rows with default values")


In [None]:
egd09 = egd09[(egd09[["PF15", "PF19"]] != 13).all(axis=1)]


## Características de la tarjeta de datos


Las variables finales son:

- `PF15`: Profesión de la madre
- `PF16`: Estudios de la madre
- `PF17`: Situación laboral de la madre
- `PF19`: Profesión del padre
- `PF20`: Estudios del padre
- `PF21`: Situación laboral del padre
- `mean_score`: Nota media de los estudiantes

Sin valores nulos ni valores por defecto.
En el dataset egd09.

Para las variables de `PF16` y `PF20`, los valores vienen ordenados de menor a mayor nivel de estudios.
Cosa que no ocurre en las variables de la situación laboral de los padres ni en las profesiones de estos.
Esta variable tendrán que ser tratadas específicamente como categóricas no ordinales, al contrario que las variables de los estudios de los padres, en las que sí se puede hacer una comparación de mayor a menor nivel de estudios.

También existe una intersección no nula entre las variables de la profesión de los padres y la situación laboral de estos.
Por ejemplo, jubilados y parados aparecen en ambas variables.
Cosa que puede llevar a una redundancia en los datos y a una posible correlación entre estas variables.


## Líneas de Trabajo

Se empezaría estudiando la correlación entre las variables mencionadas anteriormente.
Terminaríamos con un estudio para validar la hipótesis.
