## Impacto de la situación laboral de los padres en el rendimiento académico

**- Hipótesis:**
*Los estudiantes cuyos padres tienen una situación laboral estable o más estudios formales obtienen mejores resultados académicos en comparación con aquellos cuyos padres tienen menos estudios o están desempleados.*

### Selección de datos


Como en el resto de hipótesis, debemos seleccionar las notas de los estudiantes.
En este caso también necesitaremos la situación laboral de los padres y su nivel de educación.


**Variables seleccionadas para `egd09`:**

- `PF15`: Profesión de la madre
- `PF16`: Estudios de la madre
- `PF17`: Situación laboral de la madre
- `PF19`: Profesión del padre
- `PF20`: Estudios del padre
- `PF21`: Situación laboral del padre


Como ya hemos mencionado en hipótesis anteriores, el conjunto de datos `egd09` incluye variables correspondientes a los cuestionarios realizados tanto por los alumnos como por sus padres.
En esta hipótesis, nos centraremos en el cuestionario completado por los padres, dado que consideramos que tienen una perspectiva más precisa en comparación con sus hijos.


Es importante señalar que, para esta hipótesis, no se considerarán variables del conjunto de datos `egd10`. Esta decisión se basa en la intención de simplificar el análisis y la manipulación de los datos, priorizando el uso de las variables del dataset `egd09`, que se consideran más fiables al tratarse de información recopilada directamente por los padres.

Asimismo, resulta interesante evaluar esta hipótesis en niños de menor edad, dado que la situación económica de los padres podría tener un impacto más significativo en esta etapa de desarrollo, en comparación con adolescentes, quienes podrían estar más habituados a dicha situación.

In [None]:
import pandas as pd

In [None]:
# Load the data from the Excel file
# WARNING TAKES A LONG TIME
# only loads the first sheet, thats the one that contains the data
# other sheets contain metadata
egd09 = pd.read_excel("data/EGD09.xlsx")

In [None]:
selected_features = [
    "PF15",
    "PF16",
    "PF17",
    "PF19",
    "PF20",
    "PF21",
]
targets = [
    "PV1ling",
    "PV2ling",
    "PV3ling",
    "PV4ling",
    "PV5ling",
    "PV1mat",
    "PV2mat",
    "PV3mat",
    "PV4mat",
    "PV5mat",
    "PV1mfis",
    "PV2mfis",
    "PV3mfis",
    "PV4mfis",
    "PV5mfis",
    "PV1syc",
    "PV2syc",
    "PV3syc",
    "PV4syc",
    "PV5syc",
]

In [None]:
egd09 = egd09[selected_features + targets]

### Tratamiento y limpieza de datos


El tratamiento para esta hipótesis es muy simple:  
En primer lugar, para los targets, tomaremos la media de las calificaciones como en la hipótesis 1.  
Para las variables de la situación laboral de los padres, al ser un número pequeño, no es necesario hacer un tratamiento especial.
Sólo eliminaremos los valores nulos y por defecto, que en este caso no nos interesan.


#### Tratamiento de valores nulos

In [None]:
print(f"Removing {egd09.isna().sum().sum()} rows with missing values")
egd09.dropna(inplace=True)

In [None]:
print(f'Removing {egd09[["PF15", "PF19"]].isin([99]).sum().sum() + egd09[["PF16", "PF17", "PF19", "PF20", "PF21"]].isin([9]).sum().sum()} rows with default values')
egd09 = egd09[(egd09[["PF15", "PF19"]] != 99).all(axis=1)]
egd09 = egd09[
    (egd09[["PF16", "PF17", "PF19", "PF20", "PF21"]] != 9).all(axis=1)
]

En las columnas de la situación laboral de los padres, hay otro tipo de valores con comportamientos similares a los valores por defecto, como el "no sabe", representado por el valor 13. Los eliminamos de la misma manera:

In [None]:
print(f'Removing {egd09[["PF15", "PF19"]].isin([13]).sum().sum()} rows with default values')
egd09 = egd09[(egd09[["PF15", "PF19"]] != 13).all(axis=1)]

In [None]:
egd09[selected_features] = egd09[selected_features].astype(int).astype("category")

#### Tratamiento de las variables

Para el caso de las variables del grupo `target`, seguiremos la misma estrategia que en la hipótesis 1:

In [None]:
egd09.loc[:, "Nota_Media"] = egd09[targets].mean(axis=1)
egd09.drop(targets, axis=1, inplace=True)
egd09.loc[:, "Nota_Media"] = egd09["Nota_Media"].apply(lambda x: x / 100)

### Características de la tarjeta de datos


El nuevo dataset generado, `tarjeta_H2`, representa una versión refinada y simplificada de los datos originales, obtenida a través de la transformación y selección de las características más relevantes para la hipotésis que nos atañe en este caso.  
Las transformaciñon empleada en las características de importancia seleccionadas ha sido principalmente la reducción de la dimensionalidad.



In [None]:
# Guardar el nuevo DataFrame en un archivo CSV
egd09.to_csv("data/tarjeta_H2.csv", index=False, float_format="%.2f")

Las variables finales son:

- `PF15`: Profesión de la madre
- `PF16`: Estudios de la madre
- `PF17`: Situación laboral de la madre
- `PF19`: Profesión del padre
- `PF20`: Estudios del padre
- `PF21`: Situación laboral del padre
- `Nota_Media`: Nota media de los estudiantes

Sin valores nulos ni valores por defecto.

Las variables `PF16` y `PF20` presentan valores organizados de manera ordinal, de menor a mayor nivel educativo. Este orden permite realizar comparaciones jerárquicas en función del nivel de estudios de los padres.

En contraste, las variables relacionadas con la situación laboral y las profesiones de los padres no presentan un orden implícito entre sus categorías. Por lo tanto, estas deben tratarse como variables categóricas no ordinales. Esto diferencia su análisis del de las variables educativas, en las cuales sí es posible establecer una comparación basada en el nivel de estudios.



### Líneas de Trabajo

Para validar la hipótesis de que las características laborales y educativas de los padres influyen en el rendimiento académico de sus hijos, podríamos realizar un análisis de correlación entre las variables relacionadas con el nivel educativo y la situación laboral de los padres y las calificaciones promedio de los estudiantes.

Además, podríamos complementar este análisis utilizando técnicas como el clustering para identificar patrones en los datos y determinar si existen grupos distintivos en función de estas características parentales.
Este enfoque permitirá evaluar si existe una relación estadísticamente significativa y medir la magnitud de dicha influencia.


### Validación de hipótesis

Haremos un análisis de correlación entre las variables seleccionadas y la nota media de los estudiantes para evaluar la relación entre la situación laboral y educativa de los padres y el rendimiento académico de sus hijos.

Finalmente, evaluaremos la significancia estadística de estas relaciones mediante pruebas de hipótesis y análisis de varianza (ANOVA) para determinar si existen diferencias significativas en las calificaciones promedio en función de las características parentales seleccionadas.

También exploraremos visualmente la distribución de las notas medias en función de las variables de interés para identificar posibles patrones o tendencias.

#### Estudio de correlación

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Calcular la matriz de correlación
c_matrix = egd09[selected_features].corr()

# Imprimir la matriz de correlación
plt.figure(figsize=(10, 8))
sns.heatmap(c_matrix, square=True, annot=True, cmap="coolwarm", cbar=True)
plt.title("Matriz de Correlación de Características Seleccionadas")
plt.show()

Podemos ver que exiten ciertas relaciones entre las variables seleccionadas, en concreto, entre las variables de los niveles de estudios de ambos padres.

También exite gran correlación entre los estudios de la madre y su trabajo.
Cabe destacar que es una relación inversa ya que los valores del nivel de estudios son crecientes mientras que los de la situación laboral son "decrecientes".

La otra relación notable es entre la situación laboral de la madre y su profesión cosa que tiene sentido, aunque es interesante que no se de en el caso del padre, al igual que en el caso anterior.

Para las variabes PF15 y PF19, los valores posibles son:

- 1	Emp. con asalariados, altos funcionarios, altos ejecutivos
- 2	Medianos emp., profesionales y técnicos por cuenta propia
- 3	Comerciantes y pequeños empresarios y cuadros medios
- 4	Personal administrativo, comercial y de servicios
- 5	Obreros cualificados (no agrarios)
- 6	Agricultores y miembros de cooperativas
- 7	Obreros no cualificados
- 8	Jubilados y pensionistas
- 9	Parados
- 10	Estudiantes
- 11	Sus labores
- 12	Situaciones no clasificables


Para PF16 y PF20:

- 1	Sin estudios
- 2	No completó estudios obligatorios EGB ESO
- 3	Estudios obligatorios (ESO,EGB)
- 4	Bachillerato
- 5	Formación Profesional o equiv.
- 6	Universitarios medios
- 7	Universitarios superiores


Estas están bien ordenadas, un valor inferior corresponde a estudios inferiores.

Para PF17 y PF21:

- 1	Trabaja fuera de casa por cuenta propia
- 2	Trabaja fuera de casa por cuenta ajena
- 3	Trabaja en casa de forma remunerada por cuenta propia
- 4	Trabaja en casa de manera remunerada por cuenta ajena
- 5	Está en paro
- 6	Está jubilada
- 7	Trabaja haciendo las tareas de casa


#### Estudio de la importancia de las variables

En este apartado usaremos un modelo de Random Forest para estudiar la importancia de las variables en el rendimiento académico de los estudiantes.
Esto es posible gracias a que el modelo de Random Forest es capaz de evaluar la importancia de las variables en la predicción del target mediante el cálculo de la ganancia de información.

In [None]:
# Comprobar las características más importantes según un Random Forest
from sklearn.ensemble import RandomForestRegressor

# Crear un Regressor de Random Forest
rf_importance = RandomForestRegressor(n_estimators=100la situación laboral0, random_state=42)

# Entrenar el modelo
rf_importance.fit(egd09.drop(["Nota_Media"], axis=1), egd09["Nota_Media"])

# Obtener la importancia de las características
importances = rf_importance.feature_importances_

# Crear un DataFrame con las características y su importancia
feature_importances = pd.DataFrame({'feature': egd09.drop(["Nota_Media"], axis=1).columns, 'importance': importances})
feature_importances = feature_importances.sort_values('importance', ascending=False).reset_index(drop=True)


In [None]:
# Representar la importancia de las características
plt.figure(figsize=(10, 8))
sns.barplot(x='importance', y='feature', data=feature_importances, hue='feature', palette='viridis')
plt.title("Importancia de las Características")
plt.show()

Podemos observar que la variable más importancia, con diferencia, son los estudios de la madre, seguido de la profesión de la madre.

Vamos a estudiar más a fondo la relación entre los estudios de la madre y el rendimiento académico de los estudiantes.

Empezaremos viendo la distribución de instancias de cada clase de los estudios de la madre.
Esto nos permitirá ver si hay alguna clase que destaque sobre las demás.

In [None]:
egd09["PF16"].value_counts(sort=False)

Ahora seguiremos con la distribución de las notas medias de los estudiantes en función de los estudios de la madre.

In [None]:
plt.figure(figsize=(12, 8))
sns.violinplot(x='PF16', y='Nota_Media', data=egd09, hue='PF16', legend=False, palette='muted')
plt.title('Distribución de Nota_Media por Clases de PF16')
plt.xlabel('Clases de PF16')
plt.ylabel('Nota Media')
plt.show()


Podemos observar en el gráfico que sí existe una tendencia a que los estudiantes con madres con estudios superiores obtengan mejores notas.
Las notas medias de los estudiantes aumentan a medida que el nivel de estudios de la madre es más alto.
Aunque las distribuciones son muy aplanadas.

Ahora vamos a probar a crear un modelo de regresión para predecir la nota media de los estudiantes en función las variables más importantes y que no estén altamente correlacionadas.

In [None]:
drop_features = [
    "PF17",
    "PF20",
]

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.utils import compute_sample_weight
from sklearn.metrics import mean_squared_error, r2_score


Dividiremos el dataset en train y test y entrenaremos el modelo.
Usaremos el test para evaluar el modelo.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(egd09.drop(drop_features + ["Nota_Media"], inplace=True), egd09["Nota_Media"], test_size=0.2, random_state=42)

También haremos una búsqueda de hiperparámetros para mejorar el modelo.

In [None]:
param_grid = {
    'n_estimators': [300, 500],
    'max_depth': [10, 20, 30, 40, 50],
    'min_samples_split': [20, 50, 100],
    'min_samples_leaf': [10, 20, 40],
}
sample_weights = compute_sample_weight(class_weight='balanced', y=y_train)

rf_regressor = RandomForestRegressor(random_state=42)

grid_search = GridSearchCV(estimator=rf_regressor, param_grid=param_grid, cv=3, n_jobs=-1)
grid_search.fit(X_train, y_train, sample_weight=sample_weights)

# Modelo con los mejores hiperparámetros
best_rf = grid_search.best_estimator_
y_pred = best_rf.predict(X_test)

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)

# Calcular el coeficiente de determinación R^2
r2 = r2_score(y_test, y_pred)

# Mostrar los resultados
print(f"Error cuadrático medio (MSE): {mse}")
print(f"Coeficiente de determinación (R^2): {r2}")


```
Error cuadrático medio (MSE): 0.5371476373560035
Coeficiente de determinación (R^2): 0.11137998961227213
```

No son buenos resultados, el valor R² es mejor que esté cercano a 1.

El modelo no es capaz de predecir correctamente la nota media de los estudiantes en función de las variables seleccionadas.


### Interpretación de los resultados

En resumen, hemos podido observar que existe una relación entre los estudios de la madre y el rendimiento académico de los estudiantes, aunque no es una relación directa y clara.

Aunque los estudiantes con madres con estudios superiores tienden a obtener mejores notas, esta relación no es determinante y puede verse influenciada por otros factores.

Además, la situación laboral de los padres no parece tener un impacto significativo en el rendimiento académico de los estudiantes, al menos en el contexto de este análisis.

Por lo tanto, aunque la hipótesis inicial sugiere que la situación laboral y educativa de los padres influyen en el rendimiento académico de los estudiantes, los resultados obtenidos indican que esta relación es más compleja y está influenciada por múltiples factores.

### Conclusiones

Diremos que esta hipótesis no se cumple, ya que no se ha podido demostrar que la situación laboral de los padpadres influya en el rendimiento académico de los estudiantes.
Esto es debido a que la variable más importante, los estudios de la madre, no es suficiente para predecir el rendimiento académico de los estudiantes.
El modelo de predicción no ha sido capaz de estimar correctamente la nota media de los estudiantes en función de las variables seleccionadas.