# Influencia de la lengua hablada en casa en el rendimiento académico

**- Hipótesis:** *Los estudiantes que hablan la misma lengua en casa y en el colegio (ya sea castellano, catalán, gallego, etc.) tienen un mejor rendimiento académico en comparación con aquellos que hablan una lengua diferente en casa y en el colegio.*


## Selección de datos


Para validar esta hipotesis, sera mas util el uso del dataset `edg10`, en vez de el `egd09` debido a factores similares a los de la hipótesis 1.  
Se deben seleccionar las notas de los estudiantes como datos, al igual que el resto de situaciones. En el dataset `egd10`, las variables relevantes serian las lenguas habladas.  

**Variables seleccionadas para `egd10`:**
* `S12AA`: Lengua que habla en casa-Castellano
* `S12AB`: Lengua que habla en casa-Catalán
* `S12AC`: Lengua que habla en casa-Gallego
* `S12AD`: Lengua que habla en casa-Valenciano
* `S12AE`: Lengua que habla en casa-Vasco
* `S12AF`: Lengua que habla en casa-Árabe
* `S12AG`: Lengua que habla en casa-Chino
* `S12AH`: Lengua que habla en casa-Inglés
* `S12AI`: Lengua que habla en casa-Rumano
* `S12AJ`: Lengua que habla en casa-Otra lengua
* `S12BA`: Lengua que habla en el colegio-Castellano
* `S12BB`: Lengua que habla en el colegio-Catalán
* `S12BC`: Lengua que habla en el colegio-Gallego
* `S12BD`: Lengua que habla en el colegio-Valenciano
* `S12BE`: Lengua que habla en el colegio-Vasco
* `S12BF`: Lengua que habla en el colegio-Árabe
* `S12BG`: Lengua que habla en el colegio-Chino
* `S12BH`: Lengua que habla en el colegio-Inglés
* `S12BI`: Lengua que habla en el colegio-Rumano
* `S12BJ`: Lengua que habla en el colegio-Otra lengua
* `S12CA`: Lengua que habla con los amigos-Castellano
* `S12CB`: Lengua que habla con los amigos-Catalán
* `S12CC`: Lengua que habla con los amigos-Gallego
* `S12CD`: Lengua que habla con los amigos-Valenciano
* `S12CE`: Lengua que habla con los amigos-Vasco
* `S12CF`: Lengua que habla con los amigos-Árabe
* `S12CG`: Lengua que habla con los amigos-Chino
* `S12CH`: Lengua que habla con los amigos-Inglés
* `S12CI`: Lengua que habla con los amigos-Rumano
* `S12CJ`: Lengua que habla con los amigos-Otra lengua
* `S12DA`: Lengua en la que escucha la TV-Castellano
* `S12DB`: Lengua en la que escucha la TV-Catalán
* `S12DC`: Lengua en la que escucha la TV-Gallego
* `S12DD`: Lengua en la que escucha la TV-Valenciano
* `S12DE`: Lengua en la que escucha la TV-Vasco
* `S12DF`: Lengua en la que escucha la TV-Árabe
* `S12DG`: Lengua en la que escucha la TV-Chino
* `S12DH`: Lengua en la que escucha la TV-Inglés
* `S12DI`: Lengua en la que escucha la TV-Rumano
* `S12DJ`: Lengua en la que escucha la TV-Otra lengua

In [None]:
import pandas as pd

In [None]:
# Load the data from the Excel file
# WARNING TAKES A LONG TIME
# only loads the first sheet, thats the one that contains the data
# other sheets contain metadata
egd10 = pd.read_excel("data/EGD10.xlsx")

In [None]:
targets = [
    "PV1LING",
    "PV2LING",
    "PV3LING",
    "PV4LING",
    "PV5LING",
    "PV1MAT",
    "PV2MAT",
    "PV3MAT",
    "PV4MAT",
    "PV5MAT",
    "PV1MFIS",
    "PV2MFIS",
    "PV3MFIS",
    "PV4MFIS",
    "PV5MFIS",
    "PV1SYC",
    "PV2SYC",
    "PV3SYC",
    "PV4SYC",
    "PV5SYC",
]


casa_idiomas = [
    "S12AA",
    "S12AB",
    "S12AC",
    "S12AD",
    "S12AE",
    "S12AF",
    "S12AG",
    "S12AH",
    "S12AI",
    "S12AJ",
]
colegio_idiomas = [
    "S12BA",
    "S12BB",
    "S12BC",
    "S12BD",
    "S12BE",
    "S12BF",
    "S12BG",
    "S12BH",
    "S12BI",
    "S12BJ",
]
amigos_idiomas = [
    "S12CA",
    "S12CB",
    "S12CC",
    "S12CD",
    "S12CE",
    "S12CF",
    "S12CG",
    "S12CH",
    "S12CI",
    "S12CJ",
]
tv_idiomas = [
    "S12DA",
    "S12DB",
    "S12DC",
    "S12DD",
    "S12DE",
    "S12DF",
    "S12DG",
    "S12DH",
    "S12DI",
    "S12DJ",
]

selected_features = casa_idiomas + colegio_idiomas + amigos_idiomas + tv_idiomas


Hemos decidido seleccionar también las variables que reflejan los idiomas utilizados con los amigos o al ver la televisión, ya que son importantes y forman parte del entorno linguístico que emplean en su día a día.

## Tratamiento y limpieza de datos


### Tratamiento de valores nulos

En primer lugar, debemos hacer una limpieza de los valores nulos.  
Esta limpieza será sencilla y automática, pues los grupos de variables de idioma no poseen valores por defecto y para las calificaciónes emplearemos la misma técnica de unificación que para la hipótesis 1, que trataba los valores nulos del `target` por defecto.


In [None]:
egd10.dropna(subset=selected_features, inplace=True)

### Tratamiento de las variables

El dataset egd10 usa un numero entre el 1 y 10, para indicar si el alumno habla el idioma en cuestión, y 99 en caso contrario. Si observamos, tiene una estructura de tipo "checkbox", parecida al caso de las variables de ayuda en la hipótesis 1.  
Transformaremos esto para mejorar la manipulabilidad de los datos a un valor booleano: 1 para indicar si habla el idioma y 0 para lo contrario.

In [None]:
egd10_sel10feat = egd10[selected_features].replace(list(range(1,11)),1).replace(99,0)

La mayor dificultad de este dataset se encontraría en la posibilidad de que algunos idiomas hablados en casa coincidan o no con los de clase, de una forma que es difícil de comparar usando métodos normales. Nuestra solución consiste en contar el número de idiomas hablados tanto en casa como en la escuela, y medir su proporción respecto al número de idiomas en total hablados en la escuela.

Esto se puede repetir con las otras métricas como idiomas hablados en televisión, o con amigos. Aunque no estén directamente relacionados, los considero al menos un poco importantes para la hipótesis, ya que conciernen el entorno social fuera de la escuela, en cuanto a idiomas hablados y podrían tener una influencia.

In [None]:
ratio_idiomas_clase =  pd.DataFrame(
    (egd10_sel10feat[colegio_idiomas].values * egd10_sel10feat[casa_idiomas].values).sum(axis=1)
    / egd10_sel10feat[colegio_idiomas].sum(axis=1),
    columns=["Ratio de Idiomas Hablados en Casa"],
).join(
  pd.DataFrame(
    (egd10_sel10feat[colegio_idiomas].values * egd10_sel10feat[tv_idiomas].values).sum(axis=1)
    / egd10_sel10feat[colegio_idiomas].sum(axis=1),
    columns=["Ratio de Idiomas Vistos en TV"],
)).join(
 pd.DataFrame(
    (egd10_sel10feat[colegio_idiomas].values * egd10_sel10feat[amigos_idiomas].values).sum(axis=1)
    / egd10_sel10feat[colegio_idiomas].sum(axis=1),
    columns=["Ratio Idiomas Hablados con Amigos"],
))

### Creando los target

Como hablamos de rendimiento académico, se usara la misma métrica que en la hipótesis 1 (nota media).

In [None]:
egd10

In [None]:
notas_medias = egd10[targets_10].mean(axis=1)
notas_medias = notas_medias.apply(lambda x: x / 100).to_frame(name="Nota Media")

Podemos ahora guardar estas variables a un csv, para crear la tarjeta de datos relevante.

In [None]:
tarjeta_datos = ratio_idiomas_clase.join(notas_medias)
tarjeta_datos.to_csv("data/tarjetaH3.csv",float_format="%.2f")

## Características de la tarjeta de datos


Las variables finales para usar validando la hipótesis son:
* Ratio de Idiomas Hablados en Casa: Se refiere a los idiomas hablados en casa y en la escuela, dividido sobre el total de idiomas hablados en la escuela.
* Ratio de Idiomas Vistos en TV: Se refiere a los idiomas vistos en TV y hablados en la escuela, dividido sobre el total de idiomas hablados en la escuela. 
* Ratio Idiomas Hablados con Amigos: Se refiere a los idiomas hablados con amigos y en la escuela, dividido sobre el total de idiomas hablados en la escuela.
* Nota Media

No hay ningún valor nulo.

La idea detrás de usar un ratio entre idiomas hablados, es para poder cuantificar en entornos multilingües, hasta que punto un estudiante habla un idioma distinto en los dos entornos. Así, si se hablan varios idiomas en casa, pero solo 1 de ellos se habla en la clase, cuando en clase normalmente se hablan 2, se contaría como hablar un idioma distinto. Esto, comparado con un estudiante que no habla tantos idiomas en casa, pero donde todos se hablan en clase, este calificaría mejor que el anterior, lo que nos interesa en el contexto de esta hipótesis.


## Líneas de Trabajo


Se empezaría estudiando la correlación entre las variables mencionadas anteriormente. Terminaríamos con un estudio para validar la hipótesis.