## Influencia de la lengua hablada en casa en el rendimiento académico

**- Hipótesis:** *Los estudiantes que hablan la misma lengua en casa y en el colegio (ya sea castellano, catalán, gallego, etc.) tienen un mejor rendimiento académico en comparación con aquellos que hablan una lengua diferente en casa y en el colegio.*


### Selección de datos


Para validar esta hipotesis, será mas util el uso del dataset `edg10`, en vez de el `egd09` debido a factores similares a los de la hipótesis 1.  
Se deben seleccionar las notas de los estudiantes como datos, al igual que el resto de situaciones. En el dataset `egd10`, las variables relevantes serian las lenguas habladas.  
Como en el resto de hipótesis, debemos seleccionar también las notas de los estudiantes.

**Variables seleccionadas para `egd10`:**

- `S12AA`: Lengua que habla en casa-Castellano
- `S12AB`: Lengua que habla en casa-Catalán
- `S12AC`: Lengua que habla en casa-Gallego
- `S12AD`: Lengua que habla en casa-Valenciano
- `S12AE`: Lengua que habla en casa-Vasco
- `S12AF`: Lengua que habla en casa-Árabe
- `S12AG`: Lengua que habla en casa-Chino
- `S12AH`: Lengua que habla en casa-Inglés
- `S12AI`: Lengua que habla en casa-Rumano
- `S12AJ`: Lengua que habla en casa-Otra lengua
- `S12BA`: Lengua que habla en el colegio-Castellano
- `S12BB`: Lengua que habla en el colegio-Catalán
- `S12BC`: Lengua que habla en el colegio-Gallego
- `S12BD`: Lengua que habla en el colegio-Valenciano
- `S12BE`: Lengua que habla en el colegio-Vasco
- `S12BF`: Lengua que habla en el colegio-Árabe
- `S12BG`: Lengua que habla en el colegio-Chino
- `S12BH`: Lengua que habla en el colegio-Inglés
- `S12BI`: Lengua que habla en el colegio-Rumano
- `S12BJ`: Lengua que habla en el colegio-Otra lengua
- `S12CA`: Lengua que habla con los amigos-Castellano
- `S12CB`: Lengua que habla con los amigos-Catalán
- `S12CC`: Lengua que habla con los amigos-Gallego
- `S12CD`: Lengua que habla con los amigos-Valenciano
- `S12CE`: Lengua que habla con los amigos-Vasco
- `S12CF`: Lengua que habla con los amigos-Árabe
- `S12CG`: Lengua que habla con los amigos-Chino
- `S12CH`: Lengua que habla con los amigos-Inglés
- `S12CI`: Lengua que habla con los amigos-Rumano
- `S12CJ`: Lengua que habla con los amigos-Otra lengua
- `S12DA`: Lengua en la que escucha la TV-Castellano
- `S12DB`: Lengua en la que escucha la TV-Catalán
- `S12DC`: Lengua en la que escucha la TV-Gallego
- `S12DD`: Lengua en la que escucha la TV-Valenciano
- `S12DE`: Lengua en la que escucha la TV-Vasco
- `S12DF`: Lengua en la que escucha la TV-Árabe
- `S12DG`: Lengua en la que escucha la TV-Chino
- `S12DH`: Lengua en la que escucha la TV-Inglés
- `S12DI`: Lengua en la que escucha la TV-Rumano
- `S12DJ`: Lengua en la que escucha la TV-Otra lengua

In [None]:
import pandas as pd

In [None]:
# Load the data from the Excel file
# WARNING TAKES A LONG TIME
# only loads the first sheet, thats the one that contains the data
# other sheets contain metadata
egd10 = pd.read_excel("data/EGD10.xlsx",verbose=True)

In [None]:
targets = [
    "PV1LING",
    "PV2LING",
    "PV3LING",
    "PV4LING",
    "PV5LING",
    "PV1MAT",
    "PV2MAT",
    "PV3MAT",
    "PV4MAT",
    "PV5MAT",
    "PV1MFIS",
    "PV2MFIS",
    "PV3MFIS",
    "PV4MFIS",
    "PV5MFIS",
    "PV1SYC",
    "PV2SYC",
    "PV3SYC",
    "PV4SYC",
    "PV5SYC",
]


casa_idiomas = [
    "S12AA",
    "S12AB",
    "S12AC",
    "S12AD",
    "S12AE",
    "S12AF",
    "S12AG",
    "S12AH",
    "S12AI",
    "S12AJ",
]
colegio_idiomas = [
    "S12BA",
    "S12BB",
    "S12BC",
    "S12BD",
    "S12BE",
    "S12BF",
    "S12BG",
    "S12BH",
    "S12BI",
    "S12BJ",
]
amigos_idiomas = [
    "S12CA",
    "S12CB",
    "S12CC",
    "S12CD",
    "S12CE",
    "S12CF",
    "S12CG",
    "S12CH",
    "S12CI",
    "S12CJ",
]
tv_idiomas = [
    "S12DA",
    "S12DB",
    "S12DC",
    "S12DD",
    "S12DE",
    "S12DF",
    "S12DG",
    "S12DH",
    "S12DI",
    "S12DJ",
]

selected_features = casa_idiomas + colegio_idiomas + amigos_idiomas + tv_idiomas


Hemos decidido seleccionar también las variables que reflejan los idiomas utilizados con los amigos o al ver la televisión, ya que son importantes y forman parte del entorno linguístico que emplean en su día a día.

### Tratamiento y limpieza de datos


#### Tratamiento de valores nulos

En primer lugar, debemos hacer una limpieza de los valores nulos.  
Esta limpieza será sencilla y automática, pues los grupos de variables de idioma no poseen valores por defecto y para las calificaciónes emplearemos la misma técnica de unificación que para la hipótesis 1, que trataba los valores nulos del `target` por defecto.


In [None]:
egd10.dropna(subset=selected_features+targets, inplace=True)

#### Tratamiento de las variables

El dataset egd10 usa un numero entre el 1 y 10, para indicar si el alumno habla el idioma en cuestión, y 99 en caso contrario. Si observamos, tiene una estructura de tipo "checkbox", parecida al caso de las variables de ayuda en la hipótesis 1.  
Transformaremos esto para mejorar la manipulabilidad de los datos a un valor booleano: 1 para indicar si habla el idioma y 0 para lo contrario.

In [None]:
egd10_sel10feat = egd10[selected_features].replace(list(range(1,11)),1).replace(99,0)

La principal dificultad de este dataset radica en la comparación de idiomas hablados en casa con los utilizados en clase, lo cual es complicado de evaluar utilizando métodos convencionales. Nuestra solución consiste en contar el número de idiomas hablados tanto en casa como en la escuela y calcular su proporción respecto al total de idiomas hablados en la escuela.

La idea de usar un ratio entre idiomas hablados busca cuantificar, en entornos multilingües, las discrepancias entre los idiomas utilizados en casa y en la escuela, y cómo estas podrían influir en el rendimiento académico. Por ejemplo, un estudiante cuyos idiomas hablados en casa coinciden con los de la escuela tendría menos dificultades de adaptación que uno con mayor discrepancia. 

Este enfoque también puede aplicarse a otras métricas, como los idiomas hablados en televisión o con amigos. Aunque no están directamente relacionados, los considero relevantes para la hipótesis, ya que forman parte del entorno social fuera de la escuela y podrían ejercer cierta influencia.

In [None]:
ratio_idiomas_clase =  pd.DataFrame(
    (egd10_sel10feat[colegio_idiomas].values * egd10_sel10feat[casa_idiomas].values).sum(axis=1)
    / egd10_sel10feat[colegio_idiomas].sum(axis=1),
    columns=["Ratio_Idiomas_Casa"],
).join(
  pd.DataFrame(
    (egd10_sel10feat[colegio_idiomas].values * egd10_sel10feat[tv_idiomas].values).sum(axis=1)
    / egd10_sel10feat[colegio_idiomas].sum(axis=1),
    columns=["Ratio_Idiomas_TV"],
)).join(
 pd.DataFrame(
    (egd10_sel10feat[colegio_idiomas].values * egd10_sel10feat[amigos_idiomas].values).sum(axis=1)
    / egd10_sel10feat[colegio_idiomas].sum(axis=1),
    columns=["Ratio_Idiomas_Amigos"],
))

Un detalle se puede observar al hacer esto. Si miramos los histogramas de estas variables, podremos notar que la distribución de los valores esta muy imbalanceada. Esto se debe a que normalmente, la mayoría de alumnos y alumnas en la escuela solo hablan 1 idioma. Debido a esto, haremos una clasificacion, segun si los estudiantes hablan todos los idiomas en la escuela, o solo algunos, debido a su posible utilidad en la verificación de esta hipótesis.

In [None]:

from matplotlib import pyplot as plt

fig, axis = plt.subplots(3,)
fig.subplots_adjust(bottom=-1.1, top=1)
axis[0].set_title("Ratio Idiomas Amigos")
axis[0].hist(ratio_idiomas_clase['Ratio_Idiomas_Amigos'])
axis[1].set_title("Ratio Idiomas TV")
axis[1].hist(ratio_idiomas_clase['Ratio_Idiomas_TV'])
axis[2].set_title("Ratio Idiomas Casa")
axis[2].hist(ratio_idiomas_clase['Ratio_Idiomas_Casa'])
fig.show()

In [None]:
from numpy import NaN


ratio_idiomas_clase['Mismo_Idioma_Casa_y_Colegio'] = ratio_idiomas_clase['Ratio_Idiomas_Casa'].map(lambda x:0 if x<1 else (1 if x==1 else NaN))
ratio_idiomas_clase['Mismo_Idioma_TV_y_Colegio'] = ratio_idiomas_clase['Ratio_Idiomas_TV'].map(lambda x:0 if x<1 else (1 if x==1 else NaN))
ratio_idiomas_clase['Mismo_Idioma_Amigos_y_Colegio'] = ratio_idiomas_clase['Ratio_Idiomas_Amigos'].map(lambda x:0 if x<1 else (1 if x==1 else NaN))

Para el caso de las variables del grupo `target`, seguiremos la estrategia mencionada anteriormente:

In [None]:
notas = egd10[targets].mean(axis=1)
notas = notas.apply(lambda x: x / 100).to_frame(name="Nota_Media").join(egd10[targets])
notas.dropna(subset=["Nota_Media"],inplace=True) # Solo borramos los casos sin nota media (no tienen ninguna columna de nota con datos)

### Características de la tarjeta de datos


El nuevo dataset generado, `tarjeta_H3`, representa una versión refinada y simplificada de los datos originales, obtenida a través de la transformación y selección de las características más relevantes para la hipótesis que nos atañe en este caso.  
Las transformaciones empleadas en las características de importancia seleccionadas han sido principalmente la reducción de la dimensionalidad mediante métricas agregadas, como proporciones calculadas, y la conversión de tipos de datos para facilitar la posterior comprobación de la hipótesis.

In [None]:
eg10_h3 = ratio_idiomas_clase.join(notas).dropna()
eg10_h3.to_csv("data/tarjeta_H3.csv", index=False, float_format="%.2f")

Las variables finales del dataset son:

- `Ratio_Idiomas_Casa`: Proporción de idiomas hablados en casa y en la escuela, dividido entre el total de idiomas hablados en la escuela.
- `Ratio_Idiomas_TV`: Proporción de idiomas vistos en televisión que coinciden con los idiomas hablados en la escuela, dividido entre el total de idiomas hablados en la escuela.
- `Ratio_Idiomas_Amigos`: Proporción de idiomas hablados con amigos que coinciden con los idiomas hablados en la escuela, dividido entre el total de idiomas hablados en la escuela.
- `Nota_Media`: Nota promedio obtenida por el estudiante.

Sin valores nulos ni valores por defecto.

### Líneas de Trabajo


Para comprobar la hipótesis de que el entorno multilingüe afecta al rendimiento académico, se podría realizar un análisis de correlación entre las variables que representan las proporciones de idiomas utilizados en diferentes contextos (como en casa, con amigos o en televisión) y las calificaciones de los estudiantes. Además, sería interesante explorar técnicas de clustering para detectar patrones en función de las características lingüísticas del entorno de cada estudiante.  

Este enfoque permitiría evaluar si existe una relación significativa entre el uso de idiomas en diversos contextos y el desempeño académico, así como identificar tendencias relevantes dentro de los datos.


## Clasificación entre mismo y distinto idioma usando un PCA sobre las notas

Para hacerme una idea de posibles relaciones entre las notas y el habla de idiomas, voy a usar PCA sobre las notas, para poder representarlas en una scatterplot bidimensional, coloreando los puntos segun si hablan el idioma de la escuela, o no hablan todos los idiomas.

In [None]:
egd10_h3 = pd.read_csv('data/tarjeta_H3.csv',index_col=False)

In [None]:
from pandas import DataFrame
from sklearn.decomposition import PCA

egd10_h3_1 = eg10_h3.dropna()
X_red = PCA(n_components=2).fit_transform(egd10_h3_1[targets+[
    # 'PV1LING',
    # 'PV2LING',
    # 'PV3LING',
    # 'PV4LING',
    # 'PV5LING',
    # "PV1MAT",
    # "PV2MAT",
    # "PV3MAT",
    # "PV4MAT",
    # "PV5MAT",
    # "PV1MFIS",
    # "PV2MFIS",
    # "PV3MFIS",
    # "PV4MFIS",
    # "PV5MFIS",
    # "PV1SYC",
    # "PV2SYC",
    # "PV3SYC",
    # "PV4SYC",
    # "PV5SYC",
]])
m = X_red[egd10_h3_1['Mismo_Idioma_Casa_y_Colegio'].map(lambda x:True if x==1 else False)].transpose()
nm = X_red[egd10_h3_1['Mismo_Idioma_Casa_y_Colegio'].map(lambda x:True if x==0 else False)].transpose()
plt.title("Scatterplot PCA Clasificado segun Mismo Idioma Casa y Colegio")
# plt.scatter(X_red[0],X_red[1],s=0.5,c=c,label="lab")
plt.scatter(m[0],m[1],s=0.1,c="red",label="Idioma en el Colegio se habla en casa")
plt.scatter(nm[0],nm[1],s=0.1,c="blue",label="Idioma en el Colegio no se habla en casa")
plt.legend(loc="upper right")
plt.show()

Inicialmente, queríamos usar esta gráfica como punto de partida para usar algoritmos de clustering, y poder ir encontrando formas de clasificar las notas segun el habla de notas, pero se puede ver un problema claro.

En esta grafica se puede notar que no hay una relacion clara entre notas y habla de idiomas, segun los criterios que hemos determinado. Si la hubiera, esperaríamos algo de separacion entre grupos de puntos azules, y rojos (ya que esto mostraria que un grupo de estudiantes tiene notas distintas respecto al otro). 

Esto se respalda al ver el histograma de las notas medianas de ambos grupos:

(Ocurre una situacion similar con la nota media, aunque solo he puesto en el codigo abajo la mediana)

In [None]:


RANGE_HIST = (500,520)
RANGE_HIST = (0,1000)
filter_mismo = egd10_h3_1["Mismo_Idioma_Casa_y_Colegio"].map(lambda x:True if x==1 else False)
# b=eg10_h3_1['Nota_Media'].loc[]
filter_nomismo = egd10_h3_1["Mismo_Idioma_Casa_y_Colegio"].map(lambda x:True if x==0 else False)
fig, ax = plt.subplots(4,5,sharex='col',sharey='row',figsize=(15,10))
f = True
for i in range(4):
    for j in range(5):
        ax[i,j].set_title(targets[j+i*5])
        ax[i,j].axvline(egd10_h3_1[targets[j+i*5]].loc[filter_mismo].median(),color='orange')
        ax[i,j].axvline(egd10_h3_1[targets[j+i*5]].loc[filter_nomismo].median(),color='aquamarine')
        if f:
            f=False
            ax[i,j].hist(egd10_h3_1[targets[j+i*5]].loc[filter_mismo],color='red',range=RANGE_HIST, label='Idioma en el Colegio se Habla en casa')
            ax[i,j].hist(egd10_h3_1[targets[j+i*5]].loc[filter_nomismo],color='blue',range=RANGE_HIST, label='Idioma en el Colegio no se Habla en casa')
        ax[i,j].hist(egd10_h3_1[targets[j+i*5]].loc[filter_mismo],color='red',range=RANGE_HIST)
        ax[i,j].hist(egd10_h3_1[targets[j+i*5]].loc[filter_nomismo],color='blue',range=RANGE_HIST)
fig.legend()
fig.show()
# plt.hist(DataFrame(a), label="Idioma en colegio se habla en casa")
# plt.hist(DataFrame(b), label="Idioma en colegio no se habla en casa")
# plt.legend()
# plt.plot()

Cabe notar, que si nos fijamos en un rango pequeño alrededor de las medianas podemos ver que a pesar de ser similares, hay pequeñas diferencias, y que, en la mayoría de las asignaturas, las notas son un poco más altas con los estudiantes que no hablan el mismo idioma en casa que en colegio, comparado con los que sí:

In [None]:
RANGE_HIST = (500,520)
filter_mismo = egd10_h3_1["Mismo_Idioma_Casa_y_Colegio"].map(lambda x:True if x==1 else False)
# b=eg10_h3_1['Nota_Media'].loc[]
filter_nomismo = egd10_h3_1["Mismo_Idioma_Casa_y_Colegio"].map(lambda x:True if x==0 else False)
fig, ax = plt.subplots(4,5,sharex='col',sharey='row',figsize=(15,10))
f = True
for i in range(4):
    for j in range(5):
        ax[i,j].set_title(targets[j+i*5])
        ax[i,j].axvline(egd10_h3_1[targets[j+i*5]].loc[filter_mismo].median(),color='orange')
        ax[i,j].axvline(egd10_h3_1[targets[j+i*5]].loc[filter_nomismo].median(),color='aquamarine')
        if f:
            f=False
            ax[i,j].hist(egd10_h3_1[targets[j+i*5]].loc[filter_mismo],color='red',range=RANGE_HIST, label='Idioma en el Colegio se Habla en casa')
            ax[i,j].hist(egd10_h3_1[targets[j+i*5]].loc[filter_nomismo],color='blue',range=RANGE_HIST, label='Idioma en el Colegio no se Habla en casa')
        ax[i,j].hist(egd10_h3_1[targets[j+i*5]].loc[filter_mismo],color='red',range=RANGE_HIST)
        ax[i,j].hist(egd10_h3_1[targets[j+i*5]].loc[filter_nomismo],color='blue',range=RANGE_HIST)
fig.legend()
fig.show()
# plt.hist(DataFrame(a), label="Idioma en colegio se habla en casa")
# plt.hist(DataFrame(b), label="Idioma en colegio no se habla en casa")
# plt.legend()
# plt.plot()

In [None]:

plt.title('Nota Media')
plt.axvline(egd10_h3_1['Nota_Media'].loc[filter_mismo].median()*100,color='orange')
plt.axvline(egd10_h3_1['Nota_Media'].loc[filter_nomismo].median()*100,color='aquamarine')
plt.hist(egd10_h3_1['Nota_Media'].loc[filter_mismo]*100,color='red',range=RANGE_HIST)
plt.hist(egd10_h3_1['Nota_Media'].loc[filter_nomismo]*100,color='blue',   range=RANGE_HIST)

### Correlación entre distintas medidas de contexto linguistico, y nota media

In [None]:
a=['Ratio_Idiomas_Casa','Ratio_Idiomas_TV','Ratio_Idiomas_Amigos']
rt=eg10_h3[a].dropna(subset=a).map(lambda x:0 if x<1 else (1 if x==1 else None))