# Relación entre las actividades extracurriculares y el rendimiento académico

Los estudiantes que participan en actividades como leer libros o practicar deportes tienen mejores resultados académicos que aquellos que pasan más tiempo viendo televisión o jugando videojuegos.

Para el dataset de egd10, disponemos de las siguientes variables a estudiar
:


- `S20A`	Actividades fuera del colegio-Ver televisión, vídeos o DVDS
- `S20B`	Actividades fuera del colegio-Escuchar música
- `S20C`	Actividades fuera del colegio-Practicar deporte
- `S20D`	Actividades fuera del colegio-Leer libros, cuestos, cómic
- `S20E`	Actividades fuera del colegio-Leer prensa o revistas
- `S20F`	Actividades fuera del colegio-Jugar con amigos
- `S20G`	Actividades fuera del colegio-Hablar por teléfono
- `S20H`	Actividades fuera del colegio-Jugar con videojuegos o con el ordenador
- `S20I`	Actividades fuera del colegio-Participar en chats o messenger
- `S20J`	Actividades fuera del colegio-Usar internet
- `S21A`	Frecuencia utilización ordenador-En casa
- `S21B`	Frecuencia utilización ordenador-En el colegio
- `S21C`	Frecuencia utilización ordenador-En otros lugares
- `S22A`	Internet para-Buscar información para tus estudios
- `S22B`	Internet para-Buscar información sobre deportes
- `S22C`	Internet para-Buscar información sobre juegos
- `S22D`	Internet para-Buscar información sobre música o cine
- `S22E`	Internet para-Buscar información sobre otros temas
- `S22F`	Internet para-Comunicarme con otras personas


## Selección de datos
Despues de revisar, seleccionamos las siguientes variables para cada lado de la hipotesis:

- `S20A`	Actividades fuera del colegio-Ver televisión, vídeos o DVDS
- `S20G`	Actividades fuera del colegio-Hablar por teléfono
- `S20H`	Actividades fuera del colegio-Jugar con videojuegos o con el ordenador
- `S20I`	Actividades fuera del colegio-Participar en chats o messenger
- `S20J`	Actividades fuera del colegio-Usar internet

- `S21A`	Frecuencia utilización ordenador-En casa
- `S21C`	Frecuencia utilización ordenador-En otros lugares

----------------------------------------------------------


- `S20B`	Actividades fuera del colegio-Escuchar música
- `S20C`	Actividades fuera del colegio-Practicar deporte
- `S20D`	Actividades fuera del colegio-Leer libros, cuestos, cómic
- `S20E`	Actividades fuera del colegio-Leer prensa o revistas
- `S20F`	Actividades fuera del colegio-Jugar con amigos


In [None]:
import pandas as pd

In [None]:
egd10 = pd.read_excel("data/EGD10.xlsx")

In [None]:
selected_ocio = [
    "S20B",
    "S20C",
    "S20D",
    "S20E",
    "S20F",
]

selected_internet = [
    "S20A",
    "S20G",
    "S20H",
    "S20I",
    "S20A",
    "S21A",
    "S21C",

]

## Tratamiento y limpieza de datos


Los Valores de ´S20´  pueden ser:
   - `1` Nada de tiempo
   - `2` Menos de 30 minutos
   - `3` Entre 30 y 60 minutos
   - `4` Entre 1 y 2 horas
   - `5` Más de 2 horas
   - `9` No contesta (Si encontramos este valor lo transformaremos a 1, pues no nos cambiaria el impacto de la variable)

Los Valores de "S21" pueden ser:
   - `1` Nunca o casi nunca
   - `2` Una o dos veces al mes
   - `3` Una o dos veces a la semana
   - `4` Todos o casi todos los días
   - `9` No contesta (Si encontramos este valor lo transformaremos a 1, pues no nos cambiaria el impacto de la variable)


**Tratamiento de valores nulos**

In [None]:

egd10.dropna(subset=selected_internet, inplace=True)
egd10.dropna(subset=selected_ocio, inplace=True)
egd10 = egd10[egd10["S21A"] != 9]
egd10 = egd10[egd10["S21C"] != 9]
egd10[selected_internet].replace(9,1)
egd10[selected_ocio].replace(9,1)

**Tratamiento de las variables**

El siguiente paso seria unificar los grupos de variables que tratan sobre mismas actividades

In [None]:
egd10["internet"]=egd10["S21A"]+egd10["S21C"]
egd10["internet"].value_counts()

In [None]:
egd10["suma_ocio"] = egd10[selected_ocio].sum(axis=1)
egd10["suma_ocio"].value_counts()

Por ultimo se va a aplicar un calculo para saber que proporcion respecto al resto consumen de cada tipo de ocio/internet

In [None]:
# Calcular la proporción respecto al valor máximo para ambas variables
egd10["proporcion_internet"] = egd10["internet"] / egd10["internet"].max()
egd10["proporcion_suma_ocio"] = egd10["suma_ocio"] / egd10["suma_ocio"].max()

# Comparar cuál está más cerca de su máximo
egd10["mas_cerca_maximo"] = egd10[["proporcion_internet", "proporcion_suma_ocio"]].idxmax(axis=1)

# Ver los primeros resultados
print(egd10[["internet", "suma_ocio", "proporcion_internet", "proporcion_suma_ocio", "mas_cerca_maximo"]].head())


## Características de la tarjeta de datos


El nuevo dataset generado, egd10_h4, representa el tiempo que consumen en actividades los diversos alumnos mediante la reduccion y conversion de datos para la facilidad de su posterior comprobacion dela hipótesis.

In [None]:
# Filtrar las columnas deseadas
egd10_h4 = egd10[["internet", "suma_ocio", "proporcion_internet", "proporcion_suma_ocio", "mas_cerca_maximo"]]

# Guardar el nuevo DataFrame en un archivo CSV
egd10_h4.to_csv("data/tarjeta_H4.csv", index=False, float_format="%.2f")

Las variables finales del dataset son:
- Internet: Puntuaje uso de Internet
- Suma ocio: Puntuaje tiempo ocio
- Proporcion internet: Tiempo de internet en comparacion con el resto
- Proporcion suma ocio: Tiempo de ocio en comparacion con el resto
- Mas cerca maximo: En que proporcion de las dos valriables tiene mayor porcentaje

Sin valores nulos ni valores por defecto.



## Líneas de Trabajo


Usando el nuevo dataset junto al de notas, se puede comparar los resultados para verificar la hipotesis