# Relación entre las actividades extracurriculares y el rendimiento académico

Los estudiantes que participan en actividades como leer libros o practicar deportes tienen mejores resultados académicos que aquellos que pasan más tiempo viendo televisión o jugando videojuegos.


## Selección de datos

Para el dataset de egd10, disponemos de las siguientes variables a estudiar, divididas en dos grupos según el tipo de actividad:

Hábitos relacionados con actividades culturales y formativas:

- `S20B`	Actividades fuera del colegio-Escuchar música
- `S20C`	Actividades fuera del colegio-Practicar deporte
- `S20D`	Actividades fuera del colegio-Leer libros, cuentos, cómic
- `S20E`	Actividades fuera del colegio-Leer prensa o revistas
- `S20F`	Actividades fuera del colegio-Jugar con amigos
- `S22A`	Internet para-Buscar información para tus estudios
- `S22B`	Internet para-Buscar información sobre deportes
- `S22C`	Internet para-Buscar información sobre juegos
- `S22D`	Internet para-Buscar información sobre música o cine
- `S22E`	Internet para-Buscar información sobre otros temas

Hábitos relacionados con actividades de ocio digital:

- `S20A`	Actividades fuera del colegio-Ver televisión, vídeos o DVDS
- `S20G`	Actividades fuera del colegio-Hablar por teléfono
- `S20H`	Actividades fuera del colegio-Jugar con videojuegos o con el ordenador
- `S20I`	Actividades fuera del colegio-Participar en chats o messenger
- `S20J`	Actividades fuera del colegio-Usar internet
- `S21A`	Frecuencia utilización ordenador-En casa
- `S21C`	Frecuencia utilización ordenador-En otros lugares
- `S22F`	Internet para-Comunicarme con otras personas

También se han seleccionado las variables relacionadas con el rendimiento académico, como se ha hecho en otras hipótesis.


In [None]:
import pandas as pd

In [None]:
egd10 = pd.read_excel("data/EGD10.xlsx")

In [None]:
cultural_features = [
    "S20B",
    "S20C",
    "S20D",
    "S20E",
    "S20F",
    "S22A",
    "S22B",
    "S22C",
    "S22D",
    "S22E",
]
digital_features = [
    "S20A",
    "S20G",
    "S20H",
    "S20I",
    "S20J",
    "S21A",
    "S21C",
    "S22F",
]
targets = list(map(lambda x: x.upper(), [
    "PV1ling",
    "PV2ling",
    "PV3ling",
    "PV4ling",
    "PV5ling",
    "PV1mat",
    "PV2mat",
    "PV3mat",
    "PV4mat",
    "PV5mat",
    "PV1mfis",
    "PV2mfis",
    "PV3mfis",
    "PV4mfis",
    "PV5mfis",
    "PV1syc",
    "PV2syc",
    "PV3syc",
    "PV4syc",
    "PV5syc",
]))


In [None]:
egd10 = egd10[targets + cultural_features + digital_features]
egd10.dropna(inplace=True)


## Tratamiento y limpieza de datos


In [None]:
egd10.loc[:, "mean_score"] = egd10[targets].mean(axis=1)
egd10.drop(targets, axis=1, inplace=True)
egd10.loc[:, "mean_score"] = egd10["mean_score"].apply(lambda x: x/100)


Todas las variables con las que tratamos son categóricas ordinales.

Para las variables 20[A-J], la medida es tiempo en horas, aunque no queda claro si es al día o a la semana.
El máximo es de 2h, por lo que se ha decidido considerar que es al día.

En cuanto a 21[A-C] y 22[A-F], la medida es la frecuencia de uso.


En todas estas se toma el 9 como valor por defecto, aunque también se toma el 1 para indicar el no uso.
Por esto mismo, descartaremos aquellas filas que tengan un 9.

In [None]:
egd10 = egd10[(egd10[cultural_features + digital_features] != 9).all(axis=1)]


Para poder unificar las variables, haremos la siguiente conversión:

Para la variable de tiempo:

- Nada de tiempo → 0 horas
- Menos de 30 minutos → 0.25 horas
- Entre 30 y 60 minutos → 0.75 horas
- Entre 1 y 2 horas → 1.5 horas
- Más de 2 horas → 2.5 horas

Para la variable de frecuencia:

- Nunca o casi nunca → 0 horas (se puede tratar como "0 tiempo dedicado").
- Una o dos veces al mes → 0.25 horas (aproximadamente equivalente a dedicar menos de 30 minutos en promedio semanal).
- Una o dos veces a la semana → 0.75 horas (aproximadamente 30-60 minutos a la semana).
- Todos o casi todos los días → 1.5 horas (equivalente a dedicar una hora diaria en promedio).

## Características de la tarjeta de datos


## Líneas de Trabajo
