# MINERÍA DE DATOS

## GRUPOS DE TRABAJO

Los firmantes, formarán los grupos de trabajo para el desarrollo de las actividades grupales de la asignatura (el número de integrantes oscilará entre 5 y 6 personas obligatoriamente).

| Apellidos y Nombre        | Correo                       | Participación |
| :--                       | :--                          |           --: |
| Espejo Gil, Samuel        | samuel.espejo@alu.uclm.es    |           25% |
| Chinarro Cabrero, Marcelo | marcelo.chinarro@alu.uclm.es |           25% |
| Loro Carrasco, Javier     | javier.loro@alu.uclm.es      |           25% |
| Jiménez Redondo, Mario    | mario.jimenez9@alu.uclm.es   |           25% |

Coordinador: Samuel

<!--
## Entregable

- Informe con los aspectos iniciales del problema.
- Se valorará puntualidad, presentación, redacción, contenido de cada uno de los puntos y originalidad en los planteamientos.
-->

## Descripción breve de los datos originales

Los datos a trabajar en un principio son dos documentos de cálculo excel con tres hojas cada uno.
Estos han sido descargados de la página de [educación y deportes del gobierno español](https://www.educacionfpydeportes.gob.es/inee/bases-datos/evaluaciones-nacionales.html), en específico las bases de datos de las evaluaciones generales de diagnóstico, educación primaria (E.G.D. 09) y secundaria (E.G.D. 10).

Los documentos se dividen en 3 hojas:

1. Datos

  Contiene la información a usar, la primera fila son los títulos de las columnas

2. Información sobre las variables

  Descripción de cada variable indicando además, cuántos valores faltan.

3. Valores de las variables

  Indica qué significan los valores de los datos.
  A cada categoría con valor numérico le asocia una etiqueta.

  Aquí se indican cómo se determinan los valores nulos.


En general, los datos son sobre estudiantes de primaria y secundaria de españa durante los años 2009 y 2010.
Las dimensiones tratan datos del alumno como fecha de nacimiento, sexo, centro de estudios y notas pero también se tratan factores externos como los estudios y situación laboral de los padres, la compañía, relación y ayuda que estos ofrecen al igual que con hermanos, alumnos, amigos y profesores.
También se tienen en cuenta lenguajes usados, actividades extraescolares, uso y acceso a diferentes comodidades como internet, zona de estudio propia.
O incluso factores como las sanciones, conductas, evaluaciones, factores que afectan a la docencia, cantidad de alumnos, aulas, ocupación en tareas directivas, área que el alumno estudia...

Hay una gran cantidad de dimensiones a tener en cuenta.

In [None]:
import pandas as pd

In [None]:
# Load the data from the Excel file
# WARNING TAKES A LONG TIME
# only loads the first sheet, thats the one that contains the data
# other sheets contain metadata
egd09 = pd.read_excel("data/EGD09.xlsx")
egd10 = pd.read_excel("data/EGD10.xlsx")

In [None]:
print(f"Tamaño de E.G.D. 2009 (Filas, Columnas): {egd09.shape}")
print(f"Tamaño de E.G.D. 2010 (Filas, Columnas): {egd10.shape}")

En cuanto a cantidad de filas, están más o menos parejas, sobre las 29.000.
Pero una tiene el doble de columnas que la otra, con un número bastante elevado en ambas.

In [None]:
egd09.describe()

La gran mayoría de variables son categóricas por lo que el describe no nos ofrece mucha información.
Además, hay que tener en cuenta que, según la hoja de valores, se da un valor específico para nulos (no sabe no contesta).
Esto altera la cuenta de filas, ya que `count` también cuenta estos aunque realmente no interesen.

Esto nos plantea la necesidad de usar la hoja de valores para poder identificar esos valoles nulos.
Además, podríamos usar los valores que verdaderamente tienen las categorías.

Esta podría ser una forma de cruzar varios datasets.
Aunque aumentaría el tiempo de ejecución y la memoria gastada.

Para trabajar con estos datos será crucial tener presente las 2 hojas descriptivas de cada dataset.

Al tener un volumen de datos tan grande, no se listarán estas hojas para no aumentar el tamaño del documento.

## Antecedentes o trabajos similares

<!-- Breve descripción, qué intentan resolver y para qué os pueden ser útiles estas ideas. -->

### [Factors that affect the academic performance of high school students in the Sucúa-Ecuador canton](https://cienciadigital.org/revistacienciadigital2/index.php/CienciaDigital/article/view/2338)

#### Descripción del Estudio

Este estudio se centra en analizar los factores que afectan el rendimiento académico de los estudiantes en Sucúa, Ecuador. Examina temas como la situación familiar, el entorno escolar y el estado emocional de los estudiantes



#### Objetivos del Estudio

1. Identificar qué factores personales, sociales y emocionales influyen en el rendimiento académico.
2. Analizar cómo el bienestar general del estudiante se relaciona con su desempeño.
3. Proponer un enfoque educativo que considere no solo el rendimiento académico, sino también el bienestar emocional.

#### Utilidad del Estudio
 
Este estudio es útil para que docentes, padres y educadores puedan entender mejor cómo ciertos factores afectan a los estudiantes y tomar medidas como ofrecer asesoramiento psicológico o mejorar la comunicación entre familia y escuela para apoyar a los estudiantes de manera más integral.

### [Family Dinner Frequency, Parent-Organised Informal Learning Activities, and Student Academic Performance: Evidence from Chinese Eighth-Grade Students](https://link.springer.com/article/10.1007/s40299-023-00759-5)

#### Descripción del Estudio
Este estudio analiza cómo las cenas familiares y otras actividades de aprendizaje organizadas por los padres, como visitas a museos o al cine, pueden influir en el rendimiento académico de los estudiantes chinos en materias como matemáticas, chino e inglés.

#### Objetivos del Estudio
1. Explorar el impacto de las actividades en casa en el rendimiento escolar.
2. Evaluar si la dificultad percibida del curso afecta la relación entre estas actividades y el rendimiento académico.

#### Utilidad del Estudio
Este estudio destaca la importancia de que los padres se involucren en actividades que ayuden a los estudiantes fuera del aula, y ofrece información útil para que las políticas educativas promuevan el aprendizaje en familia como una herramienta para mejorar el rendimiento escolar.


### [Predicting Secondary School Students' Academic Performance in Science Course by Machine Learning](https://eric.ed.gov/?q=students+academic+performance&id=EJ1415061)

#### Descripción del Artículo
Este estudio utiliza técnicas de inteligencia artificial, específicamente deep learning, para predecir el rendimiento académico en ciencias de estudiantes de secundaria en Turquía. Los investigadores analizaron variables como el tiempo de estudio, el uso de dispositivos electrónicos y el número de libros leídos al año.

#### Objetivos del Estudio
1. Predecir el rendimiento en ciencias mediante un modelo de aprendizaje profundo.
2. Identificar los factores que influyen más en el rendimiento académico.
3. Evaluar la precisión del modelo, que alcanza un 90% de efectividad.

#### Utilidad del Estudio
Este estudio resulta útil para educadores y padres, ya que ayuda a identificar factores que pueden apoyar o dificultar el rendimiento académico. Además, ofrece ideas para el desarrollo de políticas educativas que integren la IA como una herramienta de personalización del aprendizaje.

## Planteamiento de la hipótesis y de los objetivos a perseguir

### 1. Efecto de la ayuda con los deberes en el rendimiento académico

**Hipótesis**: Los estudiantes que reciben ayuda con los deberes de sus padres, hermanos o profesores particulares tienen un mejor rendimiento académico que aquellos que no reciben ayuda.

### 2. Impacto de la situación laboral de los padres en el rendimiento académico

**Hipótesis**: Los estudiantes cuyos padres tienen una situación laboral estable o más estudios formales obtienen mejores resultados académicos en comparación con aquellos cuyos padres tienen menos estudios o están desempleados.

### 3. Relación entre las actividades extracurriculares y el rendimiento académico

**Hipótesis**: Los estudiantes que participan en actividades como leer libros o practicar deportes tienen mejores resultados académicos que aquellos que pasan más tiempo viendo televisión o jugando videojuegos.

### 4. Influencia de la lengua hablada en casa en el rendimiento académico

**Hipótesis**: Los estudiantes que hablan la misma lengua en casa y en el colegio (ya sea castellano, catalán, gallego, etc.) tienen un mejor rendimiento académico en comparación con aquellos que hablan una lengua diferente en casa y en el colegio.


## Posibilidades de enriquecimiento de los datos

<!-- ¿Qué bases de datos públicas me pueden servir para resolver mejor el problema. (fuentes open data, ine, etc.) -->


Consideramos alguna fuente de sitios como kaggle, o UC Irvine, pero escogimos la base de datos mencionada en la descripción de los datos originales, debido a la gran cantidad de datos incluidos, la baja cantidad de datos faltantes en comparación con su tamaño, y el hecho de que viene de una organización fiable, y de España (asumiendo que datos de España serian mas útiles para nosotros que datos de una fuente extranjera).

Las bases de datos escogidas idealmente necesitarían contener datos que nos permitan validar nuestras hipótesis:

* Presencia de apoyo externo para el trabajo escolar
* Situación familiar (trabajos de los padres de un/una estudiante)
* Actividades extracurriculares realizadas
* La lengua nativa hablada en su casa


Nuestro dataset podemos ver que contiene una varias variables
que nos ayudaran a confirmar cada hipótesis. Algunos ejemplos de
estas serían:

* **Hipótesis 1**: Las variables `PF14-21` representan
    características de los parientes como su situación laboral,
    estudios, etc.
* **Hipótesis 2**: Se puede usar las variables `PF12`, ya que
    representan la ayuda recibida por otra gente fuera del
    profesorado.
* **Hipótesis 3**: Las variables `P21` corresponden a una
    variedad de actividades fuera del colegio. Aunque no
    estrictamente necesarias, esta hipótesis podría beneficiarse
    del uso de variables `P22` (Uso del ordenador en
    contextos) y `P23` (Uso dado del internet)
* **Hipótesis 4**: Todas las variables `P12` se corresponden
    a los idiomas hablados en el entorno, ya sea amistades, idioma
    hablado en la television, o en el colegio.
* **Rendimiento Académico**: Los datos `PF10` por ejemplo
    podrían usarse para el rendimiento académico, ya que habla de
    la relación con otros estudiantes y tutor o tutora, ademas de
    nivel de aprendizaje, trabajo en clase y clima escolar. Los 
    datos `PV`, encontrados al final, también podrían resultar 
    útiles, aunque no queda claro completamente por la descripción
    cual seria su rol en el conjunto de datos.

La presencia de estos datos, cantidad de filas, y otras
variables de los datos, mencionadas, lo hace apropiado para
su uso para nuestro proyecto.

## Análisis exploratorio de los datos

### Distribución de variables

### Análisis de nulos

### Correlación entre variables

### Detección de valores atípicos