# 1. Introducción

El rendimiento académico es un tema central en el ámbito educativo, ya que influye directamente en las oportunidades académicas y profesionales futuras de los estudiantes. Sin embargo, el desempeño en un examen no depende únicamente de la “inteligencia” o capacidad innata, sino de una combinación de factores académicos, familiares, personales y de estilo de vida.

En este proyecto se analiza un conjunto de datos de estudiantes que recoge información sobre hábitos de estudio, asistencia a clase, motivación, implicación de los padres, características del profesorado, entorno escolar y otros aspectos relacionados con su día a día. Junto con estas variables, se dispone además de la calificación final obtenida en un examen (`Exam_Score`), que utilizaremos como medida del rendimiento académico.

A partir de estos datos, se aplicarán distintas herramientas estadísticas para explorar qué factores parecen tener una mayor influencia sobre el rendimiento, con el objetivo de obtener una visión más clara de qué elementos podrían potenciar (o dificultar) el desempeño académico de los estudiantes.

## 1.1. Tema general

El tema general de este proyecto es el análisis de los factores que influyen en el rendimiento académico de los estudiantes, medido a través de la variable `Exam_Score`. Para ello se utilizará información sobre hábitos de estudio, contexto familiar, entorno escolar y estilo de vida.

En particular, se prestará especial atención a variables como las horas de estudio (`Hours_Studied`), la asistencia a clase (`Attendance`), el nivel de motivación (`Motivation_Level`), la calidad percibida del profesorado (`Teacher_Quality`), las horas de sueño (`Sleep_Hours`), la implicación de los padres (`Parental_Involvement`) y el tipo de escuela (`School_Type`). Nos interesa estudiar cómo se relacionan estos factores con la nota del examen y, en algunos casos, si generan diferencias importantes entre distintos grupos de estudiantes.

## 1.2. Objetivo general

El objetivo general del estudio es analizar estadísticamente el conjunto de datos *Student Performance Factors* para identificar y cuantificar la relación entre distintos factores académicos, familiares, personales y de entorno, y el rendimiento académico de los estudiantes medido por la variable `Exam_Score`.

## 1.3. Objetivos específicos

A partir de este objetivo general, se plantean varios objetivos específicos:

1. Describir la distribución de las principales variables del dataset (horas de estudio, asistencia, motivación, calidad del profesorado, implicación parental, tipo de escuela, etc.) y caracterizar el comportamiento de la variable de rendimiento `Exam_Score`.

2. Explorar, de forma gráfica y numérica, la relación entre variables académicas clave (como `Hours_Studied`, `Attendance` y `Previous_Scores`) y la calificación del examen.

3. Evaluar si existen diferencias estadísticamente significativas en el rendimiento (`Exam_Score`) entre grupos de estudiantes definidos por su nivel de motivación (`Motivation_Level`) y por la calidad percibida del profesorado (`Teacher_Quality`). De forma complementaria, se podrán explorar otros factores como la implicación parental (`Parental_Involvement`) o el tipo de escuela (`School_Type`).

4. Construir un modelo de regresión lineal múltiple que permita explicar el rendimiento académico (`Exam_Score`) a partir de un conjunto seleccionado de variables explicativas (académicas, familiares, personales y del entorno escolar), e interpretar la dirección y magnitud de los efectos estimados.

5. Dejar preparado el terreno para aplicar, en secciones posteriores, técnicas adicionales como Análisis de Componentes Principales (PCA) y, opcionalmente, métodos de agrupamiento (clustering), con el fin de resumir la información y detectar patrones globales de comportamiento entre los estudiantes.

## 1.4. Preguntas de investigación

Para guiar el análisis, se formulan las siguientes preguntas de investigación:

**P1.** ¿Cómo se relacionan las horas de estudio (`Hours_Studied`) y la asistencia a clase (`Attendance`) con la calificación de examen `Exam_Score`?

**P2.** ¿Existen diferencias significativas en la media de `Exam_Score` entre grupos de estudiantes definidos por su nivel de motivación (`Motivation_Level`) y por la calidad percibida del profesorado (`Teacher_Quality`)? Es decir, queremos analizar si los estudiantes más motivados y/o con mejor percepción de la calidad docente tienden a obtener mejores resultados.

**P3.** Considerando simultáneamente varios factores (horas de estudio, asistencia, desempeño previo, motivación, calidad del profesorado, implicación parental, tipo de escuela, horas de sueño, etc.), ¿qué variables se comportan como mejores predictores de la calificación de examen `Exam_Score` en un modelo de regresión lineal múltiple?

Estas preguntas se retomarán en las conclusiones, donde se discutirá en qué medida los resultados obtenidos permiten responderlas.

## 1.5. Descripción del conjunto de datos

El conjunto de datos utilizado en este proyecto corresponde al “Student Performance Factors Dataset”. Este dataset recoge información de un número considerable de estudiantes junto con su calificación de examen y diversos factores potencialmente relacionados con su rendimiento.

La variable de respuesta es `Exam_Score`, que representa la puntuación obtenida por cada estudiante en un examen (variable numérica continua). Además, el dataset incluye variables académicas como `Hours_Studied` (cantidad de horas de estudio), `Attendance` (porcentaje de asistencia), `Previous_Scores` (calificaciones previas) y `Tutoring_Sessions` (número de sesiones de tutoría o apoyo).

También se consideran variables familiares y socioeconómicas, entre ellas `Parental_Involvement` (nivel de implicación de los padres), `Family_Income` (nivel de ingresos familiares), `Parental_Education_Level` (nivel educativo de los padres) y `Access_to_Resources` (acceso a recursos educativos como materiales o tecnología). 

En el plano personal y de estilo de vida aparecen variables como `Motivation_Level` (nivel de motivación), `Sleep_Hours` (horas de sueño), `Physical_Activity` (nivel de actividad física), `Peer_Influence` (influencia de los compañeros), `Extracurricular_Activities` (participación en actividades extracurriculares) y `Learning_Disabilities` (presencia o no de dificultades de aprendizaje).

Finalmente, el dataset incluye variables relacionadas con el entorno escolar, como `School_Type` (tipo de escuela, pública o privada), `Teacher_Quality` (calidad percibida del profesorado), `Distance_from_Home` (distancia desde el hogar hasta la institución educativa) y `Internet_Access` (disponibilidad de acceso a internet).

## 1.6. Alcance de las variables analizadas

Aunque el conjunto de datos original contiene un número amplio de variables, en este proyecto no se utilizarán todas de la misma manera. En una primera etapa se explorará brevemente la totalidad del dataset para conocer su estructura general. Sin embargo, para responder de forma clara a las preguntas de investigación y mantener el análisis enfocado, se trabajará principalmente con un subconjunto de variables que están más directamente relacionadas con el rendimiento académico.

En particular, el análisis se centrará en variables como `Hours_Studied`, `Attendance`, `Previous_Scores`, `Motivation_Level`, `Teacher_Quality`, `Sleep_Hours`, `Parental_Involvement`, `Family_Income`, `School_Type`, `Tutoring_Sessions` y `Learning_Disabilities`, entre otras. La inclusión explícita de `Learning_Disabilities` permite considerar posibles diferencias en el rendimiento asociadas a la presencia de dificultades de aprendizaje y reducir el riesgo de sesgos en la interpretación de los resultados. 

El resto de variables se consideran informativas pero secundarias en el contexto de este estudio, por lo que se utilizarán de forma complementaria o se dejarán fuera de algunos modelos, con el objetivo de evitar una complejidad innecesaria y conservar la interpretabilidad de los resultados.

En las siguientes secciones se procederá a cargar el dataset, inspeccionar su estructura (número de observaciones, tipos de variables, presencia de valores faltantes) y realizar un análisis exploratorio inicial que servirá como base para las técnicas estadísticas que se aplicarán posteriormente.


# 2. Carga y descripción inicial del dataset

En esta sección se realiza la carga del conjunto de datos y una primera inspección de su estructura. El objetivo es conocer cuántas observaciones y variables contiene el dataset, qué tipos de datos maneja (numéricos o categóricos) y si existen valores faltantes que sea necesario tratar en etapas posteriores.

El análisis se llevará a cabo en dos niveles:

1. Una inspección general del dataset completo, para disponer de una visión global de la información disponible.
2. La definición de un subconjunto de variables de interés, más directamente relacionadas con el rendimiento académico y con las preguntas de investigación planteadas en la sección anterior.

Este subconjunto se utilizará como base para el análisis exploratorio, las pruebas de hipótesis y la construcción de modelos de regresión.

## 2.1. Carga del dataset y estructura general

En primer lugar, se procede a cargar el archivo con los datos de estudiantes y a visualizar las primeras filas para tener una idea inicial de su contenido. A continuación, se revisa el número de filas y columnas, el tipo de datos de cada variable y la posible presencia de valores perdidos.

In [1]:
import pandas as pd

df = pd.read_csv("StudentPerformanceFactors.csv")

df.head()
df.shape
df.info()
df.isna().sum()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6607 entries, 0 to 6606
Data columns (total 20 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Hours_Studied               6607 non-null   int64 
 1   Attendance                  6607 non-null   int64 
 2   Parental_Involvement        6607 non-null   object
 3   Access_to_Resources         6607 non-null   object
 4   Extracurricular_Activities  6607 non-null   object
 5   Sleep_Hours                 6607 non-null   int64 
 6   Previous_Scores             6607 non-null   int64 
 7   Motivation_Level            6607 non-null   object
 8   Internet_Access             6607 non-null   object
 9   Tutoring_Sessions           6607 non-null   int64 
 10  Family_Income               6607 non-null   object
 11  Teacher_Quality             6529 non-null   object
 12  School_Type                 6607 non-null   object
 13  Peer_Influence              6607 non-null   obje

Hours_Studied                  0
Attendance                     0
Parental_Involvement           0
Access_to_Resources            0
Extracurricular_Activities     0
Sleep_Hours                    0
Previous_Scores                0
Motivation_Level               0
Internet_Access                0
Tutoring_Sessions              0
Family_Income                  0
Teacher_Quality               78
School_Type                    0
Peer_Influence                 0
Physical_Activity              0
Learning_Disabilities          0
Parental_Education_Level      90
Distance_from_Home            67
Gender                         0
Exam_Score                     0
dtype: int64