# üìä Exploratory Data Analysis (EDA)
## Dataset: Student Performance Factors

Este proyecto analiza factores que influyen en el rendimiento estudiantil usando un dataset p√∫blico de Kaggle.  
El objetivo es aplicar t√©cnicas de **limpieza de datos**, **exploraci√≥n** y **visualizaci√≥n** para extraer patrones relevantes.

## üîß 1. Carga de librer√≠as y dataset
En esta secci√≥n importamos las librer√≠as necesarias y cargamos el dataset desde la carpeta `../data/`.


In [1]:
# Importar librer√≠as
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

In [23]:
# Cargar el dataset
df = pd.read_csv("../data/student_performance.csv")

## üîç 2. Exploraci√≥n inicial
Aqu√≠ revisamos la forma del dataset, sus columnas y tipos de datos.


In [24]:
# Exploraci√≥n inicial
print("Forma del dataset:", df.shape) # Muestra filas x columnas
print("\nColumnas:")
print(df.columns)

df.head()

Forma del dataset: (6607, 20)

Columnas:
Index(['Hours_Studied', 'Attendance', 'Parental_Involvement',
       'Access_to_Resources', 'Extracurricular_Activities', 'Sleep_Hours',
       'Previous_Scores', 'Motivation_Level', 'Internet_Access',
       'Tutoring_Sessions', 'Family_Income', 'Teacher_Quality', 'School_Type',
       'Peer_Influence', 'Physical_Activity', 'Learning_Disabilities',
       'Parental_Education_Level', 'Distance_from_Home', 'Gender',
       'Exam_Score'],
      dtype='object')


Unnamed: 0,Hours_Studied,Attendance,Parental_Involvement,Access_to_Resources,Extracurricular_Activities,Sleep_Hours,Previous_Scores,Motivation_Level,Internet_Access,Tutoring_Sessions,Family_Income,Teacher_Quality,School_Type,Peer_Influence,Physical_Activity,Learning_Disabilities,Parental_Education_Level,Distance_from_Home,Gender,Exam_Score
0,23,84,Low,High,No,7,73,Low,Yes,0,Low,Medium,Public,Positive,3,No,High School,Near,Male,67
1,19,64,Low,Medium,No,8,59,Low,Yes,2,Medium,Medium,Public,Negative,4,No,College,Moderate,Female,61
2,24,98,Medium,Medium,Yes,7,91,Medium,Yes,2,Medium,Medium,Public,Neutral,4,No,Postgraduate,Near,Male,74
3,29,89,Low,Medium,Yes,8,98,Medium,Yes,1,Medium,Medium,Public,Negative,4,No,High School,Moderate,Male,71
4,19,92,Medium,Medium,Yes,6,65,Medium,Yes,3,Medium,High,Public,Neutral,4,No,College,Near,Female,70


In [25]:
# Informaci√≥n general
df.info()

# Estad√≠sticas descriptivas
df.describe(include='all') # Con include='all' hacemos que lo haga con cada columna


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6607 entries, 0 to 6606
Data columns (total 20 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Hours_Studied               6607 non-null   int64 
 1   Attendance                  6607 non-null   int64 
 2   Parental_Involvement        6607 non-null   object
 3   Access_to_Resources         6607 non-null   object
 4   Extracurricular_Activities  6607 non-null   object
 5   Sleep_Hours                 6607 non-null   int64 
 6   Previous_Scores             6607 non-null   int64 
 7   Motivation_Level            6607 non-null   object
 8   Internet_Access             6607 non-null   object
 9   Tutoring_Sessions           6607 non-null   int64 
 10  Family_Income               6607 non-null   object
 11  Teacher_Quality             6529 non-null   object
 12  School_Type                 6607 non-null   object
 13  Peer_Influence              6607 non-null   obje

Unnamed: 0,Hours_Studied,Attendance,Parental_Involvement,Access_to_Resources,Extracurricular_Activities,Sleep_Hours,Previous_Scores,Motivation_Level,Internet_Access,Tutoring_Sessions,Family_Income,Teacher_Quality,School_Type,Peer_Influence,Physical_Activity,Learning_Disabilities,Parental_Education_Level,Distance_from_Home,Gender,Exam_Score
count,6607.0,6607.0,6607,6607,6607,6607.0,6607.0,6607,6607,6607.0,6607,6529,6607,6607,6607.0,6607,6517,6540,6607,6607.0
unique,,,3,3,2,,,3,2,,3,3,2,3,,2,3,3,2,
top,,,Medium,Medium,Yes,,,Medium,Yes,,Low,Medium,Public,Positive,,No,High School,Near,Male,
freq,,,3362,3319,3938,,,3351,6108,,2672,3925,4598,2638,,5912,3223,3884,3814,
mean,19.975329,79.977448,,,,7.02906,75.070531,,,1.493719,,,,,2.96761,,,,,67.235659
std,5.990594,11.547475,,,,1.46812,14.399784,,,1.23057,,,,,1.031231,,,,,3.890456
min,1.0,60.0,,,,4.0,50.0,,,0.0,,,,,0.0,,,,,55.0
25%,16.0,70.0,,,,6.0,63.0,,,1.0,,,,,2.0,,,,,65.0
50%,20.0,80.0,,,,7.0,75.0,,,1.0,,,,,3.0,,,,,67.0
75%,24.0,90.0,,,,8.0,88.0,,,2.0,,,,,4.0,,,,,69.0


## üìã Observaciones iniciales

- El dataset contiene **6607 filas** y **20 columnas**.  
- Las columnas incluyen tanto **variables num√©ricas** (ej. `Exam_Score`, `Hours_Studied`) como **categ√≥ricas** (ej. `Gender`, `Parental_Involvement`, `Motivation_Level`).  
- Podemos observar posibles **valores nulos** en algunas columnas, que deber√°n ser tratados en la fase de limpieza.  
- Hay variables con valores de texto que podr√≠an necesitar **normalizaci√≥n** (ej. categor√≠as con may√∫sculas/min√∫sculas o espacios).  
- Los nombres de las columnas ya estaban en `snake_case`, por lo que solo se convirtieron a **min√∫sculas**.
- El dataset parece adecuado para un an√°lisis exploratorio, ya que combina factores sociales, acad√©micos y personales relacionados con el rendimiento estudiantil.


## üßπ 3. Limpieza de datos

En esta secci√≥n se realiza una limpieza b√°sica del dataset para asegurar su calidad antes del an√°lisis.  
Se revisan duplicados, valores nulos, tipos de datos y posibles normalizaciones.


### Normalizaci√≥n de nombres de columnas

Para facilitar el acceso a las columnas y mantener la coherencia del c√≥digo,  
se van a convertir todos los nombres de las columnas a **min√∫sculas**.

In [26]:
# Convertir nombres de columnas a min√∫sculas
#df.columns = df.columns.str.lower()
df.columns = [i.lower() for i in df.columns]
df

Unnamed: 0,hours_studied,attendance,parental_involvement,access_to_resources,extracurricular_activities,sleep_hours,previous_scores,motivation_level,internet_access,tutoring_sessions,family_income,teacher_quality,school_type,peer_influence,physical_activity,learning_disabilities,parental_education_level,distance_from_home,gender,exam_score
0,23,84,Low,High,No,7,73,Low,Yes,0,Low,Medium,Public,Positive,3,No,High School,Near,Male,67
1,19,64,Low,Medium,No,8,59,Low,Yes,2,Medium,Medium,Public,Negative,4,No,College,Moderate,Female,61
2,24,98,Medium,Medium,Yes,7,91,Medium,Yes,2,Medium,Medium,Public,Neutral,4,No,Postgraduate,Near,Male,74
3,29,89,Low,Medium,Yes,8,98,Medium,Yes,1,Medium,Medium,Public,Negative,4,No,High School,Moderate,Male,71
4,19,92,Medium,Medium,Yes,6,65,Medium,Yes,3,Medium,High,Public,Neutral,4,No,College,Near,Female,70
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6602,25,69,High,Medium,No,7,76,Medium,Yes,1,High,Medium,Public,Positive,2,No,High School,Near,Female,68
6603,23,76,High,Medium,No,8,81,Medium,Yes,3,Low,High,Public,Positive,2,No,High School,Near,Female,69
6604,20,90,Medium,Low,Yes,6,65,Low,Yes,3,Low,Medium,Public,Negative,2,No,Postgraduate,Near,Female,68
6605,10,86,High,High,Yes,6,91,High,Yes,2,Low,Medium,Private,Positive,3,No,High School,Far,Female,68


### Duplicados

In [27]:
# Comprobaci√≥n de duplicados
duplicados = df.duplicated().sum()
print(f"N√∫mero de filas duplicadas: {duplicados}")


N√∫mero de filas duplicadas: 0


Se realiz√≥ una comprobaci√≥n de duplicados en el dataset.  
El resultado fue **0 filas duplicadas**, por lo tanto **no fue necesario eliminar registros repetidos**.  


### Valores Nulos

In [28]:
# Comprobaci√≥n de valores nulos
df.isna().sum()

hours_studied                  0
attendance                     0
parental_involvement           0
access_to_resources            0
extracurricular_activities     0
sleep_hours                    0
previous_scores                0
motivation_level               0
internet_access                0
tutoring_sessions              0
family_income                  0
teacher_quality               78
school_type                    0
peer_influence                 0
physical_activity              0
learning_disabilities          0
parental_education_level      90
distance_from_home            67
gender                         0
exam_score                     0
dtype: int64

Se detectaron valores *nulos* en **tres columnas** del dataset:

- `Teacher_Quality` (78 nulos): **categ√≥rica**
- `Parental_Education_Level` (90 nulos): **categ√≥rica**
- `Distance_from_Home` (67 nulos): **categ√≥rica**

Todas las columnas ser√°n tratadas con **sustituci√≥n** por **modo**, ya que son de tipo categ√≥rico.  
Esta estrategia preserva la coherencia del an√°lisis y evita introducir sesgos num√©ricos.

In [None]:
# Sustituci√≥n mode()[0] m√°xima frecuencia
df["teacher_quality"].fillna(df["teacher_quality"].mode()[0], inplace=True)
df["distance_from_home"].fillna(df["distance_from_home"].mode()[0], inplace=True)
df["parental_education_level"].fillna(df["parental_education_level"].mode()[0], inplace=True)

### Tipos de datos

En el dataset, se identificaron 13 columnas categ√≥ricas con valores como `"Yes/No"`, `"Low/Medium/High"` o `"Public/Private"`.  
Estas columnas se convierten al tipo `category` para:

- Optimizar el uso de memoria
- Facilitar visualizaciones y agrupaciones

Columnas convertidas:

- `parental_involvement`
- `access_to_resources`
- `extracurricular_activities`
- `motivation_level`
- `internet_access`
- `family_income`
- `teacher_quality`
- `school_type`
- `peer_influence`
- `learning_disabilities`
- `parental_education_level`
- `distance_from_home`
- `gender`

In [31]:
# Conversi√≥n de columnas categ√≥ricas a tipo 'category'
categoricas = [
    "parental_involvement",
    "access_to_resources",
    "extracurricular_activities",
    "motivation_level",
    "internet_access",
    "family_income",
    "teacher_quality",
    "school_type",
    "peer_influence",
    "learning_disabilities",
    "parental_education_level",
    "distance_from_home",
    "gender"
]
df[categoricas] = df[categoricas].astype("category")

In [None]:
# Verificamos con info() que se realiz√≥ el cambio
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6607 entries, 0 to 6606
Data columns (total 20 columns):
 #   Column                      Non-Null Count  Dtype   
---  ------                      --------------  -----   
 0   hours_studied               6607 non-null   int64   
 1   attendance                  6607 non-null   int64   
 2   parental_involvement        6607 non-null   category
 3   access_to_resources         6607 non-null   category
 4   extracurricular_activities  6607 non-null   category
 5   sleep_hours                 6607 non-null   int64   
 6   previous_scores             6607 non-null   int64   
 7   motivation_level            6607 non-null   category
 8   internet_access             6607 non-null   category
 9   tutoring_sessions           6607 non-null   int64   
 10  family_income               6607 non-null   category
 11  teacher_quality             6607 non-null   category
 12  school_type                 6607 non-null   category
 13  peer_influence    

### Revisi√≥n de rangos y coherencia

Adem√°s de la limpieza b√°sica (duplicados, nulos, nombres de columnas y tipos de datos),  
es importante verificar que los valores del dataset sean **coherentes y est√©n dentro de rangos l√≥gicos**.  

En esta secci√≥n se revisar√°:

- Que las variables num√©ricas (`attendance`, `sleep_hours`, `hours_studied`, `tutoring_sessions`, `physical_activity`, `exam_score`, `previous_scores`) no tengan valores fuera de rango o negativos.
- Que las variables categ√≥ricas (`gender`, `school_type`, `teacher_quality`, etc.) contengan √∫nicamente las categor√≠as definidas en la documentaci√≥n oficial.
- Que la variable objetivo (`exam_score`) no presente valores nulos y tenga una distribuci√≥n razonable.




In [34]:
# Revisar rangos en columnas num√©ricas
print("% Asistencia fuera de rango:", df[~df["attendance"].between(0, 100)].shape[0])
print("Horas de sue√±o fuera de rango:", df[~df["sleep_hours"].between(0, 24)].shape[0])
print("Horas de estudio negativas:", df[df["hours_studied"] < 0].shape[0])
print("Sesiones de tutor√≠a negativas:", df[df["tutoring_sessions"] < 0].shape[0])
print("Actividad f√≠sica semanal negativas:", df[df["physical_activity"] < 0].shape[0])

# Revisar categor√≠as √∫nicas
for col in df.select_dtypes(include="category").columns:
    print(f"{col}: {df[col].unique()}")

% Asistencia fuera de rango: 0
Horas de sue√±o fuera de rango: 0
Horas de estudio negativas: 0
Sesiones de tutor√≠a negativas: 0
Actividad f√≠sica semanal negativas: 0
parental_involvement: ['Low', 'Medium', 'High']
Categories (3, object): ['High', 'Low', 'Medium']
access_to_resources: ['High', 'Medium', 'Low']
Categories (3, object): ['High', 'Low', 'Medium']
extracurricular_activities: ['No', 'Yes']
Categories (2, object): ['No', 'Yes']
motivation_level: ['Low', 'Medium', 'High']
Categories (3, object): ['High', 'Low', 'Medium']
internet_access: ['Yes', 'No']
Categories (2, object): ['No', 'Yes']
family_income: ['Low', 'Medium', 'High']
Categories (3, object): ['High', 'Low', 'Medium']
teacher_quality: ['Medium', 'High', 'Low']
Categories (3, object): ['High', 'Low', 'Medium']
school_type: ['Public', 'Private']
Categories (2, object): ['Private', 'Public']
peer_influence: ['Positive', 'Negative', 'Neutral']
Categories (3, object): ['Negative', 'Neutral', 'Positive']
learning_disabili

Se verificaron los valores de las columnas num√©ricas y categ√≥ricas:

- `attendance` est√° dentro del rango 0‚Äì100.  
- `sleep_hours` no presenta valores fuera del rango 0‚Äì24.  
- `hours_studied`, `tutoring_sessions` y `physical_activity` no tienen valores negativos.  
- Las variables categ√≥ricas (`gender`, `school_type`, `teacher_quality`, etc.) presentan √∫nicamente las categor√≠as definidas en la documentaci√≥n oficial.

### ‚úÖ Limpieza completada

Se ha realizado una limpieza completa del dataset, incluyendo:

- Eliminaci√≥n de duplicados (no se encontraron registros repetidos)
- Sustituci√≥n de valores nulos en columnas categ√≥ricas usando el modo
- Normalizaci√≥n de nombres de columnas a min√∫sculas
- Conversi√≥n de columnas categ√≥ricas al tipo `category` seg√∫n la documentaci√≥n oficial
- Verificaci√≥n de rangos en variables num√©ricas y coherencia en categor√≠as

Con estos pasos, el dataset queda listo para la fase de visualizaci√≥n y an√°lisis exploratorio.
