## üßπ 3. Limpieza de datos

En esta secci√≥n se realiza una limpieza m√≠nima pero estructurada del dataset, centrada en garantizar la coherencia de los datos. 
 
- Los nombres de las columnas se convertir√°n a **min√∫sculas** para mantener consistencia y facilitar el acceso.

- Se validar√° que los valores de las columnas **num√©ricas** est√©n dentro de rangos l√≥gicos y no presenten valores negativos ni incoherentes.

- Se revisar√°n los valores √∫nicos de las columnas **categ√≥ricas** para detectar posibles inconsistencias con respecto a la documentaci√≥n oficial.   
No se aplicar√° limpieza autom√°tica sobre estas categor√≠as, pero se documentar√°n las observaciones relevantes.


In [1]:
# Importar librer√≠as
import pandas as pd

# Importar archivo con funciones
import sys, os
sys.path.append("../src/")
import cleaning

In [2]:
# Cargar del dataset
df = pd.read_csv("../data/student_performance.csv")

## 3.1 Realizamos la limpieza sobre el dataset
Llamaremos a la funcion `clean_dataset` de nuestro archivo **cleaning.py**.

In [3]:
cleaning.clean_dataset(df)

Unnamed: 0,hours_studied,attendance,parental_involvement,access_to_resources,extracurricular_activities,sleep_hours,previous_scores,motivation_level,internet_access,tutoring_sessions,family_income,teacher_quality,school_type,peer_influence,physical_activity,learning_disabilities,parental_education_level,distance_from_home,gender,exam_score
0,23,84,Low,High,No,7,73,Low,Yes,0,Low,Medium,Public,Positive,3,No,High School,Near,Male,67
1,19,64,Low,Medium,No,8,59,Low,Yes,2,Medium,Medium,Public,Negative,4,No,College,Moderate,Female,61
2,24,98,Medium,Medium,Yes,7,91,Medium,Yes,2,Medium,Medium,Public,Neutral,4,No,Postgraduate,Near,Male,74
3,29,89,Low,Medium,Yes,8,98,Medium,Yes,1,Medium,Medium,Public,Negative,4,No,High School,Moderate,Male,71
4,19,92,Medium,Medium,Yes,6,65,Medium,Yes,3,Medium,High,Public,Neutral,4,No,College,Near,Female,70
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6602,25,69,High,Medium,No,7,76,Medium,Yes,1,High,Medium,Public,Positive,2,No,High School,Near,Female,68
6603,23,76,High,Medium,No,8,81,Medium,Yes,3,Low,High,Public,Positive,2,No,High School,Near,Female,69
6604,20,90,Medium,Low,Yes,6,65,Low,Yes,3,Low,Medium,Public,Negative,2,No,Postgraduate,Near,Female,68
6605,10,86,High,High,Yes,6,91,High,Yes,2,Low,Medium,Private,Positive,3,No,High School,Far,Female,68


## üîç Comprobaciones despues de la limpieza

### 3.1 Normalizaci√≥n de nombres de columnas

Para facilitar el acceso a las columnas y mantener la coherencia del c√≥digo,  
se van a convertir todos los nombres de las columnas a **min√∫sculas**.

In [4]:
df.head()

Unnamed: 0,hours_studied,attendance,parental_involvement,access_to_resources,extracurricular_activities,sleep_hours,previous_scores,motivation_level,internet_access,tutoring_sessions,family_income,teacher_quality,school_type,peer_influence,physical_activity,learning_disabilities,parental_education_level,distance_from_home,gender,exam_score
0,23,84,Low,High,No,7,73,Low,Yes,0,Low,Medium,Public,Positive,3,No,High School,Near,Male,67
1,19,64,Low,Medium,No,8,59,Low,Yes,2,Medium,Medium,Public,Negative,4,No,College,Moderate,Female,61
2,24,98,Medium,Medium,Yes,7,91,Medium,Yes,2,Medium,Medium,Public,Neutral,4,No,Postgraduate,Near,Male,74
3,29,89,Low,Medium,Yes,8,98,Medium,Yes,1,Medium,Medium,Public,Negative,4,No,High School,Moderate,Male,71
4,19,92,Medium,Medium,Yes,6,65,Medium,Yes,3,Medium,High,Public,Neutral,4,No,College,Near,Female,70


### 3.2 Valores Nulos  
Aunque se han detectado valores nulos en algunas columnas categ√≥ricas, no se realizar√° imputaci√≥n, siguiendo las recomendaciones del profesor.  
Las visualizaciones posteriores se basar√°n √∫nicamente en los registros completos.

### 3.3 Revisi√≥n de rangos y coherencia

Adem√°s de la limpieza b√°sica, es importante verificar que los valores del dataset sean **coherentes y est√©n dentro de rangos l√≥gicos**.  

En esta secci√≥n se revisar√°:

- Que las variables num√©ricas (`attendance`, `sleep_hours`, `hours_studied`, `tutoring_sessions`, `physical_activity`, `exam_score`, `previous_scores`) no tengan valores fuera de rango o negativos.

- Que las variables categ√≥ricas (`gender`, `school_type`, `teacher_quality`, etc.) contengan √∫nicamente las categor√≠as definidas en la documentaci√≥n oficial.

In [5]:
cleaning.coherence_ranges(df)

% Asistencia fuera de rango: 0
Horas de sue√±o fuera de rango: 0
Horas de estudio negativas: 0
Sesiones de tutor√≠a negativas: 0
Actividad f√≠sica semanal negativas: 0
Notas de Examen fuera de rango: 1
Puntuaciones de examen anteriores fuera de rango: 0
parental_involvement: ['Low' 'Medium' 'High']
access_to_resources: ['High' 'Medium' 'Low']
extracurricular_activities: ['No' 'Yes']
motivation_level: ['Low' 'Medium' 'High']
internet_access: ['Yes' 'No']
family_income: ['Low' 'Medium' 'High']
teacher_quality: ['Medium' 'High' 'Low' nan]
school_type: ['Public' 'Private']
peer_influence: ['Positive' 'Negative' 'Neutral']
learning_disabilities: ['No' 'Yes']
parental_education_level: ['High School' 'College' 'Postgraduate' nan]
distance_from_home: ['Near' 'Moderate' 'Far' nan]
gender: ['Male' 'Female']


### 3.3.1 Correcci√≥n puntual en `exam_score`
Se ha detectado un valor fuera de rango en la columna `exam_score`

In [6]:
df[~df["exam_score"].between(0, 100)]


Unnamed: 0,hours_studied,attendance,parental_involvement,access_to_resources,extracurricular_activities,sleep_hours,previous_scores,motivation_level,internet_access,tutoring_sessions,family_income,teacher_quality,school_type,peer_influence,physical_activity,learning_disabilities,parental_education_level,distance_from_home,gender,exam_score
1525,27,98,Low,Medium,Yes,6,93,Low,No,5,High,High,Public,Positive,3,No,High School,Moderate,Female,101


#### Registro con valor **101** en el `√≠ndice 1525`.  

‚û°Ô∏è Esta correcci√≥n puntual se realiza de forma expl√≠cita.   

Dado que el rango v√°lido es de **0 a 100**, se ha corregir√° manualmente a **100** para preservar la coherencia del an√°lisis.

In [7]:
df.loc[1525, "exam_score"] = 100

In [8]:
# Volvemos a mirar que ya NO haya valores fuera de rango
df[~df["exam_score"].between(0, 100)]

Unnamed: 0,hours_studied,attendance,parental_involvement,access_to_resources,extracurricular_activities,sleep_hours,previous_scores,motivation_level,internet_access,tutoring_sessions,family_income,teacher_quality,school_type,peer_influence,physical_activity,learning_disabilities,parental_education_level,distance_from_home,gender,exam_score


### Guardamos el dataset limpio en otro dataset

In [9]:
df_limpio = cleaning.clean_dataset(df)
df_limpio.to_csv("../data/student_clean.csv", index=False)

## ‚úÖ Limpieza completada

Se ha realizado una limpieza completa del dataset, incluyendo:

- Normalizaci√≥n de nombres de columnas a **min√∫sculas**para facilitar el acceso y mantener coherencia.
- Verificaci√≥n de rangos en variables num√©ricas para asegurar que no existan valores negativos ni fuera de los l√≠mites esperados.
- Revisi√≥n de valores √∫nicos en variables `categ√≥ricas` para detectar posibles inconsistencias con respecto a la documentaci√≥n oficial.
- Correcci√≥n puntual de un valor fuera de rango en la columna exam_score (registro con valor 101 corregido a 100).
- Se ha generado un nuevo dataset con los datos limpios llamado **student_clean.csv**.

Con estos pasos, el dataset queda listo para la fase de **visualizaci√≥n** en el notebook `3_eda.ipynb`, manteniendo la integridad de los datos y documentando claramente las correcciones realizadas.