# NOTEBOOK SUMMARY

La siguiente libreta de código será usada para crear a partir del archivo bronze el archivo plata. Que consistirá en un dataset limpio y prácticamente listo para utilizar en un análisis de datos.

# IMPORTS

In [1]:
# Importación de las librerías a usar durante el proyecto.

import os

import numpy as np

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

# PARÁMETROS DE LAS RUTAS PARA EL ARCHIVO BRONZE Y PLATA

In [2]:
# Rutas para el archivo Bronze. 

bronze_folder_path = os.path.join(os.curdir,"Bronze")

bronze_file_name = "student_habits_performance_bronze.parquet"

bronze_file_path = os.path.join(bronze_folder_path, bronze_file_name)


# Rutas para el archivo Silver.

silver_folder_path = os.path.join(os.curdir,"Silver")

silver_file_name = "student_habits_performance_silver.parquet"

silver_file_path = os.path.join(silver_folder_path, silver_file_name)

# LECTURA DEL ARCHIVO BRONZE

In [None]:
# Leemos el archivo parquet con los datos en bronze previamente creado con la libreta Bronze generation.

student_habits_performance_bronze_df = pd.read_parquet(bronze_file_path)

# Muestra las 5 primeras filas del dataframe para echar un primer vistazo.

student_habits_performance_bronze_df.head() 


Unnamed: 0,student_id,age,gender,study_hours_per_day,social_media_hours,netflix_hours,part_time_job,attendance_percentage,sleep_hours,diet_quality,exercise_frequency,parental_education_level,internet_quality,mental_health_rating,extracurricular_participation,exam_score,BronzeTimestamp
0,S1000,23,Female,0.0,1.2,1.1,No,85.0,8.0,Fair,6.0,Master,Average,8,Yes,56.2,2025-11-09 19:55:46.859869
1,S1001,20,Female,6.9,2.8,2.3,No,97.3,4.6,Good,6.0,High School,Average,8,No,100.0,2025-11-09 19:55:46.859869
2,S1002,21,Male,1.4,3.1,1.3,No,94.8,8.0,Poor,1.0,High School,Poor,1,No,34.3,2025-11-09 19:55:46.859869
3,S1003,23,Female,1.0,3.9,1.0,No,71.0,9.2,Poor,4.0,Master,Good,1,Yes,26.8,2025-11-09 19:55:46.859869
4,S1004,19,Female,5.0,4.4,0.5,No,90.9,4.9,Fair,3.0,Master,Good,1,No,66.4,2025-11-09 19:55:46.859869


In [None]:
# Mostramos la información para entender del tipo de datos que está compuesto el dataset y como atacarlos para su correspondiente limpieza.

student_habits_performance_bronze_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 17 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   student_id                     996 non-null    object        
 1   age                            1000 non-null   int64         
 2   gender                         996 non-null    object        
 3   study_hours_per_day            998 non-null    float64       
 4   social_media_hours             1000 non-null   float64       
 5   netflix_hours                  999 non-null    float64       
 6   part_time_job                  1000 non-null   object        
 7   attendance_percentage          998 non-null    float64       
 8   sleep_hours                    999 non-null    float64       
 9   diet_quality                   998 non-null    object        
 10  exercise_frequency             999 non-null    float64       
 11  parental_education

# LIMPIEZA DE DATOS

### GESTIÓN DE VALORES NULOS

In [None]:
# Lo primero es entender que hacer con los valores nulos de cada una de las columnas según su naturaleza para posteriormente actura sobre estas columnas.

#  0   student_id                     4 nulos         object     ---->>>>>  Utilizaremos el término "UNKNOWN".
#  1   age                            Sin nulos       int64         
#  2   gender                         4 nulos         object     ---->>>>>  Utilizaremos el término "UNKNOWN".       
#  3   study_hours_per_day            2 nulos         float64    ---->>>>>  Rellenaremos calculando el valor central/mediana para intentar afectar lo mínimo posible al conjunto de datos.   
#  4   social_media_hours             Sin nulos       float64       
#  5   netflix_hours                  1 nulo          float64    ---->>>>>  Rellenaremos calculando el valor central/mediana para intentar afectar lo mínimo posible al conjunto de datos.       
#  6   part_time_job                  Sin nulos       object        
#  7   attendance_percentage          2 nulos         float64    ---->>>>>  Rellenaremos calculando el valor central/mediana para intentar afectar lo mínimo posible al conjunto de datos.       
#  8   sleep_hours                    1 nulo          float64    ---->>>>>  Rellenaremos calculando el valor central/mediana para intentar afectar lo mínimo posible al conjunto de datos.       
#  9   diet_quality                   2 nulos         object     ---->>>>>  Utilizaremos el término "UNKNOWN".          
#  10  exercise_frequency             1 nulo          float64    ---->>>>>  Rellenaremos calculando el valor central/mediana para intentar afectar lo mínimo posible al conjunto de datos.       
#  11  parental_education_level       93 nulos        object     ---->>>>>  Utilizaremos el término "UNKNOWN".        
#  12  internet_quality               3 nulos         object     ---->>>>>  Utilizaremos el término "UNKNOWN".        
#  13  mental_health_rating           Sin nulos       int64         
#  14  extracurricular_participation  1 nulo          object     ---->>>>>  Utilizaremos el término "UNKNOWN".        
#  15  exam_score                     2 nulos         float64    ---->>>>>  Al tratarse de solo dos valores nulos estas dos filas enteras serán eliminadas al considerarse la nota final un resultado muy relevante como para ser inventado.      
#  16  BronzeTimestamp                Sin nulos       datetime64[us]


# Empezamos con la columna de abajo "exam_score" donde queríamos eliminar las filas que tuvieran valores nulos. notna() se encargará de hacer esta función.
student_habits_performance_bronze2silver_df = student_habits_performance_bronze_df[student_habits_performance_bronze_df['exam_score'].notna()]

# Ahora trataremos las columnas en las que queremos que los valores nulos se reemplacen por el término "UNKNOWN".
columnas_nulos2unknown = ["student_id","gender","diet_quality","parental_education_level","internet_quality","extracurricular_participation"]
student_habits_performance_bronze2silver_df[columnas_nulos2unknown] = student_habits_performance_bronze2silver_df[columnas_nulos2unknown].fillna("UNKNOWN")

# Ahora atajaremos las columnas cuyos valores nulos vamos a rellenar usando la mediana.
columnas_nulos2median = ["study_hours_per_day","netflix_hours","attendance_percentage","sleep_hours","exercise_frequency"] 

lista_medianas = []

for columna in columnas_nulos2median:
    
    mediana = student_habits_performance_bronze2silver_df[columna].median()

    student_habits_performance_bronze2silver_df[columna] = student_habits_performance_bronze2silver_df[columna].fillna(mediana)

    lista_medianas.append((columna,mediana))

print(lista_medianas) # Imprimimos la lista de medianas para ver que valore estamos introduciendo y chequear que es correcto y tiene sentido.

student_habits_performance_bronze2silver_df.info() # Tamboién utilizamos info para confirmar la nueva naturaleza de nuestros datos.

[('study_hours_per_day', np.float64(3.5)), ('netflix_hours', np.float64(1.8)), ('attendance_percentage', np.float64(84.4)), ('sleep_hours', np.float64(6.5)), ('exercise_frequency', np.float64(3.0))]
<class 'pandas.core.frame.DataFrame'>
Index: 998 entries, 0 to 999
Data columns (total 17 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   student_id                     998 non-null    object        
 1   age                            998 non-null    int64         
 2   gender                         998 non-null    object        
 3   study_hours_per_day            998 non-null    float64       
 4   social_media_hours             998 non-null    float64       
 5   netflix_hours                  998 non-null    float64       
 6   part_time_job                  998 non-null    object        
 7   attendance_percentage          998 non-null    float64       
 8   sleep_hours               

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  student_habits_performance_bronze2silver_df[columnas_nulos2unknown] = student_habits_performance_bronze2silver_df[columnas_nulos2unknown].fillna("UNKNOWN")
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  student_habits_performance_bronze2silver_df[columna] = student_habits_performance_bronze2silver_df[columna].fillna(mediana)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pa

### GESTIÓN DE DUPLICADOS

In [None]:
# Teoricamente la única columna donde no pordría haber duplicados es en la de "studen_id" ya que no debería haber dos estduaintes con el mismo ID.

duplicados_studentid = student_habits_performance_bronze2silver_df['student_id'][student_habits_performance_bronze2silver_df['student_id'].duplicated()].unique()

print(duplicados_studentid)

# Los valores repetidos son: ['UNKNOWN' 'S1100']. 'UNKNOWN' es normal que se repita pero S1100 no debería repetirse. Imprimiremos las líneas en las que este valor se repite àra tomar una decisión.

duplicados_studentid_df = student_habits_performance_bronze2silver_df[student_habits_performance_bronze2silver_df['student_id'] == 'S1100']
duplicados_studentid_df.head()

# De cara a ser lo más precisos posible cambiaremos el valor de S1100 por UNKNOWN ya que esto no afecta al análisis posterior que vamos a realizar y no existe manera de verificar que data pertenece realmente al id S1100.
# Añadir que el resto de datos parecen correctos para estas filas y parece un error en el que se inputo mal el id del estudiante.

student_habits_performance_bronze2silver_df.loc[student_habits_performance_bronze2silver_df['student_id'] == 'S1100', 'student_id'] = 'UNKNOWN'

# Comprobamos que ha sido correctamente aplicado el cambio.

duplicados_studentid = student_habits_performance_bronze2silver_df['student_id'][student_habits_performance_bronze2silver_df['student_id'].duplicated()].unique()

print(duplicados_studentid)

['UNKNOWN']
['UNKNOWN']


### GESTIÓN DE VALORES ATÍPICOS

In [44]:
# Haremos un barrido por todas las columnas asegurándonos que no existen valores incoherentes.

student_habits_performance_bronze2silver_df.describe(include="all") # No existen valores numéricos demasiado desviados que no hagan sentido o que puedan parecer un outlayer.

Unnamed: 0,student_id,age,gender,study_hours_per_day,social_media_hours,netflix_hours,part_time_job,attendance_percentage,sleep_hours,diet_quality,exercise_frequency,parental_education_level,internet_quality,mental_health_rating,extracurricular_participation,exam_score,BronzeTimestamp
count,998,998.0,998,998.0,998.0,998.0,998,998.0,998.0,998,998.0,998,998,998.0,998,998.0,998
unique,992,,4,,,,4,,,5,,4,4,,3,,
top,UNKNOWN,,Female,,,,No,,,Fair,,High School,Good,,No,,
freq,7,,477,,,,781,,,436,,391,445,,680,,
mean,,20.491984,,3.55,2.504008,1.821042,,84.127255,6.467735,,3.043086,,,5.442886,,69.614529,2025-11-09 19:55:46.859868
min,,17.0,,0.0,0.0,0.0,,56.0,3.2,,0.0,,,1.0,,18.4,2025-11-09 19:55:46.859869
25%,,18.25,,2.6,1.7,1.0,,78.025,5.6,,1.0,,,3.0,,58.5,2025-11-09 19:55:46.859869
50%,,20.0,,3.5,2.5,1.8,,84.4,6.5,,3.0,,,5.0,,70.5,2025-11-09 19:55:46.859869
75%,,23.0,,4.5,3.3,2.575,,90.975,7.3,,5.0,,,8.0,,81.375,2025-11-09 19:55:46.859869
max,,24.0,,8.3,7.2,5.4,,100.0,10.0,,6.0,,,10.0,,100.0,2025-11-09 19:55:46.859869


In [None]:
# Estudiaremos ahora las varibales categoricas:

    # gender
    # part_time_job
    # diet_quality
    # parental_education_level
    # internet_quality
    # extracurricula_participation


# student_habits_performance_bronze2silver_df["diet_quality"].value_counts(dropna=False) ---> NO EXISTEN VALORES ATÍPICOS EN ESTA COLUMNA

# student_habits_performance_bronze2silver_df["parental_education_level"].value_counts(dropna=False) ---> NO EXISTEN VALORES ATÍPICOS EN ESTA COLUMNA

# student_habits_performance_bronze2silver_df["internet_quality"].value_counts(dropna=False) ---> NO EXISTEN VALORES ATÍPICOS EN ESTA COLUMNA

# student_habits_performance_bronze2silver_df["extracurricular_participation"].value_counts(dropna=False) ---> NO EXISTEN VALORES ATÍPICOS EN ESTA COLUMNA

student_habits_performance_bronze2silver_df.loc[student_habits_performance_bronze2silver_df['gender'] == 'Other', 'gender'] = 'UNKNOWN' #Cambiaremos "Other" por "UNKNOWN" para darle más consistencia a nuestro archivo

student_habits_performance_bronze2silver_df["gender"].value_counts(dropna=False) # Y revisamos el cambio.

gender
Female     477
Male       475
UNKNOWN     46
Name: count, dtype: int64

In [None]:
student_habits_performance_bronze2silver_df['part_time_job'] = student_habits_performance_bronze2silver_df['part_time_job'].astype(str) # Para convertir toda la columna a string y que no haya Booleanos como True y False.

student_habits_performance_bronze2silver_df.loc[student_habits_performance_bronze2silver_df['part_time_job'] == '0', 'part_time_job'] = 'No'
student_habits_performance_bronze2silver_df.loc[student_habits_performance_bronze2silver_df['part_time_job'] == '1', 'part_time_job'] = 'Yes'
student_habits_performance_bronze2silver_df.loc[student_habits_performance_bronze2silver_df['part_time_job'] == 'FALSE', 'part_time_job'] = 'No'
student_habits_performance_bronze2silver_df.loc[student_habits_performance_bronze2silver_df['part_time_job'] == 'TRUE', 'part_time_job'] = 'Yes'

student_habits_performance_bronze2silver_df["part_time_job"].value_counts(dropna=False) # Comprobamos que el cambio, se ha realizado correctamente.

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  student_habits_performance_bronze2silver_df['part_time_job'] = student_habits_performance_bronze2silver_df['part_time_job'].astype(str) # Para convertir toda la columna a string y que no haya Booleanos como True y False.


part_time_job
No     783
Yes    215
Name: count, dtype: int64

# GUARDADO DEL ARCHIVO SILVER

In [None]:
# Creamos el directorio del archivo plata en caso de que no existiese.

os.makedirs(silver_folder_path, exist_ok=True)

# Guardamos el dataset en un archivo .parquet

student_habits_performance_bronze2silver_df.to_parquet(silver_file_path, index=False)