# 1.Limpieza y Transformación del Dataset de Calificaciones

Este notebook describe el proceso de limpieza y transformación del dataset de calificaciones.

El objetivo es garantizar que los datos sean **consistentes, estandarizados, anónimos y útiles** para el análisis posterior y la construcción de modelos de machine learning.

## 1.1. Definición de Variables - Dataset de Calificaciones

| Variable                  | Descripción                                                                 | Tipo de Dato         |
|---------------------------|-----------------------------------------------------------------------------|----------------------|
| `Sede`                    | Nombre de la sede o campus donde estudia el estudiante                     | `str` (texto)        |
| `Estudiante`              | Nombre completo del estudiante                                              | `str` (texto)        |
| `Documento de identidad`  | Identificador único del estudiante                                          | `str` (texto, hasheado) |
| `Grado`                   | Grado académico que cursa el estudiante (ej. 1, 2, 3...)                    | `int` (entero)       |
| `Grupo`                   | Letra o código del grupo del estudiante dentro del grado                   | `str` (texto)        |
| `Periodo`                 | Periodo académico (ej. I, II, III, IV)                                      | `str` (texto)        |
| `Año`                     | Año académico                                                               | `int` (entero)       |
| `Intensidad Horaria`      | Número de horas dedicadas a la asignatura                                   | `int` (entero)       |
| `Asignatura`              | Nombre de la materia evaluada (ej. Matemáticas, Inglés)                    | `str` (texto)        |
| `Cognitiva`               | Nota del componente cognitivo (conocimiento teórico)                        | `float` (decimal)    |
| `Procedimental`           | Nota del componente procedimental (habilidades prácticas)                   | `float` (decimal)    |
| `Actitudinal`             | Nota del componente actitudinal (comportamiento, participación)             | `float` (decimal)    |
| `Axiologica`              | Nota del componente axiológico (valores, ética)                             | `float` (decimal)    |
| `Docente`                 | Nombre del docente que reporta la calificación                              | `str` (texto)        |
| `Resultado`               | Nota final integrada de la asignatura                                       | `float` (decimal)    |
| `Nivel`                   | Nivel de desempeño asignado (ej. Bajo, Básico, Alto, Superior)              | `str` (texto)        |


In [1]:
import sys
import os
import pandas as pd
from dotenv import load_dotenv
load_dotenv()

current_dir = os.path.dirname(os.path.abspath('__file__'))
project_root = os.path.abspath(os.path.join(current_dir, '..', '..'))
if project_root not in sys.path:
    sys.path.append(project_root)

from scripts.transform.data_cleaning_notes import NotesDataCleaner
from scripts.utils.hash_utility import HashUtility

## 1.2. Carga de dataset de Calificaciones

Cargar fuente original de datos de calificaciones


In [2]:
df = pd.read_csv("../../data/raw/calificaciones-raw-2023-2024-2025.csv")

In [3]:
df.info()
# Conteo de valores nulos
df.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32681 entries, 0 to 32680
Data columns (total 16 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Sede                    32681 non-null  object
 1   Estudiante              32681 non-null  object
 2   Documento de identidad  32681 non-null  int64 
 3   Grado                   32681 non-null  int64 
 4   Grupo                   32681 non-null  object
 5   Periodo                 32681 non-null  object
 6   Año                     32681 non-null  int64 
 7   Intensidad Horaria      32681 non-null  int64 
 8   Asignatura              32681 non-null  object
 9   Cognitiva               32681 non-null  int64 
 10  Procedimental           32681 non-null  int64 
 11  Actitudinal             32681 non-null  int64 
 12  Axiologica              32681 non-null  int64 
 13  Docente                 32681 non-null  object
 14  Resultado               32681 non-null  int64 
 15  Ni

Sede                      0
Estudiante                0
Documento de identidad    0
Grado                     0
Grupo                     0
Periodo                   0
Año                       0
Intensidad Horaria        0
Asignatura                0
Cognitiva                 0
Procedimental             0
Actitudinal               0
Axiologica                0
Docente                   0
Resultado                 0
Nivel                     0
dtype: int64

## 1.3. Limpieza de los datos
Realiza limpieza básica:  
- Quita espacios de nombres de columnas  
- Convierte columnas de notas a numérico  
- Convierte texto a mayúsculas  

In [4]:
# comprobar que el metodo de limpieza existe
# y que se puede importar correctamente
from scripts.transform.data_cleaning_notes import NotesDataCleaner
print(dir(NotesDataCleaner))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'codificar_periodos', 'load_and_clean_data']


In [5]:
cleaner = NotesDataCleaner(df)
df_limpio = cleaner.load_and_clean_data()
df_limpio.info()
df_limpio.isnull().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32681 entries, 0 to 32680
Data columns (total 16 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Sede                    32681 non-null  object
 1   Estudiante              32681 non-null  object
 2   Documento_de_identidad  32681 non-null  object
 3   Grado                   32681 non-null  object
 4   Grupo                   32681 non-null  object
 5   Periodo                 32681 non-null  object
 6   Año                     32681 non-null  object
 7   Intensidad_Horaria      32681 non-null  int64 
 8   Asignatura              32681 non-null  object
 9   Cognitiva               32681 non-null  int64 
 10  Procedimental           32681 non-null  int64 
 11  Actitudinal             32681 non-null  int64 
 12  Axiologica              32681 non-null  int64 
 13  Docente                 32681 non-null  object
 14  Resultado               32681 non-null  int64 
 15  Ni

Sede                      0
Estudiante                0
Documento_de_identidad    0
Grado                     0
Grupo                     0
Periodo                   0
Año                       0
Intensidad_Horaria        0
Asignatura                0
Cognitiva                 0
Procedimental             0
Actitudinal               0
Axiologica                0
Docente                   0
Resultado                 0
Nivel                     0
dtype: int64

## 1.4. Anonimización de los datos

Se aplicó **hashing seguro** a las variables sensibles:

- `Documento_de_identidad` se reemplaza luego de hashing por 'Identificacion'
- `Estudiante` (identificador único basado en nombre y sede) y aplica hashing

Estas columnas fueron eliminadas posteriormente para preservar la privacidad de los estudiantes.

- Se aplica funcion para codificar periodos

In [6]:
# Aplicar hashing al documento de identificación y eliminar la columna original
df_limpio["Identificacion"] = df_limpio["Documento_de_identidad"].apply(HashUtility.hash_stable)

# Aplicar hashing a los nombres y apellidos y eliminar la columna original
df_limpio["Estudiante"] = df_limpio["Estudiante"].replace(" ", "")+df_limpio["Sede"].astype(str)
df_limpio["Estudiante"] = df_limpio["Estudiante"].apply(HashUtility.hash_stable)
df_limpio.drop(columns=["Documento_de_identidad"], inplace=True)


In [7]:
df_limpio= cleaner.codificar_periodos(df_limpio) 

In [8]:
df_limpio.sample(5)

Unnamed: 0,Sede,Estudiante,Grado,Grupo,Periodo,Año,Intensidad_Horaria,Asignatura,Cognitiva,Procedimental,Actitudinal,Axiologica,Docente,Resultado,Nivel,Identificacion
1929,FUSAGASUGÁ,2d153c45c903ca7b97e2059bacf8226605e9e1c6991bb0...,7,A,3,2023,1,ARTES,92,92,80,95,SANDRA SANTISTEBAN OSTOS,90,ALTO,86dd6a3b1244d86ead1d62d74662214173aa988b3799bc...
10823,GIRARDOT,e0e4aa62f72e975b6fa93b86ffc7fada60a821109e7a7b...,6,A,3,2023,2,LECTURA CRÍTICA,83,83,80,86,VALENTINA SARABIA VARGAS,83,ALTO,615a5329a84e561ba1f1b51c0d8bf7b5064d517d9989a0...
5037,FUSAGASUGÁ,45c77601c962007a4c1b9656b6e9f9f58e50df36682ac7...,1,B,1,2023,5,MATEMÁTICAS,86,87,90,91,TATIANA GONZÁLEZ MORENO,87,ALTO,52fca00601a459f83487aa43ec2ddb401a3d79edc17e41...
801,FUSAGASUGÁ,8c95cfa1c74bb292b1d2a49fa907ce5b96f0efb6241577...,3,A,3,2023,3,EDUCACIÓN FÍSICA,96,96,100,100,STEVEN BARRERO BUITRAGO,97,SUPERIOR,027a0fbd79f37997ede4b9315d858a9cd3d9f4fdf345ac...
30371,FUSAGASUGÁ,7b64cc25ff8446bf1ab014106b133aa4a2824e6018900f...,5,A,1,2025,1,INTEGRALIDAD,83,83,80,88,CAROLINA BORDA FLECHAS,83,ALTO,ec1e60fb1a01bc9f580d69ba2a1eab6b1d560c866f1c88...


In [9]:
df_limpio.to_csv("../../data/processed/data_clean_notes_2023_2024_2025.csv", index=False)