# Limpieza y Transformación del Dataset de Estudiantes

En este notebook se trabaja la limpieza de datos y categorización para dejar valores estándar en las variables categóricas, debido a los datos con valores tan variados.

## Descripción del Dataset
1. **id**: *Identificador único del estudiante en el dataset. Es es nombre completo del estudiante sin espacios concatenado con la sede. Útil para la únion de datos que no contienen el documento de identidad.*

2. **sede**: *Sede educativa a la que pertenece el estudiante. Girardot o Fusagasugá*

3. **nivel**: *Nivel académico (por ejemplo, primaria, secundaria, bachillerato) al momento de recibir la información año 2024.*

4. **grado**: *Grado escolar específico en el que está matriculado el estudiante.*

5. **orden_grado**: *Orden numérico correspondiente al grado escolar (útil para ordenar o comparar grados).*

6. **año_ingreso**: *Año en que el estudiante ingresó a la institución educativa.*

7. **antigüedad**: *Categoría que describe si el estudiante es “Nuevo” o “Antiguo” en la institución.*

8. **género**: *Género del estudiante (masculino, femenino u otro).*

9. **documento_identificación**: *Número de documento de identidad del estudiante.*

10. **primer_apellido**: *Primer apellido del estudiante.*

11. **segundo_apellido**: *Segundo apellido del estudiante.*

12. **nombres**: *Nombres del estudiante.*

13. **fecha_nacimiento**: *Fecha de nacimiento del estudiante.*

14. **demuestra_confianza**: *Percepción o valoración sobre el nivel de confianza mostrado por el estudiante.*

15. **país_origen**: *País de nacimiento u origen del estudiante.*

16. **estrato**: *Estrato socioeconómico del estudiante (usualmente del 1 al 6 en el contexto colombiano).*

17. **tipo_vivienda**: *Tipo de propiedad o vivienda donde reside el estudiante (propia, alquilada, familiar).*

18. **zona_vivienda**: *Ubicación geográfica del estudiante (zona urbana o rural).*

19. **dirección**: Dirección de residencia del estudiante.

20. **horas_semana_estudio_casa** *Cantidad aproximada de horas semanales dedicadas al estudio en casa.*

21. **interés_estudios_superiores**: *Nivel de interés que muestra el estudiante hacia continuar estudios superiores (alto, medio, bajo).*

22. **medio_transporte**: *Medio utilizado por el estudiante para trasladarse hasta la institución educativa.*

23. **apoyo_familiar**: *Nivel de apoyo familiar percibido en relación con el proceso educativo (alto, medio, bajo).*

24. **total_hermanos**: *Número total de hermanos que tiene el estudiante.*

25. **familia**: *Composición familiar con la que convive el estudiante (categorías simples como “Mamá y papá”, “Solo mamá”, etc.).*

26. **actividades_extracurriculares**: *Actividades que realiza el estudiante fuera del horario escolar (deportes, artes, idiomas, tecnología, ninguna).*

27. **enfermedades**: *Indica si el estudiante presenta o no alguna enfermedad diagnosticada.*

28. **proyección_vocacional**: Profesión o área vocacional en la que el estudiante muestra interés o preferencia.

29. **participación_clase**: *Nivel de participación en clase que tiene el estudiante (alta, media, baja).*

30. **nee**: *Indica si el estudiante presenta Necesidades Educativas Especiales (Sí o No).*

31. **valoración_emocional**: *Evaluación emocional general del estudiante.*

32. **nivel_motivación**: *Nivel general de motivación del estudiante en relación con el estudio (alto, medio, bajo).*

In [1]:
import sys
import os
import pandas as pd

current_dir = os.path.dirname(os.path.abspath('__file__'))
project_root = os.path.abspath(os.path.join(current_dir, '..', '..'))
if project_root not in sys.path:
    sys.path.append(project_root)

from scripts.transform.data_cleaning_students import StudentsDataCleaner
from scripts.eda_analyzer import EDAAnalyzer
from scripts.utils.hash_utility import HashUtility

In [2]:
df = pd.read_csv('../../data/raw/Estudiantes.csv')
cleaner = StudentsDataCleaner(df)
eda = EDAAnalyzer()

In [3]:
# Conteo de valores nulos
df.isnull().sum()

ID                                0
sede                              0
nivel                             0
grado                             0
orden_grado                       0
año_ingreso                       0
antigüedad                        0
género                            0
documento_identificación          0
primer_apellido                   0
segundo_apellido                  0
nombres                           0
fecha_nacimiento                  0
demuestra_confianza              51
país_origen                       0
estrato                          86
tipo_vivienda                    86
zona_vivienda                     0
dirección                        86
horas_semana_estudio_casa        86
interés_estudios_superiores      86
medio_transporte                  0
apoyo_familiar                    0
total_hermanos                   86
familia                          86
actividades_extracurriculares    86
enfermedades                      0
proyección_vocacional       

In [4]:
eda.plot_null_heatmap(df)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 367 entries, 0 to 366
Data columns (total 32 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   ID                             367 non-null    object 
 1   sede                           367 non-null    object 
 2   nivel                          367 non-null    object 
 3   grado                          367 non-null    object 
 4   orden_grado                    367 non-null    int64  
 5   año_ingreso                    367 non-null    int64  
 6   antigüedad                     367 non-null    object 
 7   género                         367 non-null    object 
 8   documento_identificación       367 non-null    int64  
 9   primer_apellido                367 non-null    object 
 10  segundo_apellido               367 non-null    object 
 11  nombres                        367 non-null    object 
 12  fecha_nacimiento               367 non-null    obj

Definimos las columnas para trabajar, exluyendo las columnas con la información personal del estudiante

In [6]:
# Excluir las columnas: sede, nivel, grado, orden_grado, año_ingreso, género, documento_identificación, primer_apellido, segundo_apellido, nombres, fecha_nacimiento, dirección, valoración_emocional
cols_to_search = [col for col in df.columns if col not in ['ID','sede', 'nivel', 'grado', 'orden_grado', 'año_ingreso', 'género', 'documento_identificación', 'primer_apellido', 'segundo_apellido', 'nombres', 'fecha_nacimiento', 'dirección', 'valoración_emocional']]

cleaner.display_unique_values(cols_to_search)


Valores únicos y su cantidad en cada columna:
antigüedad: 3 valores únicos
demuestra_confianza: 5 valores únicos
país_origen: 5 valores únicos
estrato: 6 valores únicos
tipo_vivienda: 11 valores únicos
zona_vivienda: 5 valores únicos
horas_semana_estudio_casa: 19 valores únicos
interés_estudios_superiores: 9 valores únicos
medio_transporte: 11 valores únicos
apoyo_familiar: 12 valores únicos
total_hermanos: 8 valores únicos
familia: 179 valores únicos
actividades_extracurriculares: 107 valores únicos
enfermedades: 25 valores únicos
proyección_vocacional: 190 valores únicos
participación_clase: 21 valores únicos
nee: 7 valores únicos
nivel_motivación: 12 valores únicos


## Anonimización de los datos

In [7]:
# Aplicar hashing al documento de identificación y eliminar la columna original
df["documento_identificación"] = df["documento_identificación"].apply(HashUtility.hash_stable)

# Aplicar hashing a los nombres y apellidos y eliminar las columnas originales
df["primer_apellido"] = df["primer_apellido"].apply(HashUtility.hash_stable)
df["segundo_apellido"] = df["segundo_apellido"].apply(HashUtility.hash_stable)
df["nombres"] = df["nombres"].apply(HashUtility.hash_stable)
df["ID"] = df["ID"].apply(HashUtility.hash_stable)


## Limpieza del texto

### Estandarizar Antigüedad

In [8]:
cleaner.unique_values_by_column('antigüedad')

array(['Antiguo', 'Nuevo', 'nuevo'], dtype=object)

In [9]:
cleaner.clean_column('antigüedad')
cleaner.unique_values_by_column('antigüedad')

array(['Antiguo', 'Nuevo'], dtype=object)

### País de Origen

In [10]:
cleaner.unique_values_by_column('país_origen')

array(['Colombia', 'Colombia ', 'Argentina', 'España',
       'República Dominicana'], dtype=object)

In [11]:
cleaner.clean_column('país_origen')
cleaner.unique_values_by_column('país_origen')

array(['Colombia', 'Argentina', 'España', 'República dominicana'],
      dtype=object)

### Tipo de vivienda

In [12]:
cleaner.unique_values_by_column('tipo_vivienda')

array(['Alquilada', 'Propia', 'Alquilada  ', 'Familiar', 'Familiar ',
       'Propia ', 'Alquilada ', ' Propia', 'Alquilada    ', 'propia',
       'alquilada'], dtype=object)

In [13]:
cleaner.clean_column('tipo_vivienda')
cleaner.unique_values_by_column('tipo_vivienda')

array(['Alquilada', 'Propia', 'Familiar'], dtype=object)

### Zona de vivienda

In [14]:
cleaner.unique_values_by_column('zona_vivienda')

array(['Urbana', 'Rural', 'Urbana ', 'RURAL', 'Urbano'], dtype=object)

In [15]:
cleaner.clean_column('zona_vivienda')
cleaner.unique_values_by_column('zona_vivienda')

array(['Urbana', 'Rural'], dtype=object)

### Interés en estudios superiores

In [16]:
cleaner.unique_values_by_column('interés_estudios_superiores')

array(['Alto', 'Medio', 'Bajo', 'Alto ', 'BAJO', 'medio', 'bajo', 'MEDIO',
       'Medio '], dtype=object)

In [17]:
cleaner.clean_column('interés_estudios_superiores')
cleaner.unique_values_by_column('interés_estudios_superiores')

array(['Alto', 'Medio', 'Bajo'], dtype=object)

### Apoyo Familiar en el proceso educativo

In [18]:
cleaner.unique_values_by_column('apoyo_familiar')

array(['Medio', 'Alta', 'Alto ', 'alto', 'Bajo', 'Alto', 'ALTO', 'medio',
       'bajo', 'slto', 'MEDIO', 'alta'], dtype=object)

In [19]:
cleaner.clean_column('apoyo_familiar')
cleaner.unique_values_by_column('apoyo_familiar')

array(['Medio', 'Alto', 'Bajo'], dtype=object)

### Participación en clase

In [20]:
cleaner.unique_values_by_column('participación_clase')

array(['alta', 'Alta', 'Media ', 'media', 'Media', 'Alta ', 'MEDIO',
       'alto', 'Baja', 'bajo', 'BAJA', 'medio', 'baja', 'Alto', 'Bajo',
       'ALTA', 'Medio', 'MEDIA', 'ALTA ', 'ALTO', 'MEDIO '], dtype=object)

In [21]:
cleaner.clean_column('participación_clase')
cleaner.unique_values_by_column('participación_clase')

array(['Alta', 'Media', 'Baja'], dtype=object)

### NEE

In [22]:
cleaner.unique_values_by_column('nee')

array(['No', 'NO', 'No ', 'Si', 'no', 'si', 'SI'], dtype=object)

In [23]:
cleaner.clean_column('nee')
cleaner.unique_values_by_column('nee')

array(['No', 'Si'], dtype=object)

### Enfermedades

In [24]:
cleaner.unique_values_by_column('enfermedades')

array(['no', 'NO', 'No ', 'No', 'SI', 'Rinitis', 'Cardiopatia congenita',
       'rinitis', 'Si', 'Migraña', 'NO ', 'si', 'dislexia', ' no',
       'Epilepsia', 'HIPERLAXITUD ', 'renitis', 'CIA ',
       'Problemas en el riñon', 'asma', 'PREASMATICO Y RINITICO ALERGICO',
       'Diabetes', 'RINITIS ', 'Riñitis', 'no '], dtype=object)

In [25]:
cleaner.clean_column('enfermedades')
cleaner.unique_values_by_column('enfermedades')

array(['No', 'Si'], dtype=object)

### Medio de transporte

In [26]:
cleaner.unique_values_by_column('medio_transporte')

array(['Vehículo privado', 'Transporte escolar', 'Moto',
       'Vehiculo privado', 'Motocicleta', 'A pie', 'Transporte público',
       'Bicicleta', 'transporte publico', 'motocicleta ',
       'Tranporte privado'], dtype=object)

In [27]:
cleaner.clean_column('medio_transporte')
cleaner.unique_values_by_column('medio_transporte')

array(['Vehículo privado', 'Transporte escolar', 'A pie',
       'Transporte público', 'Bicicleta'], dtype=object)

### Nivel motivación

In [28]:
df['nivel_motivación'].isnull().sum()

np.int64(0)

In [29]:
cleaner.unique_values_by_column('nivel_motivación')

array(['Alto', 'Medio', 'Bajo', 'alto', 'alta', 'Media', 'ALTO', 'media',
       'Media ', 'Alta', 'medio', 'baja'], dtype=object)

In [30]:
cleaner.clean_column('nivel_motivación')
cleaner.unique_values_by_column('nivel_motivación')

array(['Alto', 'Medio', 'Bajo'], dtype=object)

In [31]:
df['nivel_motivación'].isnull().sum()

np.int64(0)

### Proyección vocacional

In [32]:
cleaner.unique_values_by_column('proyección_vocacional')

array(['deportista ', 'Astronauta', 'Youtuber ', 'diseño indsutrial',
       'Gimnasta ', 'Empresario y futbolista', 'Doctor y futbolista ',
       'Futbolista ', 'abogado', 'Veterinaria ', 'Medicina ', 'Actor ',
       'Doctora', 'Doctora ', 'Patinadora', 'MILITAR ', 'Futbolista',
       'Profesora', 'Mago', 'Artista', 'Emprearia', 'yotuber',
       'Gastronomia', 'Veterinaria', 'piloto de carreras', 'Patinador',
       'Comunicadora Social ', 'Publicista', 'Contador Público',
       'Militar', 'Youtober', 'Profesor ', 'Futbolista profesional',
       'veterinario', 'Docente de deportes',
       'negocios internacionales o diseño grafico', 'AUN NO SABE',
       'veterinaria', 'No sabe', 'futbolista', 'diseñador grafico',
       'youtuber', 'medicina', 'atletismo', 'Veterinario', 'doctor',
       'Youtuber', 'Jugadora de ping pong ', 'Biologa marina',
       'Diseñadora de modas', 'artista', 'Abogado', 'comerciante',
       'arquitecto', 'Génetica', 'bombero', 'Ninguna',
       'diseña

In [33]:
cleaner.clean_column('proyección_vocacional')
cleaner.unique_values_by_column('proyección_vocacional')

array(['Deportes', 'STEM', 'Arte y Entretenimiento',
       'Diseño y Arquitectura', 'Sociales y Humanidades',
       'Ciencias de la Salud', 'Seguridad y Fuerzas Armadas',
       'Negocios y Emprendimiento', 'Indefinido o No Sabe'], dtype=object)

### Actividades extracurriculares

In [34]:
cleaner.unique_values_by_column('actividades_extracurriculares')

array(['ninguna', 'Karate', 'No ', 'ningunma', 'Patinaje', 'Futbol',
       'futbol y cicla', 'tennis', 'Gimnasia ', 'Natación ', 'niguna',
       'Ninguna', 'Patinaje ', 'NINGUNA', 'Fútbol, inglés',
       'Actividades fisicas', 'Gimnasia y violin ', 'atletismo',
       'Ciclismo y danzas', 'musica y bicicleta',
       'Patinaje, futbol, musica', 'ningunna', 'Patinaje - Fútbol',
       'Ciclismo', 'Fútbol', 'Ninguno.', 'tenis de mesa, futbol',
       'Natación', 'volleyboll y danza', 'danzas y modelaje ', 'futbol',
       'dibujo', 'natacion', 'gimnasio', 'patinaje', 'voleibol',
       'música, inglés, tenis', 'golf, ajedrez, gimnasio', 'música',
       'danzas', 'danzas y patinaje ', 'fútbol, piano', 'Danza', 'fútbol',
       'natación, francés', 'Ninguno', 'patinaje, gimnasia', 'Natacion',
       'ARTES', 'FUTBOL', 'PATINAJE', 'Montar cicla', 'CLASES DE INGLÉS',
       'Voleibol', 'BALONCESTO', 'VOLLEYBALL', 'TENNIS',
       'Karate, toca Violonchelo y dibuja', 'CURSO DE INGLÉS Y EJ

In [35]:
cleaner.clean_column('actividades_extracurriculares')
cleaner.unique_values_by_column('actividades_extracurriculares')

array(['Ninguna', 'Deporte', 'Deporte, Idiomas', 'Artes, Deporte',
       'Artes', 'Artes, Deporte, Idiomas', 'Idiomas', 'Artes, Idiomas',
       'Tecnología / Diseño'], dtype=object)

### Familia

In [36]:
cleaner.unique_values_by_column('familia')

array(['mama, papa, hermana y abuela.', 'mamá y papá', 'Mamá ',
       'mama papa hermana', 'Mamá, papá y hermana',
       'mamá, papá y hermana ', 'Abuelos, mamá, tios',
       'Abuelita, tio, primo y hermana ', 'Mamá y hermana ',
       'mama, papa y hermano', 'mama y papa ',
       'Mamá, papá y hermano, abuela', 'mamá, papá, hermano',
       'Papá, mamá y hermano ', 'Mamá', 'Mamá y papá',
       'Mamá. papá, hermana ', 'Mamá, papá, abuela y hermana ',
       'Mamá, papá y hermano', '3', 'Mamá, padrastro y hermano',
       'Mamá, papá y hemana', 'mamá, hermano', 'Mamá y hermana',
       'Papá, hermano y abuelos', 'mam,a, aguelo, hermana',
       'abuelo, abuela, mamá, hermano', 'Papá, mamá, hermano y abuela',
       'mamá, papá y hermano ', 'Mamá, hermana y abuelos', 'Papá',
       'Mamá - Papá - Abuela', 'Mamá - Papá',
       'Mamá- Tía - Abuela - Abuelastro', 'Mamá - Hermanos',
       'mamá´, papá y hermano ', 'Mama, papa.', 'Mamá y papá ',
       'Mamá - Papá- Hermanos', 'mama, a

In [37]:
cleaner.clean_column('familia')
cleaner.unique_values_by_column('familia')

array(['Mamá, papá y otros', 'Mamá y papá', 'Solo mamá',
       'Otros familiares', 'Solo papá'], dtype=object)

In [38]:
cleaner.display_unique_values(cols_to_search)


Valores únicos y su cantidad en cada columna:
antigüedad: 2 valores únicos
demuestra_confianza: 5 valores únicos
país_origen: 4 valores únicos
estrato: 6 valores únicos
tipo_vivienda: 3 valores únicos
zona_vivienda: 2 valores únicos
horas_semana_estudio_casa: 19 valores únicos
interés_estudios_superiores: 3 valores únicos
medio_transporte: 5 valores únicos
apoyo_familiar: 3 valores únicos
total_hermanos: 8 valores únicos
familia: 5 valores únicos
actividades_extracurriculares: 9 valores únicos
enfermedades: 2 valores únicos
proyección_vocacional: 9 valores únicos
participación_clase: 3 valores únicos
nee: 2 valores únicos
nivel_motivación: 3 valores únicos


In [39]:
# conteo nulos
df.isnull().sum()

ID                                0
sede                              0
nivel                             0
grado                             0
orden_grado                       0
año_ingreso                       0
antigüedad                        0
género                            0
documento_identificación          0
primer_apellido                   0
segundo_apellido                  0
nombres                           0
fecha_nacimiento                  0
demuestra_confianza              51
país_origen                       0
estrato                          86
tipo_vivienda                    86
zona_vivienda                     0
dirección                        86
horas_semana_estudio_casa        86
interés_estudios_superiores      86
medio_transporte                  0
apoyo_familiar                    0
total_hermanos                   86
familia                          86
actividades_extracurriculares    86
enfermedades                      0
proyección_vocacional       

In [40]:
eda.plot_null_heatmap(df)

Guardar el archivo

In [41]:
df.to_csv('../../data/raw/Estudiantes_clean.csv', index=False)