# Codificación de Variables Categóricas a Numéricas

Este notebook documenta el proceso de **transformación de variables categóricas** en representaciones numéricas para su uso en algoritmos de machine learning.

In [1]:
import sys
import os
import pandas as pd

current_dir = os.path.dirname(os.path.abspath('__file__'))
project_root = os.path.abspath(os.path.join(current_dir, '..', '..'))
if project_root not in sys.path:
    sys.path.append(project_root)

from scripts.eda_analyzer import EDAAnalyzer
from scripts.transform.encoding_handler import EncodingHandler

In [2]:
df = pd.read_csv('../../data/raw/Estudiantes_imputed.csv')
eda = EDAAnalyzer()
encoder = EncodingHandler()

In [3]:
cat_vals = [col for col in df.columns if col not in ['ID','sede', 'nivel', 'grado', 'orden_grado', 'documento_identificación', 'primer_apellido', 'segundo_apellido', 'nombres', 'fecha_nacimiento', 'dirección', 'valoración_emocional', 'total_hermanos', 'horas_semana_estudio_casa']]
cat_vals

['año_ingreso',
 'antigüedad',
 'género',
 'país_origen',
 'estrato',
 'tipo_vivienda',
 'zona_vivienda',
 'interés_estudios_superiores',
 'medio_transporte',
 'apoyo_familiar',
 'familia',
 'actividades_extracurriculares',
 'enfermedades',
 'proyección_vocacional',
 'participación_clase',
 'nee',
 'nivel_motivación']

## Mapeo de Variables Ordinales: "Alto - Medio - Bajo"

Se identificaron variables en las que las categorías tienen un **orden implícito**, por ejemplo: "Alto", "Medio", "Bajo". En estos casos se utilizó **codificación por pesos ordinales**, asignando valores 1, 2 y 3 respectivamente.

### Interés estudios superiores

In [4]:
motivacion_map = {
    'Alto': 1,
    'Medio': 2,
    'Bajo': 3
}
df = encoder.weight_encode(df, 'interés_estudios_superiores', motivacion_map)
df[['interés_estudios_superiores', 'interés_estudios_superiores_peso']]

Unnamed: 0,interés_estudios_superiores,interés_estudios_superiores_peso
0,Alto,1
1,Alto,1
2,Medio,2
3,Alto,1
4,Bajo,3
...,...,...
362,Bajo,3
363,Alto,1
364,Alto,1
365,Medio,2


### Nivel de motivación

In [5]:
motivacion_map = {
    'Alto': 1,
    'Medio': 2,
    'Bajo': 3
}
df = encoder.weight_encode(df, 'nivel_motivación', motivacion_map)
df[['nivel_motivación', 'nivel_motivación_peso']]

Unnamed: 0,nivel_motivación,nivel_motivación_peso
0,Alto,1
1,Alto,1
2,Alto,1
3,Medio,2
4,Medio,2
...,...,...
362,Medio,2
363,Alto,1
364,Alto,1
365,Bajo,3


### Apoyo familiar

In [6]:
motivacion_map = {
    'Alto': 1,
    'Medio': 2,
    'Bajo': 3
}
df = encoder.weight_encode(df, 'apoyo_familiar', motivacion_map)
df[['apoyo_familiar', 'apoyo_familiar_peso']]

Unnamed: 0,apoyo_familiar,apoyo_familiar_peso
0,Medio,2
1,Alto,1
2,Alto,1
3,Alto,1
4,Medio,2
...,...,...
362,Medio,2
363,Medio,2
364,Alto,1
365,Medio,2


### Participación en clase

In [7]:
motivacion_map = {
    'Alta': 1,
    'Media': 2,
    'Baja': 3
}
df = encoder.weight_encode(df, 'participación_clase', motivacion_map)
df[['participación_clase', 'participación_clase_peso']]

Unnamed: 0,participación_clase,participación_clase_peso
0,Alta,1
1,Alta,1
2,Media,2
3,Media,2
4,Media,2
...,...,...
362,Media,2
363,Media,2
364,Media,2
365,Baja,3


## Mapeo

### Año Ingreso

In [8]:
motivacion_map = {
    2025: 1,
    2024: 2,
    2023: 3
}
df = encoder.weight_encode(df, 'año_ingreso', motivacion_map)
df[['año_ingreso', 'año_ingreso_peso']]

Unnamed: 0,año_ingreso,año_ingreso_peso
0,2023,3
1,2023,3
2,2024,2
3,2024,2
4,2023,3
...,...,...
362,2025,1
363,2025,1
364,2025,1
365,2025,1


## Codificación Binaria de Variables Nominales
Se aplicó codificación binaria a variables sin orden inherente, convirtiéndolas en valores 0 y 1

### País de origen

In [9]:
df = encoder.binary_encode_by_value(df, 'país_origen', 'Colombia', 'nacionalidad_colombiana')

### Tipo de vivienda

In [10]:
df = encoder.binary_encode_by_value(df, 'tipo_vivienda', 'Alquilada', 'alquiler')

### Zona vivienda

In [11]:
df = encoder.binary_encode_by_value(df, 'zona_vivienda', 'Urbana', 'zona_urbana')

### Enfermedades

In [12]:
df = encoder.binary_encode_by_value(df, 'enfermedades', 'Si', 'tiene_enfermedad')

### NEE

In [13]:
df = encoder.binary_encode_by_value(df, 'nee', 'Si', 'tiene_nee')

### Antigüedad

In [14]:
df = encoder.binary_encode_by_value(df, 'antigüedad', 'Si', 'antigüedad')

### Género

In [15]:
df = encoder.binary_encode_by_value(df, 'género', 'Masculino', 'genero_masculino')

### Estrato

### Medio de transporte

### Composición Familiar

### Proyección vocacional

### Actividades Extrcurrículares

## Guardado del Dataset Codificado
Este dataset ya está listo para su uso en la fase de análisis exploratorio multivariable y entrenamiento de modelos predictivos.

In [None]:
output_path = os.path.join(project_root, 'data', 'processed', 'Estudiantes_imputed_encoded.csv')
df.to_csv(output_path, index=False)