## **Codificación de características (encoding)**

In [1]:
import pandas as pd

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# Antes de pasar a la Codificación de características (encoding)
# Primero, leemos todas las hojas procesadas para combinarlas en un solo DataFrame

# Ruta de entrada del archivo con las hojas ya procesadas
ruta_entrada = '/content/drive/Shareddrives/analitica/datos_proyecto_procesado.xlsx'

# Crear un diccionario con los nombres de hoja y la carrera correspondiente
hojas_carreras = {
    'ESIS_Procesado': 'ESIS',
    'ESME_Procesado': 'ESME',
    'ESMC_Procesado': 'ESMC',
    'ESMI_Procesado': 'ESMI',
    'ESIQ_Procesado': 'ESIQ'
}

# Lista para almacenar los DataFrames de cada hoja
lista_df = []

# Leer cada hoja y agregar la columna "Carrera"
for hoja, nombre_carrera in hojas_carreras.items():
    df = pd.read_excel(ruta_entrada, sheet_name=hoja)
    df['Carrera'] = nombre_carrera  # Añadir la columna con el nombre de carrera
    lista_df.append(df)

# Unir todos los DataFrames en uno solo
df_combinado = pd.concat(lista_df, ignore_index=True)

# Definir la ruta de salida para guardar el DataFrame combinado
ruta_salida = '/content/drive/Shareddrives/analitica/datos_proyecto_unificacion.xlsx'

# Guardar el DataFrame combinado en un nuevo archivo Excel
df_combinado.to_excel(ruta_salida, index=False, sheet_name='FAIN')

In [3]:
df_combinado

Unnamed: 0,Puesto,Año,Puntaje,ingreso,Carrera
0,1,2016,380,Si,ESIS
1,2,2016,360,Si,ESIS
2,3,2016,350,Si,ESIS
3,4,2016,350,Si,ESIS
4,5,2016,320,Si,ESIS
...,...,...,...,...,...
3994,30,2025,172.0,No,ESIQ
3995,31,2025,159.25,No,ESIQ
3996,32,2025,149.0,No,ESIQ
3997,33,2025,142.75,No,ESIQ


**Paso 1: Codificación de la columna ingreso (Label Encoding)**

In [4]:
# Ver los valores únicos antes de codificar
print(df_combinado['ingreso'].unique())


['Si' 'No']


In [5]:
from sklearn.preprocessing import LabelBinarizer

# 1. Crear el codificador binario
lb = LabelBinarizer()

# 2. Ajustar y transformar la columna 'ingreso'
df_combinado['ingreso'] = lb.fit_transform(df_combinado['ingreso'])

# 3. Mostrar las clases originales en el orden alfabético usado por el codificador
print(lb.classes_)  # ['No' 'Si'] → 'No'=0, 'Si'=1
df_combinado

['No' 'Si']


Unnamed: 0,Puesto,Año,Puntaje,ingreso,Carrera
0,1,2016,380,1,ESIS
1,2,2016,360,1,ESIS
2,3,2016,350,1,ESIS
3,4,2016,350,1,ESIS
4,5,2016,320,1,ESIS
...,...,...,...,...,...
3994,30,2025,172.0,0,ESIQ
3995,31,2025,159.25,0,ESIQ
3996,32,2025,149.0,0,ESIQ
3997,33,2025,142.75,0,ESIQ


**Paso 2: Codificación de la columna Carrera (Label Encoding)**

In [6]:
# Ver los valores únicos en 'Carrera'
print(df_combinado['Carrera'].unique())

['ESIS' 'ESME' 'ESMC' 'ESMI' 'ESIQ']


In [7]:
from sklearn.preprocessing import LabelEncoder

# 1. Crear el codificador
le = LabelEncoder()

# 2. Ajustar y transformar la columna 'Carrera'
df_combinado['Carrera'] = le.fit_transform(df_combinado['Carrera'])

# 3. Sumar 1 para que los códigos empiecen desde 1
df_combinado['Carrera'] = df_combinado['Carrera'] + 1

# Muestra los nombres originales en el orden que usó el codificador
print(le.classes_)
df_combinado

['ESIQ' 'ESIS' 'ESMC' 'ESME' 'ESMI']


Unnamed: 0,Puesto,Año,Puntaje,ingreso,Carrera
0,1,2016,380,1,2
1,2,2016,360,1,2
2,3,2016,350,1,2
3,4,2016,350,1,2
4,5,2016,320,1,2
...,...,...,...,...,...
3994,30,2025,172.0,0,1
3995,31,2025,159.25,0,1
3996,32,2025,149.0,0,1
3997,33,2025,142.75,0,1


In [8]:
# Ruta de salida del archivo Excel
ruta_salida = '/content/drive/Shareddrives/analitica/datos_proyecto_Encoding.xlsx'

# Guardar el DataFrame en el archivo Excel
df_combinado.to_excel(ruta_salida, index=False, sheet_name='FAIN')

In [10]:
print(df_combinado.dtypes)

Puesto      int64
Año         int64
Puntaje    object
ingreso     int64
Carrera     int64
dtype: object
