<a href="https://colab.research.google.com/github/wilszon/Clase-Inteligencia-Artificial/blob/main/Cuaderno3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Manejo de Datos Categóricos - 27/02/2025



In [1]:
import pandas as pd

# Dataset simulado
data = {
    "ID": [1, 2, 3, 4, 5],
    "Ciudad": ["Madrid", "Barcelona", "Sevilla", "Madrid", "Valencia"],  # Nominal
    "Educación": ["Secundaria", "Primaria", "Universitaria", "Primaria", "Universitaria"],  # Ordinal
    "Género": ["F", "M", "F", "M", "F"],  # Nominal
}
df = pd.DataFrame(data)
print("Dataset original:")
print(df)

Dataset original:
   ID     Ciudad      Educación Género
0   1     Madrid     Secundaria      F
1   2  Barcelona       Primaria      M
2   3    Sevilla  Universitaria      F
3   4     Madrid       Primaria      M
4   5   Valencia  Universitaria      F


In [2]:
# Usando get_dummies para One-Hot Encoding
df_onehot = pd.get_dummies(df, columns=["Ciudad"], prefix="Ciudad")
print("\nCodificación One-Hot para 'Ciudad':")
print(df_onehot)


Codificación One-Hot para 'Ciudad':
   ID      Educación Género  Ciudad_Barcelona  Ciudad_Madrid  Ciudad_Sevilla  \
0   1     Secundaria      F             False           True           False   
1   2       Primaria      M              True          False           False   
2   3  Universitaria      F             False          False            True   
3   4       Primaria      M             False           True           False   
4   5  Universitaria      F             False          False           False   

   Ciudad_Valencia  
0            False  
1            False  
2            False  
3            False  
4             True  


get_dummies es un metodo de **PANDAS**

OneHotEnconder es una liberia que sirve para convertir variables categóricas en un formato numérico que los modelos puedan entender. En términos simples, sirve para transformar características que tienen valores de texto o categorías (como "rojo", "azul", "verde") en una representación binaria.



In [3]:
from sklearn.preprocessing import OneHotEncoder

# Configuración del codificador
encoder = OneHotEncoder(sparse_output=False)  # Cambiado de sparse a sparse_output
onehot_encoded = encoder.fit_transform(df[["Ciudad"]])

# Crear un DataFrame con los resultados
onehot_df = pd.DataFrame(onehot_encoded, columns=encoder.get_feature_names_out(["Ciudad"]))
print("\nCodificación One-Hot con Scikit-learn:")
print(onehot_df)


Codificación One-Hot con Scikit-learn:
   Ciudad_Barcelona  Ciudad_Madrid  Ciudad_Sevilla  Ciudad_Valencia
0               0.0            1.0             0.0              0.0
1               1.0            0.0             0.0              0.0
2               0.0            0.0             1.0              0.0
3               0.0            1.0             0.0              0.0
4               0.0            0.0             0.0              1.0


In [4]:
onehot_df.drop(columns=['Ciudad_Valencia'],axis=1, inplace=True)
print(onehot_df)

   Ciudad_Barcelona  Ciudad_Madrid  Ciudad_Sevilla
0               0.0            1.0             0.0
1               1.0            0.0             0.0
2               0.0            0.0             1.0
3               0.0            1.0             0.0
4               0.0            0.0             0.0


In [5]:
dfc=df.join(onehot_df)
dfc.drop(columns=['Ciudad'],axis=1, inplace=True)
print(dfc)

   ID      Educación Género  Ciudad_Barcelona  Ciudad_Madrid  Ciudad_Sevilla
0   1     Secundaria      F               0.0            1.0             0.0
1   2       Primaria      M               1.0            0.0             0.0
2   3  Universitaria      F               0.0            0.0             1.0
3   4       Primaria      M               0.0            1.0             0.0
4   5  Universitaria      F               0.0            0.0             0.0


In [6]:
# Codificación basada en la frecuencia
df["Ciudad_Frecuencia"] = df["Ciudad"].map(df["Ciudad"].value_counts())
print("\nCodificación de Frecuencia para 'Ciudad':")
print(df)


Codificación de Frecuencia para 'Ciudad':
   ID     Ciudad      Educación Género  Ciudad_Frecuencia
0   1     Madrid     Secundaria      F                  2
1   2  Barcelona       Primaria      M                  1
2   3    Sevilla  Universitaria      F                  1
3   4     Madrid       Primaria      M                  2
4   5   Valencia  Universitaria      F                  1


In [7]:
dfsinciudad=df.drop(columns=['Ciudad'],axis=1)
print(dfsinciudad)

   ID      Educación Género  Ciudad_Frecuencia
0   1     Secundaria      F                  2
1   2       Primaria      M                  1
2   3  Universitaria      F                  1
3   4       Primaria      M                  2
4   5  Universitaria      F                  1


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   ID                 5 non-null      int64 
 1   Ciudad             5 non-null      object
 2   Educación          5 non-null      object
 3   Género             5 non-null      object
 4   Ciudad_Frecuencia  5 non-null      int64 
dtypes: int64(2), object(3)
memory usage: 332.0+ bytes


In [9]:
print(df)

   ID     Ciudad      Educación Género  Ciudad_Frecuencia
0   1     Madrid     Secundaria      F                  2
1   2  Barcelona       Primaria      M                  1
2   3    Sevilla  Universitaria      F                  1
3   4     Madrid       Primaria      M                  2
4   5   Valencia  Universitaria      F                  1


In [12]:
# Mapeo manual de las categorías
orden_educacion = {"Primaria": 1, "Secundaria": 2, "Universitaria": 3}
df["Educación_Ordinal"] = df["Educación"].map(orden_educacion)
print("\nCodificación Ordinal para 'Educación':")
print(df)


Codificación Ordinal para 'Educación':
       Educación  Educación_Ordinal
0       Primaria                  1
1     Secundaria                  2
2  Universitaria                  3
3       Primaria                  1


In [14]:
from sklearn.preprocessing import OneHotEncoder
from joblib import dump, load
import numpy as np

# Datos de ejemplo
datos = np.array([["Bogotá"], ["Cali"], ["Medellín"], ["Cali"], ["Bogotá"]])

# Crear y ajustar el encoder
encoder = OneHotEncoder(sparse_output=False)
ciudad = encoder.fit_transform(datos)

# Guardar el encoder en un archivo
dump(encoder, "onehot_encoder.joblib")
ciudad


array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.]])