In [0]:
import pandas as pd
df = pd.DataFrame([
  ['verde', 'M', 10.1, 'clase1'],
  ['rojo', 'L', 13.5, 'clase2'],
   ['azul', 'XL', 15.3, 'clase1']])
df.columns = ['color', 'talla', 'precio', 'clase']
df
#característica nominal, el color, una ordinal la talla y una numérica, el precio

# Mapear Características ordinales
Para asegurarnos de que el algoritmo de aprendizaje interpreta las características ordinales correctamente, necesitamos convertir las cadenas de caracteres categóricas en enteros. Desafortunadamente aún no hemos visto una función que nos permita hacerlo automáticamente, derivando el orden correcto de las etiquetas de nuestra caractarística, por lo que vamos a definirlo manualmente. En el siguiente ejemplo, asumimos que sabemos la diferencia numérica entre las características, por ejemplo: XL = L +1 = M + 2:

In [0]:
size_mapping = {'XL': 3,'L': 2,'M': 1}
df['talla'] = df['talla'].map(size_mapping)
df

más tarde, podemos simplemente definir un diccionario de mapeo inverso inv_size_mapping = {v: k for k, v in size_mapping.items()} 
que puede utilizarse con el método map en la característica transformada, similar a lo que hemos hecho anteriormente

In [0]:
inv_size_mapping = {v: k for k, v in size_mapping.items()}
df['talla'].map(inv_size_mapping)

# Codificando etiquetas de clases
Muchas librerías de ML requieren que las etiquetas de las clases estén codificadas como valores enteros. Aunque muchos estimadores de clasificación en scikit-learn convierten las etiquetas en enteros internamente, está considerado como una buena práctica, proporcionanrlas directamente como un array de enteros para evitar problemas. Para codificar las etiquetas, podemos utilizar una aproximación similar al mapeo de características ordinales que hemos visto. Tenemos que recordar que las etiquetas de clases no son ordinales, por lo que no importa que valor entero les asignemos. Podemos simplemente enumerarlas comenzando en 0

In [0]:
import numpy as np
class_mapping = {label:idx for idx,label in enumerate(np.unique(df['clase']))}
class_mapping

In [0]:
df['clase'] = df['clase'].map(class_mapping)
df

In [0]:
#Vuelta atrás
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['clase'] = df['clase'].map(inv_class_mapping)
df

Podemos utilizar la clase LabelEncoder del paquete scikit-learn para hacer este trabajo directamente, pero esto lo veremos en detalle en el siguiente tema

from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y = class_le.fit_transform(df['clase'].values)
y
