## Convirtiendo Datos Categóricos a Numéricos para ML

La conversión de datos categóricos a numéricos es crucial en el ML. Existen diferentes métodos según el tipo de datos categóricos: ordinales o nominales. Esta transformación es esencial para que los algoritmos puedan procesar la información correctamente.

**Métodos de Codificación para Datos Categóricos**

1. *Datos Ordinales*: se utiliza el método `map()` de `pandas`. Este transforma los datos según un diccionario predefinido, manteniendo el orden jerárquico. 
2. *Datos Nominales (etiquetas)*: se usa `LabelEncoder` de `scikit-learn`. Este codifica las etiquetas string como enteros, sin implicar orden
3. *Datos Nominales (característica)*: se recomienda el uso de técnicas como **one-hot encoding**. Esto crea columnas binarias para cada categoría  

### Coding: LabelEncoder

In [3]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

df:pd.DataFrame = pd.DataFrame ( [
  ['verde', 'M',  10.1, 'clase2'],
  ['rojo',  'L',  13.5, 'clase1'],
  ['azul',  'XL', 15.3, 'clase2']
] )
df.columns = ['color','tamaño','precio','etiqueta']
x = df[ ['color','tamaño','precio'] ].values
label_encoder_color = LabelEncoder ()
x[:,0] = label_encoder_color.fit_transform (x[:,0])
x

array([[2, 'M', 10.1],
       [1, 'L', 13.5],
       [0, 'XL', 15.3]], dtype=object)

> El método `fit_transform` de `LabelEncoder` aprende cuales son las categorías únicas en las celdas indicadas y le asigna a cada categoría un valor numérico empezando desde cero, siempre en orden alfabético. Nunca usar `LabelEncoder` para convertir valores categóricos ordinales a numéricos, pero tampoco categóricos nominales de características a numéricos

### El Problma de los Datos Categóricos

**Limitaciones de los Datos Categóricos**: Los algoritmos de ML generalmente requieren datos numéricos. Los datos categóricos nominales no tienen un orden inherente

**Necesidad de Transformación**: es crucial convertir datos categóricos a un formato numérico para su uso en modelos de ML

**Ejemplo**: Columna de Colores (una columna con valores como azul, verde y rojo, no puede utilizarse directamente en muchos algoritmos)

### Codificación One-Hot para Datos Categóricos Nominales

La codificación one-hot es una técnica en el ML. Se utiliza para transformar datos categóricos nominales en un formato numérico utilizable por algoritmos de ML. 

**Concepto de Codificación One-Hot**:

1. *Identificación de Categorías Únicas*: Se identifican todos los valores únicos en la columna categórica. Cada valor se convierte en una nueva característica
2. *Creación de Columnas Binarias*: Se crea una nueva columna para cada categoría única. Estas columnas contendrán valores binarios (0 o 1)
3. *Asignación de Valores*: Se asigna un 1 a la columna correspondiente a la categoría presente, y 0 a las demás