## Tipos de Datos en Machine Learning

En ML, es importante entender los tipos de datos. Estos se dividen principalmente en: numéricos y categóricos. 

Cada tipo tiene sus propias características y métodos de procesamiento

### Datos Numéricos

**Definición**: Los datos numéricos representan cantidades medibles. Permiten operaciones matemáticas y comparaciones directas.

**Ejemplos**: Incluyen altura, peso, temperatura, precios y cantidades de inventario.

**Ventajas**: Facilitan cálculos estadísticos y son ideales para modelos matemáticos en aprendizaje automático.

### Datos Categóricos 

Los datos categóricos se clasifican en *Nominales* y *Ordinales*

#### Datos Categóricos Nominales 

- *Etiquetas*: Representan categorías sin orden jerárquico. No permiten comparaciones numéricas entre ellas
- *Ejemplo*: El ejemplo clásico son los colores de camisetas. No hay un orden intrínseco entre ellos.
- *Codificación*: Requieren técnicas especiales como codificación one-hot para su uso en modelos de ML

#### Datos Categóricos Ordinales

- *Orden natural*: Tienen un orden jerárquico inherente, aunque no representan cantidades exactas
- *Ejemplos*: Tallas (las tallas de camisetas se pueden clasificar en S, M, L, XL)
- *Aplicación*: Son útiles en modelos que requieren comparaciones relativas, como sistemas de recomendación.

### Coding: Preparación de Datos

In [14]:
import numpy as np
import pandas as pd
from typing import Dict, List, Any 

In [15]:
df:pd.DataFrame = pd.DataFrame ( [
  ['verde', 'M',  10.1, 'clase2'],
  ['rojo',  'L',  13.5, 'clase1'],
  ['azul',  'XL', 15.3, 'clase2']
] )
df.columns = ['color','tamaño','precio','etiqueta']
df

Unnamed: 0,color,tamaño,precio,etiqueta
0,verde,M,10.1,clase2
1,rojo,L,13.5,clase1
2,azul,XL,15.3,clase2


### Mapeo de Datos Ordinales 

La preparación de datos es crucial en el ML. Una tarea común es convertir datos ordinales de tipo `string` a valores numéricos

Esta conversión permite que los algoritmos interpreten correctamente las características. El método `map()` de `pandas` es ideal para esta tarea en `DataFrames`

Python también ofrece un método `map()` más genérico para aplicar funciones a elementos iterables.

In [16]:
# definicion manual de una asignacion
## definimos un diccionario que asigna a cada valor ordinal de la columna tamaño un valor numerico
dict_tam = {
  'XL' : 3,
  'L'  : 2,
  'M'  : 1
}
df['tamaño-map'] = df['tamaño'].map( dict_tam )
df

Unnamed: 0,color,tamaño,precio,etiqueta,tamaño-map
0,verde,M,10.1,clase2,1
1,rojo,L,13.5,clase1,2
2,azul,XL,15.3,clase2,3


### Conversión Numérica en Redes Neuronales

Las redes neuronales requieren datos numéricos para su funcionamiento. Esto se debe a sus operaciones matemáticas complejas. 

La conversión de datos categóricos a numéricos es esencial. El método `map()` juega un papel crucial en este proceso.

Esta transformación permite que las redes procesen eficazmente todo tipo de información, sea ordinal o nominal.

### Inversión de Datos Numéricos a Categóricos Ordinales

La conversión de datos numéricos a categóricos ordinales en `pandas` requiere un proceso inverso. Este método utiliza un diccionario de mapeo inverso. 

El diccionario invertido se aplica a la columna específica del `DataFrame` mediante el método `map` de `pandas`. Este enfoque es crucial para recuperar los valores originales.

Esta técnica es especialmente útil en análisis de datos y aprendizaje automático, donde la interpretabilidad de los datos es fundamental.

In [17]:
dict_tam_inv = { v:k for k,v in dict_tam.items() }
# df['tamaño'].map( dict_tam_inv )

### Codificación Numérica de Etiquetas de Clase

Los datasets para ML a menudo incluyen etiquetas de clase textuales. Sin embargo, las librerías requieren que estas etiquetas se codifiquen numéricamente.

Aunque algunos estimadores realizan esta conversión internamente, es una buena práctica proporcionar etiquetas ya codificadas para evitar problemas técnicos.

### Proceso de Transformación de Etiquetas

1. *Identificación de Etiquetas*: Se analizan las etiquetas de clase presentes en el dataset, identificando todas las categorías únicas. 
2. *Asignación Numérica*: Se asigna un número entero único a cada etiqueta, generalmente comenzando desde cero
3. *Mapeo*: Se crea un diccionario de mapeo que relaciona cada etiqueta textual con su correspondiente valor numérico
4. *Transformación*: Se aplica el mapeo al dataset, reemplazando las etiquetas textuales por sus equivalentes numéricos

> Las etiquetas de clase suelen ser de tipo categórico nominal

In [18]:
# creacion automatica de un diccionario de asignacion para convertir 
# una columna de strings a numeros enteros
dict_column_etiqueta = {label:idx for idx,label in enumerate(np.unique(df['etiqueta']))}
dict_column_etiqueta

{'clase1': 0, 'clase2': 1}

In [20]:
df['etiqueta-map'] = df['etiqueta'].map( dict_column_etiqueta )
df

Unnamed: 0,color,tamaño,precio,etiqueta,tamaño-map,etiqueta-map
0,verde,M,10.1,clase2,1,1
1,rojo,L,13.5,clase1,2,0
2,azul,XL,15.3,clase2,3,1


Ahora vamos a mostrar lo anterior, pero con una alternativa `sklearn`

In [21]:
from sklearn.preprocessing import LabelEncoder

# codificacion de etiquetas con LabelEncoder de sklearn
label_encoder = LabelEncoder ()
y = label_encoder.fit_transform (df['etiqueta'].values)
y 

array([1, 0, 1])

In [22]:
# inversa 
label_encoder.inverse_transform (y)

array(['clase2', 'clase1', 'clase2'], dtype=object)

In [24]:
df['etiqueta-encoder'] = y
df

Unnamed: 0,color,tamaño,precio,etiqueta,tamaño-map,etiqueta-map,etiqueta-encoder
0,verde,M,10.1,clase2,1,1,1
1,rojo,L,13.5,clase1,2,0,0
2,azul,XL,15.3,clase2,3,1,1
