## One Hot Encoding

El "one hot encoding" es una técnica que convierte datos categóricos en vectores binarios donde solo un valor es 1 y los demás son 0. Por ejemplo, para las frutas: 

- manzana=[1,0,0], 
- plátano=[0,1,0], 
- naranja=[0,0,1]. 

Esto facilita el procesamiento por algoritmos de aprendizaje automático, ya que proporciona una representación numérica única para cada categoría.

In [18]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# Importamos librerias
data = pd.read_csv('D:/Tripleten/datasets/travel_insurance_us.csv')

In [27]:
data['Gender'].fillna('unknown', inplace=True)
data_ohe = pd.get_dummies(data, drop_first=True, dummy_na=True)

features = data_ohe.drop('Claim', axis=1)
target = data_ohe['Claim']

x_train, x_test, y_train, y_test =  train_test_split(features,target, test_size = 0.25, random_state=12345)

model = LogisticRegression(solver='liblinear')
model.fit(x_train, y_train)

print('¡Entrenado!')


¡Entrenado!


## Label Encoder
El laben encoding reemplazar las categorías con etiquetas numéricas arbitrarias, se utiliza para codificar características categóricas para árboles de decisión y otros algoritmos basados en árboles, como bosques aleatorios.



In [29]:
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OrdinalEncoder
data = pd.read_csv('D:/Tripleten/datasets/travel_insurance_us.csv')

In [46]:
# Creamos una instancia de la clase
encoder = LabelEncoder()

# Le entregamos la base a la clase para que regonozca las variables categóricas
encoder.fit(data['Agency'])

# podríamos usar tambienla funcion fit_transform si la data es la misma
#data_ordinal = pd.DataFrame(encoder.fit_transform(data['Agency']), columns=['Agency'])

# Transformamos los datos
data_ordinal = pd.DataFrame(encoder.transform(data['Agency']), columns=['Agency'])

print(data_ordinal)


       Agency
0           9
1           7
2           7
3           7
4           9
...       ...
50655       7
50656       7
50657       7
50658       7
50659       2

[50660 rows x 1 columns]


## Ordinal Encoder

Se usa para dos o más columnas a la vez, hasta el conjunto de datos completo

In [37]:
# Creamos una instancia de la clase
encoder = OrdinalEncoder()

# Le entregamos la base a la clase para que regonozca las variables categóricas
encoder.fit(data)

# Transformamos los datos
data_ordinal = pd.DataFrame(encoder.transform(data), columns=data.columns)
print(data_ordinal)


       Agency  Agency Type  Distribution Channel  Product Name  Claim  \
0         9.0          0.0                   1.0          24.0    0.0   
1         7.0          1.0                   1.0          10.0    0.0   
2         7.0          1.0                   1.0          10.0    0.0   
3         7.0          1.0                   1.0          10.0    0.0   
4         9.0          0.0                   1.0          24.0    0.0   
...       ...          ...                   ...           ...    ...   
50655     7.0          1.0                   1.0           1.0    0.0   
50656     7.0          1.0                   1.0          10.0    0.0   
50657     7.0          1.0                   1.0           1.0    0.0   
50658     7.0          1.0                   1.0           1.0    0.0   
50659     2.0          0.0                   1.0          17.0    0.0   

       Duration  Destination  Net Sales  Commission (in value)  Gender   Age  
0          14.0        121.0      602.0     

Este tipo de variable categórica se denomina variable ordinal, a diferencia de una variable nominal (una variable de categorías sin orden). La codificación ordinal es una codificación de una variable ordinal con etiquetas numéricas dispuestas en un orden natural específico, generalmente realizada mediante enumeración manual de etiquetas.

Otra alternativa es simplemente implementar el mapeo por medio de pandas. Ya que estamos usando pandas de todos modos, este es el método que recomendamos:


```py

temperature_dict = {'cold': 0, 'warm': 1, 'hot': 2}
df['temperature'] = df['temperature'].map(temp_dict) 

```


## Conclusiones

`Para modelos de regresion usar OHE (One Hot Encoding).` OHE codifica cada categoría como un vector linealmente independiente en un espacio N-dimensional. Todos estos vectores son inicialmente equidistantes entre sí y aprenderán sus pesos independientes separados durante la ejecución del algoritmo

`Para los algoritmos basados en árboles`  El mejor enfoque para los árboles es hacer divisiones por categorías sin procesar, pero dado que scikit-learn actualmente no admite esta opción, en muchos casos, el segundo mejor enfoque resulta ser la codificación de etiqueta


Para resumir todo, la codificación de una variable categórica con OHE generalmente dará como resultado el mejor rendimiento a menos que:
1. Se use en un algoritmo basado en árboles (algunas plataformas de machine learning admiten variables categóricas no codificadas para árboles, pero si no, la codificación de etiquetas puede dar como resultado un mejor rendimiento en algunos casos).
2. Sea una variable ordinal (la codificación ordinal generalmente funciona mejor para las variables ordinales).
3. Sea una variable de alta cardinalidad (es posible que se necesiten técnicas de codificación más avanzadas).