# One Hot Encoding vs Get_Dummies

Como cada modelo de Machine Learning requiere unos tipos de datos específicos, a veces tenemos que **transformar los datos** que tenemos.

Hacer dummies y aplicar one-hot encoding son muy similares, pero tienen algunas diferencias sutiles en su implementación dependiendo de la herramienta o biblioteca que utilicemos.

## Similitudes:

- **Objetivo**: Ambos métodos convierten variables categóricas en variables numéricas binarias para que puedan ser usadas por modelos de Machine Learning.

- **Resultado**: Cada categoría de la variable original se convierte en una columna separada con valores 0 o 1.


## Diferencias:

- **Terminología**:

**Crear dummies** generalmente se refiere a un enfoque más amplio que puede incluir otras técnicas de codificación, pero en pandas, el término get_dummies() hace específicamente un one-hot encoding.


**One-hot encoding** es un término más técnico y específico del campo de MachineLearning.

- **Herramientas**:

En **pandas**, pd.get_dummies() es una forma de realizar one-hot encoding directamente sobre tus datos.

En **Scikit-learn**, el OneHotEncoder permite hacer lo mismo, pero con más opciones como manejar categorías desconocidas y transformar datos tanto para entrenar como para predecir.


- **Representación del resultado**:

``` python

pd.get_dummies()

```

 Por defecto incluye columnas para todas las categorías.

``` python

OneHotEncoder

```

 Por defecto excluye una categoría (opción drop='first') para evitar multicolinealidad en regresiones, aunque puedes ajustar este comportamiento.

In [1]:
# Ejemplo en Pandas (get_dummies):

import pandas as pd

data = pd.DataFrame({'Color': ['Rojo', 'Azul', 'Verde']})

# Crear dummies
dummies = pd.get_dummies(data['Color'])
print(dummies)


    Azul   Rojo  Verde
0  False   True  False
1   True  False  False
2  False  False   True


In [3]:
# Ejemplo en Scikit-learn (OneHotEncoder):

from sklearn.preprocessing import OneHotEncoder

data = [['Rojo'], ['Azul'], ['Verde']]

# Crear encoder
encoder = OneHotEncoder()
encoded = encoder.fit_transform(data).toarray()

print(encoded)


[[0. 1. 0.]
 [1. 0. 0.]
 [0. 0. 1.]]


## Cuándo usar cada uno:

### pd.get_dummies() 

Se puede usar cuando trabajamos directamente con pandas y necesitamos un enfoque rápido.

### OneHotEncoder 

Es indicado si estamos integrando el proceso en un pipeline de Scikit-learn o necesitamos manejar categorías desconocidas durante la predicción.