<a href="https://colab.research.google.com/github/RubenMcCarty/Machine-Learning-con-Python-001/blob/master/Lecci%C3%B3n_05_Transformar_Categorias_con_One_Hot_Encoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Lección 05: Transformar Categorías con One Hot Encoding**
## MSc. Rubén Quispe




En esta lección, descubrirá cómo codificar variables de entrada categóricas como números.

Los modelos de Machine Learning requieren que todas las variables de entrada y salida sean numéricas. Esto significa que si sus datos contienen datos categóricos, debe codificarlos en números antes de poder ajustar y evaluar un modelo.

Una de las técnicas más populares para transformar variables categóricas en números es One Hot Encoding.

Los [datos categóricos](https://en.wikipedia.org/wiki/Categorical_variable) son variables que contienen valores de etiqueta en lugar de valores numéricos.

Cada etiqueta de una variable categórica se puede asignar a un número entero único, llamado codificación ordinal. Luego, se puede aplicar una one-hot Encoding a la representación ordinal. Aquí es donde se agrega una nueva variable binaria al conjunto de datos para cada valor entero único en la variable, y la variable categórica original se elimina del conjunto de datos.

Por ejemplo, imagine que tenemos una variable de “ color ” con tres categorías (' rojo ', ' verde ' y ' azul '). En este caso, se necesitan tres variables binarias. Se coloca un valor "1" en la variable binaria para el color y valores "0" para los otros colores.

Por ejemplo:



In [None]:

red,	green,	blue
1,		0,		0
0,		1,		0
0,		0,		1


Esta transformación de codificación one-hot está disponible en la librería de Machine Learning de Python scikit-learn a través de la clase OneHotEncoder .

El conjunto de datos de cáncer de mama contiene solo variables de entrada categóricas.

El siguiente ejemplo carga el conjunto de datos y uno codifica en caliente cada una de las variables de entrada categóricas.

In [3]:
# one hot encoding para dataset de cancer de mama
from pandas import read_csv
from sklearn.preprocessing import OneHotEncoder

In [4]:
# definir la ubicación del dataset
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/breast-cancer.csv"

In [6]:
# Cargar el dataset
dataset = read_csv(url, header= None)
dataset

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,'40-49','premeno','15-19','0-2','yes','3','right','left_up','no','recurrence-events'
1,'50-59','ge40','15-19','0-2','no','1','right','central','no','no-recurrence-events'
2,'50-59','ge40','35-39','0-2','no','2','left','left_low','no','recurrence-events'
3,'40-49','premeno','35-39','0-2','yes','3','right','left_low','yes','no-recurrence-events'
4,'40-49','premeno','30-34','3-5','yes','2','left','right_up','no','recurrence-events'
...,...,...,...,...,...,...,...,...,...,...
281,'50-59','ge40','30-34','6-8','yes','2','left','left_low','no','no-recurrence-events'
282,'50-59','premeno','25-29','3-5','yes','2','left','left_low','yes','no-recurrence-events'
283,'30-39','premeno','30-34','6-8','yes','2','right','right_up','no','no-recurrence-events'
284,'50-59','premeno','15-19','0-2','no','2','right','left_low','no','no-recurrence-events'


In [7]:
# Recuperar la matriz de data
data =dataset.values

In [8]:
data

array([["'40-49'", "'premeno'", "'15-19'", ..., "'left_up'", "'no'",
        "'recurrence-events'"],
       ["'50-59'", "'ge40'", "'15-19'", ..., "'central'", "'no'",
        "'no-recurrence-events'"],
       ["'50-59'", "'ge40'", "'35-39'", ..., "'left_low'", "'no'",
        "'recurrence-events'"],
       ...,
       ["'30-39'", "'premeno'", "'30-34'", ..., "'right_up'", "'no'",
        "'no-recurrence-events'"],
       ["'50-59'", "'premeno'", "'15-19'", ..., "'left_low'", "'no'",
        "'no-recurrence-events'"],
       ["'50-59'", "'ge40'", "'40-44'", ..., "'right_up'", "'no'",
        "'no-recurrence-events'"]], dtype=object)

In [10]:
# Separara las columnas de input y output
X = data[:, :-1].astype(str)
y = data[:, -1]. astype(str)
X

array([["'40-49'", "'premeno'", "'15-19'", ..., "'right'", "'left_up'",
        "'no'"],
       ["'50-59'", "'ge40'", "'15-19'", ..., "'right'", "'central'",
        "'no'"],
       ["'50-59'", "'ge40'", "'35-39'", ..., "'left'", "'left_low'",
        "'no'"],
       ...,
       ["'30-39'", "'premeno'", "'30-34'", ..., "'right'", "'right_up'",
        "'no'"],
       ["'50-59'", "'premeno'", "'15-19'", ..., "'right'", "'left_low'",
        "'no'"],
       ["'50-59'", "'ge40'", "'40-44'", ..., "'left'", "'right_up'",
        "'no'"]], dtype='<U11')

In [11]:
y

array(["'recurrence-events'", "'no-recurrence-events'",
       "'recurrence-events'", "'no-recurrence-events'",
       "'recurrence-events'", "'no-recurrence-events'",
       "'no-recurrence-events'", "'no-recurrence-events'",
       "'no-recurrence-events'", "'no-recurrence-events'",
       "'no-recurrence-events'", "'no-recurrence-events'",
       "'no-recurrence-events'", "'no-recurrence-events'",
       "'recurrence-events'", "'no-recurrence-events'",
       "'no-recurrence-events'", "'no-recurrence-events'",
       "'no-recurrence-events'", "'no-recurrence-events'",
       "'recurrence-events'", "'no-recurrence-events'",
       "'no-recurrence-events'", "'no-recurrence-events'",
       "'recurrence-events'", "'no-recurrence-events'",
       "'no-recurrence-events'", "'no-recurrence-events'",
       "'no-recurrence-events'", "'recurrence-events'",
       "'recurrence-events'", "'no-recurrence-events'",
       "'no-recurrence-events'", "'no-recurrence-events'",
       "'recurrence-e

In [12]:
# Resumen de data crudo
print(X[:3, :])

[["'40-49'" "'premeno'" "'15-19'" "'0-2'" "'yes'" "'3'" "'right'"
  "'left_up'" "'no'"]
 ["'50-59'" "'ge40'" "'15-19'" "'0-2'" "'no'" "'1'" "'right'" "'central'"
  "'no'"]
 ["'50-59'" "'ge40'" "'35-39'" "'0-2'" "'no'" "'2'" "'left'" "'left_low'"
  "'no'"]]


In [14]:
# Definer el transformer one hot encoding
encoder =OneHotEncoder(sparse=False)
encoder

OneHotEncoder(categories='auto', drop=None, dtype=<class 'numpy.float64'>,
              handle_unknown='error', sparse=False)

In [15]:
# Ajustar y aplicar el transformer a la data de salida
X_oe = encoder.fit_transform(X)

In [16]:
X_oe

array([[0., 0., 1., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 1., 0.],
       ...,
       [0., 1., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 1., 0.]])

In [17]:
# Resumen de la data trasnformada
print (X_oe[:3, :])

[[0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
  0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
  0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0.
  0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0.]]


# Tu tarea
Para esta lección, debe ejecutar el ejemplo e informar sobre los datos sin procesar antes de la transformación y el impacto en los datos después de que se aplicó la codificación one-hot.

Publique su respuesta en la plataforma a continuación. Me encantaría ver qué se te ocurre.

En la siguiente lección, descubrirá cómo transformar variables numéricas en categorías.