# Pipeline de procesamiento de datos categoricos:

Hace referencia al procesamiento que se le debe realizar a los datos previo al modelamiento de proyectos de machine learning.

Cuando se tiene variables categóricas se hace un mapeo numérico. Para eso hay 2 métodos, de manera que sean fácilmente interpretables en modelos de machine learning:

* Dummy : es la representación más compacta que se puede tener de los datos. Es mejor usarla cuando los inputs son variables linealmente independientes (no tienen un grado de correlación significativo). Es decir, las cuando se sabe que las categorías son independientes entre sí.
* One-hot : es más extenso. Permite incluir categorías que no estaban en el dataset inicialmente. De forma que si se filtra una categoría que no estaba incluida, igual se pueda representar numéricamente y no de error en el modelo (este modelo es más cool y es el que se usa).

Hay errores en la notación de Pandas y los tratan como que ambos modelos son lo mismo, pero en la realidad el Dummy no se usa. Aún así, en Pandas el método es `.get_dummies().`

## librerias y Dataframe: 

In [7]:
import pandas as pd
import numpy as np
import sklearn.preprocessing as preprocessing
import matplotlib.pyplot as pyplot

df = pd.read_csv('notas/cars.csv')

## Mapeo por OneHot:

### En Pandas:

In [35]:
pd.get_dummies(df['engine_type']).sample(5)

Unnamed: 0,diesel,electric,gasoline
24084,1,0,0
26903,0,0,1
19978,0,0,1
7774,0,0,1
7508,1,0,0


### En scikit-Learn:
el kwarg `handle_unknown='ignore'` lo que permite es que al momento de agregar registros al dataframe y que no cuenten con las categorias iniciales, estas nuevas se codifiquen con la cantidad de 0 respectivas.

Al aplicar el metodo `.fit()` lo que se hace es ajustar la codificación del texto (categorias) a las presentes en una columna del dataset.

In [8]:
encoder = preprocessing.OneHotEncoder(handle_unknown='ignore')
encoder.fit(df[['engine_type']].values)

OneHotEncoder(handle_unknown='ignore')

In [15]:
df['engine_type'].unique()

array(['gasoline', 'diesel', 'electric'], dtype=object)

In [16]:
encoder.transform([['gasoline'],['diesel'],['electric'],['hybrid']]).toarray()

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 0.]])

In [59]:
print(df['year_produced'].nunique())
print(df['year_produced'].unique())
encoder.fit(df[['year_produced']].values)

64
[2010 2002 2001 1999 2011 1998 2004 2003 2008 2005 2014 2013 2006 2007
 1997 1994 1993 1991 2016 2009 2012 1995 1992 2000 1996 2017 2015 1987
 2018 1990 2019 1986 1977 1982 1981 1979 1978 1984 1980 1988 1985 1989
 1960 1975 1972 1976 1959 1973 1983 1956 1962 1963 1974 1971 1968 1967
 1966 1964 1969 1965 1950 1942 1961 1970]


OneHotEncoder(handle_unknown='ignore')

In [54]:
encoder.transform([[2010],[2002],[100]]).toarray()

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

El principal problema del OneHot corresponde a que a medida que se incrementan las categorias se van generando la misma cantidad de columnas, los cual incrementa la dimensionalidad del dataframe y obliga a realizar una reduccion de variables para mejorar el rendimiento del modelo.