# Feature hashing

En esta lección te hablaré de cómo es que uno puede lidiar con datos categorícos con alta cardinalidad, es decir, aquellas variables que pueden tomar muchos valores.

En machine learning existe una técnica muy conocida llamada <i>feature hashing</i> o acá entre amigos, el <i>hashing trick</i>. Esta técnica consiste en aplicarle una función de hash al valor de una característica para asociarlo con la posición dentro de un arreglo.

La idea básica detrás del hashing es convertir una entrada en una forma más compacta y fácil de procesar. En lugar de almacenar una lista completa de todas las características en su forma original, la entrada se transforma en una representación numérica más simple.

Vamos a verlo con un ejemplo, comenzamos por crear un arreglo de diccionarios:

In [None]:
data = [{'apple': 2, 'banana': 1, 'orange': 3},
        {'banana': 4, 'orange': 1},
        {'kiwi': 3, 'pineapple': 5}]

Después importamos la clase <code>FeatureHasher</code> del módulo <code>sklearn.feature_extraction</code>:

In [None]:
from sklearn.feature_extraction import FeatureHasher

Y creamos un objeto de la clase, estableciendo el parámetro <code>n_features</code>, que a su vez representará el número de entradas del vector resultante:

In [None]:
hasher = FeatureHasher(n_features=10)

Y después podemos llamar al método <code>fit_transform</code> para transformar en una sola acción nuestro dataset:

In [None]:
hashed_data = hasher.fit_transform(data)

El resultado de ejecutar transform con nuestros datos es siempre una matriz dispersa dado el uso que normalmente se le da a la clase <code>FeatureHasher</code>, es por eso que aquí la estoy convirtiendo de vuelta a un arreglo de NumPy utilizando el método <code>todense</code>:

In [None]:
hashed_data.todense()

Si los resultados no son lo que esperabas, te comprendo, a primera vista es difícil interpretar qué está haciendo el hasher. Por el momento, quédate solamente con que obtuvimos vectores de 4 dimensiones, justo como le especificamos en el constructor con <code>n_features</code> igual a 4.

## Parámetros extra

En el ejemplo anterior, utilizamos diccionarios como valores de entrada, sin embargo también es común el usar cadenas como entradas, para esto podemos establecer el argumento <code>input_type</code> como <code>string</code>:

In [None]:
hasher = FeatureHasher(n_features=4, input_type='string')
hashed_data = hasher.transform([
    ['cat', 'dog', 'bird'],
    ['cat', 'bird'],
    ['fish', 'dog'],
])
hashed_data.todense()

## Explicación de los valores

Volviendo a los valores resultantes tan confusos, esto sucede porque cuando hay funciones de hasheo involucradas en un proceso, estamos destinados a sufrir colisiones, particularmente si contamos un un número de características lo suficientemente bajo, como en nuestro caso con <code>n_features</code> igual a 4. Lo cual hace que a valores distintos se les asigne la misma posición dentro del vector. Para mitigar los efectos de esta colisión, <code>FeatureHasher</code> tiene otra función encargada de determinar el signo del valor a sumar, esto con la finalidad de que las colisiones se eliminen entre ellas, es por eso que de pronto también ves valores negativos.

 > 📚 De tarea, te dejo que experimentes con el valor de <code>n_features</code>, elige un valor suficientemente grande para prevenir colisiones. La recomendación de scikit-learn es que este valor sea una siempre una potencia de dos.

## Conclusión

Si bien el feature hashing es una técnica técnica poderosa utilizada en ML, no es tan benéfica aplicarla en todos los escenarios, en particular cuando tenemos atributos con baja cardinalidad, puesto que como lo vimos en el ejemplo, cuando <code>n_features</code> tiene un valor bajo, usar <i>hashing</i> puede causarnos pérdida de información.

En estos casos, pueden ser más apropiadas otras técnicas como la codificación one-hot o label encoding.