# Feature hashing

En esta lecci√≥n te hablar√© de c√≥mo es que uno puede lidiar con datos categor√≠cos con alta cardinalidad, es decir, aquellas variables que pueden tomar muchos valores.

En machine learning existe una t√©cnica muy conocida llamada <i>feature hashing</i> o ac√° entre amigos, el <i>hashing trick</i>. Esta t√©cnica consiste en aplicarle una funci√≥n de hash al valor de una caracter√≠stica para asociarlo con la posici√≥n dentro de un arreglo.

La idea b√°sica detr√°s del hashing es convertir una entrada en una forma m√°s compacta y f√°cil de procesar. En lugar de almacenar una lista completa de todas las caracter√≠sticas en su forma original, la entrada se transforma en una representaci√≥n num√©rica m√°s simple.

Vamos a verlo con un ejemplo, comenzamos por crear un arreglo de diccionarios:

In [None]:
data = [{'apple': 2, 'banana': 1, 'orange': 3},
        {'banana': 4, 'orange': 1},
        {'kiwi': 3, 'pineapple': 5}]

Despu√©s importamos la clase <code>FeatureHasher</code> del m√≥dulo <code>sklearn.feature_extraction</code>:

In [None]:
from sklearn.feature_extraction import FeatureHasher

Y creamos un objeto de la clase, estableciendo el par√°metro <code>n_features</code>, que a su vez representar√° el n√∫mero de entradas del vector resultante:

In [None]:
hasher = FeatureHasher(n_features=10)

Y despu√©s podemos llamar al m√©todo <code>fit_transform</code> para transformar en una sola acci√≥n nuestro dataset:

In [None]:
hashed_data = hasher.fit_transform(data)

El resultado de ejecutar transform con nuestros datos es siempre una matriz dispersa dado el uso que normalmente se le da a la clase <code>FeatureHasher</code>, es por eso que aqu√≠ la estoy convirtiendo de vuelta a un arreglo de NumPy utilizando el m√©todo <code>todense</code>:

In [None]:
hashed_data.todense()

Si los resultados no son lo que esperabas, te comprendo, a primera vista es dif√≠cil interpretar qu√© est√° haciendo el hasher. Por el momento, qu√©date solamente con que obtuvimos vectores de 4 dimensiones, justo como le especificamos en el constructor con <code>n_features</code> igual a 4.

## Par√°metros extra

En el ejemplo anterior, utilizamos diccionarios como valores de entrada, sin embargo tambi√©n es com√∫n el usar cadenas como entradas, para esto podemos establecer el argumento <code>input_type</code> como <code>string</code>:

In [None]:
hasher = FeatureHasher(n_features=4, input_type='string')
hashed_data = hasher.transform([
    ['cat', 'dog', 'bird'],
    ['cat', 'bird'],
    ['fish', 'dog'],
])
hashed_data.todense()

## Explicaci√≥n de los valores

Volviendo a los valores resultantes tan confusos, esto sucede porque cuando hay funciones de hasheo involucradas en un proceso, estamos destinados a sufrir colisiones, particularmente si contamos un un n√∫mero de caracter√≠sticas lo suficientemente bajo, como en nuestro caso con <code>n_features</code> igual a 4. Lo cual hace que a valores distintos se les asigne la misma posici√≥n dentro del vector. Para mitigar los efectos de esta colisi√≥n, <code>FeatureHasher</code> tiene otra funci√≥n encargada de determinar el signo del valor a sumar, esto con la finalidad de que las colisiones se eliminen entre ellas, es por eso que de pronto tambi√©n ves valores negativos.

 > üìö De tarea, te dejo que experimentes con el valor de <code>n_features</code>, elige un valor suficientemente grande para prevenir colisiones. La recomendaci√≥n de scikit-learn es que este valor sea una siempre una potencia de dos.

## Conclusi√≥n

Si bien el feature hashing es una t√©cnica t√©cnica poderosa utilizada en ML, no es tan ben√©fica aplicarla en todos los escenarios, en particular cuando tenemos atributos con baja cardinalidad, puesto que como lo vimos en el ejemplo, cuando <code>n_features</code> tiene un valor bajo, usar <i>hashing</i> puede causarnos p√©rdida de informaci√≥n.

En estos casos, pueden ser m√°s apropiadas otras t√©cnicas como la codificaci√≥n one-hot o label encoding.