# Vectorizando diccionarios

Lleg√≥ el momento de comenzar a hablar sobre feature engineering y pre-procesamiento de datos. En la gran mayor√≠a de los casos, el pre-procesamiento de datos consiste en transofmar nuestras variables a n√∫meros para que nuestro modelo los pueda procesar. Vamos a comenzar.

No es nada fuera de lo com√∫n el trabajar con informaci√≥n contenida en diccionarios de Python, despu√©s de todo es uno de los tipos soportados por default en el lenguaje. 

Para lidiar con este tipo de datos, scikit-learn nos ofrece un transformador de datos, llamado <code>DictVectorizer</code> para convertir diccionarios con caracter√≠sticas categ√≥ricas y num√©ricas a representaciones vectoriales.

Para demostrarte un ejemplo, vamos a crear un conjunto de datos en la forma de una lista de diccionarios:

In [None]:
data = [
    {'name': 'Hugo', 'age': 25, 'city': 'Bogot√°'},
    {'name': 'Paco', 'age': 30, 'city': 'Tlaxcala'},
    {'name': 'Luis', 'age': 22, 'city': 'Buenos Aires'}
]

Importamos la clase:

In [None]:
from sklearn.feature_extraction import DictVectorizer

Inicializamos un objeto:

In [None]:
vectorizer = DictVectorizer(sparse=False)

Y entrenamos el vectorizador con nuestros datos de entrada, e inmediatamente procedemos a transformar el mismo arreglo de entrada:

In [None]:
vectorizer.fit(data)
vectorized_data = vectorizer.transform(data)

Al hacer esto, y gracias al argumento <code>sparse=False</code>, obtenemos un arreglo bidimensional en NumPy:

In [None]:
vectorized_data

Si tienes curiosidad de conocer el orden de las columnas en este arreglo bidimensional, puedes usar la propiedad <code>feature_names_</code> o la propiedad <code>vocabulary_</code>:

In [None]:
print(vectorizer.feature_names_)
print(vectorizer.vocabulary_)

Una te entrega una lista ordenada de las columnas, mientras que la otra te da un diccionario que mapea el nombre de una columna con el n√∫mero que le corresponde dentro del arreglo bidimiensional resultante.

As√≠ podemos ver que las columnas de texto han sido codificadas utilizando la t√©cnica <i>one-hot encoding</i>, es decir, un uno en donde corresponde al valor y cero en el resto de las columnas. Por otro lado, la propiedad ‚Äúage‚Äù ha permanecido como el valor num√©rico que ya era.

## Par√°metros extra

En cuanto a los par√°metros que le pasamos al constructor, el m√°s relevante es uno que ya utilizamos: <code>sparse</code> que por default es igual a <code>True</code>, y cuando este argumento es verdadero, el vectorizador en lugar de regresar un arreglo de NumPy, nos devolver√° una matriz dispersa de SciPy:

Quiz√° el argumento m√°s relevante es <code>sparse</code>, que permite especificar el tipo de la salida:

In [None]:
vectorizer = DictVectorizer()
vectorized_data = vectorizer.fit_transform(data)
vectorized_data

 > üìö De tarea, te dejo que experimentes pas√°ndole diccionarios con llaves y valores que no hayas visto antes. Dime en los comentarios, ¬øqu√© es lo que sucede?

## Conclusi√≥n

<code>DictVectorizer</code> es una herramienta poderosa, sin embargo, no es siempre la mejor forma de codificar tus datos. 

Util√≠zalo cuando tengas que lidiar con datos estructurados en la forma de diccionarios, y cuando las propiedades de estos sean valores categ√≥ricos en forma de cadenas o n√∫meros.

Tambi√©n debes tener cuidado de usarlo cuando tienes una alta cardinalidad en valores categ√≥ricos, en nuestro ejemplo anterior, podr√≠as considerar la propiedad ‚Äúname‚Äù como una con una alta cardinalidad, despu√©s de todo puede existir un n√∫mero infinito de nombres.

Otra cosa que hay que tener en cuenta es que <code>DictVectorizer</code> es un tanto gen√©rico, y hay veces en las que requerir√°s tener m√°s control sobre c√≥mo es que la transformaci√≥n entre datos de entrada y caracter√≠sticas sucede.