# Convertendo um Dicionário

Começamos importando o método **DictVectorizer()** do módulo **feature_extraction** da biblioteca [Scikit-Learn](https://scikit-learn.org/stable/):

In [3]:
from sklearn.feature_extraction import DictVectorizer

O **DictVectorizer** implementa o que é chamado de codificação **one-of-K** ou “one-hot” para features categóricos (também conhecidos como nominais, discretos). 

Features categóricas são pares de "atributo-valor" em que o valor é restrito a uma lista de possibilidades discretas sem ordenação (por exemplo, identificadores de tópico, tipos de objetos, tags, nomes, etc).

## Lista de Dicionários

A seguir, criamos uma lista de dicionários para o experimento:

In [1]:
linguagens = [
    {'C': 2, 'C++': 4},
    {'C': 4, 'C++': 3},
    {'C': 1, 'Python': 2, 'C++': 3},
    {'C': 2, 'Python': 2}
]

Instanciamos **DictVectorizer**:

In [4]:
dictvectorizer = DictVectorizer(sparse=False)

Transformamos nosso dicionário em uma matriz de features com o método **fit_transform**:

In [6]:
features = dictvectorizer.fit_transform(linguagens)

Como resultado temos uma matriz de 4 linhas e 3 colunas:

- Coluna 1 representa C
- Coluna 2 representa C++
- Coluna 3 representa Python

In [7]:
print(features)

[[2. 4. 0.]
 [4. 3. 0.]
 [1. 3. 2.]
 [2. 0. 2.]]


Para obter o nome de cada feature podemos usar o método **get_feature_names**:

In [8]:
dictvectorizer.get_feature_names()

['C', 'C++', 'Python']