# Vetorização de Textos

A biblioteca `aibox-nlp` disponibiliza uma gama de estratégias de vetorização para o Português em seu pacote `aibox.nlp.vectorizers`. Extratores de características são uma forma de obter uma representação numérica de um texto, todavia existem outras.

In [None]:
from aibox.nlp.vectorizers.tfidf_vectorizer import TFIDFVectorizer
from aibox.nlp.vectorizers.bert_vectorizer import BertVectorizer
from aibox.nlp.vectorizers.fasttext_word_vectorizer import FasttextWordVectorizer

In [None]:
# === Vetorização com TF-IDF ===
# Alguns dos vetorizadores são treináveis,
#   como o TF-IDF. Dessa forma, precisamos
#   realizar o `fit(...)` antes de realizar
#   qualquer vetorização de textos.
vectorizer = TFIDFVectorizer()
vectorizer.fit(["O poeta modernista Oswald de Andrade relata..."])
vectorizer.vectorize("Oswaldo de Andrade")

In [None]:
vectorizer.vectorize("Oswaldo de Andrade", vector_type='torch')

In [None]:
# === Vetorização com o BERT ===
vectorizer = BertVectorizer()
vectorizer.vectorize("Oswaldo de Andrade")

In [None]:
vectorizer.vectorize("Oswaldo de Andrade", vector_type='torch')

In [None]:
# === Vetorização com FastText ===
# Esse vetorizador produz Embeddings a nível
#   de palavras, em contraste com BERT.
vectorizer = FasttextWordVectorizer(language='pt', dims=50)
vectorizer.vectorize("Oswaldo de Andrade")

In [None]:
vectorizer.vectorize("Oswaldo de Andrade", vector_type='torch')