# **Text Vectorization**
Os algoritmos de machine learning operam em um espaço de recursos numérico, esperando a entrada como uma matriz bidimensional onde as linhas são instâncias e as colunas são recursos. Para realizar o aprendizado de máquina em texto, precisamos transformar nossos documentos em representações vetoriais para que possamos aplicar o aprendizado de máquina numérico.

A representação numérica de documentos nos dá a capacidade de realizar análises significativas e também cria as instâncias nas quais os algoritmos de aprendizado de máquina operam.Na análise de texto, as instâncias são documentos ou enunciados inteiros, que podem variar em comprimento, desde citações ou tweets até livros inteiros, mas cujos vetores têm sempre comprimento uniforme.Cada propriedade da representação vetorial é um recurso . Para texto, os recursos representam atributos e propriedades de documentos – incluindo seu conteúdo, bem como meta atributos, como comprimento do documento, autor, fonte e data de publicação. Quando considerados em conjunto, os recursos de um documento descrevem um espaço de recursos multidimensional no qual os métodos de aprendizado de máquina podem ser aplicados.

### **Bag of Words**
Para vetorizar um corpus com uma abordagem bag-of-words (BOW), representamos cada documento do corpus como um vetor cujo comprimento é igual ao vocabulário do corpus.

<div align="center" style="margin-top: 40px;">
    <img src="./images/bow2.png" alt="Alt text" width="800"/>
</div>

### **Example**
O "tokenize" método realiza uma normalização leve, eliminando a pontuação usando o string.punctuationconjunto de caracteres e definindo o texto como minúsculo. Esta função também realiza alguma redução de recursos usando para "SnowballStemmerremover" afixos como pluralidade (“morcegos” e “morcego” são o mesmo token)

In [2]:
import nltk
import string

def tokenize(text):
    stem = nltk.stem.SnowballStemmer('english')
    text = text.lower()

    for token in nltk.word_tokenize(text):
        if token in string.punctuation: continue
        yield stem.stem(token)

corpus = [
    "The elephant sneezed at the sight of potatoes.",
    "Bats can see via echolocation. See the bat sight sneeze!",
    "Wondering, she opened the door to the studio.",
]

corpus

['The elephant sneezed at the sight of potatoes.',
 'Bats can see via echolocation. See the bat sight sneeze!',
 'Wondering, she opened the door to the studio.']

### **Frequency Vectors**
Os vetores de frequência são os modelos mais simples, onde simplesmente preenchemos o vetor com a frequência de cada palavra conforme aparece no documento.

<div align="center" style="margin-top: 40px;">
    <img src="./images/bow3.png" alt="Alt text" width="800"/>
</div>

In [11]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectors_count = vectorizer.fit_transform(corpus)
vectors_count

<3x20 sparse matrix of type '<class 'numpy.int64'>'
	with 23 stored elements in Compressed Sparse Row format>

- Observações: Os vetores podem se tornar extremamente esparsos, principalmente à medida que os vocabulários ficam maiores, o que pode ter um impacto significativo na velocidade e no desempenho dos modelos de aprendizado de máquina. Para corpora muito grandes, é recomendado usar o Scikit-Learn HashingVectorizer, que usa um truque de hashing para encontrar o nome da string do token para apresentar o mapeamento do índice. Isso significa que ele usa muito pouca memória e pode ser dimensionado para grandes conjuntos de dados, pois não precisa armazenar todo o vocabulário e é mais rápido de selecionar e ajustar, pois não há estado. No entanto, não há transformação inversa (de vetor para texto), pode haver colisões e não há ponderação de frequência inversa do documento.

### **One-Hot Encoding**
Os vetores de frequência são os modelos mais simples, onde simplesmente preenchemos o vetor com a frequência de cada palavra conforme aparece no documento.

<div align="center" style="margin-top: 40px;">
    <img src="./images/bow3.png" alt="Alt text" width="800"/>
</div>