## Explicação

Algoritmos de machine leraning trabalham com dados estruturados e fixos.
Assim, textos devem ser convertidos em vetores. Para isso, existem 2 modelos mais conhecidos:

- Bag of Words (BoW)

O modelo transforma a ocrrência das palavras contidas no texto em vetor: dá um valor numérico único para cada palavra do documento. Então cada documento pode ser codificado como um vetor com o comprimento do vocabulário das palavras do texto.
É chamado de "bag of words" porque qualquer informação sobre a ordem ou estrutura não é relevante. Somente a multiplicidade delas importa.

- Term Frequency-Inverse Document Frequency (tf-idf)

Uma das desvantagens do BoW é que um texto maior terá uma média de valores de contagens maior do que textos menores, mesmo tratnado-se do mesmo assunto. Para suprir essas e outras falhas, usa-se o **TF-IDF**.
Ele consiste em multiplicar 2 métricas:
1. *term frequency (tf)* : pontuação da frequência das palavras no documento;
2. *inverse document frequency (idf)* : pontuação de quão raro o termo é em todo o texto;

## Prática

### Conjunto de dados

In [2]:
phrases = [
            "John likes",
            "likes to",
            "to watch",
            "watch movies",
            "Mary likes",
            "likes movies",
            "movies too"
          ]

- Bag of Words

In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

In [3]:
b_vector = CountVectorizer()
b_vector.fit(phrases)
bow_vector = b_vector.transform(phrases)

In [4]:
bow_vector.shape

(7, 7)

In [5]:
bow_vector.toarray()

array([[1, 1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 1, 0, 1],
       [0, 0, 0, 1, 0, 0, 1],
       [0, 1, 1, 0, 0, 0, 0],
       [0, 1, 0, 1, 0, 0, 0],
       [0, 0, 0, 1, 0, 1, 0]])

In [6]:
b_vector.vocabulary_

{'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5}

> mostra o vocabulário usado para codificar o texto e fazer a contagem

- TF-IDF

In [17]:
t_vector = TfidfTransformer().fit(bow_vector)
tf_vector = t_vector.transform(bow_vector)

In [19]:
tf_vector.toarray()

array([[0.85141699, 0.52448938, 0.        , 0.        , 0.        ,
        0.        , 0.        ],
       [0.        , 0.59594003, 0.        , 0.        , 0.80302894,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.70710678,
        0.        , 0.70710678],
       [0.        , 0.        , 0.        , 0.64974959, 0.        ,
        0.        , 0.76014832],
       [0.        , 0.52448938, 0.85141699, 0.        , 0.        ,
        0.        , 0.        ],
       [0.        , 0.65559486, 0.        , 0.75511282, 0.        ,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.57866699, 0.        ,
        0.81556393, 0.        ]])