# 1 - Explicações

## 1.1 - Bag-of-words

Bag-of-words é uma representação usada para o processamento de linguagem natural e recuperação de informações. Nesse modelo, um texto qualquer é representado como uma bolsa de palavras, de onde vem o nome, não levando em conta a ordem ou a estrutura das palavras no texto, logo não importa em qual linguagem está o texto, ele se baseia se a palavra aparece ou qual a sua frequência.

## 1.2 - TF-IDF (Term Frequency Inverse Document Frequency)

TF-IDF é um conjunto de medidas estatísticas para medir o quão importante uma palavra é em um documento. Com ele nós podemos perceber a importancia de uma palavra por meio de uma pontuação, essa pontuação é feita utilizando duas metricas <br>
**Term Frequency**: Mede a frequência com que o termo ocorre em um documento <br>
**Inverse Document Frequency**: Mede o quão importante um termo é no contexto de todos os documentos

# 2 - Praticas

In [1]:
## Importando as bibliotecas utilizadas
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
frases = [
    "John likes",
    "likes to",
    "to watch",
    "watch movies",
    "Mary likes",
    "likes movies",
    "movies too",
]

## 2.1 - Bag-of-words

In [3]:
vectorizer = CountVectorizer()
bow = vectorizer.fit_transform(frases)
bow.toarray()

array([[1, 1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 1, 0, 1],
       [0, 0, 0, 1, 0, 0, 1],
       [0, 1, 1, 0, 0, 0, 0],
       [0, 1, 0, 1, 0, 0, 0],
       [0, 0, 0, 1, 0, 1, 0]])

## 2.2 - TF-IDF (Term Frequency Inverse Document Frequency)

In [4]:
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(frases)
tfidf.toarray()

array([[0.85141699, 0.52448938, 0.        , 0.        , 0.        ,
        0.        , 0.        ],
       [0.        , 0.59594003, 0.        , 0.        , 0.80302894,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.70710678,
        0.        , 0.70710678],
       [0.        , 0.        , 0.        , 0.64974959, 0.        ,
        0.        , 0.76014832],
       [0.        , 0.52448938, 0.85141699, 0.        , 0.        ,
        0.        , 0.        ],
       [0.        , 0.65559486, 0.        , 0.75511282, 0.        ,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.57866699, 0.        ,
        0.81556393, 0.        ]])