# JAI 2022 - Curso de PLN

---

## Seção 1.4. Representação Textual

- Representação por ***Bag-of-Words***

# Bibliotecas Necessárias

In [None]:
from sklearn.preprocessing import MultiLabelBinarizer

from sklearn.feature_extraction.text import TfidfVectorizer

 # *Unigrams*

In [None]:
sent = "o gato caçou o rato"

In [None]:
def make_ngrams(text, n=1):
  words = text.split()
  ngrams = [tuple(words[i:i + n]) for i in range(len(words) - n + 1)]
  return ngrams

In [None]:
unigrams = make_ngrams(sent, n=1)

unigrams

[('o',), ('gato',), ('caçou',), ('o',), ('rato',)]

In [None]:
def multihot_encoder(ngrams):
    mlb = MultiLabelBinarizer()
    binary_format = mlb.fit_transform(ngrams)
    print("Índice correspondente de cada palavra = {}\n".format({k: v for k, v in enumerate(mlb.classes_)}))
    return binary_format

In [None]:
unigrams_vectors = multihot_encoder(unigrams)

unigrams_vectors

Índice correspondente de cada palavra = {0: 'caçou', 1: 'gato', 2: 'o', 3: 'rato'}



array([[0, 0, 1, 0],
       [0, 1, 0, 0],
       [1, 0, 0, 0],
       [0, 0, 1, 0],
       [0, 0, 0, 1]])

# *N-grams*

## *Bag-of-bigrams*

In [None]:
bigrams = make_ngrams(sent, n=2)

bigrams

[('o', 'gato'), ('gato', 'caçou'), ('caçou', 'o'), ('o', 'rato')]

In [None]:
bigrams_vectors = multihot_encoder(bigrams)

bigrams_vectors

Índice correspondente de cada palavra = {0: 'caçou', 1: 'gato', 2: 'o', 3: 'rato'}



array([[0, 1, 1, 0],
       [1, 1, 0, 0],
       [1, 0, 1, 0],
       [0, 0, 1, 1]])

## *Bag-of-trigrams*

In [None]:
trigrams = make_ngrams(sent, n=3)

trigrams

[('o', 'gato', 'caçou'), ('gato', 'caçou', 'o'), ('caçou', 'o', 'rato')]

In [None]:
trigrams_vectors = multihot_encoder(trigrams)

trigrams_vectors

Índice correspondente de cada palavra = {0: 'caçou', 1: 'gato', 2: 'o', 3: 'rato'}



array([[1, 1, 1, 0],
       [1, 1, 1, 0],
       [1, 0, 1, 1]])

# TF-IDF

## *Bag-of-bigrams*: 1 Sentença

In [None]:
# Limite inferior e superior do intervalo de n valores para os diferentes n-gramas a serem extraídos = bigrams
tfidf_encoder_bigrams = TfidfVectorizer(ngram_range=(1, 2)) 

tfidf_bigrams_vectors = tfidf_encoder_bigrams.fit_transform([sent])

In [None]:
feature_bigrams_names = tfidf_encoder_bigrams.get_feature_names_out()
dense_bigrams = tfidf_bigrams_vectors.todense()

print("Índice correspondente de cada palavra = {}".format({k: v for k, v in enumerate(feature_bigrams_names)}))
print("Codificação por TF-IDF =\n{}".format('\n'.join(map(str, dense_bigrams.tolist()[0]))))

Índice correspondente de cada palavra = {0: 'caçou', 1: 'caçou rato', 2: 'gato', 3: 'gato caçou', 4: 'rato'}
Codificação por TF-IDF =
0.4472135954999579
0.4472135954999579
0.4472135954999579
0.4472135954999579
0.4472135954999579


## *Bag-of-unigrams*: Corpus

In [None]:
corpus = ["o gato caçou o rato",
          "gato e cachorros são animais"]

In [None]:
tfidf_encoder = TfidfVectorizer()
tfidf_corpus_vectors = tfidf_encoder.fit_transform(corpus)

feature_corpus_names = tfidf_encoder.get_feature_names_out()
dense_corpus = tfidf_corpus_vectors.todense()

print("Índice correspondente de cada palavra = {}".format({k: v for k, v in enumerate(feature_corpus_names)}))
print("Codificação por TF-IDF =\n{}".format('\n'.join(map(str, dense_corpus.tolist()))))

Índice correspondente de cada palavra = {0: 'animais', 1: 'cachorros', 2: 'caçou', 3: 'gato', 4: 'rato', 5: 'são'}
Codificação por TF-IDF =
[0.0, 0.0, 0.6316672017376245, 0.4494364165239821, 0.6316672017376245, 0.0]
[0.534046329052269, 0.534046329052269, 0.0, 0.37997836159100784, 0.0, 0.534046329052269]
