<a href="https://colab.research.google.com/github/caroline-dainezi-fatec/fatec_PLN_Codes/blob/main/Aula5_RepresentacaoTexto/%5BPLN%5D_Aula_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 5 - Representação de texto

## Exemplo 1 - Implementando BOW
Criar uma implementação simples de BoW usando CountVectorizer do scikit-learn.

In [1]:
# importação das ferramentas a serem utilizadas
# CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

documentos = [
    "gato e cachorro",
    "gato brinca com cachorro",
    "gato e rato"
]

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(documentos)
  # fit >> criar uma lista com cada palavra que existe no texto
  # Transform >>> transforma as palavras em um vetor

print("Matriz BoW:")
print(X.toarray())

print(f"Vocabulário: {vectorizer.vocabulary_}")

Matriz BoW:
[[0 1 0 1 0]
 [1 1 1 1 0]
 [0 0 0 1 1]]
Vocabulário: {'gato': 3, 'cachorro': 1, 'brinca': 0, 'com': 2, 'rato': 4}


## Exemplo 2 - Implementando BOW junto com TF-IDF

In [2]:
# Importação das ferramentas que serão utilizadas
from sklearn.feature_extraction.text import CountVectorizer # BoW
from sklearn.feature_extraction.text import TfidfVectorizer # TF-IDF
  # Term Frequency - Inverse Documento Frequency

documentos = [
    "O cachorro gosta de passear no parque",
    "O gato dorme no sofá o dia todo",
    "Cachorros e gatos podem ser bons amigos"
]

# Vetorização pelo BoW
vectorizer_bow = CountVectorizer()
X_bow = vectorizer_bow.fit_transform(documentos)

# impressão do vetor e da matriz
print(f"Vocabulário BoW: {vectorizer_bow.vocabulary_}")
print(f"Matriz BoW:")
print(X_bow.toarray())

# Vetorização TF-IDF
vectorizer_tfidf = TfidfVectorizer() # Instanciação da Classe
X_tfidf = vectorizer_tfidf.fit_transform(documentos) # vetorização
  # fit
  # transform

# impressão dos vetores com frequência ponderada
print(f"\nVocabulário TF-IDF: {vectorizer_tfidf.vocabulary_}")
print("Matriz TF-IDF")
print(X_tfidf.toarray())

Vocabulário BoW: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz BoW:
[[0 0 1 0 1 0 0 0 0 1 1 1 1 0 0 0 0]
 [0 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 1]
 [1 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0]]

Vocabulário TF-IDF: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz TF-IDF
[[0.         0.         0.42339448 0.         0.42339448 0.
  0.         0.         0.         0.42339448 0.32200242 0.42339448
  0.42339448 0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.42339448
  0.42339448 0.42339448 0.         0.         0.32200242 0.
  0.         0.         0.         0.42339448 0.42339448]
 [0.40824829 0.40824829 0.        

## Exemplo 3 - Aula 4 e 5

Construção de um exemplo de pré-processamento e representação de texto:
- Limpeza de dados - removendo caracteres indesejados e normalizando o texto.
- Tokenização dividindo o texto em palavras individuais.
- Remoção de stopwords - eliminando plaavras comuns que não carregam significado semântico importante.
- Lematização - reduzindo as palavras à sua forma base.
- Representação de Texto - convertendo o texto processado em uma matriz numérica usando o modelo Bag of Words.

In [3]:
import nltk
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

documentos = [
    "Os cachorros são animais muito amigáveis e leais!",
    "Eu gosto de gatos porque eles são independentes e fofos.",
    "Cachorros e gato spodem ser ótimos animais de estimação."
]

lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words("portuguese"))

def preprocessar_texto(texto):
  texto = re.sub(r'[^a-zA-Zá-ÿ\s]', '', texto)
  tokens_tudo = word_tokenize(texto.lower())
  tokens = [palavra for palavra in tokens_tudo if palavra not in stop_words]
  tokens_lema = [lemmatizer.lemmatize(palavra) for palavra in tokens]
  return ' '.join(tokens_lema)

documentos_processados = [preprocessar_texto(doc) for doc in documentos]

print('documentos Pré-processados:')
for i, doc in enumerate(documentos_processados):
  print(f"Documento {i + 1}: {doc}")

vectorizer = CountVectorizer()
X_bow = vectorizer.fit_transform(documentos_processados)

print("\nVocabulário BoW:", vectorizer.vocabulary_)
print("Matriz BoW:")
print(X_bow.toarray())

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


documentos Pré-processados:
Documento 1: cachorros animais amigáveis leais
Documento 2: gosto gatos porque independentes fofos
Documento 3: cachorros gato spodem ótimos animais estimação

Vocabulário BoW: {'cachorros': 2, 'animais': 1, 'amigáveis': 0, 'leais': 9, 'gosto': 7, 'gatos': 6, 'porque': 10, 'independentes': 8, 'fofos': 4, 'gato': 5, 'spodem': 11, 'ótimos': 12, 'estimação': 3}
Matriz BoW:
[[1 1 1 0 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 1 0 1 1 1 0 1 0 0]
 [0 1 1 1 0 1 0 0 0 0 0 1 1]]
