<a href="https://colab.research.google.com/github/PedroFatec/Processamento-de-Linguagem-Natural-A914-N-D.S.M.-113-20242/blob/main/Aula5_05_11.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 5 - Representação de Texto

*Objetivo da Aula:*
* Ensinar aos alunos como transformar texto em uma representação numérica através das técnicas Bag of Words e TF-IDS, que são fundamentais para o uso de algoritmos de machine learning que exigem dados numéricos.

Aluno: Pedro Henrique Figueira - DSM 6º SEMESTRE

# Exemplo 1 - Implementando BOW

*Criar uma implementação simples de BoW usando CountVectorizer do scikit-learn.*

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

documentos = [
    "gato e cachorro",
    "gato brinca com cachorro",
    "gato e rato",
    "o abacate esta doce.",
    "Quem não gosta de banana"
]

vectorizer = CountVectorizer()  # Instancia o objeto CountVectorizer

X = vectorizer.fit_transform(documentos)  # Cria a matriz de termos (BoW) a partir dos documentos

print("Matriz BoW:")
print(X.toarray())  # Mostra a matriz de frequência de palavras em formato array

print(f"Vocabulario: {vectorizer.vocabulary_}")  # Exibe o vocabulário de palavras e suas posições na matriz


Matriz BoW:
[[0 0 0 1 0 0 0 0 1 0 0 0 0]
 [0 0 1 1 1 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0 0 0 1]
 [1 0 0 0 0 0 1 1 0 0 0 0 0]
 [0 1 0 0 0 1 0 0 0 1 1 1 0]]
Vocabulario: {'gato': 8, 'cachorro': 3, 'brinca': 2, 'com': 4, 'rato': 12, 'abacate': 0, 'esta': 7, 'doce': 6, 'quem': 11, 'não': 10, 'gosta': 9, 'de': 5, 'banana': 1}


# Exemplo 2 - Implementando BOW junto com TF-IDF

In [2]:
# Importação das ferramentas que serão utilizadas
from sklearn.feature_extraction.text import CountVectorizer  # Para Bag of Words
from sklearn.feature_extraction.text import TfidfVectorizer  # Para TF-IDF

# Lista de documentos de exemplo
documentos = [
    "O cachorro gosta de passear no parque",  # Documento 1
    "O gato dorme no sofá o dia todo",       # Documento 2
    "Cachorros e gatos podem ser bons amigos" # Documento 3
]

# Vetorização pelo modelo Bag of Words (BoW)
vectorizer_bow = CountVectorizer()  # Cria uma instância do modelo BoW
X_bow = vectorizer_bow.fit_transform(documentos)  # Transforma os documentos em uma matriz de contagem

# Exibe o vocabulário gerado pelo modelo BoW, onde as palavras são mapeadas para índices
print(f"Vocabulario BoW: {vectorizer_bow.vocabulary_}")

# Exibe a matriz BoW como uma matriz densa (array) de contagem de palavras
print("Matriz BoW:")
print(X_bow.toarray())

# Vetorização pelo modelo TF-IDF
vectorizer_tfidf = TfidfVectorizer()  # Cria uma instância do modelo TF-IDF
X_tfidf = vectorizer_tfidf.fit_transform(documentos)  # Transforma os documentos em uma matriz TF-IDF

# Exibe o vocabulário gerado pelo modelo TF-IDF
print(f"\nVocabulario TF-IDF: {vectorizer_tfidf.vocabulary_}")

# Exibe a matriz TF-IDF como uma matriz densa (array) com os valores ponderados
print("Matriz TF-IDF:")
print(X_tfidf.toarray())


Vocabulario BoW: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz BoW:
[[0 0 1 0 1 0 0 0 0 1 1 1 1 0 0 0 0]
 [0 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 1]
 [1 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0]]

Vocabulario TF-IDF: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz TF-IDF:
[[0.         0.         0.42339448 0.         0.42339448 0.
  0.         0.         0.         0.42339448 0.32200242 0.42339448
  0.42339448 0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.42339448
  0.42339448 0.42339448 0.         0.         0.32200242 0.
  0.         0.         0.         0.42339448 0.42339448]
 [0.40824829 0.40824829 0.       

# Exemplo 3 - Aula 4 e Aula 5

Construção de um exemplo de pré-processamento e representação de texto:
* Limpeza de dados - removendo caracteres indesejados e normalizando o texto.
* Tokenização - dividindo o texto em palavras individuais.
* Remoção de stopwords - eliminando palavras comuns que não carregam significado semântico importante.
* Lematização - reduzindo as palavras à sua forma base.
* Representação de Texto - convertendo o texto processado em uma matriz numérica usando o modelo Bag of Words.

In [3]:
# Importação das bibliotecas necessárias
import nltk
import re
from nltk.corpus import stopwords  # Para acessar as stopwords
from nltk.tokenize import word_tokenize  # Para realizar a tokenização das palavras
from nltk.stem import WordNetLemmatizer  # Para lemmatização (redução das palavras à sua forma base)
from sklearn.feature_extraction.text import CountVectorizer  # Para a vetorização do texto (Bag of Words)

# Download dos recursos do NLTK (se necessário)
nltk.download('punkt_tab')  # Tokenizador
nltk.download('stopwords')  # Stopwords em vários idiomas
nltk.download('wordnet')  # Banco de dados de lematização
nltk.download('omw-1.4')  # WordNet Open Multilingual Wordnet

# Lista de documentos de exemplo
documentos = [
    "Os cachorros são animais muito amigáveis e leais!",
    "Eu gosto de gatos porque eles são independentes e fofos.",
    "Cachorros e gatos podem ser ótimos animais de estimação."
]

# Instanciando o lematizador e definindo o conjunto de stopwords
lemmatizer = WordNetLemmatizer()  # Lematizador para reduzir palavras à sua forma base
stop_words = set(stopwords.words("portuguese"))  # Conjunto de palavras irrelevantes no português

# Função que realiza o pré-processamento do texto
def preprocessar_texto(texto):
    # Limpeza: Remove caracteres não alfabéticos e símbolos, mantendo apenas letras e espaços
    texto = re.sub(r'[^a-zA-Zá-ÿ\s]','', texto)

    # Tokenização: Quebra o texto em palavras
    tokens_tudo = word_tokenize(texto.lower())  # Converte o texto para minúsculo antes da tokenização

    # Remoção de stopwords: Filtra palavras irrelevantes
    tokens = [palavra for palavra in tokens_tudo if palavra not in stop_words]

    # Lematização: Reduz as palavras às suas formas base (ex: "cachorros" -> "cachorro")
    tokens_lema = [lemmatizer.lemmatize(palavra) for palavra in tokens]

    # Retorna o texto processado como uma string
    return ' '.join(tokens_lema)

# Aplica o pré-processamento a todos os documentos
documentos_processados = [preprocessar_texto(doc) for doc in documentos]

# Exibe os documentos após o pré-processamento
print('documentos Pré-processados:')
for i, doc in enumerate(documentos_processados):
    print(f"Documento {i + 1}: {doc}")

# Vetorização usando o modelo Bag of Words (BoW)
vectorizer = CountVectorizer()  # Instancia o CountVectorizer
X_bow = vectorizer.fit_transform(documentos_processados)  # Aplica o vetor de contagem nos documentos

# Exibe o vocabulário gerado (palavras mapeadas para índices)
print("\nVocabulário BoW:", vectorizer.vocabulary_)

# Exibe a matriz BoW (matriz de contagem das palavras)
print("Matriz BoW:")
print(X_bow.toarray())


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


documentos Pré-processados:
Documento 1: cachorros animais amigáveis leais
Documento 2: gosto gatos porque independentes fofos
Documento 3: cachorros gatos podem ótimos animais estimação

Vocabulário BoW: {'cachorros': 2, 'animais': 1, 'amigáveis': 0, 'leais': 8, 'gosto': 6, 'gatos': 5, 'porque': 10, 'independentes': 7, 'fofos': 4, 'podem': 9, 'ótimos': 11, 'estimação': 3}
Matriz BoW:
[[1 1 1 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 1 1 1 1 0 0 1 0]
 [0 1 1 1 0 1 0 0 0 1 0 1]]
