<a href="https://colab.research.google.com/github/iagoslopes/Api_MySQL/blob/main/Aula5_Ferramentas/%5BPLN%5D_Aula_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 5 - Representação de Texto

Objetivo da Aula:
* Ensinar aos alunos como transformar texto em uma representação numérica através das técnicas Bag of Words e TF-IDS, que são fundamentais para o uso de algoritmos de machine learning que exigem dados numéricos.

## Exemplo 1 - Implementando BOW

Criar uma implementação simples de BoW usando CountVectorizer do scikit-learn.

In [1]:
# Importação das ferramentas a serem utilizadas
# CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

documentos = [
    "gato e cachorro",
    "gato brinca com cachorro",
    "gato e rato",
    "o abacate esta doce.",
    "Quem não gosta de banana"
]

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(documentos)
  # fit >>> criar uma lista com cada palavra que existe no texto
  # Transform >>> transforma as palavras em um vetor

print("Matriz BoW:")
print(X.toarray())

print(f"Vocabulario: {vectorizer.vocabulary_}")

Matriz BoW:
[[0 0 0 1 0 0 0 0 1 0 0 0 0]
 [0 0 1 1 1 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0 0 0 1]
 [1 0 0 0 0 0 1 1 0 0 0 0 0]
 [0 1 0 0 0 1 0 0 0 1 1 1 0]]
Vocabulario: {'gato': 8, 'cachorro': 3, 'brinca': 2, 'com': 4, 'rato': 12, 'abacate': 0, 'esta': 7, 'doce': 6, 'quem': 11, 'não': 10, 'gosta': 9, 'de': 5, 'banana': 1}


## Exemplo 2 - Implementando BOW junto com TF-IDF

In [3]:
# Importação das ferramentas que serão utilizadas
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
  # Term Frequency - Inverse Documento Frequency

documentos = [
    "O cachorro gosta de passear no parque",
    "O gato dorme no sofá o dia todo",
    "Cachorros e gatos podem ser bons amigos"
]

# Vetorização pelo BoW
vectorizer_bow = CountVectorizer() # instancia da ferramenta
X_bow = vectorizer_bow.fit_transform(documentos) # vetorização do texto

# impressão do vetor e da matriz
print(f"Vocabulario BoW: {vectorizer_bow.vocabulary_}")
print("Matriz BoW:")
print(X_bow.toarray())

# Vetorização TF-IDF
vectorizer_tfidf = TfidfVectorizer() # Instanciação da Classe
X_tfidf = vectorizer_tfidf.fit_transform(documentos) # Vetorização
  # fit
  # transform

# Impressão dos vetores com frequencia ponderada
print(f"\nVocabulario TF-IDF: {vectorizer_tfidf.vocabulary_}")
print("Matriz TF-IDF:")
print(X_tfidf.toarray())

Vocabulario BoW: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz BoW:
[[0 0 1 0 1 0 0 0 0 1 1 1 1 0 0 0 0]
 [0 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 1]
 [1 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0]]

Vocabulario TF-IDF: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz TF-IDF:
[[0.         0.         0.42339448 0.         0.42339448 0.
  0.         0.         0.         0.42339448 0.32200242 0.42339448
  0.42339448 0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.42339448
  0.42339448 0.42339448 0.         0.         0.32200242 0.
  0.         0.         0.         0.42339448 0.42339448]
 [0.40824829 0.40824829 0.       

## Exemplo 3 - Aula 4 e Aula 5

Construção de um exemplo de pré-processamento e representação de texto:
* Limpeza de dados - removendo caracteres indesejados e normalizando o texto.
* Tokenização - dividindo o texto em palavras individuais.
* Remoção de stopwords - eliminando palavras comuns que não carregam significado semântico importante.
* Lematização - reduzindo as palavras à sua forma base.
* Representação de Texto - convertendo o texto processado em uma matriz numérica usando o modelo Bag of Words.

In [5]:
import nltk
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer

nltk.download('punkt_tab')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

documentos = [
    "Os cachorros são animais muito amigáveis e leais!",
    "Eu gosto de gatos porque eles são independentes e fofos.",
    "Cachorros e gatos podem ser ótimos animais de estimação."
]

lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words("portuguese"))

def preprocessar_texto(texto):
    texto = re.sub(r'[^a-zA-Zá-ÿ\s]','',texto)
    tokens_tudo = word_tokenize(texto.lower())
    tokens = [palavra for palavra in tokens_tudo if palavra not in stop_words]
    tokens_lema = [lemmatizer.lemmatize(palavra) for palavra in tokens]
    return ' '.join(tokens_lema)

documentos_processados = [preprocessar_texto(doc) for doc in documentos]

print('documentos Pré-processados:')
for i, doc in enumerate(documentos_processados):
    print(f"Documento {i + 1}: {doc}")

vectorizer = CountVectorizer()
X_bow = vectorizer.fit_transform(documentos_processados)

print("\nVocabulário BoW:", vectorizer.vocabulary_)
print("Matriz BoW:")
print(X_bow.toarray())

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


documentos Pré-processados:
Documento 1: cachorros animais amigáveis leais
Documento 2: gosto gatos porque independentes fofos
Documento 3: cachorros gatos podem ótimos animais estimação

Vocabulário BoW: {'cachorros': 2, 'animais': 1, 'amigáveis': 0, 'leais': 8, 'gosto': 6, 'gatos': 5, 'porque': 10, 'independentes': 7, 'fofos': 4, 'podem': 9, 'ótimos': 11, 'estimação': 3}
Matriz BoW:
[[1 1 1 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 1 1 1 1 0 0 1 0]
 [0 1 1 1 0 1 0 0 0 1 0 1]]
