<a href="https://colab.research.google.com/github/gucardos/PLN_6sem/blob/main/Aula04_PLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 04 - Extração de características (features) em Texto

## Exemplo 01 - BOW (Bag Of Words)
Criar uma implementação simples de BoW usando CountVectorizer do scikit-learn.

In [6]:
# importando a ferramenta que irá criar a representação numérica
from sklearn.feature_extraction.text import CountVectorizer

# criando um corpus de documentos que será usado para criação do vocabulário
documentos = [
    "gato e cachorro",
    "gato brinca com cachorro",
    "gato e rato",
    "Cachorro, gato e rato",
    "Gato",
    "Cachorro e rato"
]
# Criando um objeto para ser utilizado: transformar os documentos em vetores
vectorizer = CountVectorizer()

# Criando a matriz de contagem
X = vectorizer.fit_transform(documentos)
  # fit >>> cria um vocabulário das palavras
  # transforme >>> conta a frequencia de cada palavra no corpus

# Imprimindo a Matriz e o Vocabulário gerado
print(f"Vocabulario: {vectorizer.vocabulary_}")
  # realiza o mapeamento do vocabulário para um índice da matriz

print("Matriz BoW:")
print(X.toarray())
  # mostra a frequencia de cada palavra dentro da matriz

Vocabulario: {'gato': 3, 'cachorro': 1, 'brinca': 0, 'com': 2, 'rato': 4}
Matriz BoW:
[[0 1 0 1 0]
 [1 1 1 1 0]
 [0 0 0 1 1]
 [0 1 0 1 1]
 [0 0 0 1 0]
 [0 1 0 0 1]]


## Exemplo 02 - Implementando BoW junto com TF-IDF
### (<b>TF-IDF: frequência de termo</b> - frequência inversa dos documentos)

In [7]:
# Importando as Bibliotecas
from sklearn.feature_extraction.text import CountVectorizer
  # classe que transforma os documentos em vetores e realiza a contagem de frequencia
from sklearn.feature_extraction.text import TfidfVectorizer
  # Classe que transforma os documentos em vetores e uma contagem de frequencia ponderada

# Definindo o corpus
documentos = [
    "gato e cachorro",
    "gato brinca com cachorro",
    "gato e rato, cachorro",
    "Cachorro, gato e rato",
    "Gato, cachorro, cachorro",
    "Cachorro e rato"
]

# Criando o modelo BoW
vectorizer_bow = CountVectorizer()
  # Instanciamento da classe em objeto para ser usado
X_bow = vectorizer_bow.fit_transform(documentos)
  # fit >>> realizar a transformação do vocabulário
  # transform >> transforma cada vetor em um documento com a contagem de frequência

# Imprimindo o Vocabulário e a Matriz
print(f"Vocabulário BoW: {vectorizer_bow.vocabulary_}")
print("Matriz BoW:")
print(X_bow.toarray())

# Criando um modelo TF-IDF
vectorizer_tfidf = TfidfVectorizer()
  # realiza a instanciação da classe em objeto
X_tfidf = vectorizer_tfidf.fit_transform(documentos)
  # fit >>> realizar a transformação do vocabulário
  # transform >> transforma cada vetor em um documento com a contagem de frequência ponderada

# Imprimindo o Vocabulário e a Matriz TF-IDF
print(f"\nVocabulário TF-IDF: {vectorizer_tfidf.vocabulary_}")
print("Matriz TF-IDF")
print(X_tfidf.toarray())

Vocabulário BoW: {'gato': 3, 'cachorro': 1, 'brinca': 0, 'com': 2, 'rato': 4}
Matriz BoW:
[[0 1 0 1 0]
 [1 1 1 1 0]
 [0 1 0 1 1]
 [0 1 0 1 1]
 [0 2 0 1 0]
 [0 1 0 0 1]]

Vocabulário TF-IDF: {'gato': 3, 'cachorro': 1, 'brinca': 0, 'com': 2, 'rato': 4}
Matriz TF-IDF
[[0.         0.65483184 0.         0.75577461 0.        ]
 [0.63763824 0.28304719 0.63763824 0.32667911 0.        ]
 [0.         0.45813442 0.         0.52875615 0.71451367]
 [0.         0.45813442 0.         0.52875615 0.71451367]
 [0.         0.8661285  0.         0.4998214  0.        ]
 [0.         0.53976033 0.         0.         0.84181874]]


## Exemplo 3 - Realizando o Pre processamento e a Extração de características do texto
Construção de um exemplo de pré-processamento
e representação de texto:
* Limpeza de dados – removendo caracteres indesejados e normalizando o texto.
* Tokenização – dividindo o texto em palavras individuais.
* Remoção de stopwords – eliminando palavras comuns que não carregam significado semântico importante.
* Lematização – reduzindo as palavras à sua forma base.
* Representação de Texto – convertendo o texto processado em uma matriz numérica usando o modelo Bag of Words.

In [11]:
import nltk
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('punkt_tab')

documentos = [
    "Os cachorros são animais muito amigáveis e leais!",
    "Eu gosto de gatos porque eles são independentes e fofos.",
    "Cachorros e gatos podem ser ótimos animais de estimaçãos."
]

lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words("portuguese"))

def preprocessar_texto(texto):
  texto = re.sub(r'[^a-zA-Zá-ÿ\s]','',texto)
  tokens_tudo = word_tokenize(texto.lower())
  tokens = [palavra for palavra in tokens_tudo if palavra not in stop_words]
  tokens_lema = [lemmatizer.lemmatize(palavra) for palavra in tokens]
  return ' '.join(tokens_lema)

documentos_processados = [preprocessar_texto(doc) for doc in documentos]

print('documentos Pré-processados:')
for i, doc in enumerate(documentos_processados):
  print(f"Documento {i + 1}: {doc}")

vectorizer = CountVectorizer()
X_bow = vectorizer.fit_transform(documentos_processados)

print("\nVocabulário BoW:", vectorizer.vocabulary_)
print("Matriz BoW:")
print(X_bow.toarray())

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


documentos Pré-processados:
Documento 1: cachorros animais amigáveis leais
Documento 2: gosto gatos porque independentes fofos
Documento 3: cachorros gatos podem ótimos animais estimaçãos

Vocabulário BoW: {'cachorros': 2, 'animais': 1, 'amigáveis': 0, 'leais': 8, 'gosto': 6, 'gatos': 5, 'porque': 10, 'independentes': 7, 'fofos': 4, 'podem': 9, 'ótimos': 11, 'estimaçãos': 3}
Matriz BoW:
[[1 1 1 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 1 1 1 1 0 0 1 0]
 [0 1 1 1 0 1 0 0 0 1 0 1]]


In [16]:
#!pip install gensim
!pip install --force-reinstall gensim

Collecting gensim
  Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
Collecting smart-open>=1.8.1 (from gensim)
  Downloading smart_open-7.1.0-py3-none-any.whl.metadata (24 kB)
Collecting wrapt (from smart-open>=1.8.1->gensim)
  Downloading wrapt-1.17.2-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.4 kB)
Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (38

In [1]:
from gensim.models import Word2Vec

corpus = [
    ["o", "cachorro", "está", "latindo", "no", "quintal"],
    ["o", "gato", "está", "miando", "no", "telhado"],
    ["o", "pássaro", "está", "voando", "no", "céu"],
    ["a", "bola", "está", "rolando", "no", "chão"],
    ["a", "criança", "está", "brincando", "com", "o", "cachorro"],
    ["o", "gato", "e", "o", "rato", "são", "inimigos"],
    ["a", "água", "está", "quente", "na", "caneca"],
    ["o", "sol", "está", "brilhando", "no", "céu"],
    ["a", "lua", "está", "cheia", "hoje", "no", "céu"],
    ["o", "computador", "está", "ligado", "na", "mesa"],
    ["a", "lua", "está", "no", "céu", "lua", "bonita"]
]

model = Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=1, sg=1)

#calculando a similaridade entre palavras
print(f"Similaridade entre cachorro e gato: {model.wv.similarity('cachorro','gato')}")
print(f"Similaridade entre cachorro e bola: {model.wv.similarity('cachorro','bola')}")
print(f"Similaridade entre céu e lua: {model.wv.similarity('céu','lua')}")
print(f"Similaridade entre computador e mesa: {model.wv.similarity('computador','mesa')}")

Similaridade entre cachorro e gato: 0.004570882301777601
Similaridade entre cachorro e bola: -0.08380723744630814
Similaridade entre céu e lua: 0.13900601863861084
Similaridade entre computador e mesa: -0.1019936203956604
