# Aula 04 - Extração de Características (Features) em Texto

A extração características em texto tem como objetivo compreender a importância da transformação de texto em dados numéricos.

Técnicas de Extração de Features:  

* Bag of Words (BoW)

* TF-IDF (Term Frequency - Inverse Document Frequency)

* Word Embeddings: Word2Vec e GloVe

## **Parte 2** - Extração de Caracteristicas

### Exemplo 1 - Implementando BOW

Criar uma implementação simples de BoW usando CountVectorizer do scikit-learn.

- Converte textos em vetores numéricos com base na **frequência de palavras**.
- **Ignora a ordem** das palavras no texto.
- Representa cada documento por um vetor com a contagem das palavras presentes no vocabulário.


In [None]:
#importando a ferramenta que irá criar a representação numerica

from sklearn.feature_extraction.text import CountVectorizer

In [None]:
# criando um corpus de documentos que será usado para criação do vocabulário

documentos = [
    "gato e cachorro",
    "gato brinca com cachorro",
    "gato e rato"
]


In [None]:
# Criando um objeto para ser utilizado: transformar os documentos em vetores
vectorizer = CountVectorizer()


In [None]:
# Criando a matriz de contagem

X = vectorizer.fit_transform(documentos)
# fit >>> cria um vocabulario das palavras

# transforme >> conta a frequencia de cada palavra no corpus

# Imprimindo a Matriz e o vocabulario gerado

print(f"Vocabulario: {vectorizer.vocabulary_}")
# realiza o mapeamento do vocabulário para um indice da matriz



Vocabulario: {'gato': 3, 'cachorro': 1, 'brinca': 0, 'com': 2, 'rato': 4}


In [None]:
print("Matriz Bow: ")
print(X.toarray())
# mostra a frequencia dentro da matriz

Matriz Bow: 
[[0 1 0 1 0]
 [1 1 1 1 0]
 [0 0 0 1 1]]


### Exemplo 2- Implementando Bow com TF-IDF (Frequencia de termo - frequencia inversa dos documentos)

**TF-IDF (Term Frequency - Inverse Document Frequency)** é uma técnica que:

- Representa textos como vetores numéricos, mas com pesos que refletem a **importância de uma palavra em um documento** dentro de um conjunto de documentos.
- Calcula dois fatores:
  - **TF (Frequência do termo):** quantas vezes a palavra aparece no documento.
  - **IDF (Frequência inversa de documentos):** penaliza palavras muito comuns, atribuindo maior peso às mais específicas.
- Diferente do BoW puro, o TF-IDF **reduz a influência de palavras frequentes**, como "de", "e", "o".

In [None]:
# Importando as bibliotecas

from sklearn.feature_extraction.text import CountVectorizer

# classe que transforma os documentos em vetores e realiza a contagem de frequencia

from sklearn.feature_extraction.text import TfidfVectorizer

# Classe que transforma os documentos em vetores e uma contagem de frequencia ponderada

# Definido o corpus

documentos = [
    "O cachorro gosta de passear no parque",
    "O gato dorme no sofá o dia todo",
    "Cachorros e gatos podem ser bons amigos"
]

# Criando o modelo Bow

vectorizer_bow = CountVectorizer()

# Instanciamento da classe em objeto para ser usado

X_bow = vectorizer_bow.fit_transform(documentos)

# fit >> realizar a transformação do vocabulário
# transform >> transforma cada vetor em um documento com a contagem de frequência

# Imprimindo o Vocabulário e a Matriz

print(f"Vocabulário Bow: {vectorizer_bow.vocabulary_}")

print("Matriz Bow:")

print(X_bow.toarray())

# Criando um modelo TF - IDF

vectorizer_tfidf = TfidfVectorizer()

# realiza a instanciação da classe em objeto

X_tfidf = vectorizer_tfidf.fit_transform(documentos)

# fit >> realizar a transformação do vocabulário

# transform >> transforma cada vetor em um documento com a contagem de frequencia ponderada

# Imprimindo o vocabulário e a matriz TF-IDF

print(f"\nVocabulario TF-IDF: {vectorizer_tfidf.vocabulary_}")

print("Matriz TF-IDF")

print(X_tfidf.toarray())




Vocabulário Bow: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz Bow:
[[0 0 1 0 1 0 0 0 0 1 1 1 1 0 0 0 0]
 [0 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 1]
 [1 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0]]

Vocabulario TF-IDF: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz TF-IDF
[[0.         0.         0.42339448 0.         0.42339448 0.
  0.         0.         0.         0.42339448 0.32200242 0.42339448
  0.42339448 0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.42339448
  0.42339448 0.42339448 0.         0.         0.32200242 0.
  0.         0.         0.         0.42339448 0.42339448]
 [0.40824829 0.40824829 0.        

### Exemplo 3 - Realizando o Pre processamento e a Extração de características do texto
Construção de um exemplo de pré-processamento
e representação de texto:
* Limpeza de dados – removendo caracteres indesejados e normalizando o texto.
* Tokenização – dividindo o texto em palavras individuais.
* Remoção de stopwords – eliminando palavras comuns que não carregam significado semântico importante.
* Lematização – reduzindo as palavras à sua forma base.
* Representação de Texto – convertendo o texto processado em uma matriz numérica usando o modelo Bag of Words.

In [None]:
import nltk
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

documentos = [
    "Os cachorros são animais muito amigáveis e leais!",
    "Eu gosto de gatos porque eles são independentes e fofos.",
    "Cachorros e gatos podem ser ótimos animais de estimaçãos."
]

# Inicialização do lematizador

lemmatizer = WordNetLemmatizer()

# Definição da lista de stopwords em português

stop_words = set(stopwords.words("portuguese"))


# Função para pré-processar um texto
def preprocessar_texto(texto):

  # Remove caracteres especiais e pontuação, mantendo apenas letras e espaços
  texto = re.sub(r'[^a-zA-Zá-ÿ\s]','',texto)

  # Tokeniza o texto em palavras, convertendo para minúsculas
  tokens_tudo = word_tokenize(texto.lower())

  # Remove as stopwords da lista de tokens
  tokens = [palavra for palavra in tokens_tudo if palavra not in stop_words]

  # Aplica lematização (forma base da palavra)
  tokens_lema = [lemmatizer.lemmatize(palavra) for palavra in tokens]

  # Retorna os tokens processados como uma única string
  return ' '.join(tokens_lema)

# Aplica o pré-processamento a todos os documentos
documentos_processados = [preprocessar_texto(doc) for doc in documentos]

# Exibe os documentos após o pré-processamento
print('Documentos Pré-processados:')
for i, doc in enumerate(documentos_processados):
  print(f"Documento {i + 1}: {doc}")

# Criação do vetorizador Bag of Words
vectorizer = CountVectorizer()

# Geração da matriz BoW a partir dos documentos pré-processados
X_bow = vectorizer.fit_transform(documentos_processados)

# Exibe o vocabulário identificado pelo BoW
print("\nVocabulário BoW:", vectorizer.vocabulary_)

# Exibe a matriz numérica resultante da vetorização
print("Matriz BoW:")
print(X_bow.toarray())

### Exemplo 4 - WordEmbedding utilizando Word2Vec

- Representa palavras como **vetores densos em um espaço contínuo** de alta dimensão.
- Diferente do BoW e do TF-IDF, considera o **contexto em que as palavras aparecem**, capturando relações semânticas e sintáticas.
- Palavras com significados semelhantes ficam com vetores próximos entre si no espaço vetorial.

**Word2Vec**, especificamente, é um modelo de embedding que:

- Usa redes neurais simples para aprender os vetores de palavras a partir de grandes corpora.
- Possui dois modos principais de treinamento:
  - **CBOW (Continuous Bag of Words):** prevê uma palavra com base no contexto.
  - **Skip-gram:** prevê o contexto com base em uma palavra.

In [None]:
!pip install gensim

Collecting gensim
  Downloading gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Downloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.6/60.6 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
Downloading gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.7/26.7 MB[0m [31m43.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
[2K   [90m━━━━━━━━━━━

In [1]:
from gensim.models import Word2Vec

In [2]:
corpus = [
    ["o", "cachorro", "está", "latindo", "no", "quintal"],
    ["o", "gato", "está", "miando", "no", "telhado"],
    ["o", "pássaro", "está", "voando", "no", "céu"],
    ["a", "bola", "está", "rolando", "no", "chão"],
    ["a", "criança", "está", "brincando", "com", "o", "cachorro"],
    ["o", "gato", "e", "o rato", "são", "inimigos"],
    ["a", "agua", "está", "quente", "na", "caneca"],
    ["o", "sol", "está", "brilhando", "no", "céu"],
    ["a", "lua", "está", "cheia", "hoje", "no", "céu"],
    ["o", "computador", "está", "ligado", "na", "mesa"],
    ["o", "cachorro", "está", "latindo", "no", "quintal"],
    ['a', 'lua', 'está', 'no', 'ceu', 'lua', 'bonita']

]

# Criando o modelo de vetor

# Treina o modelo Word2Vec com o corpus fornecido
model = Word2Vec(
    sentences=corpus,     # Lista de sentenças tokenizadas (corpus de treino)
    vector_size=100,      # Dimensão dos vetores de palavras (tamanho do embedding)
    window=5,             # Tamanho da janela de contexto (palavras antes e depois da palavra-alvo)
    min_count=1,          # Ignora palavras que aparecem menos que esse valor (1 = inclui todas)
    sg=1                  # Define o algoritmo: 1 = Skip-gram, 0 = CBOW
)

# Calculando a similaridade entre palavras

print(f"Similiaridade entre cachorro e gato: {model.wv.similarity('cachorro', 'gato')}")
print(f"Similiaridade entre cachorro e bola: {model.wv.similarity('cachorro', 'bola')}")
print(f"Similiaridade entre céu e lua: {model.wv.similarity('céu', 'lua')}")
print(f"Similaridade entre computador e mesa:  {model.wv.similarity('computador', 'mesa')}")

Similiaridade entre cachorro e gato: -0.10512460023164749
Similiaridade entre cachorro e bola: -0.14502334594726562
Similiaridade entre céu e lua: 0.03479272872209549
Similaridade entre computador e mesa:  -0.07781144231557846


In [3]:
""" Algumas frases para aumentar o corpus:
    ["o","papagaio","está","falando"],
    ["a","lhama","vai","cuspir","em","você"],
    ["o","cachorro","gosta","de","bola"],
"""
# Importação a Biblioteca
from gensim.models import Word2Vec
  # Word2Vec >>> criar os modelos de vetorização

# criação do Corpus
corpus = [
    ["o","cachorro","está","dormindo"],
    ["o","gato","está","dormindo"],
    ["o","cachorro","gosta","de","bola"],
    ["cachorro","gato"],
    ["o","papagaio","está","falando"],
    ["a","lhama","vai","cuspir","em","você"]
]

# Criando o modelo de vetor
model = Word2Vec(sentences=corpus, vector_size=100, window=3, min_count=1,sg=1)
  # sentences = define o texto a ser transformado em vetor
  # vector_size = define a dimensão dos vetores que representarão as palavras
  # window = define a janela de contexto. considera as palavras antes e as palavras depois no alvo para aprender
  # min_count = ignora as palavras que aparecer 1 vez no corpus
  # indica o modelo utilizado
    # 1 = skip_gram;
    # 0 = CBOW

# obtem o vetor da palavra
vector = model.wv['cachorro']

# calcula a similaridade de duas palavras
similarity = model.wv.similarity('cachorro','gato')
  # similaridade cosseno, qt mais próximo de 1, maior similaridade

print("Similaridade entre 'cachorro' e 'gato': ",similarity)

Similaridade entre 'cachorro' e 'gato':  -0.013514926
