<a href="https://colab.research.google.com/github/tsc86/Processamento-de-Linguagem-Natural---PLN/blob/main/Aula_04_Extra%C3%A7%C3%A3o_de_caracter%C3%ADsticas_(features)_em_texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1 - Bow

In [None]:
# Importando a classe CountVectorizer do scikit-learn para criar representações numéricas de texto
from sklearn.feature_extraction.text import CountVectorizer

# Corpus de documentos para treinamento
documentos = [
    "gato e cachorro",
    "gato brinca com cachorro",
    "gato e rato"
]

# 1. INICIALIZAÇÃO DO VETORIZADOR
# Cria uma instância do CountVectorizer com parâmetros padrão
vectorizer = CountVectorizer()

# 2. TREINAMENTO E TRANSFORMAÇÃO
# fit_transform realiza duas operações:
# - fit: aprende o vocabulário a partir dos documentos
# - transform: converte os textos em vetores numéricos
X = vectorizer.fit_transform(documentos)

# 3. VISUALIZAÇÃO DOS RESULTADOS
print("\n VOCABULÁRIO CRIADO:")
# vocabulary_ mostra o mapeamento palavra -> índice
print(vectorizer.vocabulary_)

print("\n MATRIZ BAG-OF-WORDS:")
# toarray() converte a matriz esparsa para array denso
print(X.toarray())

# 4. INFORMAÇÕES ADICIONAIS
print("\n ESTATÍSTICAS:")
print(f"Número de documentos: {X.shape[0]}")
print(f"Tamanho do vocabulário: {X.shape[1]}")
print("\nPalavras do vocabulário:")
print(vectorizer.get_feature_names_out())


 VOCABULÁRIO CRIADO:
{'gato': 3, 'cachorro': 1, 'brinca': 0, 'com': 2, 'rato': 4}

 MATRIZ BAG-OF-WORDS:
[[0 1 0 1 0]
 [1 1 1 1 0]
 [0 0 0 1 1]]

 ESTATÍSTICAS:
Número de documentos: 3
Tamanho do vocabulário: 5

Palavras do vocabulário:
['brinca' 'cachorro' 'com' 'gato' 'rato']


2. BOW com TF-IDF

In [None]:
# Importando as classes para vetorização de texto
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# Corpus de documentos para análise
documentos = [
    "O cachorro gosta de passear no parque",
    "O gato dorme no sofá o dia todo",
    "Cachorros e gatos podem ser bons amigos"
]

# 1. BAG-OF-WORDS (BoW) - CONTAGEM SIMPLES
# ========================================

# Cria e treina o vetorizador BoW
bow_vectorizer = CountVectorizer()
bow_matrix = bow_vectorizer.fit_transform(documentos)

print("\n BAG-OF-WORDS (BoW)")
print("---------------------")
print(f"Vocabulário: {bow_vectorizer.vocabulary_}")
print("\nMatriz de Contagem:")
print(bow_matrix.toarray())

# 2. TF-IDF - FREQUÊNCIA PONDERADA
# ================================

# Cria e treina o vetorizador TF-IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documentos)

print("\n TF-IDF (Term Frequency-Inverse Document Frequency)")
print("--------------------------------------------------")
print(f"Vocabulário: {tfidf_vectorizer.vocabulary_}")
print("\nMatriz TF-IDF:")
print(tfidf_matrix.toarray().round(2))  # Arredondado para 2 casas decimais

# 3. COMPARAÇÃO ENTRE AS ABORDAGENS
# =================================

print("\n COMPARAÇÃO:")
print("- BoW considera apenas a frequência bruta")
print("- TF-IDF pondera pela importância do termo no documento vs. no corpus")
print("- TF-IDF diminui peso de termos muito comuns (ex: 'o', 'de')")

# 4. INFORMAÇÕES ADICIONAIS
# =========================

print("\n ESTATÍSTICAS:")
print(f"Número de documentos: {bow_matrix.shape[0]}")
print(f"Tamanho do vocabulário: {bow_matrix.shape[1]}")
print("\nTermos mais importantes (TF-IDF):")
feature_names = tfidf_vectorizer.get_feature_names_out()
for i, doc in enumerate(documentos):
    print(f"\nDocumento {i+1}: '{doc}'")
    scores = tfidf_matrix[i].toarray().flatten()
    important_terms = sorted(zip(feature_names, scores), key=lambda x: x[1], reverse=True)[:3]
    for term, score in important_terms:
        print(f"  {term}: {score:.2f}")


 BAG-OF-WORDS (BoW)
---------------------
Vocabulário: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}

Matriz de Contagem:
[[0 0 1 0 1 0 0 0 0 1 1 1 1 0 0 0 0]
 [0 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 1]
 [1 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0]]

 TF-IDF (Term Frequency-Inverse Document Frequency)
--------------------------------------------------
Vocabulário: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}

Matriz TF-IDF:
[[0.   0.   0.42 0.   0.42 0.   0.   0.   0.   0.42 0.32 0.42 0.42 0.
  0.   0.   0.  ]
 [0.   0.   0.   0.   0.   0.42 0.42 0.42 0.   0.   0.32 0.   0.   0.
  0.   0.42 0.42]
 [0.41 0.41 0.   0.41 0.   0.   0.   0.   0.41 0.   0.   0.   0.   0.41
  0.41 0.   

3. Word Embbeding utilizando Word2Vec

In [None]:
# 1. PRIMEIRO LIMPAMOS AS INSTALAÇÕES CONFLITANTES
!pip uninstall -y numpy gensim scipy

# 2. INSTALAMOS AS VERSÕES COMPATÍVEIS
!pip install numpy==1.23.5 gensim==4.3.2 scipy==1.9.3

# 3. AGORA EXECUTAMOS O CÓDIGO WORD2VEC
from gensim.models import Word2Vec

# Corpus de exemplo
corpus = [
    ["cachorro", "animal", "doméstico"],
    ["gato", "animal", "doméstico"],
    ["cachorro", "late", "osso"],
    ["gato", "mia", "rato"],
    ["animal", "veterinário", "clínica"]
]

# Criando o modelo com parâmetros simplificados
modelo = Word2Vec(
    sentences=corpus,
    vector_size=50,  # Dimensão reduzida para demonstração
    window=3,
    min_count=1,
    workers=2
)

# Testando o modelo
print("Similaridade cachorro-gato:", modelo.wv.similarity('cachorro', 'gato'))
print("\nPalavras similares a 'animal':")
for palavra, score in modelo.wv.most_similar('animal', topn=3):
    print(f"{palavra}: {score:.3f}")

Found existing installation: numpy 1.23.5
Uninstalling numpy-1.23.5:
  Successfully uninstalled numpy-1.23.5
Found existing installation: gensim 4.3.2
Uninstalling gensim-4.3.2:
  Successfully uninstalled gensim-4.3.2
Found existing installation: scipy 1.9.3
Uninstalling scipy-1.9.3:
  Successfully uninstalled scipy-1.9.3
Collecting numpy==1.23.5
  Using cached numpy-1.23.5-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.3 kB)
Collecting gensim==4.3.2
  Using cached gensim-4.3.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.3 kB)
Collecting scipy==1.9.3
  Using cached scipy-1.9.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (58 kB)
Using cached numpy-1.23.5-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (17.1 MB)
Using cached gensim-4.3.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
Using cached scipy-1.9.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (33.4 MB)
Insta

Similaridade cachorro-gato: -0.17424816

Palavras similares a 'animal':
mia: 0.132
doméstico: 0.127
late: 0.100


In [None]:
from gensim.models import Word2Vec

# Corpus ampliado com mais contexto
corpus = [
    ["o", "cachorro", "está", "latindo", "no", "quintal"],
    ["o", "gato", "está", "miando", "no", "telhado"],
    ["o", "pássaro", "está", "voando", "no", "céu", "lua"],
    ["a", "bola", "está", "rolando", "no", "chão"],
    ["a", "criança", "está", "brincando", "com", "o", "cachorro"],
    ["o", "gato", "e", "o", "rato", "são", "inimigos"],
    ["a", "água", "está", "quente", "na", "caneca"],
    ["o", "sol", "está", "brilhando", "no", "céu"],
    ["a", "lua", "está", "cheia", "hoje", "no", "céu"],
    ["o", "computador", "está", "ligado", "na", "mesa"],
    ["a", "lua", "está", "no", "céu", "lua", "bonita"]
]

# Configuração do modelo
model = Word2Vec(
    sentences=corpus,
    vector_size=100,
    window=5,
    min_count=1,
    sg=1,
    workers=4
)

# Testando similaridades
print("Similaridades semânticas:")
print(f"cachorro-gato: {model.wv.similarity('cachorro', 'gato'):.3f}")
print(f"cachorro-bola: {model.wv.similarity('cachorro', 'bola'):.3f}")
print(f"céu-lua: {model.wv.similarity('céu', 'lua'):.3f}")
print(f"computador-mesa: {model.wv.similarity('computador', 'mesa'):.3f}")

# Palavras mais similares
print("\nPalavras relacionadas:")
print("Para 'cachorro':")
for palavra, score in model.wv.most_similar('cachorro', topn=3):
    print(f"  {palavra}: {score:.3f}")

print("\nPara 'céu':")
for palavra, score in model.wv.most_similar('céu', topn=3):
    print(f"  {palavra}: {score:.3f}")

Similaridades semânticas:
cachorro-gato: 0.009
cachorro-bola: -0.121
céu-lua: 0.139
computador-mesa: 0.050

Palavras relacionadas:
Para 'cachorro':
  quente: 0.285
  no: 0.199
  mesa: 0.097

Para 'céu':
  telhado: 0.167
  inimigos: 0.163
  lua: 0.139
