<a href="https://colab.research.google.com/github/Thayane25/PLN/blob/main/Aula_04_Extra%C3%A7%C3%A3o_de_Caracter%C3%ADsticas_(Features)_em_texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Aula 04 - Extração de característica
###O objetivo desse notebook é demonstrar a extração de características (features) de textos por meio de técnicas de representação numérica, como Bag of Words (BoW) e TF-IDF. Utilizando exemplos práticos, o notebook mostra como transformar documentos textuais em vetores numéricos que representam a frequência e a relevância das palavras em um corpus, com o uso de bibliotecas como `scikit-learn`.

# Exemplo 01 - Implementando BoW

In [1]:
# importando a ferramenta que irá criar a representação numérica
from sklearn.feature_extraction.text import CountVectorizer

# criando um corpus de documentos que será usado para criação do vocabulário
documentos=[
      "gato e cachorro",
      "gato brinca com cachorro",
      "gato e rato"
]

# criando um objeto para ser utilizado: transformar os documentos em vetores
vectorizer = CountVectorizer()

# criando a matriz de contagem
X = vectorizer.fit_transform(documentos)
    # fit >>> cria um vocabulario das palavras
    # transforme >>> conta a frequência de cada palavra no corpus

# Imprimindo a Matriz e o vocabulário gerado
print(f"Vocabulário: {vectorizer.vocabulary_}")
# realize o mapeamento do vocabulário para o índice da matriz

# Corrected indentation for the following lines
print("Matriz BoW:")
print(X.toarray())

# mostra a frequência de cada palavra dentro da matriz

Vocabulário: {'gato': 3, 'cachorro': 1, 'brinca': 0, 'com': 2, 'rato': 4}
Matriz BoW:
[[0 1 0 1 0]
 [1 1 1 1 0]
 [0 0 0 1 1]]


# Exemplo 02 - Implementando BOW junto com TF-IDF

In [2]:
# Importando as Bibliotecas
from sklearn.feature_extraction.text import CountVectorizer
  # Classe que transforma os documentos em vetores e realiza a contagem de frequencia
from sklearn.feature_extraction.text import TfidfVectorizer
  # Classe que transforma os documentos em vetores e uma contagem de frequencia ponderada

# Definindo o corpus
documentos = [
    "O cachorro gosta de passear no parque",
    "O gato dorme no sofá o dia todo",
    "Cachorros e Gatos podem ser bons amigos"
]

#Criando o modelo BoW
vectorizer_bow = CountVectorizer()
  # Instanciamento da classe em objeto para ser usado
X_bow = vectorizer_bow.fit_transform(documentos)
  # fit >>> realizar a transformação do vocabulário
  # transform >>> transforma cada vetor em um documento com a contagem de frequência

# Imprimindo o Vocabulário e a Matriz
print (f"Vocabulário BoW: {vectorizer_bow.vocabulary_}")
print ("Matriz BoW:")
print (X_bow.toarray())

# Criando um modelo TF-IDF
vectorizer_tfidf = TfidfVectorizer()
  # Realiza a instanciação da classe em objeto
X_tfidf = vectorizer_tfidf.fit_transform(documentos)
  # fit >>> realizar a transformação do vocabulário
  # transform >>> transforma cada vetor em um documento com a contagem de frequência ponderada

# Imprimindo o Vocabulário e a Matriz TF-IDF
print (f"\nVocabulário TF-IDF: {vectorizer_tfidf.vocabulary_}")
print ("Matriz TF-IDF")
print (X_tfidf.toarray())

Vocabulário BoW: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz BoW:
[[0 0 1 0 1 0 0 0 0 1 1 1 1 0 0 0 0]
 [0 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 1]
 [1 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0]]

Vocabulário TF-IDF: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz TF-IDF
[[0.         0.         0.42339448 0.         0.42339448 0.
  0.         0.         0.         0.42339448 0.32200242 0.42339448
  0.42339448 0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.42339448
  0.42339448 0.42339448 0.         0.         0.32200242 0.
  0.         0.         0.         0.42339448 0.42339448]
 [0.40824829 0.40824829 0.        

# Exemplo 03 - Realizando o pré-processamento e a extração de características do texto

In [6]:
!pip install --force-reinstall gensim


Collecting gensim
  Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
Collecting smart-open>=1.8.1 (from gensim)
  Using cached smart_open-7.1.0-py3-none-any.whl.metadata (24 kB)
Collecting wrapt (from smart-open>=1.8.1->gensim)
  Using cached wrapt-1.17.2-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.4 kB)
Using cached gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
Using cached numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
Using cached scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (

In [1]:
from gensim.models import Word2Vec

corpus = [
    ["o", "cachorro", "está", "latindo", "no", "quintal"],
    ["o", "gato", "está", "miando", "no", "telhado"],
    ["o", "pássaro", "está", "voando", "no", "céu"],
    ["a", "bola", "está", "rolando", "no", "chão"],
    ["a", "criança", "está", "brincando", "com", "o", "cachorro"],
    ["o", "gato", "e", "o", "rato", "são", "inimigos"],
    ["a", "água", "está", "quente", "na", "caneca"],
    ["o", "sol", "está", "brilhando", "no", "céu"],
    ["a", "lua", "está", "cheia", "hoje", "no", "céu"],
    ["o", "computador", "está", "ligado", "na", "mesa"],
    ["a", "lua", "está", "no", "céu", "lua", "bonita"]
]

model = Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=1, sg=1)

#calculando a similaridade entre palavras acima
print(f"Similaridade entre cachorro e gato: {model.wv.similarity('cachorro','gato')}")
print(f"Similaridade entre cachorro e bola: {model.wv.similarity('cachorro','bola')}")
print(f"Similaridade entre céu e lua: {model.wv.similarity('céu','lua')}")
print(f"Similaridade entre computador e mesa: {model.wv.similarity('computador','mesa')}")

Similaridade entre cachorro e gato: 0.004570882301777601
Similaridade entre cachorro e bola: -0.08380723744630814
Similaridade entre céu e lua: 0.13900601863861084
Similaridade entre computador e mesa: -0.1019936203956604
