<a href="https://colab.research.google.com/github/vinisilvanunes/P1PLN/blob/master/Aula_04_Extra%C3%A7%C3%A3o_de_caracteristicas_(Features)_em_Texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 04 - Extração de Características (Features) em Texto

1. Parte 1 - Corporas
2. Parte 2 - Extração de Características em Texto

## **Parte 1** - Trabalhando com Corporas

Criar uma implementação simples de BoW usando scikit-learn.

In [None]:
# Importando a ferramenta que irá criar a representação numérica
from sklearn.feature_extraction.text import CountVectorizer

# Criando um corpus de documentos que será usado para criação do vocabulário
documentos = [
    "gato e cachorro",
    "gato brinca com cachorro",
    "gato e rato",
    "Cachorro, gato e rato",
    "Gato",
    "Cachorro e rato"
]
# Criando um objeto para ser utilizado: transformar os documentos em vetores
vectorizer = CountVectorizer()

# Criando a matriz de contagem
X = vectorizer.fit_transform(documentos)
  # fit >>> cria um vocabulário das palavras
  # transforme >>> conta a frequencia de cada palavra no corpus

# Imprimindo a Matriz e o Vocabulário gerado
print(f"Vocabulario: {vectorizer.vocabulary_}")
  # realiza o mapeamento do vocabulário para um índice da matriz

print(f"Matriz BoW: \n{X.toarray()}")
  # mostra a frequencia de cada palavra dentro da matriz

Vocabulario: {'gato': 3, 'cachorro': 1, 'brinca': 0, 'com': 2, 'rato': 4}
Matriz BoW: 
[[0 1 0 1 0]
 [1 1 1 1 0]
 [0 0 0 1 1]
 [0 1 0 1 1]
 [0 0 0 1 0]
 [0 1 0 0 1]]


## Exemplo 2 - Implementando BOW junto com TF-IDF

In [None]:
# Importando as Bibliotecas
from sklearn.feature_extraction.text import CountVectorizer
  # Classe que transforma os documentos em vetores e realiza a contagem de frequencia
from sklearn.feature_extraction.text import TfidfVectorizer
  # Classe que transforma os documentos em vetores e uma contagem de frequencia ponderada

# Definindo o corpus
documentos = [
    "O cachorro gosta de passear no parque",
    "O gato dorme no sofá o dia todo",
    "Cachorros e gatos podem ser bons amigos"
]

# Criando o modelo BoW
vectorizer_bow = CountVectorizer()
  # Instanciamento da classe em objeto para ser usado
X_bow = vectorizer_bow.fit_transform(documentos)
  # fit >>> realizar a transformação do vocabulário
  # transform >> transforma cada vetor em um documento com a contagem de frequência

# Imprimindo o Vocabulário e a Matriz
print(f"Vocabulario BoW: {vectorizer_bow.vocabulary_}")
print(f"Matriz BoW: \n{X_bow.toarray()}")

# Criando o modelo TF-IDF
vectorizer_tfidf = TfidfVectorizer()
  # realiza a instanciação da classe em objeto
X_tfidf = vectorizer_tfidf.fit_transform(documentos)
  # fit >>> realizar a transformação do vocabulário
  # transform >> transforma cada vetor em um documento com a contagem de frequência ponderada

# Imprimindo o Vocabulário e a Matriz TF-IDF
print(f"Vocabulario TF-IDF: {vectorizer_tfidf.vocabulary_}")
print(f"Matriz TF-IDF: \n{X_tfidf.toarray()}")

Vocabulario BoW: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz BoW: 
[[0 0 1 0 1 0 0 0 0 1 1 1 1 0 0 0 0]
 [0 0 0 0 0 1 1 1 0 0 1 0 0 0 0 1 1]
 [1 1 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0]]
Vocabulario TF-IDF: {'cachorro': 2, 'gosta': 9, 'de': 4, 'passear': 12, 'no': 10, 'parque': 11, 'gato': 7, 'dorme': 6, 'sofá': 15, 'dia': 5, 'todo': 16, 'cachorros': 3, 'gatos': 8, 'podem': 13, 'ser': 14, 'bons': 1, 'amigos': 0}
Matriz TF-IDF: 
[[0.         0.         0.42339448 0.         0.42339448 0.
  0.         0.         0.         0.42339448 0.32200242 0.42339448
  0.42339448 0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.42339448
  0.42339448 0.42339448 0.         0.         0.32200242 0.
  0.         0.         0.         0.42339448 0.42339448]
 [0.40824829 0.40824829 0.      

## Exemplo 3 - WordEmbedding utilizando Word2Vex

In [None]:
# Importação da Biblioteca
from gensim import models
  # Word2Vec >>> criar os modelos de vetorização

# Criação do Corpus
corpus = [
    ["o", "cachorro","está","dormindo"],
    ["o","gato","está","dormindo"]
]

# Criando o modelo de vetor
model = models.Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=1, sg=1)
  # sentences = define o texto a ser transformado em vetor
  # vector_size = define a dimensão dos vetores que representarão as palavras
  # window = define a janela de contexto. considera as palavras antes e as palavras depois no alvo para aprender
  # min_count = ignora as palavras que aparecer 1 vez no corpus
  # indica o modelo utilizado
    # 1 = skip_gram;
    # 0 = CBOW

# obtem o vetor da palavra
vector = model.wv['cachorro']

# calcula a similaridade de duas palavras
similarity = model.wv.similarity('cachorro','gato')
  # similaridade cosseno, qt mais próximo de 1, maior similaridade

print("Similaridade entre 'cachorro' e 'gato': ", similarity)

Similaridade entre 'cachorro' e 'gato':  -0.0446171


In [None]:
from gensim.models import Word2Vec

corpus = [
    ["o", "cachorro", "está", "latindo", "no", "quintal"],
    ["o", "gato", "está", "miando", "no", "telhado"],
    ["o", "pássaro", "está", "voando", "no", "céu", 'lua'],
    ["a", "bola", "está", "rolando", "no", "chão"],
    ["a", "criança", "está", "brincando", "com", "o", "cachorro"],
    ["o", "gato", "e", "o", "rato", "são", "inimigos"],
    ["a", "água", "está", "quente", "na", "caneca"],
    ["o", "sol", "está", "brilhando", "no", "céu"],
    ["a", "lua", "está", "cheia", "hoje", 'no', 'céu'],
    ["a", "computador", "está", "ligado", "na", "mesa"],
    ['a','lua','está', 'no', 'céu', 'lua', 'bonita']
]

model = Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=1, sg=1)

# Calculando a similaridade entre palavras
print(f"Similaridade entre cachorro e gato: {model.wv.similarity('cachorro','gato')}")
print(f"Similaridade entre cachorro e bola: {model.wv.similarity('cachorro','bola')}")
print(f"Similaridade entre céu e lua: {model.wv.similarity('céu','lua')}")
print(f"Similaridade entre computador e mesa: {model.wv.similarity('computador','mesa')}")

Similaridade entre cachorro e gato: 0.008797231130301952
Similaridade entre cachorro e bola: -0.12085192650556564
Similaridade entre céu e lua: 0.1388162225484848
Similaridade entre computador e mesa: 0.04975401982665062
