<a href="https://colab.research.google.com/github/fabriciosantana/nlp/blob/main/AKCIT_NLP_M6_Colab_Unidade_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Objetivos de Aprendizagem

*  Esse notebook é um tutorial breve sobre formas clássicas de representação de palavras. Para exemplicar, iremos implementar uma função *containment*, uma função que irá comparar dois textos e analisar a similaridade dos mesmos com relação aos seus n-gramas de interseção. Primeiramente iremos entender os conceitos de vocabulário, n-gramas para posteriormente implementar a função.




## 2.1 Contar N-gram

Primeiramente temos que contar as ocorrências de n-gramas dos nossos textos. Usaremos o CountVectorizer para converter nosso corpus em uma matriz.

No código abaixo, podemos variar o valor de n e utilizar o CountVectorizer para contar as ocorrências de n gramas. Podemos notar que na célula abaixo estamos criando um vocabulário através da utilização do CountVectorizer e, posteriormente, iremos analisar a matriz.



In [None]:
import numpy as np
import sklearn


### 2.1.1 Unigrama
A execução do exemplo imprime o vocabulário. Podemos ver que existem 8 palavras(tokens) no vocabulário e, portanto, vetores codificados também possuem um comprimento de 8.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer


texto_a_ser_comparado = "Suponha que esse seja o texto que desejo comparar"
texto_fonte = "Suponha que essa seja o texto principal"
texto_fonte2 = "Texto nada a ver com o que eu quero"

# Número de n_gramas
n = 1

# Instancia o contador de n-gramas
counts = CountVectorizer(analyzer='word', ngram_range=(n,n))

# Cria um dicionário de n-gramas
vocab2int = counts.fit([texto_a_ser_comparado, texto_fonte, texto_fonte2]).vocabulary_

# Imprime dicionário de palavras:index
print(vocab2int)

{'suponha': 11, 'que': 8, 'esse': 4, 'seja': 10, 'texto': 12, 'desejo': 2, 'comparar': 1, 'essa': 3, 'principal': 7, 'nada': 6, 'ver': 13, 'com': 0, 'eu': 5, 'quero': 9}


### 2.2.2 Bigrama
O mesmo vale para o caso de bigramas. Temos 8 bigramas no vocabulário e, portanto, os vetores codificados com comprimento 8.

In [None]:
# Número de n_gramas
n = 2

# Instancia o contador de n-gramas
counts = CountVectorizer(analyzer='word', ngram_range=(n,n))

# Cria um dicionário de n-gramas
vocab2int = counts.fit([texto_a_ser_comparado, texto_fonte, texto_fonte2]).vocabulary_

# Imprime dicionário de palavraś:index
print(vocab2int)

{'suponha que': 11, 'que esse': 8, 'esse seja': 3, 'seja texto': 10, 'texto que': 14, 'que desejo': 6, 'desejo comparar': 1, 'que essa': 7, 'essa seja': 2, 'texto principal': 13, 'texto nada': 12, 'nada ver': 5, 'ver com': 15, 'com que': 0, 'que eu': 9, 'eu quero': 4}


### 2.2.3 Trigrama

In [None]:
# Número de n_gramas
n = 3

# Instancia o contador de n-gramas
counts = CountVectorizer(analyzer='word', ngram_range=(n,n))

# Cria um dicionário de n-gramas
vocab2int = counts.fit([texto_a_ser_comparado, texto_fonte, texto_fonte2]).vocabulary_

# Imprime dicionário de palavraś:index
print(vocab2int)

{'suponha que esse': 11, 'que esse seja': 6, 'esse seja texto': 2, 'seja texto que': 9, 'texto que desejo': 13, 'que desejo comparar': 4, 'suponha que essa': 10, 'que essa seja': 5, 'essa seja texto': 1, 'seja texto principal': 8, 'texto nada ver': 12, 'nada ver com': 3, 'ver com que': 14, 'com que eu': 0, 'que eu quero': 7}


### 2.2.4 As palavras do vocabulário
Note que o artigo "o" das `frases texto_a_ser_comparado` e `texto_fonte` não aparece no vocabulário. Note ainda que todas as frases encontram-se em minúsculo. Isso ocorre devido ao fato de que quando passamos o parâmetro `analyser = 'word'`, estamos considerando em nossa análise palavras com dois ou mais caracteres e consequentemente ignorando as palavras com apenas um caracter. Excluir esses caracteres (artigos) é um comportamento padrão e desejado em muitas análises de texto devido a sua irrelevância, em grande parte das análises textuais.

Caso você precise desconsiderar o padrão *default* do CountVectorizer e adicionar palavras com caracteres únicos em sua análise, você pode adicionar o argumento `token_pattern = r"(?u)\b\w+\b"`. Essa expressão regular (REGEX) define palavra como tendo uma ou mais caracteres.

# 2.3 Array de n-gramas
Vamos usar o CountVectorizer para criar um array com as contagens de n-gramas. Além disso, vamos criar duas sentenças que desejamos analizar, e transformar cada texto em um vetor numérico representando a ocorrência de cada palavra.

Notar que cada linha representa um texto e cada coluna ou index representa os termos do vocabulário. Iremos ver isso claramente no mapeamento abaixo.

* texto_a_ser_comparado =  "Suponha que essa seja o texto que desejo comparar"
* texto_fonte =  "Suponha que essa seja o texto principal"

In [None]:
# N-gramas
n = 1

# Instancia o contador de n-gramas
counts = CountVectorizer(analyzer='word', ngram_range=(n,n))

# cria uma matriz de contagem de n-grama para os dois textos
n_grams = counts.fit_transform([texto_a_ser_comparado, texto_fonte, texto_fonte2])

# Cria um dicionário de n-gramas
vocab2int = counts.fit([texto_a_ser_comparado, texto_fonte, texto_fonte2]).vocabulary_

n_grams_array = n_grams.toarray()

print('Vetor de n-gramas:\n\n', n_grams_array)
print()
print('Dicionário de n-gramas (unigrama):\n\n', vocab2int)

Vetor de n-gramas:

 [[0 1 1 0 1 0 0 0 2 0 1 1 1 0]
 [0 0 0 1 0 0 0 1 1 0 1 1 1 0]
 [1 0 0 0 0 1 1 0 1 1 0 0 1 1]]

Dicionário de n-gramas (unigrama):

 {'suponha': 11, 'que': 8, 'esse': 4, 'seja': 10, 'texto': 12, 'desejo': 2, 'comparar': 1, 'essa': 3, 'principal': 7, 'nada': 6, 'ver': 13, 'com': 0, 'eu': 5, 'quero': 9}


In [None]:
texto_a_ser_comparado = "Suponha que essa seja o texto que desejo comparar"
texto_fonte = "Suponha que essa seja o texto principal"

Acima temos os vetores que codificam cada texto. Na linha superior temos os n-gramas do `text_a_ser_comparado` e na linha inferior temos a codificação do `text_fonte`. Podemos analisar se os textos possuem n_gramas em comum através de suas colunas. Por exemplo, ambos possuem a palavra `texto` (índice 7 - ultima coluna coluna). O mesmo vale para os unigramas `[essa]`, `[seja]`, `[que]` e `[suponha]`. Notar que o unigrama `[que]` ocorre duas vezes no segundo texto.


```
[[1 1 1 0 2 1 1 1]    =   comparar  desejo [essa] _________ [que] [seja] [suponha] [texto]
 [0 0 1 1 1 1 1 1]]   =   ________  ______ [essa] principal [que] [seja] [suponha] [texto]
```



 # 2.4 Valores de *containment*
O *Containment* nada mais é do que uma medida de similaridade entre textos. É basicamente uma normalização da interseção da contagem de n-gramas entre os textos.


Primeiro, precisamos extrair as palavras dos dois documentos de texto para formar um corpus. Em seguida, contamos a interseção de n-gramas (agrupamentos sequenciais de palavras de n palavras) entre os textos. Para o caso de unigramas, podemos considerar como uma contagem  dos número de palavras que ambos os textos têm em comum.

Em seguida, dividimos o valor pelo total de n-gramas do texto a ser comparado (subíndice A - o qual quer ser comparado com o texto fonte) para normalizar o valor.


Cálculo de *Containment*:

1. Calcular a interseção n-grama entre o texto e o texto fonte.
2. Adicionar o número de termos comuns.
3. Normalizar o valor na etapa 2 pelo número de n gramas no texto A.


Abaixo podemos ver a equação de *Containment*:
$$ \frac{\sum{count(\text{ngram}_{A}) \cap count(\text{ngram}_{F})}}{\sum{count(\text{ngram}_{A})}} $$

#2.4.1 Vamos criar uma função que recebe um array n-gramas

In [None]:
def containment(n_gram_array):
    ''' Calcula o containment entre dois textos. Normaliza a interseção dos contadores de n-gramas
    entre os textos.
    ARG:
    n_gra_array(array): Um array com as contagens de n-gramas dos dois textos a serem comparados

    RETURNS:
    O valor de containment normalizado '''


     # Cria uma lista que contém o valor mínimo encontrado nas colunas
     # 0 se não houver correspondências e 1+ para as palavras correspondentes

    intersection_list = np.amin(n_gram_array, axis = 0)

    # Soma número de interseção
    intersection_count = np.sum(intersection_list)

    # Conta número de n-gramas no texto 1
    A_idx = 0
    A_count = np.sum(n_gram_array[A_idx])


    # Normaliza e calcula valor final
    containment_val = intersection_count / A_count

    return containment_val

#### Para o n_gram calculado anteriormente e n = 1

In [None]:
containment_val = containment(n_grams.toarray())

print('Containment: ', containment_val)


Containment:  0.25


#### para n = 2

In [None]:
counts_2grams = CountVectorizer(analyzer='word', ngram_range=(2,2))
bigram_counts = counts_2grams.fit_transform([texto_a_ser_comparado, texto_fonte])

# Calcula containment
containment_val = containment(bigram_counts.toarray())

print('Containment for n=2 : ', containment_val)

Containment for n=2 :  0.5714285714285714


# 2.4.2 Exercício:
Teste a função com diferentes textos , n-gramas e tente imaginar aplicações desse conceito. Por exemplo, podemos usar essa técnica como uma métrica de análise de similaridade para detectar plagiarismo.

# 2.5 Similaridade Cosseno

Outra métrica usada para cálculo de similaridade entre textos é o cosseno. Quem já cursou álgebra linear deve lembrar que o produto escalar de dois vetores é igual ao módulo de cada vetor vezes o cosseno do ângulo formado entre eles. E é justamente o cosseno que utilizaremos para determinar o quanto similar são os textos. Lembrando que a função cosseno vai do intervalo fechado -1 à 1, sendo que, quando:

*   cosseno = 1 -> Os vetores são paralelos e com mesmo sentido,
*   cosseno = 0 -> Os vetores são perpendiculares,
* cosseno = -1 -> Os vetores são paralelos e com sentido oposto.

De maneira simples, quanto maior for o valor do cosseno mais similar são as sentenças. Vamos testar?

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

texto_a_ser_comparado = "Suponha que esse seja o texto que desejo comparar"
texto_fonte = "Suponha que essa seja o texto principal"
texto_fonte2 = "Texto nada a ver com o que eu quero"
texto_fonte3 = "Suponha que esse seja o texto que desejo comparar"

# N-gramas
n = 1

# Instancia o contador de n-gramas
counts = CountVectorizer(analyzer='word', ngram_range=(n,n))

# cria uma matriz de contagem de n-grama para os dois textos
x = counts.fit_transform([texto_a_ser_comparado, texto_fonte, texto_fonte2, texto_fonte3])

cosine_similarity(x[0],x[3])


array([[1.]])

#  2.6 Desafios

1.  Vamos implementar um rankeador de documentos? O desafio é, dada uma *string* de busca denominada "query", rankear quais os documentos são mais similares em ordem de similaridade, usando a similaridade cosseno. Realize os seguintes Pré-processamentos de Texto: Tokenização, Remova as *stopwords*, Lematize as palavras.

In [None]:
documents = [
    "Natural Language Processing (NLP) enables computers to understand human language.",
    "Machine learning provides systems the ability to automatically learn and improve from experience.",
    "Deep learning is a subset of machine learning involving neural networks with three or more layers.",
    "Natural Language Processing includes tasks like text generation and sentiment analysis.",
    "Supervised learning involves learning from a training dataset with labeled data."
]


##Perguntas para Reflexão:
1. Qual é a importância de pré-processar os textos antes de calcular a similaridade?

*O pré-processamento de textos é importante para garantir que os dados estejam limpos, consistentes e prontos para serem analisados/ usados em outros algoritmos, por exemplo, análise de sentimentos, classificação, análise de tópicos. O pré-processamento de textos envolve etapas como remoção de stop words, stemming, lematização, normalização de maiúsculas/minúsculas e remoção de caracteres especiais. *

Mas já parou para pensar que ao remover artigos ou preprosições podemos perder a semântica de expressões importantes para o contexto?

2. Como a vetorização ajuda a capturar a importância das palavras nos documentos?

*A vetorização converte textos em representações numéricas, geralmente vetores de palavras ou tokens. Técnicas como TF-IDF (Term Frequency-Inverse Document Frequency) ajudam a atribuir pesos às palavras com base em sua frequência no documento e no corpus, destacando termos mais representativos. Isso evita que palavras muito comuns (como "de", "e", "é") tenham peso excessivo, focando nos termos que ajudam a diferenciar um documento de outro. Vetores gerados por técnicas como embeddings de palavras (Word2Vec, BERT) também capturam relações semânticas entre palavras.*

3. Por que a similaridade cosseno é uma métrica apropriada para medir a similaridade entre documentos de texto?

*A similaridade cosseno mede o ângulo entre dois vetores, independentemente de sua magnitude, sendo especialmente útil quando os documentos têm comprimentos variáveis. Essa métrica se concentra na direção dos vetores (ou seja, nos padrões de coocorrência de palavras) em vez de suas magnitudes absolutas, o que ajuda a captar a semelhança no conteúdo, ignorando diferenças triviais no tamanho dos documentos. Como o valor resultante varia entre -1 e 1, onde 1 significa alta similaridade e 0 significa ausência de similaridade, é uma forma eficiente de comparar documentos de texto.*

