<a href="https://colab.research.google.com/github/gomesluiz/pln-na-pratica/blob/main/u4-01-nlp-similaridade-de-textos-pratica-1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Similaridade de Textos


In [64]:
# Importa módulos essenciais para funcionalidades do notebook.
import re
import datetime
import sys

print("Pacotes importados com sucesso! Notebook pronto para uso.")

Pacotes importados com sucesso! Notebook pronto para uso.


In [65]:
# Declara define funções utilitárias utilizadas no notebook.

def formata_msg(nivel, msg):
    """
    Formata uma mensagem de log incluindo o nível de severidade, timestamp
    e a mensagem.

    Parâmetros:
    - nivel (str): Nível de severidade da mensagem (ex: 'INFO', 'ERROR', 'WARNING').
    - msg (str): A mensagem de log propriamente dita.

    Retorna:
    - str: A mensagem de log formatada.
    """
    timestamp = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')

    return f"[{nivel}] {timestamp} - {msg}"

print(formata_msg("INFO", "Funções utilitárias prontas para utilização."))
print(formata_msg("INFO", f"Versão do Python: {sys.version} "))

[INFO] 2024-04-04 14:34:57 - Funções utilitárias prontas para utilização.
[INFO] 2024-04-04 14:34:57 - Versão do Python: 3.10.12 (main, Nov 20 2023, 15:14:05) [GCC 11.4.0] 


In [66]:
texto_1 = "O gato comeu o rato"
texto_2 = "O rato comeu a comida do gato"
print(formata_msg("INFO",f"\n{texto_1}\n{texto_2}"))

[INFO] 2024-04-04 14:34:57 - 
O gato comeu o rato
O rato comeu a comida do gato


# Similaridade de Jaccard

In [67]:
def similaridade_jaccard(a, b):
  """retorna a similiridade de jaccard entre duas listas."""
  interseccao = len(set.intersection(*[set(a), set(b)]))
  uniao = len(set.union(*[set(a), set(b)]))
  return interseccao/uniao

In [68]:
corpus = [texto_1, texto_2]
tokens = [texto.lower().split(" ") for texto in corpus]
print(formata_msg("INFO",f"\n{tokens}"))

[INFO] 2024-04-04 14:34:57 - 
[['o', 'gato', 'comeu', 'o', 'rato'], ['o', 'rato', 'comeu', 'a', 'comida', 'do', 'gato']]


In [69]:
similaridade = similaridade_jaccard(tokens[0], tokens[1])
print(formata_msg("INFO",f"\nSimilaridade de Jaccard entre os textos: {similaridade}"))

[INFO] 2024-04-04 14:34:57 - 
Similaridade de Jaccard entre os textos: 0.5714285714285714


# Similaridade de Distância Euclidiana

In [70]:
from math import sqrt, pow, exp

def distancia_euclidiana(a, b):
  """retorna a distância euclidiana entre duas listas"""
  return sqrt(sum(pow(x - y, 2) for x, y in zip(a, b)))

def distancia_para_similaridade(distancia):
  return 1/exp(distancia)

In [71]:
from sklearn.feature_extraction.text import CountVectorizer
vetorizador = CountVectorizer(stop_words=None)
frequencias = vetorizador.fit_transform(corpus)
print(formata_msg("INFO",f"Features:\n{vetorizador.get_feature_names_out()}\n"))
print(formata_msg("INFO",f"Frequências:\n{frequencias.toarray()}"))

[INFO] 2024-04-04 14:34:57 - Features:
['comeu' 'comida' 'do' 'gato' 'rato']

[INFO] 2024-04-04 14:34:57 - Frequências:
[[1 0 0 1 1]
 [1 1 1 1 1]]


In [72]:
distancia = distancia_euclidiana(frequencias.toarray()[0], frequencias.toarray()[1])
print(formata_msg("INFO",f"\nDistância Euclidiana: {distancia}"))

[INFO] 2024-04-04 14:34:57 - 
Distância Euclidiana: 1.4142135623730951


In [73]:
similaridade = distancia_para_similaridade(distancia)
print(formata_msg("INFO",f"\nSimilaridade Euclidiana entre os textos: {similaridade}"))

[INFO] 2024-04-04 14:34:57 - 
Similaridade Euclidiana entre os textos: 0.24311673443421422


# Similaridade de Cosseno


In [74]:
def raiz_soma_quadrado(x):
  """ Retorne o valor da raiz quadrada da soma de quadrados de cada elemento da lista"""

  return round(sqrt(sum([a*a for a in x])),3)

def similaridade_cosseno(a, b):
  """retorna a similaridade de cosseno entre duas listas."""

  numerador = sum(x*y for x, y in zip(a, b))
  denominador = raiz_soma_quadrado(a) * raiz_soma_quadrado(b)
  return numerador/float(denominador)

In [75]:
similaridade = similaridade_cosseno(frequencias.toarray()[0], frequencias.toarray()[1])
print(formata_msg("INFO",f"\nSimilaridade de Cosseno: {similaridade}"))

[INFO] 2024-04-04 14:34:57 - 
Similaridade de Cosseno: 0.7746429412469479
