#**sklearn**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Lista de frases (corpus)
corpus = [
    "O gato está no sofá.",
    "O cachorro está no quintal.",
    "O gato e o cachorro estão amigos."
]

# Inicializa o CountVectorizer
vectorizer = CountVectorizer()

# Transforma o texto em uma matriz de contagem
X = vectorizer.fit_transform(corpus)

# Exibe os resultados
print("Vocabulário (palavras únicas):", vectorizer.get_feature_names_out())
print("\nMatriz de contagem:\n", X.toarray())


Vocabulário (palavras únicas): ['amigos' 'cachorro' 'está' 'estão' 'gato' 'no' 'quintal' 'sofá']

Matriz de contagem:
 [[0 0 1 0 1 1 0 1]
 [0 1 1 0 0 1 1 0]
 [1 1 0 1 1 0 0 0]]


#**NLTK**

Usar o NLTK para identificar se uma frase contém palavras que pertencem a um dicionário também é uma ótima abordagem, especialmente se você quiser pré-processar as frases (remover pontuação, normalizar palavras, etc.)

In [None]:
import nltk

# Baixa os recursos necessários do NLTK
nltk.download("punkt")       # Para tokenização
nltk.download("stopwords")   # Para stopwords em português


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
import nltk
nltk.data.path.append('/caminho/para/nltk_data')


In [None]:
mkdir -p ~/nltk_data
python -m nltk.downloader -d ~/nltk_data punkt stopwords


SyntaxError: invalid syntax (<ipython-input-10-2815bfef7a00>, line 1)

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import string

# Baixa recursos do NLTK (se necessário)
nltk.download("punkt")
nltk.download("stopwords")

# Dicionário de palavras pré-definido
dicionario = {"gato", "sofá", "dormir", "feliz"}

# Lista de frases
frases = [
    "O gato está dormindo no sofá.",
    "O cachorro brinca no quintal.",
    "Um gato está muito feliz.",
    "Hoje o dia está ensolarado."
]

# Função para pré-processar a frase
def preprocessar_frase(frase):
    # Tokeniza a frase em palavras
    palavras = word_tokenize(frase.lower())
    # Remove pontuações e stopwords
    stop_words = set(stopwords.words("portuguese"))
    palavras = [palavra for palavra in palavras if palavra not in stop_words and palavra not in string.punctuation]
    return palavras

# Função para verificar palavras do dicionário
def encontrar_palavras_repetidas_nltk(frases, dicionario):
    frases_repetidas = []
    for frase in frases:
        # Pré-processa a frase
        palavras = set(preprocessar_frase(frase))
        # Verifica interseção com o dicionário
        repetidas = palavras.intersection(dicionario)
        if repetidas:  # Se há palavras em comum, adiciona à lista de repetidas
            frases_repetidas.append((frase, repetidas))
    return frases_repetidas

# Executa a função
resultados = encontrar_palavras_repetidas_nltk(frases, dicionario)

# Exibe os resultados
for frase, palavras_encontradas in resultados:
    print(f"Frase: '{frase}' contém as palavras do dicionário: {palavras_encontradas}")


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


LookupError: 
**********************************************************************
  Resource [93mpunkt_tab[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt_tab')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt_tab/english/[0m

  Searched in:
    - '/root/nltk_data'
    - '/usr/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************


#**SPACY**

 biblioteca spaCy. Essa biblioteca oferece uma abordagem eficiente com embeddings de palavras para medir a similaridade.

In [None]:
import spacy

# Carrega o modelo de linguagem do spaCy (escolha um modelo leve como 'en_core_web_sm')
nlp = spacy.load("en_core_web_sm")

# Textos para comparar
texto1 = "O gato está dormindo no sofá."
texto2 = "Um gato está deitado no sofá."

# Converte os textos em objetos spaCy
doc1 = nlp(texto1)
doc2 = nlp(texto2)

# Calcula a similaridade entre os dois textos
similaridade = doc1.similarity(doc2)

similaridade


  similaridade = doc1.similarity(doc2)


0.793683588524684

Explicação:
Modelo do spaCy:

O modelo pré-treinado en_core_web_sm é carregado para processar os textos. Existem modelos maiores (md, lg) que oferecem resultados mais precisos.
Função .similarity():

A função calcula a similaridade baseada nos embeddings (vetores numéricos que representam o significado dos textos).
Valor da similaridade:

O resultado varia de 0 a 1, onde:
1 indica textos idênticos.
0 indica textos completamente diferentes.