In [None]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
reviews=[
    "A comida estava deliciosa e o atendimento foi impecável.",
    "Esperei mais de 40 minutos pelo prato principal e veio frio.",
    "O ambiente é acolhedor, ideal para um jantar romântico.",
    "Achei os preços altos para a qualidade do que foi servido.",
    "Melhor risoto que já comi, voltarei com certeza!",
    "Garçom atencioso, mas a cozinha demorou muito.",
    "Cardápio criativo e pratos bem apresentados.",
    "Poucas opções vegetarianas e nenhuma sobremesa vegana.",
    "Atendimento rápido e ótimo custo-benefício no almoço executivo.",
    "Lugar barulhento e comida sem tempero. Não recomendo."
]

In [None]:
toy = ["para para para para teste meu sol", "para para gato subiu no sol"]

In [None]:
vectorizer = CountVectorizer()
bag = vectorizer.fit_transform(reviews)

In [None]:
names = vectorizer.get_feature_names_out()
print(names)
print(len(names))

In [None]:
print(vectorizer.vocabulary_)

In [None]:
bag

In [None]:
bag_of_words = bag.toarray()

In [None]:
bag_of_words.shape

In [None]:
bag_of_words

In [None]:
vectorizer_tf_idf = TfidfVectorizer(norm=None)
tf_idf = vectorizer_tf_idf.fit_transform(toy)
names = vectorizer_tf_idf.get_feature_names_out()
print(names)

In [None]:
print(vectorizer_tf_idf.vocabulary_)

In [None]:
tf_idf_words = tf_idf.toarray()
tf_idf_words

In [None]:
vectorizer1 = TfidfVectorizer(norm=None)
tf_idf1 = vectorizer1.transform(toy)
names = vectorizer1.get_feature_names_out()
print(names)

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

toy = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?"
]

vectorizer1 = TfidfVectorizer(norm=None)
vectorizer1.fit(toy)  # aprende os termos

tf_idf1 = vectorizer1.transform(toy)  # aplica aos documentos

names = vectorizer1.get_feature_names_out()
print("Palavras do vocabulário:", names)

# Visualiza o TF-IDF de todos os termos no primeiro documento
print("TF-IDF do primeiro documento:", tf_idf1[0].toarray())


Palavras do vocabulário: ['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
TF-IDF do primeiro documento: [[0.         1.22314355 1.51082562 1.         0.         0.
  1.         0.         1.        ]]


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?",
]

tfidf_vectorizer = TfidfVectorizer()#usa normalização L2, o que deixa os valores entre 0 e 1
tfidf_vectorizer.fit(corpus)

document = ["This is the first document"]
tfidf_matrix = tfidf_vectorizer.transform(document)

term = "document"
term_index = tfidf_vectorizer.vocabulary_[term]

tfidf_value = tfidf_matrix[0, term_index]

print(f"The TF-IDF value for '{term}' is: {tfidf_value}")


In [None]:
# Exemplo: mini buscador
corpus = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?",
]
tfidf_vectorizer = TfidfVectorizer()#usa normalização L2, o que deixa os valores entre 0 e 1
tfidf_vectorizer.fit(corpus)

term = "document"
term_index = tfidf_vectorizer.vocabulary_[term]

for i, doc in enumerate(corpus):
    tfidf_value = tfidf_vectorizer.transform([doc])[0, term_index]
    print(f"Doc {i+1}: TF-IDF('{term}') = {tfidf_value:.3f}")

#O documento 2 tem o maior peso para "document"

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd


def buscar_documentos_por_relevancia(corpus, consulta):
    """
    Dado um corpus de documentos e uma string de consulta,
    retorna os documentos ordenados por relevância com base em TF-IDF.
    """
    # Cria o vetor TF-IDF com documentos + consulta
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(corpus + [consulta])

    # Separa o vetor da consulta (última linha) e os vetores dos documentos
    consulta_vector = tfidf_matrix[-1]
    document_vectors = tfidf_matrix[:-1]

    # Produto escalar como métrica de similaridade (proxy simples de relevância)
    similaridades = document_vectors @ consulta_vector.T

    # Monta DataFrame com os resultados
    ranking_df = pd.DataFrame({
        "Documento": corpus,
        "Relevância para a consulta": similaridades.toarray().flatten()
    }).sort_values(by="Relevância para a consulta", ascending=False)

    return ranking_df


if __name__ == "__main__":
    # Corpus de exemplo (reviews)
    corpus = [
        "A comida estava deliciosa e o atendimento foi impecável.",
        "Esperei mais de 40 minutos pelo prato principal e veio frio.",
        "O ambiente é acolhedor, ideal para um jantar romântico.",
        "Achei os preços altos para a qualidade do que foi servido.",
        "Melhor risoto que já comi, voltarei com certeza!",
        "Garçom atencioso, mas a cozinha demorou muito.",
        "Cardápio criativo e pratos bem apresentados.",
        "Poucas opções vegetarianas e nenhuma sobremesa vegana.",
        "Atendimento rápido e ótimo custo-benefício no almoço executivo.",
        "Lugar barulhento e comida sem tempero. Não recomendo."
    ]

    consulta = "comida fria ruim"
    resultado = buscar_documentos_por_relevancia(corpus, consulta)
    print(resultado)


                                           Documento  \
0  A comida estava deliciosa e o atendimento foi ...   
9  Lugar barulhento e comida sem tempero. Não rec...   
1  Esperei mais de 40 minutos pelo prato principa...   
2  O ambiente é acolhedor, ideal para um jantar r...   
4   Melhor risoto que já comi, voltarei com certeza!   
3  Achei os preços altos para a qualidade do que ...   
5     Garçom atencioso, mas a cozinha demorou muito.   
6       Cardápio criativo e pratos bem apresentados.   
7  Poucas opções vegetarianas e nenhuma sobremesa...   
8  Atendimento rápido e ótimo custo-benefício no ...   

   Relevância para a consulta  
0                    0.157374  
9                    0.137701  
1                    0.000000  
2                    0.000000  
4                    0.000000  
3                    0.000000  
5                    0.000000  
6                    0.000000  
7                    0.000000  
8                    0.000000  
