# Modelo Vetorial para Recuperação da Informação

O modelo vetorial é um dos métodos mais utilizados para recuperação de informação, que consiste em representar documentos e consultas como vetores em um espaço multidimensional. Cada dimensão corresponde a um termo do vocabulário da coleção de documentos, e o peso de cada termo é calculado com base na sua frequência e relevância. A recuperação de informação é feita comparando a similaridade entre os vetores de documentos e consultas, usando medidas como o produto escalar ou o cosseno do ângulo entre eles. O modelo vetorial permite recuperar documentos que satisfaçam parcialmente a consulta, definindo um limiar de similaridade mínimo aceitável.

<!-- <hr style="border-width: 1px" width="95%" > -->
<div></div> 

In [2]:
%pip install -U scikit-learn

In [1]:
# Importa os módulos necessários
import numpy as np   # Módulo para trabalhar com matrizes e funções matemáticas
import pandas as pd  # Módulo para trabalhar com dataframes e séries em Python

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

ModuleNotFoundError: No module named 'sklearn'

In [None]:
docs = [
    "O cachorro é o melhor amigo do homem.",
    "O gato é um animal muito independente.",
    "O pássaro é um símbolo de liberdade.",
    "O peixe é um animal aquático.",
]

# Instancie o objeto CountVectorizer
vectorizer = CountVectorizer()

# Transforme os documentos em uma matriz de termos
term_matrix = vectorizer.fit_transform(docs)


In [None]:
query = "animal de estimação"

# Transforme a consulta em uma matriz de termos
query_vec = vectorizer.transform([query])

# Calcule a similaridade entre a consulta e os documentos
similarity_scores = cosine_similarity(query_vec, term_matrix)


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kevin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


0       article n4hy 93apr5120934 harder ccr p ida org...
1       kmr4 po cwru edu keith ryan writes people keep...
2       livesey solntze wpd sgi com jon livesey writes...
3       bobbe vice ico tek com robert beauchaine write...
4       article 16ba1e927 drporter suvm syr edu drport...
                              ...                        
1994    article 1rgmjn 567 access digex net huston acc...
1995    started reading newsgroup following thread cur...
1996    blessed hunger thirst righteousness filled mat...
1997    curious know christians ever read books based ...
1998    article 1993apr27 073723 18577 csis dit csiro ...
Name: text, Length: 1999, dtype: object

In [None]:
# Classifique os documentos com base em suas pontuações de similaridade
ranked_docs = sorted(
    list(enumerate(similarity_scores[0])),
    key=lambda x: x[1],
    reverse=True
)

# Recupere os documentos mais relevantes
for i, score in ranked_docs:
    print(docs[i], " - Score:", score)


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\kevin\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kevin\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
