# Modelo Vetorial para Recuperação da Informação

O modelo vetorial é um dos métodos mais utilizados para recuperação de informação, que consiste em representar documentos e consultas como vetores em um espaço multidimensional. Cada dimensão corresponde a um termo do vocabulário da coleção de documentos, e o peso de cada termo é calculado com base na sua frequência e relevância. A recuperação de informação é feita comparando a similaridade entre os vetores de documentos e consultas, usando medidas como o produto escalar ou o cosseno do ângulo entre eles. O modelo vetorial permite recuperar documentos que satisfaçam parcialmente a consulta, definindo um limiar de similaridade mínimo aceitável.

<!-- <hr style="border-width: 1px" width="95%" > -->
<div></div> 

In [11]:
# Importa os módulos necessários
import numpy as np   # Módulo para trabalhar com matrizes e funções matemáticas
import pandas as pd  # Módulo para trabalhar com dataframes e séries em Python

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

- Carregue os documentos em uma lista, onde cada documento é uma string.
- Instancie o objeto CountVectorizer para transformar o texto em uma matriz de termos.
- Ajuste e transforme a matriz de termos usando os dados do conjunto de documentos.

In [12]:
database = pd.read_parquet('../data/processed/base_processed.parquet.gzip')

## Calcule a similaridade entre as consultas e os documentos:
- Transforme a consulta em uma matriz de termos.
- Calcule a similaridade entre a matriz de termos da consulta e a matriz de termos dos documentos usando a função cosine_similarity.

In [15]:
# Instancie o objeto CountVectorizer
vectorizer = CountVectorizer()

# Transforme os documentos em uma matriz de termos
term_matrix = vectorizer.fit_transform(database['text'])


In [20]:
with open('../data/emails/mini_newsgroups/alt.atheism/51126', 'r') as file: 
    query = file.read()

# Transforme a consulta em uma matriz de termos
query_vec = vectorizer.transform([query])

# Calcule a similaridade entre a consulta e os documentos
similarity_scores = cosine_similarity(query_vec, term_matrix)


## Recupere os documentos mais relevantes:
- Classifique os documentos com base em suas pontuações de similaridade.
- Recupere os documentos mais relevantes.

In [37]:
# Classifique os documentos com base em suas pontuações de similaridade
ranked_docs = sorted(
    list(enumerate(similarity_scores[0])),
    key=lambda x: x[1],
    reverse=True
)

# Recupere os documentos mais relevantes
for i, score in ranked_docs[0:20]:
    print(database.iloc[i]['filename'], " - Score:", score)


53761  - Score: 0.7457440977032672
53194  - Score: 0.7438271604938276
51126  - Score: 0.7377253439645206
51273  - Score: 0.7142800526817401
53142  - Score: 0.7017401753421795
51160  - Score: 0.7001157311738098
54283  - Score: 0.6967342757044788
53175  - Score: 0.6939201375033768
53172  - Score: 0.6869464497590783
53143  - Score: 0.6855706297881646
39619  - Score: 0.660578259075816
53763  - Score: 0.6472975596607513
53144  - Score: 0.6401055804697865
101656  - Score: 0.6390178833325828
53762  - Score: 0.638752210144836
178451  - Score: 0.6386838743880491
178846  - Score: 0.6361329120147892
83796  - Score: 0.6361329120147892
105113  - Score: 0.6293008682666752
54241  - Score: 0.6264456087861376
