# CKP8087 - Estrutura de Dados
<img  src="https://img.shields.io/badge/UFC_CKP8087-VAUX GOMES-000000?style=for-the-badge&logo=" /> <img src="https://img.shields.io/badge/Jupyter-000000?style=for-the-badge&logo=jupyter&logoColor=white" /> <img src="https://img.shields.io/badge/Python-000000?style=for-the-badge&logo=python&logoColor=white" /> 

### Bibliotecas principais

In [1]:
import pandas as pd
from app.module.tfidf import TFIDF

[nltk_data] Downloading package stopwords to /Users/vaux/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/vaux/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### Data

In [2]:
df = pd.read_csv('./app/files/documents.csv')
df = df.dropna().reset_index(drop=True)
df.shape

(269473, 1)

### TF-IDF

In [3]:
# Loading
tfidf = TFIDF('./app/data')
tfidf.load()

Vocabulário: 7557 palavras
Ocorrências: 7557 palavras


##### Populando TF-IDF Handler

In [4]:
# Config
force_load = False
force_saving = False

# Adding
if force_load or len(tfidf.documents) == 0:
  for document_id, document in df[:2000].iterrows():
    tfidf.add(document_id, document.text)

# Saving 
tfidf.save()

Nada para salvar!
Nada para salvar!


### Simulação de pesquisa

In [5]:
def get_documents(w, all=False, top=5):
  scores = tfidf.tfidf(w, all=all)[:top]
  # documents = list(map(lambda x: x[1], scores))  
  
  for score, document_id in scores:
    print(score, document_id, df.iloc[document_id].text)

In [10]:
get_documents('lula', all=False, top=5)

2.5497122292794088 44 Lula cobra presença de Zema em evento e ele diz que vai a Itália: "já tenho compromisso" https://terrabrasilnoticias.com/2023/08/lula-cobra-presenca-de-zema-em-evento-e-ele-diz-que-vai-a-italia-ja-tenho-compromisso
2.5497122292794088 146 Chama Lula aê!🤣
https://twitter.com/neilsonleao/status/1697243365610537370?t=j4VdrazYDwWJ_OhfpKFqbA&s=08
2.5497122292794088 415 *Planalto aciona ‘mortadelas’ contra vaias a Lula no Dia 7 de Setembro*

*#COMPARTILHE*

*https://www.oantagonismo.com/2023/08/planalto-aciona-mortadelas-contra-vaias.html*
2.5497122292794088 536 Para atender Lula, FAB pretende comprar avião luxuoso de xeiques 
 
https://www.portalcidade.news/para-atender-lula-fab-pretende-comprar-aviao-luxuoso-de-xeiques/
2.5497122292794088 591 Para atender Lula, FAB pretende comprar avião luxuoso de xeiques 
 
https://www.portalcidade.news/para-atender-lula-fab-pretende-comprar-aviao-luxuoso-de-xeiques/


In [11]:
get_documents('bolsonaro', all=False, top=5)

2.8010266575603144 0 URGENTE: Finalmente, uma nova possibilidade surge para reverter a inelegibilidade de Bolsonaro - https://www.jornaldacidadeonline.com.br/noticias/51272/urgente-finalmente-uma-nova-possibilidade-surge-para-reverter-a-inelegibilidade-de-bolsonaro
2.8010266575603144 7 Zanin arquiva processo contra Bolsonaro por suposta omissão na compra da vacina ☛ https://diariodobrasilnoticias.com.br/noticia/zanin-arquiva-processo-contra-bolsonaro-por-suposta-omissao-na-compra-da-vacina-64f0e3aa0609b-1693508522
2.8010266575603144 86 Ministro Zanin arquiva processo contra Bolsonaro por omissão na compra de vacina

#PortalPacujáNews 

https://www.facebook.com/100057592084410/posts/pfbid0EzReGoxUQRCbfbgRYdk5vyhiEAhx4zA9H8f1VqeFjK9pH1PxLZJeimpnhnLZuVVul/?mibextid=Nif5oz
2.8010266575603144 106 COMO VOCÊ AVALIA O GOVERNO DO PRESIDENTE JAIR BOLSONARO? 
 
Clique no link abaixo: 
 
https://www.youtube.com/[USER]-atm/community
2.8010266575603144 107 COMO VOCÊ AVALIA O GOVERNO DO PRESIDENTE JA

### Qualidade da pesquisa

Sim, é absolutamente possível e altamente recomendável avaliar a qualidade do seu sistema de busca baseado em TF-IDF usando as métricas de Precisão, Revocação, Precisão R e Medida-F (ou Medida-E, como você mencionou, que é um caso específico da Medida-F). Essas métricas são fundamentais para entender o desempenho do seu sistema em relação à relevância dos resultados retornados.

Conceitos Importantes:

Antes de entrarmos nas fórmulas, é crucial definir alguns conceitos:

Documentos Relevantes: São os documentos que realmente correspondem à consulta do usuário, segundo um julgamento humano (ou um ground truth, um conjunto de dados de referência).
Documentos Recuperados: São os documentos que o seu sistema de busca (TF-IDF, no seu caso) retornou como resultado da consulta.
Com esses conceitos em mente, podemos definir as métricas:

1. Precisão (Precision):

A precisão mede a proporção de documentos recuperados que são relevantes. Em outras palavras, de todos os documentos que o seu sistema retornou, quantos deles eram realmente relevantes para a busca?

Precisão = (Número de documentos recuperados e relevantes) / (Número total de documentos recuperados)
Exemplo:

Se o seu sistema retornou 10 documentos para uma busca e, desses 10, apenas 6 eram realmente relevantes, a precisão seria:

Precisão = 6 / 10 = 0.6 ou 60%
2. Revocação (Recall):

A revocação mede a proporção de documentos relevantes que foram recuperados. Ou seja, de todos os documentos que deveriam ter sido retornados para a busca, quantos o seu sistema realmente encontrou?

Revocação = (Número de documentos recuperados e relevantes) / (Número total de documentos relevantes)
Exemplo:

Se existiam 8 documentos relevantes para uma busca em todo o seu corpus e o seu sistema recuperou 6 desses 8, a revocação seria:

Revocação = 6 / 8 = 0.75 ou 75%
3. Precisão-R (R-Precision):

A Precisão-R é a precisão calculada considerando apenas os R primeiros documentos retornados pelo sistema, onde R é o número total de documentos relevantes para a consulta. Ela busca avaliar a precisão nos primeiros resultados, que são geralmente os mais importantes para o usuário.

Exemplo:

Se existem 5 documentos relevantes para uma consulta e o seu sistema retorna 10 documentos, a Precisão-R seria a precisão calculada considerando apenas os 5 primeiros documentos retornados. Se, desses 5, 3 fossem relevantes, a Precisão-R seria:

Precisão-R = 3 / 5 = 0.6 ou 60%
4. Medida-F (F-Measure ou F1-Score):

A Medida-F é uma média harmônica entre a precisão e a revocação. Ela busca um equilíbrio entre as duas métricas. A fórmula geral da Medida-F é:

Medida-F = (2 * Precisão * Revocação) / (Precisão + Revocação)
Exemplo:

Usando os valores dos exemplos anteriores (Precisão = 0.6 e Revocação = 0.75):

Medida-F = (2 * 0.6 * 0.75) / (0.6 + 0.75) = 0.9 / 1.35 ≈ 0.67 ou 67%
Medida-E (E-Measure):

A Medida-E é uma generalização da Medida-F que permite ponderar a importância da precisão e da revocação usando um parâmetro β (beta). A fórmula é:

Medida-E = 1 / ( (1 - β²) / Precisão + β² / Revocação )
Quando β = 1, a Medida-E é igual à Medida-F. Valores de β > 1 dão mais peso à revocação, enquanto valores de β < 1 dão mais peso à precisão.

Como aplicar essas métricas ao seu script TF-IDF:

Crie um conjunto de dados de teste: Você precisa de um conjunto de consultas de exemplo e, para cada consulta, uma lista dos documentos relevantes (definidos manualmente ou usando um ground truth).
Execute as consultas no seu sistema TF-IDF: Para cada consulta do seu conjunto de teste, execute a busca usando o seu script TF-IDF e obtenha a lista de documentos recuperados.
Calcule as métricas: Para cada consulta, compare os documentos recuperados com os documentos relevantes e calcule a Precisão, Revocação, Precisão-R e Medida-F.
Averigue os resultados: Calcule a média das métricas para todas as consultas do seu conjunto de teste para ter uma avaliação geral do desempenho do seu sistema.
Exemplo Prático (Conceitual):

Suponha que você tenha as seguintes informações para uma consulta "gatos pretos":

Documentos relevantes: {Doc1, Doc3, Doc5} (3 documentos)
Documentos recuperados pelo seu sistema: {Doc1, Doc2, Doc3, Doc6} (4 documentos)
Cálculos:

Documentos recuperados e relevantes: {Doc1, Doc3} (2 documentos)
Precisão = 2 / 4 = 0.5 ou 50%
Revocação = 2 / 3 ≈ 0.67 ou 67%
Precisão-R (R=3) = 2/3 ≈ 0.67 ou 67% (considerando os 3 primeiros documentos retornados)
Medida-F = (2 * 0.5 * 0.67) / (0.5 + 0.67) ≈ 0.57 ou 57%
Implementação em Python (Exemplo com dados fictícios):

Para uma implementação real, você precisaria de um conjunto de dados de teste maior e possivelmente usar bibliotecas como scikit-learn para auxiliar no cálculo do TF-IDF, mas o conceito é o mesmo.

Ao calcular e analisar essas métricas, você poderá entender melhor os pontos fortes e fracos do seu sistema de busca TF-IDF e fazer os ajustes necessários para melhorar sua qualidade. Lembre-se que um bom sistema de busca busca um equilíbrio entre precisão e revocação, e a Medida-F ajuda a avaliar esse equilíbrio.