# CKP8087 - Estrutura de Dados
<img  src="https://img.shields.io/badge/UFC_CKP8087-VAUX GOMES-000000?style=for-the-badge&logo=" /> <img src="https://img.shields.io/badge/Jupyter-000000?style=for-the-badge&logo=jupyter&logoColor=white" /> <img src="https://img.shields.io/badge/Python-000000?style=for-the-badge&logo=python&logoColor=white" /> 

### Bibliotecas principais

In [1]:
import pandas as pd
from app.module.tfidf import TFIDF

[nltk_data] Downloading package stopwords to /Users/vaux/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/vaux/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### Data

In [2]:
df = pd.read_csv('./app/files/documents.csv')
df = df.dropna().reset_index(drop=True)
df.shape

(269473, 1)

### TF-IDF

In [3]:
# Loading
tfidf = TFIDF('./app/data')
tfidf.load()

Vocabul√°rio: 7557 palavras
Ocorr√™ncias: 7557 palavras


##### Populando TF-IDF Handler

In [4]:
# Config
force_load = False
force_saving = False

# Adding
if force_load or len(tfidf.documents) == 0:
  for document_id, document in df[:2000].iterrows():
    tfidf.add(document_id, document.text)

# Saving 
tfidf.save()

Nada para salvar!
Nada para salvar!


### Simula√ß√£o de pesquisa

In [5]:
def get_documents(w, all=False, top=5):
  scores = tfidf.tfidf(w, all=all)[:top]
  # documents = list(map(lambda x: x[1], scores))  
  
  for score, document_id in scores:
    print(score, document_id, df.iloc[document_id].text)

In [10]:
get_documents('lula', all=False, top=5)

2.5497122292794088 44 Lula cobra presen√ßa de Zema em evento e ele diz que vai a It√°lia: "j√° tenho compromisso" https://terrabrasilnoticias.com/2023/08/lula-cobra-presenca-de-zema-em-evento-e-ele-diz-que-vai-a-italia-ja-tenho-compromisso
2.5497122292794088 146 Chama Lula a√™!ü§£
https://twitter.com/neilsonleao/status/1697243365610537370?t=j4VdrazYDwWJ_OhfpKFqbA&s=08
2.5497122292794088 415 *Planalto aciona ‚Äòmortadelas‚Äô contra vaias a Lula no Dia 7 de Setembro*

*#COMPARTILHE*

*https://www.oantagonismo.com/2023/08/planalto-aciona-mortadelas-contra-vaias.html*
2.5497122292794088 536 Para atender Lula, FAB pretende comprar avi√£o luxuoso de xeiques 
 
https://www.portalcidade.news/para-atender-lula-fab-pretende-comprar-aviao-luxuoso-de-xeiques/
2.5497122292794088 591 Para atender Lula, FAB pretende comprar avi√£o luxuoso de xeiques 
 
https://www.portalcidade.news/para-atender-lula-fab-pretende-comprar-aviao-luxuoso-de-xeiques/


In [11]:
get_documents('bolsonaro', all=False, top=5)

2.8010266575603144 0 URGENTE: Finalmente, uma nova possibilidade surge para reverter a inelegibilidade de Bolsonaro - https://www.jornaldacidadeonline.com.br/noticias/51272/urgente-finalmente-uma-nova-possibilidade-surge-para-reverter-a-inelegibilidade-de-bolsonaro
2.8010266575603144 7 Zanin arquiva processo contra Bolsonaro por suposta omiss√£o na compra da vacina ‚òõ https://diariodobrasilnoticias.com.br/noticia/zanin-arquiva-processo-contra-bolsonaro-por-suposta-omissao-na-compra-da-vacina-64f0e3aa0609b-1693508522
2.8010266575603144 86 Ministro Zanin arquiva processo contra Bolsonaro por omiss√£o na compra de vacina

#PortalPacuj√°News 

https://www.facebook.com/100057592084410/posts/pfbid0EzReGoxUQRCbfbgRYdk5vyhiEAhx4zA9H8f1VqeFjK9pH1PxLZJeimpnhnLZuVVul/?mibextid=Nif5oz
2.8010266575603144 106 COMO VOC√ä AVALIA O GOVERNO DO PRESIDENTE JAIR BOLSONARO? 
 
Clique no link abaixo: 
 
https://www.youtube.com/[USER]-atm/community
2.8010266575603144 107 COMO VOC√ä AVALIA O GOVERNO DO PRESID

### Qualidade da pesquisa

Sim, √© absolutamente poss√≠vel e altamente recomend√°vel avaliar a qualidade do seu sistema de busca baseado em TF-IDF usando as m√©tricas de Precis√£o, Revoca√ß√£o, Precis√£o R e Medida-F (ou Medida-E, como voc√™ mencionou, que √© um caso espec√≠fico da Medida-F). Essas m√©tricas s√£o fundamentais para entender o desempenho do seu sistema em rela√ß√£o √† relev√¢ncia dos resultados retornados.

Conceitos Importantes:

Antes de entrarmos nas f√≥rmulas, √© crucial definir alguns conceitos:

Documentos Relevantes: S√£o os documentos que realmente correspondem √† consulta do usu√°rio, segundo um julgamento humano (ou um ground truth, um conjunto de dados de refer√™ncia).
Documentos Recuperados: S√£o os documentos que o seu sistema de busca (TF-IDF, no seu caso) retornou como resultado da consulta.
Com esses conceitos em mente, podemos definir as m√©tricas:

1. Precis√£o (Precision):

A precis√£o mede a propor√ß√£o de documentos recuperados que s√£o relevantes. Em outras palavras, de todos os documentos que o seu sistema retornou, quantos deles eram realmente relevantes para a busca?

Precis√£o = (N√∫mero de documentos recuperados e relevantes) / (N√∫mero total de documentos recuperados)
Exemplo:

Se o seu sistema retornou 10 documentos para uma busca e, desses 10, apenas 6 eram realmente relevantes, a precis√£o seria:

Precis√£o = 6 / 10 = 0.6 ou 60%
2. Revoca√ß√£o (Recall):

A revoca√ß√£o mede a propor√ß√£o de documentos relevantes que foram recuperados. Ou seja, de todos os documentos que deveriam ter sido retornados para a busca, quantos o seu sistema realmente encontrou?

Revoca√ß√£o = (N√∫mero de documentos recuperados e relevantes) / (N√∫mero total de documentos relevantes)
Exemplo:

Se existiam 8 documentos relevantes para uma busca em todo o seu corpus e o seu sistema recuperou 6 desses 8, a revoca√ß√£o seria:

Revoca√ß√£o = 6 / 8 = 0.75 ou 75%
3. Precis√£o-R (R-Precision):

A Precis√£o-R √© a precis√£o calculada considerando apenas os R primeiros documentos retornados pelo sistema, onde R √© o n√∫mero total de documentos relevantes para a consulta. Ela busca avaliar a precis√£o nos primeiros resultados, que s√£o geralmente os mais importantes para o usu√°rio.

Exemplo:

Se existem 5 documentos relevantes para uma consulta e o seu sistema retorna 10 documentos, a Precis√£o-R seria a precis√£o calculada considerando apenas os 5 primeiros documentos retornados. Se, desses 5, 3 fossem relevantes, a Precis√£o-R seria:

Precis√£o-R = 3 / 5 = 0.6 ou 60%
4. Medida-F (F-Measure ou F1-Score):

A Medida-F √© uma m√©dia harm√¥nica entre a precis√£o e a revoca√ß√£o. Ela busca um equil√≠brio entre as duas m√©tricas. A f√≥rmula geral da Medida-F √©:

Medida-F = (2 * Precis√£o * Revoca√ß√£o) / (Precis√£o + Revoca√ß√£o)
Exemplo:

Usando os valores dos exemplos anteriores (Precis√£o = 0.6 e Revoca√ß√£o = 0.75):

Medida-F = (2 * 0.6 * 0.75) / (0.6 + 0.75) = 0.9 / 1.35 ‚âà 0.67 ou 67%
Medida-E (E-Measure):

A Medida-E √© uma generaliza√ß√£o da Medida-F que permite ponderar a import√¢ncia da precis√£o e da revoca√ß√£o usando um par√¢metro Œ≤ (beta). A f√≥rmula √©:

Medida-E = 1 / ( (1 - Œ≤¬≤) / Precis√£o + Œ≤¬≤ / Revoca√ß√£o )
Quando Œ≤ = 1, a Medida-E √© igual √† Medida-F. Valores de Œ≤ > 1 d√£o mais peso √† revoca√ß√£o, enquanto valores de Œ≤ < 1 d√£o mais peso √† precis√£o.

Como aplicar essas m√©tricas ao seu script TF-IDF:

Crie um conjunto de dados de teste: Voc√™ precisa de um conjunto de consultas de exemplo e, para cada consulta, uma lista dos documentos relevantes (definidos manualmente ou usando um ground truth).
Execute as consultas no seu sistema TF-IDF: Para cada consulta do seu conjunto de teste, execute a busca usando o seu script TF-IDF e obtenha a lista de documentos recuperados.
Calcule as m√©tricas: Para cada consulta, compare os documentos recuperados com os documentos relevantes e calcule a Precis√£o, Revoca√ß√£o, Precis√£o-R e Medida-F.
Averigue os resultados: Calcule a m√©dia das m√©tricas para todas as consultas do seu conjunto de teste para ter uma avalia√ß√£o geral do desempenho do seu sistema.
Exemplo Pr√°tico (Conceitual):

Suponha que voc√™ tenha as seguintes informa√ß√µes para uma consulta "gatos pretos":

Documentos relevantes: {Doc1, Doc3, Doc5} (3 documentos)
Documentos recuperados pelo seu sistema: {Doc1, Doc2, Doc3, Doc6} (4 documentos)
C√°lculos:

Documentos recuperados e relevantes: {Doc1, Doc3} (2 documentos)
Precis√£o = 2 / 4 = 0.5 ou 50%
Revoca√ß√£o = 2 / 3 ‚âà 0.67 ou 67%
Precis√£o-R (R=3) = 2/3 ‚âà 0.67 ou 67% (considerando os 3 primeiros documentos retornados)
Medida-F = (2 * 0.5 * 0.67) / (0.5 + 0.67) ‚âà 0.57 ou 57%
Implementa√ß√£o em Python (Exemplo com dados fict√≠cios):

Para uma implementa√ß√£o real, voc√™ precisaria de um conjunto de dados de teste maior e possivelmente usar bibliotecas como scikit-learn para auxiliar no c√°lculo do TF-IDF, mas o conceito √© o mesmo.

Ao calcular e analisar essas m√©tricas, voc√™ poder√° entender melhor os pontos fortes e fracos do seu sistema de busca TF-IDF e fazer os ajustes necess√°rios para melhorar sua qualidade. Lembre-se que um bom sistema de busca busca um equil√≠brio entre precis√£o e revoca√ß√£o, e a Medida-F ajuda a avaliar esse equil√≠brio.