# CKP8087 - Estrutura de Dados
<img  src="https://img.shields.io/badge/UFC_CKP8087-VAUX GOMES-000000?style=for-the-badge&logo=" /> <img src="https://img.shields.io/badge/Jupyter-000000?style=for-the-badge&logo=jupyter&logoColor=white" /> <img src="https://img.shields.io/badge/Python-000000?style=for-the-badge&logo=python&logoColor=white" /> 

### Bibliotecas principais

In [3]:
import pandas as pd
from app.module.tfidf import TFIDF

[nltk_data] Downloading package stopwords to /Users/vaux/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/vaux/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### Data

In [4]:
df = pd.read_csv('./app/files/documents.csv')
df = df.dropna().reset_index(drop=True)
df.shape

(269473, 1)

### TF-IDF

In [5]:
# Loading
tfidf = TFIDF('./app/data')
tfidf.load()

Vocabulário: 50136 palavras
Ocorrências: 50136 palavras


##### Sampling

In [6]:
documents = df.sample(frac=0.2, random_state=42).reset_index(drop=True)
documents.shape

(53895, 1)

In [7]:
documents.head()

Unnamed: 0,text
0,*Presidente do BNB anuncia redução de juros do...
1,https://g37.com.br/brasil/stf-cassa-decisao-qu...
2,"grupo de petralhas para invadir, e falar umas..."
3,*BRASIL: ARTHUR LIRA SURPREENDE E FALA EM LIMI...
4,"📰 *Eliziane Gama ataca STF: ""Indevida interfer..."


##### Populando TF-IDF Handler

In [8]:
# Config
force_load = False

# Adding
if force_load or len(tfidf.documents) == 0:
  for document_id, document in documents.iterrows():
    tfidf.add(document_id, document.text)

# Saving 
tfidf.save()

Nada para salvar!
Nada para salvar!


### Simulação de pesquisa

In [9]:
def search(w, all=False, top=5):
  scores = tfidf.tfidf(w, all=all)[:top] 
  
  for score, document_id in scores:
    print(score, document_id, documents.iloc[document_id].text)

In [10]:
search('lula', all=False, top=5)

2.522115859425745 85 *BRASIL: CONGRESSO DERRUBA NOVOS VETOS PRESIDENCIAIS DE LULA; ASSISTA*

https://www.pensandodireita.com/2023/10/brasil-congresso-derruba-movos-vetos.html?m=1
2.522115859425745 132 Lula corta R$ 19 milhões que seriam destinados à construção da ponte de Rodrigues Alves e investimentos na segurança pública do Acre - https://manciolimaemfoco.com.br/2023/10/19/lula-corta-r-19-milhoes-que-seriam-destinados-a-construcao-da-ponte-de-rodrigues-alves-e-investimentos-na-seguranca-publica-do-acre/
2.522115859425745 133 *Zelensky critica Lula: “Guerra é na Ucrânia, não no Brasil”*
https://pleno.news/mundo/zelensky-critica-lula-guerra-e-na-ucrania-nao-no-brasil.html?utm_source=whatsapp
2.522115859425745 137 Javier Milei diz em entrevista que Lula tem “vocação totalitária” https://terrabrasilnoticias.com/2023/09/javier-milei-diz-em-entrevista-que-lula-tem-vocacao-totalitaria
2.522115859425745 160 *RUI COSTA MINISTRO DO LULA FALANDO QUE AS DROGAS EMPREGAM MUITA GENTE ESSE DEVE REC

In [12]:
search('bolsonaro', all=True, top=5)

3.059298205035837 323 URGENTE !! BOLSONARO MANDA GRAVE RECADO PARA OS BRASILEIROS !! TUDO REVELADO...
Link: https://rumble.com/v3mhbyu-urgente-bolsonaro-manda-grave-recado-para-os-brasileiros-tudo-revelado....html
3.059298205035837 327 https://m.facebook.com/story.php?story_fbid=pfbid02oFmGy2m3e7EafVaRtUYqpeJAgqVF6WLvnkwZsvFG8GqiPXh8oNtMRLGBW1dujLHvl&id=100047642290865&sfnsn=wiwspwa&mibextid=RUbZ1f

Não seremos usados para atacar o Bolsonaro.

Afaste-se de todo e qualquer FALSO CENTRO ESPÍRITA de inimigos do Bolsonaro.

.
3.059298205035837 381 Bolsonaro vagabundo
3.059298205035837 425 *BRASIL: BOLSONARO APONTA OBJETIVO OBSCURO DE INQUÉRITO ENVOLVENDO LUCIANO HANG; ASSISTA*

https://www.pensandodireita.com/2023/10/brasil-bolsonaro-aponta-objetivo.html?m=1
3.059298205035837 442 Enquanto Luladrão se esconde com seus pares, Bolsonaro continua surfando
