## Especialização em Inteligência Artificial – IFMG
### Recuperação da Informação: Atividade 2: Coletor + Indexador

**Aluno**: Alexandre Fortes Santana  

**Professor**: Moisés Ramos

[Notebook: https://github.com/alexandrefortes/recuperacao-de-dados/blob/main/coletor.ipynb](https://github.com/alexandrefortes/recuperacao-de-dados/blob/main/coletor.ipynb)  

#### Escopo
- Coletar o conteúdo do portal da Efí Bank (https://sejaefi.com.br);
- Utilizar Scrapy;
- Para fins didáticos, ignorar contepudos da '/central-de-ajuda' e do /blog;
- Armazenar os dados em .json;
- Mecanismo para minimizar a sobrecarga no portal;
- A partir de todo o conteúdo coletado, implementar o indexador sob a abordagem de uma lista invertida (também chamada de índice invertido).
- Implementar uma forma de avaliar a força da palavra ao indexá-la na base de dados, ou seja, o quanto ela é rara na base, ou frequente em cada página, ou a relevância dela no conjunto de palavras de cada página, etc. 
- Implementar alguma forma para detectar a codificação das palavras e tratar isso durante a indexação (lembrando que essa forma de tratamento deve aparecer depois ao tratar as palavras de pesquisa).

#### Código

**Coletor para entrega do trabalho**: https://github.com/alexandrefortes/recuperacao-de-dados/tree/main/scrapy

In [None]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

In [15]:
import subprocess
import sys

def run_spider(spider_file):
    # Executa em um processo separado.
    
    cmd = [sys.executable, spider_file]
    
    # Executa o comando e espera até que o processo seja concluído
    process = subprocess.run(cmd, capture_output=True, text=True)
    
    # Imprime o output do processo
    print(process.stdout)
    
    # Verifica se ocorreu algum erro
    if process.stderr:
        print("Errores encontrados:")
        print(process.stderr)

run_spider('efi_crawl_spider.py')


Errores encontrados:
2024-04-02 20:36:03 [scrapy.utils.log] INFO: Scrapy 2.11.1 started (bot: scrapybot)
2024-04-02 20:36:03 [scrapy.utils.log] INFO: Versions: lxml 4.9.1.0, libxml2 2.10.4, cssselect 1.2.0, parsel 1.9.0, w3lib 2.1.2, Twisted 24.3.0, Python 3.8.19 (default, Mar 20 2024, 19:55:45) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 24.0.0 (OpenSSL 3.2.1 30 Jan 2024), cryptography 42.0.5, Platform Windows-10-10.0.22621-SP0
2024-04-02 20:36:03 [scrapy.addons] INFO: Enabled addons:
[]


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2024-04-02 20:36:03 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2024-04-02 20:36:03 [scrapy.extensions.telnet] INFO: Telnet Password: a8e0470550a54434
2024-04-02 20:36:03 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.exten

In [16]:
import json

# Carrega o arquivo JSON
with open('output-pipeline-completo.json', 'r', encoding='utf-8') as f:
    data = [json.loads(line) for line in f]

# Exibe os dados de forma amigável
for item in data:
    print("URL:", item['url'])
    print("Título:", item['title'])
    print("Título Principal:", item['main_title'])
    print("Descrição:", item['description'])
    print("Palavras-chave:", item['keywords'])
    print("Conteúdo:")
    for text in item['content']:
        print(text)
    print("-" * 80)

URL: https://sejaefi.com.br/lp/sistema-de-pagamento-para-provedores
Título: Efí
Título Principal: Efí Empresas:
Descrição: 
Palavras-chave: 
Conteúdo:
A Gerencianet agora se chama Efí.
Saiba mais!
Abra sua conta grátis
Efí Empresas:
a
conta PJ
com
sistema de pagamento
favorito de
+60% dos provedores de internet
do Brasil
Aproveite os
meios de pagamento
do mais alto nível,
automatize a emissão de cobranças em massa
e conte com ferramentas poderosas para uma
gestão financeira
descomplicada — da emissão ao recebimento.
Quero começar agora
Provedores
Cobranças em massa
Otimize o operacional emitindo
cobranças em massa
, sem complicações e de forma
automatizada
.
Pagamento identificado
Saiba que o seu
assinante pagou
antes mesmo do dinheiro cair e agilize o
religamento da internet
.
Régua de cobrança
Reduza a
inadimplência
com uma régua de cobrança automática que
cobra seus assinantes
por você.
Sistema de pagamento
Os
meios de pagamento
que seus assinantes querem e
seu provedor precisa
Otim

In [18]:
import json
from pprint import pprint

# Carrega o arquivo JSON
with open('tfidf_index.json', 'r', encoding='utf-8') as f:
    tfidf_index = json.load(f)

# Exibe o índice invertido TF-IDF de forma amigável
for doc_id, terms in tfidf_index.items():
    print(f"Documento ID: {doc_id}")
    pprint(terms)
    print("-" * 80)

Documento ID: https://sejaefi.com.br/lp/sistema-de-pagamento-para-provedores
{'Brasil': 0.0037370960556902238,
 'Erps': 0.016271107035316222,
 'Gere': 0.01432175555402697,
 'Internet': -0.005855561360926195,
 'abrir': -0.01324791991780752,
 'acer': 0.005707527336584398,
 'acompanhar': 0.002793412896342496,
 'adicione': 0.00658407328270918,
 'administre': 0.01098931718595031,
 'agilizar': 0.009606230299162901,
 'alto': 0.0017857417864912775,
 'ano': 0.0015208525394815244,
 'anuidade': 0.004742764377631748,
 'api': -0.009005313022509651,
 'aplicativo': -0.0023404362863563306,
 'aproveitar': 0.0023750889685077376,
 'arquivo': 0.010248208148319261,
 'arte': 0.016271107035316222,
 'assinante': 0.04803115149581451,
 'assinatura': 0.00251052587700147,
 'aumente': 0.009606230299162901,
 'automatizado': 0.01432175555402697,
 'automatizar': 0.0008289946170954184,
 'automático': -0.020351172945087353,
 'autorizar': 0.0014103260095550878,
 'baixo': 0.008533424763998432,
 'banco': -0.00416655829433