Este projeto foi desenvolvido por **Jonathan Candido** e **Raylander Frois** como parte da discplina de Tópicos Especiais em Computação e Algoritmos: Algoritmos de Organização e Recuperação de Informação do Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG). Seu objetivo é desenvolver uma máquina de busca para a Wikipédia Brasil e de Portugal. 

### Índice

Para acessar o índice gerado na execução da Máquina de Busca [clique aqui](https://pt.wikipedia.org/wiki/Stemiza%C3%A7%C3%A3o).

Para visualizar o índice gerado, baixe o arquivo disponibilizado,  instale a biblioteca pickle e utilize o código abaixo:

In [None]:
from index.indexer import *
from index.structure import *
import pickle

with open("index.idx", "rb") as idx_file:
    obj_index = FileIndex()
    t = obj_index.next_from_file(idx_file)

    while t != None:
        print(t)
        t = obj_index.next_from_file(idx_file)

### Discussão sobre a decisão de implementação adotada

**Quais foram os principais desafios e soluções?**

A solução implementada foi indexar cada termo em memória principal controlando o tamanho máximo de memória que poderia ser gasto durante o processo, para quando a indexação atingir o limite, os dados são exportados e salvos em memória secundária com uma estrutura de dicionário. Um desafio da solução implementada é a própria estrutura de dicionário, que por sua vez sua manipulação é mais complexa que, por exemplo, uma lista. Os testes demandaram bastante tempo, pois, o dataset continha bastante arquivos a serem indexados, gastando até mesmo horas para serem concluídos e calculados de tempo de indexação e memória RAM gastos.

**Qual é a vantagem/desvantagem das suas soluções sob as outras alternativas (por exemplo, uso do índice em memória principal vs. ocorrência de termos em memória secundária)?**

A grande vantagem da solução de gravar os termos na memória secundária é a capacidade de armazenamento de termos, pois isso depende apenas da quantidade de memória em disco que você possui, tornando o número de indexações muito maior. Porém o gasto computacional é o tempo para esta solução é enorme, pois o maior gargalo enfrentado nas máquinas é o acesso à memória secundária, além disso, todo arquivo que é salvo precisa ser ordenado. A indexação com uso do índice em memória principal, tem como sua maior vantagem a velocidade de execução, que se mostra bastante superior, pois todo o indexamento fica na memória ram que é extremamente rápida, entretanto é necessário uma abundante memória para que o algoritmo funcione. 
O custo de memória principal é muito maior que o custo da memória secundária, mas a velocidade de execução dos algoritmos em memória secundária é muito maior, tendo em vista estas duas afirmações é necessário entender a quantidade de arquivos a serem indexados para escolher qual abordagem utilizar.


**O que nós melhoramos no nosso código para diminuir o consumo de memória ou deixá-lo mais eficiente?**

Uma solução implementada para maior eficiência do indexador, foi aumentar o limite de ocorrência temporárias, que é  limite de termos atingidos para serem escritos em arquivo em memória secundária, uma vez que um problema de desempenho identificado foi o tempo de  escrita na memória secundária. Aumentando esse limite, o indexador irá acessar a memória secundária com menor frequência aumentando o desempenho. Entretanto, irá consumir mais memória RAM. Foi aumentado o limite de ocorrências de 1 milhão para 100 milhões.

**Quais são as bibliotecas externas utilizadas? Explique o funcionamento da técnica de stemming adotada.**

As bibliotecas externas utilizadas foram a `BeautifulSoup` e a biblioteca de processamento de linguagem natural `nltk`. Em morfologia linguística e recuperação de informação a stemização (do inglês, stemming) é o processo de reduzir palavras flexionadas (ou às vezes derivadas) ao seu tronco (stem), base ou raiz, geralmente uma forma da palavra escrita [[Wik.]](https://pt.wikipedia.org/wiki/Stemiza%C3%A7%C3%A3o), para otimizar a consulta em máquinas de busca. Por exemplo, os tokens  “gato”, “gata”, “gatos” e “gatas” reduziram-se para um mesmo steam  “gat”.

Processo de *stemming*:
- utilização da biblioteca `BeautifulSoup` para extração de todo o texto da página indexada;
- substituição dos caracteres acentuados `aáéíóúâêôçãẽõü` por sua correspondência sem acento `aeiouaeocaeou`;
- substituição dos caracteres especiais `!?.:;,` por espaço;
- identificação das *stopwords* com a utilização da biblioteca de processamento de linguagem natural `nltk` para a língua portuguesa.


**Qual foi a estrutura do índice utilizado?**

A estrutura do índice utilizado  foi um dicionário, onde a key é o termo e o valor é o número de ocorrências do termo.


**Quanto MB de ram a solução de índice gastou?**

A máquina utilizada para realizar os testes foi um MacBook Pro, que possui a seguinte configuração:
- Chip M1 da Apple com CPU de 8 núcleos, GPU de 8 núcleos e Neural Engine de 16 núcleos
- Memória Ram de 16 GB
- Armazenamento SSD de 256 GB¹

A memória utiliza nos testes foi de: 


**Em quanto tempo foi realizado a indexação? Qual foi a média por documento?**

O tempo total gasto para indexar todo dataset de 62128 arquivos foi de **2074,60 segundos**. A média por documento foi de **0.03339 segundos**.