Nesta prática você irá implementar o indexador para, logo após, indexar o conteúdo da Wikipédia. Fizemos uma implementação inicial na qual o índice é composto pela classe abstrata `Index` que armazena a estrutura do índice e possui as operações básicas do mesmo. 

Iremos fazer duas implementações desse índice: o `HashIndex` que será um índice simples em memória principal e o `FileIndex` em que as ocorrências ficarão em memória secundária para possibilitar a indexação de uma quantidade maior de páginas. Assim, teremos os seguintes arquivos:

- `structure.py`: Possui toda a estrutura do índice;
- `index_structure_test.py`: Testa a estrutura do índice;
- `file_index_test.py`: Possui os testes unitários específicos para a indexação das ocorrencias em arquivos da classe `FileIndex`;
- `performance_test.py`: Executa um teste de performance (tempo de execução e memória utilizada) do índice;
- `indexer.py`: Possui as classes para o preprocessamento e preparação para a indexação;
- `indexer_test.py`: Realiza o [teste de integração](https://en.wikipedia.org/wiki/Integration_testing) da prática como um todo (inclusive as funções da indexer.py).

**Na entrega, não esqueça de apresentar a saída de execução de cada atividade desta tarefa.**

## Implementação da classe Abstrata `Index` e classe `HashIndex`

A classe `Index` é abstrata e possui os métodos para manipulação do indices além da estrutura do índice que é comum em todas as estruturas que ficará sempre em memória principal durante sua execução:

- `dic_index`:  dicionário em que a chave é o termo indexação (string, gerenciado por esta classe) e, os valores,  podem der de diferentes tipos - dependendo da subclasse;
- `set_documents`: conjunto de ids de documentos existentes. 

Teremos duas subclasses a `HashIndex` e a `FileIndex` que serão responsáveis pela implementação dos métodos e criação da estrutura - manipulando o valor do atributo `dic_index`. Os métodos e as demais classes deste arquivo serão discutidos ao longo das atividades. 

**Atividade 1 - método index da classe Index**: Este método está quase todo pronto e é reponsável por indexar um termo com sua frequencia e documento no índice, de acordo com uma de suas subclasses. Nesse método você deverá inicializar a variável `int_term_id` apropriadamente - substituindo os `None` correspondente: 

- **Caso o termo não exista no índice**, deverá obter o próximo term_id. Esse id pode ser sequencial - verificando o tamanho do vocabulário por meio do atributo `dict_index`. 
- **Caso esse termo seja encontrado**, a classe Index deverá chamar o método `get_term_id` (método abstrato da classe `Index` implementado pelas subclasses) para obtê-lo pois, dependendo da implementação, haverá uma forma diferente de obtenção. 

Logo após, você deverá atualizar o atributo `set_documents` apropriadamente com o novo documento encontrado. Para testar tanto esta atividade e a seguinte,  você deverá fazer uma das implementações dessa classe - a classe **HashIndex** - na atividade 3. 

**Atividade 2- atributos calculados da classe Index**: Por meio dos atributos existentes na classe `Index`, implemente os atributos calculados `document_count` e `vocabulary` da classe Index: 
- O atributo `document_count` retorna a quantidade de documentos existentes (inteiro); 
- `vocabulary` retorna uma lista com o vocabulário completo indexado (lista de string). 

**Atividade 3 - Implementação da classe HashIndex:** O HashIndex deverá fazer um índice em memória.

Como exemplo, caso tenhamos três documentos $d_1 = $"A casa verde é uma casa bonita", $d_2 = $"A casa bonita" e $d_3 =$"O prédio verde", caso não haja remoção de _stopwords_ nem acentos, o atributo `dic_index` deverá possuir a seguinte estrutura:

In [1]:
from index.structure import *
{"a": [TermOccurrence(1,1,1), TermOccurrence(2,1,1)],
 "casa": [TermOccurrence(1,2,2), TermOccurrence(2,2,1)],
 "verde": [TermOccurrence(1,3,1), TermOccurrence(3,3,1)],
 "é": [TermOccurrence(1,4,1)],
 "uma": [TermOccurrence(1,5,1)],
 "bonita": [TermOccurrence(1,6,1),TermOccurrence(2,6,1)],
 "o": [TermOccurrence(3,7,1)],
 "prédio": [TermOccurrence(3,8,1)]
}

{'a': [(term_id:1 doc: 1 freq: 1), (term_id:1 doc: 2 freq: 1)],
 'casa': [(term_id:2 doc: 1 freq: 2), (term_id:2 doc: 2 freq: 1)],
 'verde': [(term_id:3 doc: 1 freq: 1), (term_id:3 doc: 3 freq: 1)],
 'é': [(term_id:4 doc: 1 freq: 1)],
 'uma': [(term_id:5 doc: 1 freq: 1)],
 'bonita': [(term_id:6 doc: 1 freq: 1), (term_id:6 doc: 2 freq: 1)],
 'o': [(term_id:7 doc: 3 freq: 1)],
 'prédio': [(term_id:8 doc: 3 freq: 1)]}

Por simplicidade deste índice, perceba que deixamos o `term_id` de forma repetida. Iremos deixar assim, porém poderíamos retirar essa redundância para reduzir o consumo de memória. que deixamos o `term_id` de forma repetida. Iremos deixar assim, porém poderiamos retirar essa redundancia para reduzir o consumo de memória. Mesmo assim, lembre-se que, nesta prática, iremos implementar o índice em arquivo que irá ser melhor ainda na questão de consumo de memória ;)

O índice é chamado da seguinte forma — esse código só ira funcionar depois que você terminar esta atividade :):

In [None]:
from index.structure import *
index = HashIndex()
#indexação do documento 1
index.index("a",1,1)
index.index("casa",1,2)
index.index("verde",1,1)
index.index("é",1,1)
index.index("uma",1,1)
#indexação do documento 2
index.index("a",2,1)
index.index("casa",2,1)
index.index("bonita",2,1)

#indexação do documento 3
index.index("o",3,1)
index.index("prédio",3,1)
index.index("verde",3,1)

index.finish_indexing()

Note que o método `index` e `finish_indexing` são da classe abstrata, ou seja, funcionarão para qualquer estrutura de indice. A classe `Index` é que irá manter o dicinário com o vocabulário do índice e suas ocorrencias serão armazenadas de forma diferente, de acordo com a implementação das subclasses:
- A classe `HashIndex`, irá armazenar o indice e suas ocorrencias em memória principal 
- A classe `FileIndex` armazenará as ocorrências em arquivo, ambas subclasses de `Index`. 

O método `finish_indexing` é um método que não está implementado no `Index` e é implementado (opcionalmente) nas suas subclasses caso haja necessidade de fazer algo no final da indexação. Em nosso caso, apenas a classe `FileIndex` irá precisar.

Agora, você deverá implementar a classe HashIndex. Para isso, você deverá completar os métodos `create_index_entry` e `add_index_occur` que são bem simples. Esse métodos são responsáveis, respectivamente, por criar uma entrada no dicionário `dic_index` e adicionar mais uma ocorrencia nele.  Tais métodos foram criados para deixarmos em responsabilidade das subclasses a manipulação dessa nova entrada, pois, dependendo da estrutura do índice, ela será diferente. Implemente de acordo com a descrição abaixo e veja também o método `index` da classe `Index` para entender melhor como esses métodos são usados.
- `create_index_entry`: cria uma nova entrada no índice utilizando, se necessário, o id do termo passado como parâmetro - esse id não será necessário para a HashIndex. No caso dessa classe, a implementação deste método é **super simples** - apenas substitua o None por uma lista vazia;
- `add_index_occur`: Adiciona uma nova ocorrencia   neste índice. Você terá como entrada: o termo desta ocorrencia, o id do documento e frequencia do termo no documento. Você deverá instanciar um objeto da classe `TermOccurrence` substituindo o `None` apropriadamente. 


Faça os testes abaixo para garantir que a atividade atual e as duas anteriores foram implementadas corretamente. Nos primeiros dois testes, você ainda não verá a lista de ocorrências, pois o método para obtê-la será implementado a seguir. 

In [None]:
!python3 -m index.index_structure_test StructureTest.test_vocabulary

In [None]:
!python3 -m index.index_structure_test StructureTest.test_document_count

Agora, implemente o método `get_occurrence_list`: Retornará a lista de ocorrencias de um determinado termo. Considerando o exemplo apresentado no inicio desta atividade, `index.get_occurrence_list('casa')` retornará a lista `[TermOccurrence(1,2,2), TermOccurrence(2,2,1)]`. Caso um termo não exista, este método deverá retornar uma lista vazia. Logo após, execute o teste abaixo:

In [None]:
!python3 -m index.index_structure_test StructureTest.test_get_occurrence_list

Implemente o atributo calculado `document_count_with_term` que retorna a quantidade de documentos que possuem um determinado termo. Considerando o exemplo apresentado no inicio desta atividade, `index.document_count_with_term('casa')` retornará 2. Caso um termo não exista, este método deverá retornar zero. Logo após, execute o teste abaixo:

In [None]:
!python3 -m index.index_structure_test StructureTest.test_document_count_with_term

**Atividade 4 — métodos de comparação da classe TermOccurrence**: Eventualmente iremos precisar ordenar as ocorrências Por isso, temos que implementar os [comparadores de `__eq__` e `__lt__`](https://docs.python.org/3.7/reference/datamodel.html#object.__lt__) além de usar o _decorator_ [total_ordering](https://docs.python.org/3.7/library/functools.html#functools.total_ordering) - [veja também aqui](https://portingguide.readthedocs.io/en/latest/comparisons.html#rich-comparisons). O método `__eq__` retorna igual se um objeto é considerado igual ao outro. Considere que uma ocorrência é igual a outra se o id do termo dela e o id do documento forem iguais.

O comparador `<` é implementado pelo método `__lt__` que retorna verdadeiro se o objeto corrente `self` é menor que o objeto passado como parâmetro. A ocorrência deverá ser ordenada primeiramente pelo seu `term_id` e, logo após, pelo `doc_id`. Faça o exemplo abaixo para testar (não esqueça de reiniciar o Kernel quando modificar o código):

In [None]:
from index.structure import *
t1 = TermOccurrence(1,1,2)
t2 = TermOccurrence(3,1,2)
t3 = TermOccurrence(1,2,2)
t4 = TermOccurrence(2,2,2)
t5 = TermOccurrence(2,2,2)


print(f"Resultado obtido: {t1 == t5} - esperado: False")
print(f"Resultado obtido: {t4 == t5} - esperado: True")
print(f"Resultado obtido: {t1 != t1} - esperado: False")
print(f"Resultado obtido: {t1 is None} - esperado: False")
print(f"Resultado obtido: {t1 < t2} - esperado: True")
print(f"Resultado obtido: {t2 > t3} - esperado: False")
print(f"Resultado obtido: {t3 < t4} - esperado: True")
print(f"Resultado obtido: {t2 > t4} - esperado: False")
print(f"Resultado obtido: {t2 > None} - esperado: False")

Dessa forma, você implementou todos os métodos para indexação usando memória principal por meio da classe `HashIndex`. Abaixo, "brinque" com os métodos "index" e, logo após, testar o resultado dos métodos implementados (tanto de retornar uma lista de ocorrencia quanto de verificar a quantidade de documentos com um determinado termo). Dentre os termos a serem indexados, indexe os sete últimos digitos do número de matrícula de cada integrante do grupo. 

## Construção de índice usando arquivo

A construção de índice usando apenas memória principal é fácil de implementar e eficiente em termos de tempo de execução. Porém, quando precisamos de indexar milhões/bilhões de páginas, é muitas vezes inviável armazenarmos tudo em memória principal. 

Para resolver esse problema, uma solução é mantermos o vocabulário em memória principal e as ocorrências em memória secundária. Assim, teríamos o mesmo atributo `dic_index` na classe `Index`. Porém, cada entrada (termo) referenciará as ocorrencias em arquivo. Utilizando exemplo da `atividade 3`neste contexto, no final da indexação, o `dic_index` deve ficar da seguinte forma: 

In [None]:
{"a": TermFilePosition(term_id=1,  term_file_start_pos=0, doc_count_with_term=2), 
 "casa": TermFilePosition(2, 20, 2), 
 "verde": TermFilePosition(3, 40, 2),
 "é": TermFilePosition(4, 60, 1), 
 "uma": TermFilePosition(5, 70, 1), 
 "bonita": TermFilePosition(6, 80, 2), 
 "o": TermFilePosition(7, 100, 1), 
 "prédio": TermFilePosition(8, 110, 1), 
}




As ocorrências são ordenadas por termo e, logo após, por documento. Dessa forma, elas ficariam em um arquivo na seguinte ordem:

In [None]:
[TermOccurrence(1,1,1), 
 TermOccurrence(2,1,1), 
 TermOccurrence(1,2,2), 
 TermOccurrence(2,2,1),
 TermOccurrence(1,3,1), 
 TermOccurrence(3,3,1),
 TermOccurrence(1,4,1),
 TermOccurrence(1,5,1),
 TermOccurrence(1,6,1),
 TermOccurrence(2,6,1),
 TermOccurrence(3,7,1),
 TermOccurrence(3,8,1)]

Em que cada instância da classe `TermFilePosition` é a especificação da posição inicial de um `term_id` em um arquivo além de especificar também a quantidade de ocorrências desse termo. Essa posição inicial e quantidade são definidas nos atributos `term_file_start_pos` e `doc_count_with_term`, respetivamente. A posição inicial está em ‘bytes’ e, nesse exemplo, foi considerado que cada TermOcurrence possui 10 ‘bytes’. Assim, por exemplo, o termo casa (term_id=2) inicia-se na posição 20 e possui duas ocorrências. Com isso, é possível obter todas as ocorrências de um determinado termo.

Para deixarmos a estrutura dessa forma, temos um dificultador: no arquivo, temos que ordenar as ocorrencias pelo termo, porém, indexamos por documento. Assim, se gravássemos as ocorrências assim que indexarmos, as gravariamos agrupadas por documento (veja na atividade 3).

Assim, temos que garantir uma ordenação por termo do arquivo externo, lembrando que nem sempre é possível armazenar todo o arquivo em memória principal. Para resolvermos isso, faremos o seguinte:

- Sempre, ao indexar, salvaremos o indice em uma lista (temporária) de ocorrencia de termos `lst_occurrences_tmp`
- Usaremos o método `save_tmp_occurrences` para, assim que a lista estiver com um determinado tamanho, ordená-la pelo termo e salvar de formar ordenada em um novo arquivo de indice com a todas as ocorrencias. Para que seja feito isso, você deverá fazer uma ordenação externa lendo em consideração o índice em arquivo atual e a lista de ocorrencias temporárias. Veja a seguir o passo a passo geral da indexação. As proximas atividades irão te guiar para que seja implementado:
    - (1) ordene a lista `lst_occurrences_tmp`. Lembre-se que você implementou os comparadores das instâncias TermOccurrence, assim, a ordenação e descobrir o menor valor entre as ocorrencias é uma operação simples;
    - (2) criar um arquivo novo;
    - (3) compare a primeira posição da lista com a primeira posição do arquivo de índice, sempre inserindo a ocorrencia considerada com o menor entre elas no novo arquivo. Lembrando novamente que os comparadores foram implementados e que você possui os métodos `next_from_list` e `next_from_file` - que será implementado na atividade 5 para ajudar;
    - (4) esse novo arquivo passará a ser o índice. Exclua o indice antigo e limpe a lista de ocorrências `lst_occurrences_tmp`.
- O método `finish_indexing` é o método que será chamado ao finalizar a indexação. Neste contexto ele será usado para organizar o `dic_index`. Lembrando que, neste contexto, `dic_index` mapeia uma palavra (string) a uma instancia de `TermFilePosition`, este método irá atualizar  os atributos `term_file_start_pos` e `doc_count_with_term` de cada instancia  de `TermFilePosition` para os valores corretos, considerando que termo ele se refere no arquivo do índice.

Na primeira execução, não haverá arquivo e você adicionará a lista toda no arquivo de forma sequencial. Fazendo esse procedimento, você sempre irá garantir um arquivo ordenado da forma esperada.

**Atividade 5(a) — escrita e leitura das ocorrencias em arquivo:** Iremos necessitarda leitura e escrita de uma instância de `TermOccurrence` que está persistida em arquivo. Assim deveremos implementar o método de escrita em arquivo nessa classe. Para economizar espaço e por simplicidade, será escrito num arquivo binário armazenando os três atributos inteiros. Cada inteiro será armazenado em 4 ‘bytes’ — será o suficiente para a nossa indexação. Veja um exemplo abaixo de escrita, leitura e impressão do posicionamento no arquivo (esses métodos serão úteis nessa atividade).

In [1]:
x = 100
with open("xuxu.idx","wb") as file:
    print(file.tell())
    file.write(x.to_bytes(4,byteorder="big"))
    print(file.tell())
with open("xuxu.idx","rb") as file:
    print(f"número: {int.from_bytes(file.read(4),byteorder='big')}")

0
4
número: 100


Dessa forma, implemente: 

- o método `write` da classe `TermOccurence` responsável por gravar os atributos `doc_id`, `term_id` e `term_freq` do objeto corrente.
- complete o método `next_from_file` da classe `FileIndex`. Este método já possui um arquivo aberto e você deverá ler o próximo objeto da classe `TermOccurence` que foi escrito neste arquivo pelo método `write` implementado acima. Caso não haja mais ocorrencia, é retornado `None`.

In [None]:
!python3 -m index.file_index_test FileIndexTest.test_next_from_file

**Atividade 5 (b) - leitura e obtenção do próximo elemento da lista**: Conforme dito, iremos usar uma lista de ocorrencias em memória principal para, logo após, armazenar cada ocorrência, de forma ordenada em arquivo. Essa lista de ocorrencia é o atributo `lst_occurrences_tmp`. Dessa forma, temos que implementar os métodos da classe `FileIndex`:

- `create_index_entry`: instancia um elemento da classe `FilePosition` com o seu respectivo id do termo, passado como parâmetro
- `add_index_occur`: Cria e adiciona uma nova ocorrência na lista de ocorrencias temporárias `lst_occurrences_tmp` e, caso senha passado o limite `FileIndex.TMP_OCCURRENCES_LIMIT` do número máximo de ocorrencias na lista, chamar o método `save_tmp_occurrence` (ainda será implementado). 
- `next_from_list`: Retorna o primeiro elemento da lista, eliminando-o da lista. Caso não exista, retorna `None`. Este método é útil para obter o menor elemento da lista, quando a mesma estiver ordenada de forma crescente (o que irá ocorrer em `save_tmp_occurences`). 

Poderíamos implementar esses dois métodos de forma simples utilizando as funções `append` e `pop` da lista. Porém, a complexidade de tempo no pior caso no `append` é O(N) em tempo e espaço (quando o tamanho da lista exceder o tamanho anteriormente alocado) e o `pop` a complexidade de tempo é O(N) para retirar o primeiro elemento da lista. Dessa forma, como iremos fazer uma lista com 1 milhão de ocorrêcias que irão ser modificados constantemente, essas operações seriam muito custoas. 

Uma das soluções para contornar esse problema é utilizamos uma lista fixa de  tamanho `TMP_OCCURRENCES_LIMIT` e variáveis auxiliares para indicar o início e fim da lista. Dessa forma, nesta classe, possuímos os atributos `idx_tmp_occur_first_element` e `idx_tmp_occur_last_element` para indicar a posição do primeiro e ultimo item válido na lista. A lista será inicializada no construtor com `TMP_OCCURRENCES_LIMIT` instancias `None`. A inicialização desses atributos já foi implementada no construtor. Implementamos o método `get_tmp_occur_size` para obter o tamanho dessa lista. Como alternativa a essa solucação, poderiamos usar uma [lista encadeada (deque)](https://docs.python.org/3/library/collections.html#collections.deque). Mas, nessa atividade, você não poderia fazer com a lista encadeada apenas porque os testes automatizados não funcionariam ;-). Complete a implementação dos métodos `add_index_occur` e o método `next_from_list` apropriadamente.

In [None]:
!python3 -m index.file_index_test FileIndexTest.test_next_from_list

**Atividade 6 - método save_tmp_occurrences:** Implemente o método `save_tmp_occurrences`. Esse método deverá fazer a junção do índice atual e a lista `lst_occurrences_tmp` em novo arquivo de índice de forma ordenada, conforme explicado anteriormente no início desta seção. Neste método, você não precisa preocupar com o atributo `dic_index`. Além da lista, leve em consideração os seguintes atributos/métodos:

- `idx_file_counter`:  No código, você irá criar sempre novos indices, excluindo o antigo. Este atributo será útil para definirmos o nome do arquivo do índice. O novo arquivo do índice chamará `occur_index_X` em que $X$ é o número do mesmo. 
- `str_idx_file_name`: Atributo que armazena o arquivo índice atual. A primeira vez que executarmos `save_tmp_occurrences` não haverá arquivo criado e, assim `str_idx_file_name = None`
- `next_from_file` e `next_from_list`: implementados na atividade anterior, para obter o próximo item do arquivo ou da lista. Lembre-se que a lista deve estar ordenda antes de juntar a lista e o arquivo de indice atual em um novo arquivo. 

Execute o teste unitário abaixo para verificar corretude deste código:

In [None]:
!python3 -m index.file_index_test FileIndexTest.test_save_tmp_occurrences

**Atividade 7: método finish_indexing:** Para que o `dic_index` encontre as ocorrencias no arquivo, para cada termo, é mapeado o `TermFilePosition` correspondente. Agora, com as ocorrências organizadas no arquivo por termo, você deverá implementar o método `finish_indexing` para atualizar o atributo `dic_index` colocando, para cada instancia de `TermFilePosition` a posição inicial e quantidade de documentos de cada termo`. Logo após, execute o teste unitário abaixo.

In [None]:
!python3 -m index.file_index_test FileIndexTest.test_finish_indexing

**Atividade 8 - implementação em `FileIndex` dos métodos abstratos da classe Index:** Como vocês perceberam, `FileIndex` é subclasse de `Index`. Assim,  precisamos implementar os métodos abstratos da classe `Index`:

- `create_index_entry`: no `FileIndex` para criar uma nova entrada no índice, você deverá retornar uma instancia de `TermFilePosition` para este novo `term_id`. Ao criá-lo, você não precisa de definir a posição inicial do arquivo nem a quantidade de documentos. Conforme vocês implementaram nas atividades anteriores, isso é feito apenas no momento de finalização da indexação;
- `get_occurrence_list` e `document_count_with_term`: Possuem as mesmas funcionalidades descritas na atividade 3, porém, agora você deverá considerar a estrutura criada no `FileIndex`. Lembrem-se que esse método é só chamado após a finalização da indexação, assim, considere que o índice já está pronto.

**Atividade 9 - Teste unitário** Dessa vez, você deverá alterar uma classe de teste unitário para conseguir executá-la. 

Agora iremos testar os métodos get_occurrence_list e document_count_with_term. Lembre-se que já temos um teste unitário para isso, porém ele testa a estrutura de um `HashIndex`. Neste caso, iremos apenas mudar a estrutura, mas os métodos serão o mesmo, por isso, conseguiremos reaproveitar o teste feito anteriormente criando apenas uma nova classe de teste. 

Implementando este teste, você perceberá como é lindo usar orientação objetos ao seu favor 🥰. No arquivo `index_structure_test.py` você possui a classe `FileStructureTest` que é subclasse de nosso teste criado `StructureTest`.  Você deverá implementar o método `setUp` na classe `FileStructureTest` que sobrepõe o método de mesmo nome na classe `StructureTest`. O método `setUp` é executado sempre antes do teste. Este método que você irá criar irá fazer exatamente a mesma coisa que o criado em `StructureTest` porém, você deverá instanciar um `FileIndex` ao invés de um `HashIndex`. Logo após, execute os testes:

In [None]:
!python3 -m index.index_structure_test  FileStructureTest.test_document_count_with_term

In [None]:
!python3 -m index.index_structure_test  FileStructureTest.test_get_occurrence_list

De forma similar, também criamos um teste de desempenho. Verifique o desempenho da indexação em arquivo e em memória ao indexar milhões de ocorrências de termos utilizando os testes abaixo. Note que, desta vez, estamos chamando os testes por comandos Python e não pelo terminal e estamos fazendo testes de memória. Dessa forma, você deve reiniciar o kernel sempre antes de executar cada um dos dois testes abaixo.

- Índice completamente em memória principal:

In [None]:
import unittest
from index.performance_test import PerformanceTest

PerformanceTest.NUM_DOCS = 250
PerformanceTest.NUM_TERM_PER_DOC = 1000

suite = unittest.TestLoader().loadTestsFromTestCase(PerformanceTest)
unittest.TextTestRunner(verbosity=2).run(suite)

- Índice com ocorrências em memória secundária. Veja que, abaixo, que você pode ajustar o parâmetro de número de ocorrências em memória. Será muito útil para não gastar tanto tempo ao indexar o conteúdo da Wikipédia. **Reinicie o kernel antes de executar.**

In [None]:
import unittest
from index.performance_test import FilePerformanceTest,PerformanceTest
from index.structure import FileIndex

PerformanceTest.NUM_DOCS = 250
PerformanceTest.NUM_TERM_PER_DOC = 1000
FileIndex.TMP_OCCURRENCES_LIMIT = 100000

suite = unittest.TestLoader().loadTestsFromTestCase(FilePerformanceTest)
unittest.TextTestRunner(verbosity=2).run(suite)

Logo após executado este teste, você deverá usar a biblioteca [JSON](https://docs.python.org/3/library/json.html) ou [Pickle](https://docs.python.org/3/library/pickle.html) para armazenar o vocabulário. Com isso, crie um método de leitura do FileIndex e do HashIndex e de escrita. O método de leitura deverá ser um método estatico que retorna um objeto da classe indice previamente criado.

**Atividade 10 - Gravação do índice (completo) em memória secundária:** Use o [pickle](https://docs.python.org/3/library/pickle.html) e implemente o método write da classe `Index` que grava o índice em memória secundária e o método estático `read`, que lê o índice em arquivo e o retorna. A seguir, execute os testes para leitura e escrita tanto usando o `FileIndex` quanto o `HashIndex`.

In [None]:
!python3 -m index.index_structure_test StructureTest.test_read_write

In [None]:
!python3 -m index.index_structure_test FileStructureTest.test_read_write

## Indexador de HTML 

Agora, você irá alterar o arquivo `indexer.py` para [preprocessar conteúdo HTML](https://docs.google.com/presentation/d/1C22jQWIYobiqMx8SmP1y2lr1uSlvJSu3ayu5lXC5d8A/edit?usp=sharing) e depois indexá-lo. Com isso, você poderá usá-lo para indexação das páginas HTML, como os da Wikipédia. A classe `Cleaner` será responsável pelo preprocessamento e a HTMLIndexer, para a indexação.

In [None]:
from index.indexer import *
#importamos o módulo structure
#novamente para não precisar de executar o código do início da tarefa
from index.structure import *
#Fazemos o download do módulo nlkt para a questão 12
import nltk
nltk.download('punkt')

**Atividade 11 - Limpeza dos dados com a classe Cleaner:** A classe `Cleaner` é responsável por preprocessar o conteúdo HTML para que ele esteja preparado para indexação. Essa classe tem alguns _flags_ para definir se algum tipo de processamento opcional será feito (por exemplo, _stemming_ e remoção de _stopwords_). Para isso, você deverá implementar pequenos métodos para fazer a limpeza. Esses códigos são pequenos pois temos lindas APIs para nos ajudar 💕. Você irá fazer o processamento básico e, se quiser, pode melhorar a implementação criando exceções na remoção de acentos e não retirando maiúsculas e minúsculas de certas palavras e unindo palavras compostas, por exemplo.

Para cada tarefa, há um método para ser criado a seguir os testes iniciais serão feitos aqui no Jupyter. Não esqueça de reiniciar o kernel sempre que alterar algo no código. Logo após, haverá um [teste de integração](https://en.wikipedia.org/wiki/Integration_testing) para avaliar a indexação como um todo.

- **Transformação de HTML para texto:** Na limpeza dos dados, iremos remover tudo que não será indexado — ou seja, o código HTML. Para isso, iremos implementar o método `html_to_plain_text` que transformará o HTML em texto corrido. Você pode utilizar o [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) para isso e o método get_text.

In [None]:
cleaner_test = Cleaner(stop_words_file="stopwords.txt",
                        language="portuguese",
                        perform_stop_words_removal=True,
                        perform_accents_removal=True,
                        perform_stemming=True)
cleaner_test.html_to_plain_text("&copy; oi! Meu nome é <strong>Hasan</strong>")
#esperado: '© oi! Meu nome é Hasan'

- **Verifica se é stopword**: O método `is_stopword` retorna verdadeiro se uma palavra, passada como parâmetro, é stopword. Para isso, você irá usar o atributo `set_stop_words`. Este atributo foi inicializado com um conjunto de stopwords de um arquivo. Esse arquivo, para testes, tem poucas stopwords.
    

In [None]:
print(f"{cleaner_test.is_stop_word('japão')}, esperado: False")
print(f"{cleaner_test.is_stop_word('cama')}, esperado: False")
print(f"{cleaner_test.is_stop_word('é')}, esperado: True")


- **Stemming**: você deverá implementar o método word_stem para ralizar o stemming. Você deverá usar a [classe SnowballStemmer da API NLTK](https://www.nltk.org/howto/stem.html). Um objeto dessa classe já está instanciado no atributo `stemmer`. 

In [None]:
print(f"{cleaner_test.word_stem('verdade')}, esperado: verdad")
print(f"{cleaner_test.word_stem('estudante')}, esperado: estud")
print(f"{cleaner_test.word_stem('amado')}, esperado: amad")


- **Remoção de acentos:** Iremos fazer de uma forma bem simples a remoção de acentos: aplicando uma tabela de substituição de caracteres. Para isso, você deverá criar uma [tabela de tradução](https://docs.python.org/3.3/library/stdtypes.html?highlight=maketrans#str.maketrans) no atributo `accents_translation_table` baseando-se nas variáveis `in_table` e `out_table` também presentes no construtor (substitua o None).

In [None]:
print(f"{cleaner_test.remove_accents('canção')}, esperado: cancao")
print(f"{cleaner_test.remove_accents('elétrico')}, esperado: eletrico")
print(f"{cleaner_test.remove_accents('amado')}, esperado: amado")


Agora você irá fazer o método `preprocess_word` e o `preprocess_text`:

- o `preprocess_text` receberá o texto "limpo" (já sem código html), irá converter tudo para minuscula e remover acentos
- o `preprocess_word` irá receber como parametro uma palavra e irá verificar se é uma palavra válida de ser indexada. Uma palavra válida a ser indexada é aquela que não é pontuação e não é stopword (caso `perform_stop_words_removal = True`). Caso não seja válida, retornará None. Caso contrário, irá retornar a palavra preprocessada. Para que seja feito o preprocessamento você deverá: fazer o stemming (se `perform_stemming = True`) - neste exemplo. 

**Atividade 13 — Classe HTMLIndexer — método text_word_count:** Você deverá implementar o método `text_word_count`, a partir de um texto. Esse método retorna um dicionário em que, para cada palavra no texto, será apresentado sua frequência. Considere que o texto já está limpo e é necessário fazer apenas o processamento das palavras.

Para isso, você deverá: dividir o texto em tokens (que, no nosso caso, são as palavras e pontuações); pré-processar cada palavra usando o `HTMLIndexer.cleaner`; e, se for uma palavra válida, contabilizá-la. Para isso, será necessário [o método word_tokenize da API NLTK](https://kite.com/python/docs/nltk.word_tokenize)

In [6]:
index = HashIndex()
indexador_teste = HTMLIndexer(index)
indexador_teste.text_word_count("Olá! Qual é o dado dado que precisa?")
#esperado:
#{'dad': 2, 'o': 1, 'ola': 1, 'precis': 1, 'qual': 1, 'que': 1}

{}

**Atividade 14 — método index_text:** Implemente o método `index_text` que deverá (1) converter o HTML para texto simples usando `HTMLIndexer.cleaner`; (2) converter o texto em um dicionário de ocorrencias de palavras com sua frequencia (metodo da atividade 13); (3) indexar cada palavra deste dicionário; e (4) no final da execução, não esqueça de executar o método `finish_indexing` do índice.

In [None]:

index = HashIndex()
indexador_teste = HTMLIndexer(index)
#o HTML está mal formado de propósito ;)
indexador_teste.index_text(10,"<strong>Ol&aacute;! </str> Quais são os dados que precisará?")

indexador_teste.index.dic_index

Esperado:
<pre>
{'dad': [(term_id:4 doc: 10 freq: 1)],
 'ola': [(term_id:0 doc: 10 freq: 1)],
 'os': [(term_id:3 doc: 10 freq: 1)],
 'precis': [(term_id:6 doc: 10 freq: 1)],
'qua': [(term_id:1 doc: 10 freq: 1)],
 'que': [(term_id:5 doc: 10 freq: 1)],
 'sao': [(term_id:2 doc: 10 freq: 1)]}
</pre>

**Atividade 15: Indexação de um diretório com subdiretórios** Você deverá implementar o método `index_text_dir` que, dado um diretório, navega em todos os seus subdiretórios e indexa todos os arquivos HTMLs. Considere que os arquivos sejam sempre nomeados pelo seu ID. Veja o exemplo em `doc_test`. Logo após, execute o teste unitário para ver a corretude do seu indexador.

In [None]:
!python3 -m index.indexer_test IndexerTest.test_indexer

**Atividade 16 indexação dos artigos da Wikipedia:** Você deverá indexar todos os artigos da Wikipédia que estão [neste repositório](https://github.com/daniel-hasan/ri-tp-wiki-data/archive/refs/heads/master.zip) e logo após, salve esse índice. Você usará ele para a próxima etapa do projeto, o processamento de consultas. 

Como são dezenas de milhares de artigos, é uma tarefa que consome muita memória e **irá demorar horas**. Dessa forma, use o arquivo python `wikipedia_index.py` e execute esse arquivo no terminal. Salve esse indice como `wiki.idx`. Logo após, execute o teste abaixo que irá ler este índice e verificar se os documentos foram salvos.

Nesse indice, para passar nos testes, use a configuração do `Cleaner` definida no `wikipedia_index.py`. Logo após, você pode criar outros índices. Inclusive, para a proxima etapa do projeto, aconselho que você teste diversos preprocessamentos, inclusive, você deve também achar um arquivo de stopwords com mais termos aos que feito neste teste. 

Você pode escolher entre o HashIndex ou FileIndex para indexar, lembrando que o HashIndex consume muito mais memória principal.  

In [None]:
!python3 -m index.indexer_test IndexerTest.test_wiki_idx

Para a construção do relatorio, veja a especificação sobre o [guia para construção do relatório](https://docs.google.com/document/d/1spwD-rzJi3xHV8p5cIAmjSHyVEzytChuBTnEDwBaDNQ/edit#heading=h.omnow1961go).