Nesta pr√°tica voc√™ ir√° implementar o indexador para, logo ap√≥s, indexar o conte√∫do da Wikip√©dia. Fizemos uma implementa√ß√£o inicial na qual o √≠ndice √© composto pela classe abstrata `Index` que armazena a estrutura do √≠ndice e possui as opera√ß√µes b√°sicas do mesmo. 

Iremos fazer duas implementa√ß√µes desse √≠ndice: o `HashIndex` que ser√° um √≠ndice simples em mem√≥ria principal e o `FileIndex` em que as ocorr√™ncias ficar√£o em mem√≥ria secund√°ria para possibilitar a indexa√ß√£o de uma quantidade maior de p√°ginas. Assim, teremos os seguintes arquivos:

- `structure.py`: Possui toda a estrutura do √≠ndice;
- `index_structure_test.py`: Testa a estrutura do √≠ndice;
- `file_index_test.py`: Possui os testes unit√°rios espec√≠ficos para a indexa√ß√£o das ocorrencias em arquivos da classe `FileIndex`;
- `performance_test.py`: Executa um teste de performance (tempo de execu√ß√£o e mem√≥ria utilizada) do √≠ndice;
- `indexer.py`: Possui as classes para o preprocessamento e prepara√ß√£o para a indexa√ß√£o;
- `indexer_test.py`: Realiza o [teste de integra√ß√£o](https://en.wikipedia.org/wiki/Integration_testing) da pr√°tica como um todo (inclusive as fun√ß√µes da indexer.py).

**Na entrega, n√£o esque√ßa de apresentar a sa√≠da de execu√ß√£o de cada atividade desta tarefa.**

## Implementa√ß√£o da classe Abstrata `Index` e classe `HashIndex`

A classe `Index` √© abstrata e possui os m√©todos para manipula√ß√£o do indices al√©m da estrutura do √≠ndice que √© comum em todas as estruturas que ficar√° sempre em mem√≥ria principal durante sua execu√ß√£o:

- `dic_index`:  dicion√°rio em que a chave √© o termo indexa√ß√£o (string, gerenciado por esta classe) e, os valores,  podem der de diferentes tipos - dependendo da subclasse;
- `set_documents`: conjunto de ids de documentos existentes. 

Teremos duas subclasses a `HashIndex` e a `FileIndex` que ser√£o respons√°veis pela implementa√ß√£o dos m√©todos e cria√ß√£o da estrutura - manipulando o valor do atributo `dic_index`. Os m√©todos e as demais classes deste arquivo ser√£o discutidos ao longo das atividades. 

**Atividade 1 - m√©todo index da classe Index**: Este m√©todo est√° quase todo pronto e √© repons√°vel por indexar um termo com sua frequencia e documento no √≠ndice, de acordo com uma de suas subclasses. Nesse m√©todo voc√™ dever√° inicializar a vari√°vel `int_term_id` apropriadamente - substituindo os `None` correspondente: 

- **Caso o termo n√£o exista no √≠ndice**, dever√° obter o pr√≥ximo term_id. Esse id pode ser sequencial - verificando o tamanho do vocabul√°rio por meio do atributo `dict_index`. 
- **Caso esse termo seja encontrado**, a classe Index dever√° chamar o m√©todo `get_term_id` (m√©todo abstrato da classe `Index` implementado pelas subclasses) para obt√™-lo pois, dependendo da implementa√ß√£o, haver√° uma forma diferente de obten√ß√£o. 

Logo ap√≥s, voc√™ dever√° atualizar o atributo `set_documents` apropriadamente com o novo documento encontrado. Para testar tanto esta atividade e a seguinte,  voc√™ dever√° fazer uma das implementa√ß√µes dessa classe - a classe **HashIndex** - na atividade 3. 

**Atividade 2- atributos calculados da classe Index**: Por meio dos atributos existentes na classe `Index`, implemente os atributos calculados `document_count` e `vocabulary` da classe Index: 
- O atributo `document_count` retorna a quantidade de documentos existentes (inteiro); 
- `vocabulary` retorna uma lista com o vocabul√°rio completo indexado (lista de string). 

**Atividade 3 - Implementa√ß√£o da classe HashIndex:** O HashIndex dever√° fazer um √≠ndice em mem√≥ria.

Como exemplo, caso tenhamos tr√™s documentos $d_1 = $"A casa verde √© uma casa bonita", $d_2 = $"A casa bonita" e $d_3 =$"O pr√©dio verde", caso n√£o haja remo√ß√£o de _stopwords_ nem acentos, o atributo `dic_index` dever√° possuir a seguinte estrutura:

In [1]:
from index.structure import *
{"a": [TermOccurrence(1,1,1), TermOccurrence(2,1,1)],
 "casa": [TermOccurrence(1,2,2), TermOccurrence(2,2,1)],
 "verde": [TermOccurrence(1,3,1), TermOccurrence(3,3,1)],
 "√©": [TermOccurrence(1,4,1)],
 "uma": [TermOccurrence(1,5,1)],
 "bonita": [TermOccurrence(1,6,1),TermOccurrence(2,6,1)],
 "o": [TermOccurrence(3,7,1)],
 "pr√©dio": [TermOccurrence(3,8,1)]
}

{'a': [(term_id:1 doc: 1 freq: 1), (term_id:1 doc: 2 freq: 1)],
 'casa': [(term_id:2 doc: 1 freq: 2), (term_id:2 doc: 2 freq: 1)],
 'verde': [(term_id:3 doc: 1 freq: 1), (term_id:3 doc: 3 freq: 1)],
 '√©': [(term_id:4 doc: 1 freq: 1)],
 'uma': [(term_id:5 doc: 1 freq: 1)],
 'bonita': [(term_id:6 doc: 1 freq: 1), (term_id:6 doc: 2 freq: 1)],
 'o': [(term_id:7 doc: 3 freq: 1)],
 'pr√©dio': [(term_id:8 doc: 3 freq: 1)]}

Por simplicidade deste √≠ndice, perceba que deixamos o `term_id` de forma repetida. Iremos deixar assim, por√©m poder√≠amos retirar essa redund√¢ncia para reduzir o consumo de mem√≥ria. que deixamos o `term_id` de forma repetida. Iremos deixar assim, por√©m poderiamos retirar essa redundancia para reduzir o consumo de mem√≥ria. Mesmo assim, lembre-se que, nesta pr√°tica, iremos implementar o √≠ndice em arquivo que ir√° ser melhor ainda na quest√£o de consumo de mem√≥ria ;)

O √≠ndice √© chamado da seguinte forma ‚Äî esse c√≥digo s√≥ ira funcionar depois que voc√™ terminar esta atividade :):

In [None]:
index = HashIndex()
#indexa√ß√£o do documento 1
index.index("a",1,1)
index.index("casa",1,2)
index.index("verde",1,1)
index.index("√©",1,1)
index.index("uma",1,1)
#indexa√ß√£o do documento 2
index.index("a",2,1)
index.index("casa",2,1)
index.index("bonita",2,1)

#indexa√ß√£o do documento 3
index.index("o",3,1)
index.index("pr√©dio",3,1)
index.index("verde",3,1)

index.finish_indexing()

Note que o m√©todo `index` e `finish_indexing` s√£o da classe abstrata, ou seja, funcionar√£o para qualquer estrutura de indice. A classe `Index` √© que ir√° manter o dicin√°rio com o vocabul√°rio do √≠ndice e suas ocorrencias ser√£o armazenadas de forma diferente, de acordo com a implementa√ß√£o das subclasses:
- A classe `HashIndex`, ir√° armazenar o indice e suas ocorrencias em mem√≥ria principal 
- A classe `FileIndex` armazenar√° as ocorr√™ncias em arquivo, ambas subclasses de `Index`. 

O m√©todo `finish_indexing` √© um m√©todo que n√£o est√° implementado no `Index` e √© implementado (opcionalmente) nas suas subclasses caso haja necessidade de fazer algo no final da indexa√ß√£o. Em nosso caso, apenas a classe `FileIndex` ir√° precisar.

Agora, voc√™ dever√° implementar a classe HashIndex. Para isso, voc√™ dever√° completar os m√©todos `create_index_entry` e `add_index_occur` que s√£o bem simples. Esse m√©todos s√£o respons√°veis, respectivamente, por criar uma entrada no dicion√°rio `dic_index` e adicionar mais uma ocorrencia nele.  Tais m√©todos foram criados para deixarmos em responsabilidade das subclasses a manipula√ß√£o dessa nova entrada, pois, dependendo da estrutura do √≠ndice, ela ser√° diferente. Implemente de acordo com a descri√ß√£o abaixo e veja tamb√©m o m√©todo `index` da classe `Index` para entender melhor como esses m√©todos s√£o usados.
- `create_index_entry`: cria uma nova entrada no √≠ndice utilizando, se necess√°rio, o id do termo passado como par√¢metro - esse id n√£o ser√° necess√°rio para a HashIndex. No caso dessa classe, a implementa√ß√£o deste m√©todo √© **super simples** - apenas substitua o None por uma lista vazia;
- `add_index_occur`: Adiciona uma nova ocorrencia   neste √≠ndice. Voc√™ ter√° como entrada: o termo desta ocorrencia, o id do documento e frequencia do termo no documento. Voc√™ dever√° instanciar um objeto da classe `TermOccurrence` substituindo o `None` apropriadamente. 


Fa√ßa os testes abaixo para garantir que a atividade atual e as duas anteriores foram implementadas corretamente. Nos primeiros dois testes, voc√™ ainda n√£o ver√° a lista de ocorr√™ncias, pois o m√©todo para obt√™-la ser√° implementado a seguir. 

In [None]:
!python3 -m index.index_structure_test StructureTest.test_vocabulary

In [None]:
!python3 -m index.index_structure_test StructureTest.test_document_count

Agora, implemente o m√©todo `get_occurrence_list`: Retornar√° a lista de ocorrencias de um determinado termo. Considerando o exemplo apresentado no inicio desta atividade, `index.get_occurrence_list('casa')` retornar√° a lista `[TermOccurrence(1,2,2), TermOccurrence(2,2,1)]`. Caso um termo n√£o exista, este m√©todo dever√° retornar uma lista vazia. Logo ap√≥s, execute o teste abaixo:

In [None]:
!python3 -m index.index_structure_test StructureTest.test_get_occurrence_list

Implemente o atributo calculado `document_count_with_term` que retorna a quantidade de documentos que possuem um determinado termo. Considerando o exemplo apresentado no inicio desta atividade, `index.document_count_with_term('casa')` retornar√° 2. Caso um termo n√£o exista, este m√©todo dever√° retornar zero. Logo ap√≥s, execute o teste abaixo:

In [None]:
!python3 -m index.index_structure_test StructureTest.test_document_count_with_term

**Atividade 4 ‚Äî m√©todos de compara√ß√£o da classe TermOccurrence**: Eventualmente iremos precisar ordenar as ocorr√™ncias Por isso, temos que implementar os [comparadores de `__eq__` e `__lt__`](https://docs.python.org/3.7/reference/datamodel.html#object.__lt__) al√©m de usar o _decorator_ [total_ordering](https://docs.python.org/3.7/library/functools.html#functools.total_ordering) - [veja tamb√©m aqui](https://portingguide.readthedocs.io/en/latest/comparisons.html#rich-comparisons). O m√©todo `__eq__` retorna igual se um objeto √© considerado igual ao outro. Considere que uma ocorr√™ncia √© igual a outra se o id do termo dela e o id do documento forem iguais.

O comparador `<` √© implementado pelo m√©todo `__lt__` que retorna verdadeiro se o objeto corrente `self` √© menor que o objeto passado como par√¢metro. A ocorr√™ncia dever√° ser ordenada primeiramente pelo seu `term_id` e, logo ap√≥s, pelo `doc_id`. Fa√ßa o exemplo abaixo para testar (n√£o esque√ßa de reiniciar o Kernel quando modificar o c√≥digo):

In [None]:
from index.structure import *
t1 = TermOccurrence(1,1,2)
t2 = TermOccurrence(3,1,2)
t3 = TermOccurrence(1,2,2)
t4 = TermOccurrence(2,2,2)
t5 = TermOccurrence(2,2,2)


print(f"Resultado obtido: {t1 == t5} - esperado: False")
print(f"Resultado obtido: {t4 == t5} - esperado: True")
print(f"Resultado obtido: {t1 != t1} - esperado: False")
print(f"Resultado obtido: {t1 is None} - esperado: False")
print(f"Resultado obtido: {t1 < t2} - esperado: True")
print(f"Resultado obtido: {t2 > t3} - esperado: False")
print(f"Resultado obtido: {t3 < t4} - esperado: True")
print(f"Resultado obtido: {t2 > t4} - esperado: False")
print(f"Resultado obtido: {t2 > None} - esperado: False")

Dessa forma, voc√™ implementou todos os m√©todos para indexa√ß√£o usando mem√≥ria principal por meio da classe `HashIndex`. Abaixo, "brinque" com os m√©todos "index" e, logo ap√≥s, testar o resultado dos m√©todos implementados (tanto de retornar uma lista de ocorrencia quanto de verificar a quantidade de documentos com um determinado termo). Dentre os termos a serem indexados, indexe os sete √∫ltimos digitos do n√∫mero de matr√≠cula de cada integrante do grupo. 

## Constru√ß√£o de √≠ndice usando arquivo

A constru√ß√£o de √≠ndice usando apenas mem√≥ria principal √© f√°cil de implementar e eficiente em termos de tempo de execu√ß√£o. Por√©m, quando precisamos de indexar milh√µes/bilh√µes de p√°ginas, √© muitas vezes invi√°vel armazenarmos tudo em mem√≥ria principal. 

Para resolver esse problema, uma solu√ß√£o √© mantermos o vocabul√°rio em mem√≥ria principal e as ocorr√™ncias em mem√≥ria secund√°ria. Assim, ter√≠amos o mesmo atributo `dic_index` na classe `Index`. Por√©m, cada entrada (termo) referenciar√° as ocorrencias em arquivo. Utilizando exemplo da `atividade 3`neste contexto, no final da indexa√ß√£o, o `dic_index` deve ficar da seguinte forma: 

In [None]:
{"a": TermFilePosition(term_id=1,  term_file_start_pos=0, doc_count_with_term=2), 
 "casa": TermFilePosition(2, 20, 2), 
 "verde": TermFilePosition(3, 40, 2),
 "√©": TermFilePosition(4, 60, 1), 
 "uma": TermFilePosition(5, 70, 1), 
 "bonita": TermFilePosition(6, 80, 2), 
 "o": TermFilePosition(7, 100, 1), 
 "pr√©dio": TermFilePosition(8, 110, 1), 
}




As ocorr√™ncias s√£o ordenadas por termo e, logo ap√≥s, por documento. Dessa forma, elas ficariam em um arquivo na seguinte ordem:

In [None]:
[TermOccurrence(1,1,1), 
 TermOccurrence(2,1,1), 
 TermOccurrence(1,2,2), 
 TermOccurrence(2,2,1),
 TermOccurrence(1,3,1), 
 TermOccurrence(3,3,1),
 TermOccurrence(1,4,1),
 TermOccurrence(1,5,1),
 TermOccurrence(1,6,1),
 TermOccurrence(2,6,1),
 TermOccurrence(3,7,1),
 TermOccurrence(3,8,1)]

Em que cada inst√¢ncia da classe `TermFilePosition` √© a especifica√ß√£o da posi√ß√£o inicial de um `term_id` em um arquivo al√©m de especificar tamb√©m a quantidade de ocorr√™ncias desse termo. Essa posi√ß√£o inicial e quantidade s√£o definidas nos atributos `term_file_start_pos` e `doc_count_with_term`, respetivamente. A posi√ß√£o inicial est√° em ‚Äòbytes‚Äô e, nesse exemplo, foi considerado que cada TermOcurrence possui 10 ‚Äòbytes‚Äô. Assim, por exemplo, o termo casa (term_id=2) inicia-se na posi√ß√£o 20 e possui duas ocorr√™ncias. Com isso, √© poss√≠vel obter todas as ocorr√™ncias de um determinado termo.

Para deixarmos a estrutura dessa forma, temos um dificultador: no arquivo, temos que ordenar as ocorrencias pelo termo, por√©m, indexamos por documento. Assim, se grav√°ssemos as ocorr√™ncias assim que indexarmos, as gravariamos agrupadas por documento (veja na atividade 3).

Assim, temos que garantir uma ordena√ß√£o por termo do arquivo externo, lembrando que nem sempre √© poss√≠vel armazenar todo o arquivo em mem√≥ria principal. Para resolvermos isso, faremos o seguinte:

- Sempre, ao indexar, salvaremos o indice em uma lista (tempor√°ria) de ocorrencia de termos `lst_occurrences_tmp`
- Usaremos o m√©todo `save_tmp_occurrences` para, assim que a lista estiver com um determinado tamanho, orden√°-la pelo termo e salvar de formar ordenada em um novo arquivo de indice com a todas as ocorrencias. Para que seja feito isso, voc√™ dever√° fazer uma ordena√ß√£o externa lendo em considera√ß√£o o √≠ndice em arquivo atual e a lista de ocorrencias tempor√°rias. Veja a seguir o passo a passo geral da indexa√ß√£o. As proximas atividades ir√£o te guiar para que seja implementado:
    - (1) ordene a lista `lst_occurrences_tmp`. Lembre-se que voc√™ implementou os comparadores das inst√¢ncias TermOccurrence, assim, a ordena√ß√£o e descobrir o menor valor entre as ocorrencias √© uma opera√ß√£o simples;
    - (2) criar um arquivo novo;
    - (3) compare a primeira posi√ß√£o da lista com a primeira posi√ß√£o do arquivo de √≠ndice, sempre inserindo a ocorrencia considerada com o menor entre elas no novo arquivo. Lembrando novamente que os comparadores foram implementados e que voc√™ possui os m√©todos `next_from_list` e `next_from_file` - que ser√° implementado na atividade 5 para ajudar;
    - (4) esse novo arquivo passar√° a ser o √≠ndice. Exclua o indice antigo e limpe a lista de ocorr√™ncias `lst_occurrences_tmp`.
- O m√©todo `finish_indexing` √© o m√©todo que ser√° chamado ao finalizar a indexa√ß√£o. Neste contexto ele ser√° usado para organizar o `dic_index`. Lembrando que, neste contexto, `dic_index` mapeia uma palavra (string) a uma instancia de `TermFilePosition`, este m√©todo ir√° atualizar  os atributos `term_file_start_pos` e `doc_count_with_term` de cada instancia  de `TermFilePosition` para os valores corretos, considerando que termo ele se refere no arquivo do √≠ndice.

Na primeira execu√ß√£o, n√£o haver√° arquivo e voc√™ adicionar√° a lista toda no arquivo de forma sequencial. Fazendo esse procedimento, voc√™ sempre ir√° garantir um arquivo ordenado da forma esperada.

**Atividade 5(a) ‚Äî escrita e leitura das ocorrencias em arquivo:** Iremos necessitarda leitura e escrita de uma inst√¢ncia de `TermOccurrence` que est√° persistida em arquivo. Assim deveremos implementar o m√©todo de escrita em arquivo nessa classe. Para economizar espa√ßo e por simplicidade, ser√° escrito num arquivo bin√°rio armazenando os tr√™s atributos inteiros. Cada inteiro ser√° armazenado em 4 ‚Äòbytes‚Äô ‚Äî ser√° o suficiente para a nossa indexa√ß√£o. Veja um exemplo abaixo de escrita, leitura e impress√£o do posicionamento no arquivo (esses m√©todos ser√£o √∫teis nessa atividade).

In [1]:
x = 100
with open("xuxu.idx","wb") as file:
    print(file.tell())
    file.write(x.to_bytes(4,byteorder="big"))
    print(file.tell())
with open("xuxu.idx","rb") as file:
    print(f"n√∫mero: {int.from_bytes(file.read(4),byteorder='big')}")

0
4
n√∫mero: 100


Dessa forma, implemente: 

- o m√©todo `write` da classe `TermOccurence` respons√°vel por gravar os atributos `doc_id`, `term_id` e `term_freq` do objeto corrente.
- complete o m√©todo `next_from_file` da classe `FileIndex`. Este m√©todo j√° possui um arquivo aberto e voc√™ dever√° ler o pr√≥ximo objeto da classe `TermOccurence` que foi escrito neste arquivo pelo m√©todo `write` implementado acima. Caso n√£o haja mais ocorrencia, √© retornado `None`.

In [None]:
!python3 -m index.file_index_test FileIndexTest.test_next_from_file

**Atividade 5 (b) - leitura e obten√ß√£o do pr√≥ximo elemento da lista**: Conforme dito, iremos usar uma lista de ocorrencias em mem√≥ria principal para, logo ap√≥s, armazenar cada ocorr√™ncia, de forma ordenada em arquivo. Essa lista de ocorrencia √© o atributo `lst_occurrences_tmp`. Dessa forma, temos que implementar os m√©todos da classe `FileIndex`:

- `create_index_entry`: instancia um elemento da classe `FilePosition` com o seu respectivo id do termo, passado como par√¢metro
- `add_index_occur`: Cria e adiciona uma nova ocorr√™ncia na lista de ocorrencias tempor√°rias `lst_occurrences_tmp` e, caso senha passado o limite `FileIndex.TMP_OCCURRENCES_LIMIT` do n√∫mero m√°ximo de ocorrencias na lista, chamar o m√©todo `save_tmp_occurrence` (ainda ser√° implementado). 
- `next_from_list`: Retorna o primeiro elemento da lista, eliminando-o da lista. Caso n√£o exista, retorna `None`. Este m√©todo √© √∫til para obter o menor elemento da lista, quando a mesma estiver ordenada de forma crescente (o que ir√° ocorrer em `save_tmp_occurences`). 

Poder√≠amos implementar esses dois m√©todos de forma simples utilizando as fun√ß√µes `append` e `pop` da lista. Por√©m, a complexidade de tempo no pior caso no `append` √© O(N) em tempo e espa√ßo (quando o tamanho da lista exceder o tamanho anteriormente alocado) e o `pop` a complexidade de tempo √© O(N) para retirar o primeiro elemento da lista. Dessa forma, como iremos fazer uma lista com 1 milh√£o de ocorr√™cias que ir√£o ser modificados constantemente, essas opera√ß√µes seriam muito custoas. 

Uma das solu√ß√µes para contornar esse problema √© utilizamos uma lista fixa de  tamanho `TMP_OCCURRENCES_LIMIT` e vari√°veis auxiliares para indicar o in√≠cio e fim da lista. Dessa forma, nesta classe, possu√≠mos os atributos `idx_tmp_occur_first_element` e `idx_tmp_occur_last_element` para indicar a posi√ß√£o do primeiro e ultimo item v√°lido na lista. A lista ser√° inicializada no construtor com `TMP_OCCURRENCES_LIMIT` instancias `None`. A inicializa√ß√£o desses atributos j√° foi implementada no construtor. Implementamos o m√©todo `get_tmp_occur_size` para obter o tamanho dessa lista. Como alternativa a essa soluca√ß√£o, poderiamos usar uma [lista encadeada (deque)](https://docs.python.org/3/library/collections.html#collections.deque). Mas, nessa atividade, voc√™ n√£o poderia fazer com a lista encadeada apenas porque os testes automatizados n√£o funcionariam ;-). Complete a implementa√ß√£o dos m√©todos `add_index_occur` e o m√©todo `next_from_list` apropriadamente.

In [None]:
!python3 -m index.file_index_test FileIndexTest.test_next_from_list

**Atividade 6 - m√©todo save_tmp_occurrences:** Implemente o m√©todo `save_tmp_occurrences`. Esse m√©todo dever√° fazer a jun√ß√£o do √≠ndice atual e a lista `lst_occurrences_tmp` em novo arquivo de √≠ndice de forma ordenada, conforme explicado anteriormente no in√≠cio desta se√ß√£o. Neste m√©todo, voc√™ n√£o precisa preocupar com o atributo `dic_index`. Al√©m da lista, leve em considera√ß√£o os seguintes atributos/m√©todos:

- `idx_file_counter`:  No c√≥digo, voc√™ ir√° criar sempre novos indices, excluindo o antigo. Este atributo ser√° √∫til para definirmos o nome do arquivo do √≠ndice. O novo arquivo do √≠ndice chamar√° `occur_index_X` em que $X$ √© o n√∫mero do mesmo. 
- `str_idx_file_name`: Atributo que armazena o arquivo √≠ndice atual. A primeira vez que executarmos `save_tmp_occurrences` n√£o haver√° arquivo criado e, assim `str_idx_file_name = None`
- `next_from_file` e `next_from_list`: implementados na atividade anterior, para obter o pr√≥ximo item do arquivo ou da lista. Lembre-se que a lista deve estar ordenda antes de juntar a lista e o arquivo de indice atual em um novo arquivo. 

Execute o teste unit√°rio abaixo para verificar corretude deste c√≥digo:

In [None]:
!python3 -m index.file_index_test FileIndexTest.test_save_tmp_occurrences

**Atividade 7: m√©todo finish_indexing:** Para que o `dic_index` encontre as ocorrencias no arquivo, para cada termo, √© mapeado o `TermFilePosition` correspondente. Agora, com as ocorr√™ncias organizadas no arquivo por termo, voc√™ dever√° implementar o m√©todo `finish_indexing` para atualizar o atributo `dic_index` colocando, para cada instancia de `TermFilePosition` a posi√ß√£o inicial e quantidade de documentos de cada termo`. Logo ap√≥s, execute o teste unit√°rio abaixo.

In [None]:
!python3 -m index.file_index_test FileIndexTest.test_finish_indexing

**Atividade 8 - implementa√ß√£o em `FileIndex` dos m√©todos abstratos da classe Index:** Como voc√™s perceberam, `FileIndex` √© subclasse de `Index`. Assim,  precisamos implementar os m√©todos abstratos da classe `Index`:

- `create_index_entry`: no `FileIndex` para criar uma nova entrada no √≠ndice, voc√™ dever√° retornar uma instancia de `TermFilePosition` para este novo `term_id`. Ao cri√°-lo, voc√™ n√£o precisa de definir a posi√ß√£o inicial do arquivo nem a quantidade de documentos. Conforme voc√™s implementaram nas atividades anteriores, isso √© feito apenas no momento de finaliza√ß√£o da indexa√ß√£o;
- `get_occurrence_list` e `document_count_with_term`: Possuem as mesmas funcionalidades descritas na atividade 3, por√©m, agora voc√™ dever√° considerar a estrutura criada no `FileIndex`. Lembrem-se que esse m√©todo √© s√≥ chamado ap√≥s a finaliza√ß√£o da indexa√ß√£o, assim, considere que o √≠ndice j√° est√° pronto.

**Atividade 9 - Teste unit√°rio** Dessa vez, voc√™ dever√° alterar uma classe de teste unit√°rio para conseguir execut√°-la. 

Agora iremos testar os m√©todos get_occurrence_list e document_count_with_term. Lembre-se que j√° temos um teste unit√°rio para isso, por√©m ele testa a estrutura de um `HashIndex`. Neste caso, iremos apenas mudar a estrutura, mas os m√©todos ser√£o o mesmo, por isso, conseguiremos reaproveitar o teste feito anteriormente criando apenas uma nova classe de teste. 

Implementando este teste, voc√™ perceber√° como √© lindo usar orienta√ß√£o objetos ao seu favor ü•∞. No arquivo `index_structure_test.py` voc√™ possui a classe `FileStructureTest` que √© subclasse de nosso teste criado `StructureTest`.  Voc√™ dever√° implementar o m√©todo `setUp` na classe `FileStructureTest` que sobrep√µe o m√©todo de mesmo nome na classe `StructureTest`. O m√©todo `setUp` √© executado sempre antes do teste. Este m√©todo que voc√™ ir√° criar ir√° fazer exatamente a mesma coisa que o criado em `StructureTest` por√©m, voc√™ dever√° instanciar um `FileIndex` ao inv√©s de um `HashIndex`. Logo ap√≥s, execute os testes:

In [None]:
!python3 -m index.index_structure_test  FileStructureTest.test_document_count_with_term

In [None]:
!python3 -m index.index_structure_test  FileStructureTest.test_get_occurrence_list

De forma similar, tamb√©m criamos um teste de desempenho. Verifique o desempenho da indexa√ß√£o em arquivo e em mem√≥ria ao indexar milh√µes de ocorr√™ncias de termos utilizando os testes abaixo. Note que, desta vez, estamos chamando os testes por comandos Python e n√£o pelo terminal e estamos fazendo testes de mem√≥ria. Dessa forma, voc√™ deve reiniciar o kernel sempre antes de executar cada um dos dois testes abaixo.

- √çndice completamente em mem√≥ria principal:

In [None]:
import unittest
from index.performance_test import PerformanceTest

PerformanceTest.NUM_DOCS = 250
PerformanceTest.NUM_TERM_PER_DOC = 1000

suite = unittest.TestLoader().loadTestsFromTestCase(PerformanceTest)
unittest.TextTestRunner(verbosity=2).run(suite)

- √çndice com ocorr√™ncias em mem√≥ria secund√°ria. Veja que, abaixo, que voc√™ pode ajustar o par√¢metro de n√∫mero de ocorr√™ncias em mem√≥ria. Ser√° muito √∫til para n√£o gastar tanto tempo ao indexar o conte√∫do da Wikip√©dia. **Reinicie o kernel antes de executar.**

In [None]:
import unittest
from index.performance_test import FilePerformanceTest,PerformanceTest
from index.structure import FileIndex

PerformanceTest.NUM_DOCS = 250
PerformanceTest.NUM_TERM_PER_DOC = 1000
FileIndex.TMP_OCCURRENCES_LIMIT = 100000

suite = unittest.TestLoader().loadTestsFromTestCase(FilePerformanceTest)
unittest.TextTestRunner(verbosity=2).run(suite)

Logo ap√≥s executado este teste, voc√™ dever√° usar a biblioteca [JSON](https://docs.python.org/3/library/json.html) ou [Pickle](https://docs.python.org/3/library/pickle.html) para armazenar o vocabul√°rio. Com isso, crie um m√©todo de leitura do FileIndex e do HashIndex e de escrita. O m√©todo de leitura dever√° ser um m√©todo estatico que retorna um objeto da classe indice previamente criado.

**Atividade 10 - Grava√ß√£o do √≠ndice (completo) em mem√≥ria secund√°ria:** Use o [pickle](https://docs.python.org/3/library/pickle.html) e implemente o m√©todo write da classe `Index` que grava o √≠ndice em mem√≥ria secund√°ria e o m√©todo est√°tico `read`, que l√™ o √≠ndice em arquivo e o retorna. A seguir, execute os testes para leitura e escrita tanto usando o `FileIndex` quanto o `HashIndex`.

In [None]:
!python3 -m index.index_structure_test StructureTest.test_read_write

In [None]:
!python3 -m index.index_structure_test FileStructureTest.test_read_write

## Indexador de HTML 

Agora, voc√™ ir√° alterar o arquivo `indexer.py` para [preprocessar conte√∫do HTML](https://docs.google.com/presentation/d/1C22jQWIYobiqMx8SmP1y2lr1uSlvJSu3ayu5lXC5d8A/edit?usp=sharing) e depois index√°-lo. Com isso, voc√™ poder√° us√°-lo para indexa√ß√£o das p√°ginas HTML, como os da Wikip√©dia. A classe `Cleaner` ser√° respons√°vel pelo preprocessamento e a HTMLIndexer, para a indexa√ß√£o.

In [None]:
from index.indexer import *
#importamos o m√≥dulo structure
#novamente para n√£o precisar de executar o c√≥digo do in√≠cio da tarefa
from index.structure import *
#Fazemos o download do m√≥dulo nlkt para a quest√£o 12
import nltk
nltk.download('punkt')

**Atividade 11 - Limpeza dos dados com a classe Cleaner:** A classe `Cleaner` √© respons√°vel por preprocessar o conte√∫do HTML para que ele esteja preparado para indexa√ß√£o. Essa classe tem alguns _flags_ para definir se algum tipo de processamento opcional ser√° feito (por exemplo, _stemming_ e remo√ß√£o de _stopwords_). Para isso, voc√™ dever√° implementar pequenos m√©todos para fazer a limpeza. Esses c√≥digos s√£o pequenos pois temos lindas APIs para nos ajudar üíï. Voc√™ ir√° fazer o processamento b√°sico e, se quiser, pode melhorar a implementa√ß√£o criando exce√ß√µes na remo√ß√£o de acentos e n√£o retirando mai√∫sculas e min√∫sculas de certas palavras e unindo palavras compostas, por exemplo.

Para cada tarefa, h√° um m√©todo para ser criado a seguir os testes iniciais ser√£o feitos aqui no Jupyter. N√£o esque√ßa de reiniciar o kernel sempre que alterar algo no c√≥digo. Logo ap√≥s, haver√° um [teste de integra√ß√£o](https://en.wikipedia.org/wiki/Integration_testing) para avaliar a indexa√ß√£o como um todo.

- **Transforma√ß√£o de HTML para texto:** Na limpeza dos dados, iremos remover tudo que n√£o ser√° indexado ‚Äî ou seja, o c√≥digo HTML. Para isso, iremos implementar o m√©todo `html_to_plain_text` que transformar√° o HTML em texto corrido. Voc√™ pode utilizar o [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) para isso e o m√©todo get_text.

In [None]:
cleaner_test = Cleaner(stop_words_file="stopwords.txt",
                        language="portuguese",
                        perform_stop_words_removal=True,
                        perform_accents_removal=True,
                        perform_stemming=True)
cleaner_test.html_to_plain_text("&copy; oi! Meu nome √© <strong>Hasan</strong>")
#esperado: '¬© oi! Meu nome √© Hasan'

- **Verifica se √© stopword**: O m√©todo `is_stopword` retorna verdadeiro se uma palavra, passada como par√¢metro, √© stopword. Para isso, voc√™ ir√° usar o atributo `set_stop_words`. Este atributo foi inicializado com um conjunto de stopwords de um arquivo. Esse arquivo, para testes, tem poucas stopwords.
    

In [None]:
print(f"{cleaner_test.is_stop_word('jap√£o')}, esperado: False")
print(f"{cleaner_test.is_stop_word('cama')}, esperado: False")
print(f"{cleaner_test.is_stop_word('√©')}, esperado: True")


- **Stemming**: voc√™ dever√° implementar o m√©todo word_stem para ralizar o stemming. Voc√™ dever√° usar a [classe SnowballStemmer da API NLTK](https://www.nltk.org/howto/stem.html). Um objeto dessa classe j√° est√° instanciado no atributo `stemmer`. 

In [None]:
print(f"{cleaner_test.word_stem('verdade')}, esperado: verdad")
print(f"{cleaner_test.word_stem('estudante')}, esperado: estud")
print(f"{cleaner_test.word_stem('amado')}, esperado: amad")


- **Remo√ß√£o de acentos:** Iremos fazer de uma forma bem simples a remo√ß√£o de acentos: aplicando uma tabela de substitui√ß√£o de caracteres. Para isso, voc√™ dever√° criar uma [tabela de tradu√ß√£o](https://docs.python.org/3.3/library/stdtypes.html?highlight=maketrans#str.maketrans) no atributo `accents_translation_table` baseando-se nas vari√°veis `in_table` e `out_table` tamb√©m presentes no construtor (substitua o None).

In [None]:
print(f"{cleaner_test.remove_accents('can√ß√£o')}, esperado: cancao")
print(f"{cleaner_test.remove_accents('el√©trico')}, esperado: eletrico")
print(f"{cleaner_test.remove_accents('amado')}, esperado: amado")


Agora voc√™ ir√° fazer o m√©todo `preprocess_word` e o `preprocess_text`:

- o `preprocess_text` receber√° o texto "limpo" (j√° sem c√≥digo html), ir√° converter tudo para minuscula e remover acentos
- o `preprocess_word` ir√° receber como parametro uma palavra e ir√° verificar se √© uma palavra v√°lida de ser indexada. Uma palavra v√°lida a ser indexada √© aquela que n√£o √© pontua√ß√£o e n√£o √© stopword (caso `perform_stop_words_removal = True`). Caso n√£o seja v√°lida, retornar√° None. Caso contr√°rio, ir√° retornar a palavra preprocessada. Para que seja feito o preprocessamento voc√™ dever√°: fazer o stemming (se `perform_stemming = True`) - neste exemplo. 

**Atividade 13 ‚Äî Classe HTMLIndexer ‚Äî m√©todo text_word_count:** Voc√™ dever√° implementar o m√©todo `text_word_count`, a partir de um texto. Esse m√©todo retorna um dicion√°rio em que, para cada palavra no texto, ser√° apresentado sua frequ√™ncia. Considere que o texto j√° est√° limpo e √© necess√°rio fazer apenas o processamento das palavras.

Para isso, voc√™ dever√°: dividir o texto em tokens (que, no nosso caso, s√£o as palavras e pontua√ß√µes); pr√©-processar cada palavra usando o `HTMLIndexer.cleaner`; e, se for uma palavra v√°lida, contabiliz√°-la. Para isso, ser√° necess√°rio [o m√©todo word_tokenize da API NLTK](https://kite.com/python/docs/nltk.word_tokenize)

In [6]:
index = HashIndex()
indexador_teste = HTMLIndexer(index)
indexador_teste.text_word_count("Ol√°! Qual √© o dado dado que precisa?")
#esperado:
#{'dad': 2, 'o': 1, 'ola': 1, 'precis': 1, 'qual': 1, 'que': 1}

{}

**Atividade 14 ‚Äî m√©todo index_text:** Implemente o m√©todo `index_text` que dever√° (1) converter o HTML para texto simples usando `HTMLIndexer.cleaner`; (2) converter o texto em um dicion√°rio de ocorrencias de palavras com sua frequencia (metodo da atividade 13); (3) indexar cada palavra deste dicion√°rio; e (4) no final da execu√ß√£o, n√£o esque√ßa de executar o m√©todo `finish_indexing` do √≠ndice.

In [None]:

index = HashIndex()
indexador_teste = HTMLIndexer(index)
#o HTML est√° mal formado de prop√≥sito ;)
indexador_teste.index_text(10,"<strong>Ol&aacute;! </str> Quais s√£o os dados que precisar√°?")

indexador_teste.index.dic_index

Esperado:
<pre>
{'dad': [(term_id:4 doc: 10 freq: 1)],
 'ola': [(term_id:0 doc: 10 freq: 1)],
 'os': [(term_id:3 doc: 10 freq: 1)],
 'precis': [(term_id:6 doc: 10 freq: 1)],
'qua': [(term_id:1 doc: 10 freq: 1)],
 'que': [(term_id:5 doc: 10 freq: 1)],
 'sao': [(term_id:2 doc: 10 freq: 1)]}
</pre>

**Atividade 15: Indexa√ß√£o de um diret√≥rio com subdiret√≥rios** Voc√™ dever√° implementar o m√©todo `index_text_dir` que, dado um diret√≥rio, navega em todos os seus subdiret√≥rios e indexa todos os arquivos HTMLs. Considere que os arquivos sejam sempre nomeados pelo seu ID. Veja o exemplo em `doc_test`. Logo ap√≥s, execute o teste unit√°rio para ver a corretude do seu indexador.

In [None]:
!python3 -m index.indexer_test IndexerTest.test_indexer

**Atividade 16 indexa√ß√£o dos artigos da Wikipedia:** Voc√™ dever√° indexar todos os artigos da Wikip√©dia que est√£o [neste reposit√≥rio](https://github.com/daniel-hasan/ri-tp-wiki-data/archive/refs/heads/master.zip) e logo ap√≥s, salve esse √≠ndice. Voc√™ usar√° ele para a pr√≥xima etapa do projeto, o processamento de consultas. 

Como s√£o dezenas de milhares de artigos, √© uma tarefa que consome muita mem√≥ria e **ir√° demorar horas**. Dessa forma, use o arquivo python `wikipedia_index.py` e execute esse arquivo no terminal. Salve esse indice como `wiki.idx`. Logo ap√≥s, execute o teste abaixo que ir√° ler este √≠ndice e verificar se os documentos foram salvos.

Nesse indice, para passar nos testes, use a configura√ß√£o do `Cleaner` definida no `wikipedia_index.py`. Logo ap√≥s, voc√™ pode criar outros √≠ndices. Inclusive, para a proxima etapa do projeto, aconselho que voc√™ teste diversos preprocessamentos, inclusive, voc√™ deve tamb√©m achar um arquivo de stopwords com mais termos aos que feito neste teste. 

Voc√™ pode escolher entre o HashIndex ou FileIndex para indexar, lembrando que o HashIndex consume muito mais mem√≥ria principal.  

In [None]:
!python3 -m index.indexer_test IndexerTest.test_wiki_idx