Nesta pr√°tica voc√™ ir√° implementar o indexador para, logo ap√≥s, indexar o conte√∫do da Wikip√©dia. Nesta pr√°tica, o √≠ndice √© composto pela classe abstrata `Index` que armazena a estrutura do √≠ndice e possui as opera√ß√µes b√°sicas do mesmo. 

Iremos fazer duas implementa√ß√µes desse √≠ndice: o `HashIndex` que ser√° um √≠ndice simples em mem√≥ria principal e o `FileIndex` em que as ocorr√™ncias ficar√£o em mem√≥ria secund√°ria para possibilitar a indexa√ß√£o de uma quantidade maior de p√°ginas. Assim, teremos os seguintes arquivos:

- `structure.py`: Possui toda a estrutura do √≠ndice;
- `index_structure_test.py`: Testa a estrutura do √≠ndice;
- `file_index_test.py`: Possui os testes unit√°rios espec√≠ficos para a indexa√ß√£o das ocorrencias em arquivos da classe `FileIndex`;
- `performance_test.py`: Executa um teste de performance (tempo de execu√ß√£o e mem√≥ria utilizada) do √≠ndice;
- `indexer.py`: Possui as classes para o preprocessamento e prepara√ß√£o para a indexa√ß√£o;
- `indexer_test.py`: Realiza o [teste de integra√ß√£o](https://en.wikipedia.org/wiki/Integration_testing) da pr√°tica como um todo (inclusive as fun√ß√µes da indexer.py).

Na entrega, n√£o esque√ßa de apresentar a sa√≠da de execu√ß√£o de cada atividade desta tarefa.

## Implementa√ß√£o da classe Abstrata `Index` e classe `HashIndex`

A classe abstrata Index, no arquivo `structure.py` possui os seguintes atributos:

- `dic_index`:  dicion√°rio em que a chave √© o termo indexa√ß√£o (string, gerenciado por esta classe) e, os valores,  podem der de diferentes tipos - dependendo da subclasse;
- `set_documents`: conjunto de ids de documentos existentes.

Os m√©todos ser√£o discutidos ao longo das atividades. Inicialmente, iremos fazer a importa√ß√£o do m√≥dulo:

In [None]:
from index.structure import *

**Atividade 1 - m√©todo index da classe Index**: Este m√©todo esta quase todo pronto e √© repons√°vel por indexar um termo com sua frequncia e documento no √≠ndice, de acordo com uma de suas subclasses. Voc√™ deve deve apenas inicializar a vari√°vel `int_term_id` apropriadamente - substituindo os `None` correspondente. Caso o termo n√£o exista no √≠ndice, dever√° obter o pr√≥ximo term_id. Esse id pode ser sequencial. Caso esse id seja encontrado, a classe Index dever√° chamar o m√©todo `get_term_id` (implementado pelas subclasses) para obt√™-lo pois, dependendo da implementa√ß√£o, haver√° uma forma diferente de obten√ß√£o. Al√©m disso, voc√™ dever√° atualizar o atributo `set_documents` apropriadamente. Para testar tanto esta atividade e a seguinte,  voc√™ dever√° fazer uma das implementa√ß√µes dessa classe - a classe **HashIndex** - na atividade 3. 

**Atividade 2 - atributos calculados da classe Index**: Voc√™ deve implementar os atributos calculados `document_count` e `vocabulary` da classe Index. O atributo `document_count` retorna a quantidade de documentos existentes e, `vocabulary` retorna uma lista com o vocabul√°rio completo indexado. 

**Atividade 3 - Implementa√ß√£o da classe HashIndex: ** O HashIndex dever√° fazer um √≠ndice em mem√≥ria.

Como exemplo, caso tenhamos tr√™s documentos $d_1 = $"A casa verde √© uma casa bonita", $d_2 = $"A casa bonita" e $d_3 =$"O pr√©dio verde", caso n√£o haja remo√ß√£o de _stopwords_ nem acentos, o atributo `dic_index` dever√° possuir a seguinte estrutura:

In [None]:
{"a": [TermOccurrence(1,1,1), TermOccurrence(2,1,1)],
 "casa": [TermOccurrence(1,2,2), TermOccurrence(2,2,1)],
 "verde": [TermOccurrence(1,3,1), TermOccurrence(3,3,1)],
 "√©": [TermOccurrence(1,4,1)],
 "uma": [TermOccurrence(1,5,1)],
 "bonita": [TermOccurrence(1,6,1),TermOccurrence(2,6,1)],
 "o": [TermOccurrence(3,7,1)],
 "pr√©dio": [TermOccurrence(3,8,1)]
}

Por simplicidade deste indice, perceba que deixamos o `term_id` de forma repetida. Iremos deixar assim, por√©m poderiamos retirar essa redundancia para reduzir o consumo de mem√≥ria. Por√©m, nesta pr√°tica, iremos implementar o √≠ndice em arquivo que ir√° ser melhor ainda na quest√£o de consumo de mem√≥ria ;)

O √≠ndice √© chamado da seguinte forma - esse c√≥digo s√≥ ira funcionar depois que voc·∫Ω terminar esta atividade :):

In [None]:
index = HashIndex()
#indexa√ß√£o do documento 1
index.index("a",1,1)
index.index("casa",1,2)
index.index("verde",1,1)
index.index("√©",1,1)
index.index("uma",1,1)
#indexa√ß√£o do documento 2
index.index("a",2,1)
index.index("casa",2,1)
index.index("bonita",2,1)

#indexa√ß√£o do documento 3
index.index("o",3,1)
index.index("pr√©dio",3,1)
index.index("verde",3,1)

index.finish_indexing()

A classe `Index` √© que ir√° manter o dicin√°rio com o vocabul√°rio do √≠ndice e, dependendo de sua implementa√ß√£o, suas ocorrencias. Iremos fazer duas implementa√ß√µes: a classe `HashIndex`, que faz o indice e suas ocorrencias em mem√≥ria principal e a classe `FileIndex`, que armazena as ocorr√™ncias em arquivo, ambas subclasses de `Index`. O m√©todo `finish_indexing` √© um m√©todo que n√£o est√° implementado no `Index` e √© implementado (opcionalmente) nas suas subclasses caso haja necessidade de fazer algo no final da indexa√ß√£o. Em nosso caso, apenas a classe `FileIndex` ir√° precisar.

Agora, voc√™ dever√° implementar a classe HashIndex. Para sua implementa√ß√£o, voc√™ dever√° completar os seguintes m√©todos/atributo calculados:
- `create_index_entry`: cria uma nova entrada no √≠ndice utilizando, se necess√°rio, o id do termo passado como par√¢metro - n√£o ser√° necess√°rio agora. A implementa√ß√£o deste m√©todo √© **super simples** - apenas substitua o None. Verifique tamb√©m o m√©todo `index` da superclasse para entender melhor o que ser√° retornado;
- `add_index_occur`: Adiciona uma nova ocorrencia na entrada deste √≠ndice. Voc√™ precisar√° da entrada do termo atual, o id do documento e frequencia do termo no documento, passado como par√¢metro. Atualize substituindo os `None`. Veja tamb√©m o modo `index` da superclasse para entender melhor como o m√©todo funciona.

Fa√ßa os testes baixo para garantir que a atividade atual e as duas anteriores foram implementadas corretamente. Nos primeiros dois testes, voc√™ ainda n√£o ver√° a lista de ocorr√™ncias, pois o m√©todo para obt√™-la ser√° implementado a seguir. 

In [None]:
!python3 -m index.index_structure_test StructureTest.test_vocabulary

In [None]:
!python3 -m index.index_structure_test StructureTest.test_document_count

Agora, implemente os m√©todos:

- `get_occurrence_list`: Retornar√° a lista de ocorrencias de um determinado termo. Considerando o exemplo apresentado no inicio desta atividade, `index.get_occurrence_list('casa')` retornar√° a lista `[TermOccurrence(1,2,2), TermOccurrence(2,2,1)]`. Caso um termo n√£o exista, este m√©todo dever√° retornar uma lista vazia. Logo ap√≥s, execute o teste abaixo:

In [None]:
!python3 -m index.index_structure_test StructureTest.test_get_occurrence_list

- `document_count_with_term`: Retorna a quantidade de documentos que possuem um determinado termo. Considerando o exemplo apresentado no inicio desta atividade, `index.document_count_with_term('casa')` retornar√° 2. Caso um termo n√£o exista, este m√©todo dever√° retornar zero. Logo ap√≥s, execute o teste abaixo:

In [None]:
!python3 -m index.index_structure_test StructureTest.test_document_count_with_term

**Atividade 4 - m√©todos de compara√ß√£o da classe TermOccurrence**: Eventualmente iremos precisar ordenar as ocorr√™ncias Por isso, temos que implementar os [comparadores de `__eq__` e `__lt__`](https://docs.python.org/3.7/reference/datamodel.html#object.__lt__) al√©m de usar o _decorator_ [total_ordering](https://docs.python.org/3.7/library/functools.html#functools.total_ordering) - [veja tamb√©m aqui](https://portingguide.readthedocs.io/en/latest/comparisons.html#rich-comparisons). `__eq__` retorna igual se um objeto √© considerado igual ao outro. Considere que uma ocorrencia √© igual a outra se o id do termo dela e o id do documento forem iguais. 

O comparador `<` √© implementado pelo m√©todo `__lt__` que retorna verdadeiro sde o objeto corrrente `self` √© menor do que o objeto passado como parametro. A ocorrencia dever√° ser ordenada primeiramente pelo seu `term_id` e, logo ap√≥s, pelo `doc_id`. Fa√ßa o exemplo abaixo para testar (n√£o esque√ßa de reiniciar o Kernel quando modificar o c√≥digo):

In [None]:
from index.structure import *
t1 = TermOccurrence(1,1,2)
t2 = TermOccurrence(3,1,2)
t3 = TermOccurrence(1,2,2)
t4 = TermOccurrence(2,2,2)
t5 = TermOccurrence(2,2,2)


print(f"Resultado obtido: {t1 == t5} - esperado: False")
print(f"Resultado obtido: {t4 == t5} - esperado: True")
print(f"Resultado obtido: {t1 != t1} - esperado: False")
print(f"Resultado obtido: {t1 == None} - esperado: False")
print(f"Resultado obtido: {t1 < t2} - esperado: True")
print(f"Resultado obtido: {t2 > t3} - esperado: False")
print(f"Resultado obtido: {t3 < t4} - esperado: True")
print(f"Resultado obtido: {t2 > t4} - esperado: False")
print(f"Resultado obtido: {t2 > None} - esperado: False")

## Constru√ß√£o de √≠ndice usando arquivo

A constru√ß√£o de √≠ndice usando apenas mem√≥ria principal f√°cil de implementar e eficiente em termos de tempo de execu√ß√£o. Por√©m, quando precisamos de indexar milh√µes/bilh√µes de p√°ginas, √© muitas vezes invi√°vel armazenarmos tudo em mem√≥ria principal. 

Para resolver esse problema, uma solu√ß√£o √© mantermos o vocabul√°rio em mem√≥ria principal e as ocorr√™ncias em mem√≥ria secund√°ria. Assim, teriamos o mesmo atributo `dic_index` na classe `Index`. Por√©m, cada entrada (termo) referenciar√° as ocorrencias em arquivo. Utilizando exemplo da atividade 3 neste contexto, no final da indexa√ß√£o, o `dic_index` deve ficar da seguinte forma: 

In [None]:
{"a": TermFilePosition(1, 0, 2), 
 "casa": TermFilePosition(2, 20, 2), 
 "verde": TermFilePosition(3, 40, 2),
 "√©": TermFilePosition(4, 60, 1), 
 "uma": TermFilePosition(5, 70, 1), 
 "bonita": TermFilePosition(6, 80, 2), 
 "o": TermFilePosition(7, 100, 1), 
 "pr√©dio": TermFilePosition(8, 110, 1), 
}




e as ocorrencias, ordenadas por termo e, logo ap√≥s, por documento ficariam em um arquivo na seguinte ordem:

In [None]:
[TermOccurrence(1,1,1), 
 TermOccurrence(2,1,1), 
 TermOccurrence(1,2,2), 
 TermOccurrence(2,2,1),
 TermOccurrence(1,3,1), 
 TermOccurrence(3,3,1),
 TermOccurrence(1,4,1),
 TermOccurrence(1,5,1),
 TermOccurrence(1,6,1),
 TermOccurrence(2,6,1),
 TermOccurrence(3,7,1),
 TermOccurrence(3,8,1)]

em que cada instancia da classe `TermFilePosition` √© a especifica√ß√£o da posi√ß√£o inicial de um `term_id` em um arquivo  al√©m de especificar tamb√©m a quantidade de ocorrencias desse termo. Essa posi√ß√£o inicial e quantidade s√£o definidas nos atributos atributos `term_file_start_pos` e `doc_count_with_term`, respectivamente. A posi√ß√£o inicial est√° em bytes e, nesse exemplo, foi considerado que cada TermOcurrence possui 10 bytes. Assim, por exemplo, o termo casa (term_id=2) inicia-se na posi√ß√£o 20 e possui duas ocorr√™ncias. Com isso, √© poss√≠vel obter todas as ocorrencias de um determinado termo.

Para deixarmos a estrutura dessa forma, temos um dificultador: no arquivo, temos que ordenar as ocorrencias pelo termo, por√©m, indexamos por documento (veja na atividade 3). Assim, se grav√°ssemos as ocorr√™ncias assim que indexarmos, as gravariamos agrupadas por documento.

Assim, temos que garantir uma ordena√ß√£o por termo do arquivo externo, lembrando que nem sempre √© poss√≠vel armazenar todo o arquivo em mem√≥ria principal. Para resolvermos isso, faremos o seguinte:

- Sempre, ao indexar, salvaremos o indice em uma lista (tempor√°ria) de ocorrencia de termos `lst_occurrences_tmp`
- Usaremos o m√©todo `save_tmp_occurrences` para, assim que a lista estiver com um determinado tamanho, orden√°-la pelo termo e salvar de formar ordenada em um novo arquivo de indice com a todas as ocorrencias. Para que seja feito isso, voc√™ dever√° fazer uma ordena√ß√£o externa lendo m considera√ß√£o o √≠ndice em arquivo atual e a lista de ocorrencias tempor√°rias. Segue o passo a passo:
    - (1) ordene a lista `lst_occurrences_tmp`. Lembre-se que voc√™ implementou os comparadores das instancias TermOccurrence, assim, a ordena√ß√£o e descobrir o menor valor entre as ocorrencias √© uma opera√ß√£o simples;
    - (2) criar um arquivo novo;
    - (3) compare a primeira posi√ß√£o da lista com a primeira posi√ß√£o do arquivo de √≠ndice, sempre inserindo a ocorrencia considerada com o menor entre elas no novo arquivo. Lembrando novamente que os comparadores foram implementados e que voc√™ possui os m√©todos `next_from_list` e `next_from_file` - que ser√° implementado na atividade 5(b) para ajudar;
    - (4) esse novo arquivo passar√° a ser o √≠ndice. Exclua o indice antigo e limpe a lista de ocorrencias `lst_occurrences_tmp`.
- O m√©todo `finish_indexing` √© o m√©todo que ser√° chamado ao finalizar a indexa√ß√£o. Neste contexto ele ser√° usado para organizar o `dic_index` atualizando os atributos `term_file_start_pos` e `doc_count_with_term` para os valores corretos.

Na primeira execu√ß√£o, n√£o haver√° arquivo e voc√™ adicionar√° a lista toda no arquivo de forma sequencial. Fazendo esse procedimento, voc√™ sempre ir√° garantir um arquivo ordenado da forma esperada.

**Atividade 5(a) - m√©todo de escrita no arquivo:** Iremos necessitar, em algum momento, a escrita de uma instancia de `TermOccurrence` em arquivo. Assim deveremos implementar o m√©todo de escrita em arquivo nessa classe. Para economizar espa√ßo e por simplicidade, ser√° escrito em um arquivo bin√°rio armazenando os tr√™s atributos inteiros. Cada inteiro ser√° armazenado em 4 bytes - ser√° o suficiente para a nossa indexa√ß√£o. Veja um exemplo abaixo de escrita, leitura e impress√£o do posicionamento no arquivo (esses m√©todos ser√£o uteis nessa e nas pr√≥ximas atividades).

In [None]:
x = 100
with open("xuxu.idx","wb") as file:
    print(file.tell())
    file.write(x.to_bytes(4,byteorder="big"))
    print(file.tell())
with open("xuxu.idx","rb") as file:
    print(f"n√∫mero: {int.from_bytes(file.read(4),byteorder='big')}")

**Atividade 5(b) - m√©todos next_from_file e next_from_list**: Antes de fazer a ordena√ß√£o, √© interessante implementar esses dois m√©todos que ir√£o auxiliar na obten√ß√£o do menor elemento no arquivo e na lista, respectivamente. Considerando que a lista e o arquivo est√£o ordenados de forma crescente, temos que obter o primeiro elemento da lista e retir√°-lo (utilize o [m√©todo pop](https://docs.python.org/3.1/tutorial/datastructures.html)).  

Para a leitura do arquivo, iremos usar a API [pickle](https://docs.python.org/3/library/pickle.html) que facilita inserir/carregar estruturas em arquivo bin√°rio. O m√©todo `next_from_file` j√° possui um arquivo aberto e voc√™ dever√° ler a pr√≥xima entrada por meio da fun√ß√£o `load` da API `pickle`. Caso n√£o exista pr√≥ximo elemento, √© lan√ßado uma exce√ß√£o. Em ambos os m√©todos, caso n√£o exista pr√≥ximo elemento, ser√° retonado `None`. 

Complete a implementa√ß√£o substituindo os `None` quando julgar necess√°rio.

**Atividade 7 - m√©todo save_tmp_occurrences: ** Implemente o m√©todo `save_tmp_occurrences`. Esse m√©todo dever√° salvar a lista `lst_occurrences_tmp` em arquivo de forma ordenada, conforme explicado anteriormente. Neste m√©todo, voc√™ n√£o precisa preocupar com o atributo `dic_index`. Leve em considera√ß√£o os seguintes atributos/m√©todos:

- `idx_file_counter`:  No c√≥digo, voc√™ ir√° criar sempre novos indices, excluindo o antigo. Este atributo ser√° √∫til para definirmos o nome do arquivo do √≠ndice. O novo arquivo do √≠ndice chamar√° `occur_index_X` em que $X$ √© o n√∫mero do mesmo. 
- `str_idx_file_name`: Atributo que armazena o arquivo indice atual. A primeira vez que executarmos `save_tmp_occurrences` n√£o haver√° arquivo criado e, assim `str_idx_file_name = None`
- `lst_occurrences_tmp`: Lista de ocorrencias a serem armazenadas em arquivo
- `next_from_file` e `next_from_list`: implementados na atividade anterior, para obter o proximo item do arquivo ou da lista. Importantes para fazer a ordena√ß√£o.



Execute o teste unit√°rio abaixo para verificar corretude deste c√≥digo:

In [None]:
!python3 -m index.file_index_test FileIndexTest.test_save_tmp_occurrences

**Atividade 8: m√©todo finish_indexing: ** Agora, com as ocorr√™ncias organizadas no arquivo por termo, voc√™ dever√° implementar o m√©todo `finish_indexing` para atualizar o atributo `dic_index` com a posi√ß√£o inicial e quantidade de documentos de cada termo nas suas instancias `TermFilePosition`. Logo ap√≥s, execute o teste unit√°rio abaixo.

In [None]:
!python3 -m index.file_index_test FileIndexTest.test_finish_indexing

**Atividade 9 - implementa√ß√£o em `FileIndex` dos m√©todos abstratos da classe Index: ** Como voc√™s perceberam, `FileIndex` √© subclasse de `Index`. Assim,  precisamos implementar os m√©todos abstratos da classe `Index`:

- `create_index_entry`: no `FileIndex` para criar uma nova entrada no √≠ndice, voc√™ dever√° retornar uma instancia de `TermFilePosition` para este novo `term_id`. Ao cri√°-lo, voc√™ n√£o precisa de definir a posi√ß√£o inicial do arquivo nem a quantidade de documentos. Conforme voc√™s implementaram nas atividades anteriores, isso √© feito apenas no momento de finaliza√ß√£o da indexa√ß√£o;
- `add_index_occur`: Neste caso, voc√™ dever√° criar e adicionar uma nova ocorrencia na lista de ocorrencias tempor√°rias `lst_occurrences_tmp` e, caso senha passado o limite `FileIndex.TMP_OCCURRENCES_LIMIT` do n√∫mero m√°ximo de ocorrencias na lista, chamar o m√©todo `save_tmp_occurrence`.
- `get_occurrence_list` e `document_count_with_term`: Possuem as mesmas funcionalidades descritas na atividade 3, por√©m, agora voc√™ dever√° considerar a estrutura criada no `FileIndex`. Lembrem-se que esse m√©todo √© s√≥ chamado ap√≥s a finaliza√ß√£o da indexa√ß√£o, assim, considere que o √≠ndice j√° est√° pronto.

**Atividade 10 - Teste unit√°rio** Dessa vez, voc√™ dever√° alterar uma classe de teste unit√°rio para conseguir execut√°-la. 

Agora iremos testar os m√©todos get_occurrence_list e document_count_with_term. Lembre-se que j√° temos um teste unit√°rio para isso, por√©m ele testa a estrutura de um `HashIndex`. Neste caso, iremos apenas mudar a estrutura, mas os m√©todos ser√£o o mesmo, por isso, conseguiremos reaproveitar o teste feito anteriormente criando apenas uma nova classe de teste. 

Implementando este teste, voc√™ perceber√° como √© lindo usar orienta√ß√£o objetos ao seu favor ü•∞. No arquivo `index_structure_test.py` voc√™ possui a classe `FileStructureTest` que √© subclasse de nosso teste criado `StructureTest`.  Voc√™ dever√° implementar o m√©todo `setUp` na classe `FileStructureTest` que sobrep√µe o m√©todo de mesmo nome na classe `StructureTest`. O m√©todo `setUp` √© executado sempre antes do teste. Este m√©todo que voc√™ ir√° criar ir√° fazer exatamente a mesma coisa que o criado em `StructureTest` por√©m, voc√™ dever√° instanciar um `FileIndex` ao inv√©s de um `HashIndex`. Logo ap√≥s, execute os testes:

In [None]:
!python3 -m index.index_structure_test  FileStructureTest.test_document_count_with_term

In [None]:
!python3 -m index.index_structure_test  FileStructureTest.test_get_occurrence_list

De forma similar, tamb√©m criamos um teste de performance. Verifique a performance da indexa√ß√£o em arquivo e em mem√≥ria ao indexar milh√µes de ocorrencias de termos utilizando os testes abaixo. Note que, desta vez, estamso chamando os testes por meio de comandos Python e n√£o pelo terminal. Assim, caso queira fazer alguma altera√ß√£o no arquivos `.py`, voc√™ deve reiniciar o kernel.

- √çndice completamente em mem√≥ria principal:

In [None]:
import unittest
from index.performance_test import PerformanceTest

PerformanceTest.NUM_DOCS = 2500
PerformanceTest.NUM_TERM_PER_DOC = 500

suite = unittest.TestLoader().loadTestsFromTestCase(PerformanceTest)
unittest.TextTestRunner(verbosity=2).run(suite)

- √çndice com ocorrencias em mem√≥ria secund√°ria. Veja que, abaixo, que voc√™ pode ajustar o parametro de n√∫mero de ocorr√™ncias em mem√≥ria. Ser√° muito √∫til para n√£o gastar tanto tempo ao indexar o conte√∫do da Wikip√©dia. 

In [None]:
import unittest
from index.performance_test import FilePerformanceTest,PerformanceTest
from index.structure import FileIndex

PerformanceTest.NUM_DOCS = 10
PerformanceTest.NUM_TERM_PER_DOC = 10000
FileIndex.TMP_OCCURRENCES_LIMIT = 10000

suite = unittest.TestLoader().loadTestsFromTestCase(FilePerformanceTest)
unittest.TextTestRunner(verbosity=2).run(suite)

In [None]:
import unittest
from index.performance_test import FilePerformanceTest,PerformanceTest
from index.structure import FileIndex

PerformanceTest.NUM_DOCS = 10
PerformanceTest.NUM_TERM_PER_DOC = 50000
FileIndex.TMP_OCCURRENCES_LIMIT = 10000

suite = unittest.TestLoader().loadTestsFromTestCase(FilePerformanceTest)
unittest.TextTestRunner(verbosity=2).run(suite)

Logo ap√≥s executado este teste, voc√™ dever√° usar a biblioteca [JSON](https://docs.python.org/3/library/json.html) ou [Pickle](https://docs.python.org/3/library/pickle.html) para armazenar o vocabul√°rio. Com isso, crie um m√©todo de leitura do FileIndex e de escrita. O m√©todo de leitura dever√° ser um m√©todo estatico que retorna um objeto da classe indice previamente criado.

## Indexador de HTML 

Agora, voc√™ ir√° alterar o arquivo `indexer.py` para [preprocessar conte√∫do HTML](https://docs.google.com/presentation/d/1C22jQWIYobiqMx8SmP1y2lr1uSlvJSu3ayu5lXC5d8A/edit?usp=sharing) e depois index√°-lo. Com isso, voc√™ poder√° us√°-lo para indexa√ß√£o das p√°ginas HTML, como os da Wikip√©dia. A classe `Cleaner` ser√° respons√°vel pelo preprocessamento e a HTMLIndexer, para a indexa√ß√£o.

In [None]:
!pip install nltk

In [None]:
from index.indexer import *
#importamos o m√≥dulo structure
#novamente para n√£o precisar de executar o c√≥digo do in√≠cio da tarefa
from index.structure import *

**Atividade 11 - Limpeza dos dados com a classe Cleaner: ** A classe `Cleaner` √© respons√°vel por preprocessar o conte√∫do HTML para que ele esteja preparado para indexa√ß√£o. Essa classe tem alguns _flags_ para definir se algum tipo de processamento opcional ser√° feito (por exemplo, _stemming_ e remo√ß√£o de _stopwords_). Para isso, voc√™ dever√° implementar pequenos m√©todos para fazer a limpeza. Esses c√≥digos s√£o pequenos pois temos lindas APIs para nos ajudar üíï. Voc√™ ir√° fazer o processamento b√°sico e, se quiser, pode melhorar a implementa√ß√£o criando exce√ß√µes na remo√ß√£o de acentos e n√£o retirando mai√∫sculas e min√∫sculas de certas palavras e unindo palavras compostas, por exemplo.

Para cada tarefa, h√° um m√©todo para ser criado a seguir os testes iniciais ser√£o feitos aqui no Jupyter. N√£o esque√ßa de reiniciar o kernel sempre que alterar algo no c√≥digo. Logo ap√≥s, haver√° um [teste de integra√ß√£o](https://en.wikipedia.org/wiki/Integration_testing) para avaliar a indexa√ß√£o como um todo.

- **Transforma√ß√£o de HTML para texto: ** Na limpeza dos dados, iremos remover tudo que n√£o ser√° indexado - ou seja, o c√≥digo HTML. Para isso, iremos implementar o m√©todo `html_to_plain_text` que transformar√° o HTML em texto corrido. Voc√™ pode utilizar o [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) para isso e o m√©todo get_text. 

In [None]:
cleaner_test = Cleaner(stop_words_file="stopwords.txt",
                        language="portuguese",
                        perform_stop_words_removal=True,
                        perform_accents_removal=True,
                        perform_stemming=True)
cleaner_test.html_to_plain_text("&copy; oi! Meu nome √© <strong>Hasan</strong>")
#esperado: '¬© oi! Meu nome √© Hasan'

- **Verifica se √© stopword**: O m√©todo `is_stopword` retorna verdadeiro se uma palavra, passada como par√¢metro, √© stopword. Para isso, voc√™ ir√° usar o atributo `set_stop_words`. Este atibuto foi inicializado com um conjunto de stopwords de um arquivo. Esse arquivo, para testes, tem poucas stopwords. 
    

In [None]:
print(f"{cleaner_test.is_stop_word('jap√£o')}, esperado: False")
print(f"{cleaner_test.is_stop_word('cama')}, esperado: False")
print(f"{cleaner_test.is_stop_word('√©')}, esperado: True")


- **Stemming**: voc√™ dever√° implementar o m√©todo word_stem para ralizar o stemming. Voc√™ dever√° usar a [classe SnowballStemmer da API NLTK](https://www.nltk.org/howto/stem.html). Um objeto dessa classe j√° est√° instanciado no atributo `stemmer`. 

In [None]:
print(f"{cleaner_test.word_stem('verdade')}, esperado: verdad")
print(f"{cleaner_test.word_stem('estudante')}, esperado: estud")
print(f"{cleaner_test.word_stem('amado')}, esperado: amad")


- **Remo√ß√£o de acentos:** Iremos fazer de uma forma bem simples a remo√ß√£o de acentos: aplicando uma tabela de substitui√ß√£o de caracteres. Para isso, voc√™ dever√° criar uma [tabela de tradu√ß√£o](https://docs.python.org/3.3/library/stdtypes.html?highlight=maketrans#str.maketrans) no atributo `accents_translation_table` baseando-se nas vari√°veis `in_table` e `out_table` tamb√©m presentes no construtor (substitua o None).

In [None]:
print(f"{cleaner_test.remove_accents('can√ß√£o')}, esperado: cancao")
print(f"{cleaner_test.remove_accents('el√©trico')}, esperado: eletrico")
print(f"{cleaner_test.remove_accents('amado')}, esperado: amado")


Agora voc√™ ir√° fazer o m√©todo `preprocess_word` ele ir√° receber como parametro uma palavra e ir√° verificar se √© uma palavra v√°lida de ser indexada. Caso n√£o seja, retornar√° None. Caso contr√°rio, ir√° retornar a palvra preprocessada. Uma palavra v√°lida a ser indexada √© aquela que n√£o √© pontua√ß√£o e n√£o √© stopword (caso `perform_stop_words_removal = True`). Para que seja feito o preprocessamento voc√™ dever√°: transformar o texto para min√∫sculas, remover acento (se `perform_accents_removal=True`), fazer o stemming (se `perform_stemming = True`).

**Atividade 12 - Classe HTMLIndexer - m√©todo text_word_count: **  Voc√™ dever√° implementar o m√©todo `text_word_count`, a partir de um texto. Esse m√©todo retorna um dicion√°rio em que, para cada palavra no texto, ser√° apresentado sua frequ√™ncia. Considere que o texto j√° est√° limpo e √© necess√°rio fazer apenas o processamento das palavras.

Para isso, voc√™ dever√°:  dividir o texto em tokens (que, no nosso caso, s√£o as palavras e pontua√ß√µes); preprocessar cada palavra usando o `HTMLIndexer.cleaner`; e, se for uma palavra v√°lida, contabiliz√°-la. Para isso, ser√° necess√°rio [o m√©todo word_tokenize da API NLTK](https://kite.com/python/docs/nltk.word_tokenize)

In [None]:
index = HashIndex()
indexador_teste = HTMLIndexer(index)
indexador_teste.text_word_count("Ol√°! Qual √© o dado dado que precisa?")
#esperado:
#{'dad': 2, 'o': 1, 'ola': 1, 'precis': 1, 'qual': 1, 'que': 1}

**Atividade 13 - m√©todo index_text: ** Implemente o m√©todo `index_text` que dever√° (1) converter o HTML para texto simples usando `HTMLIndexer.cleaner`; (2) converter o texto em um dicion√°rio de ocorrencias de palavras com sua frequencia (metodo da atividade 12); e (3) indexar cada palavra deste dicion√°rio.

In [None]:

index = HashIndex()
indexador_teste = HTMLIndexer(index)
#o HTML est√° mal formado de prop√≥sito ;)
indexador_teste.index_text(10,"<strong>Ol&aacute;! </str> Quais s√£o os dados que precisar√°?")

indexador_teste.index.dic_index

Esperado:
<pre>
{'dad': [(term_id:4 doc: 10 freq: 1)],
 'ola': [(term_id:0 doc: 10 freq: 1)],
 'os': [(term_id:3 doc: 10 freq: 1)],
 'precis': [(term_id:6 doc: 10 freq: 1)],
'qua': [(term_id:1 doc: 10 freq: 1)],
 'que': [(term_id:5 doc: 10 freq: 1)],
 'sao': [(term_id:2 doc: 10 freq: 1)]}
</pre>

**Atividade 14: Indexa√ß√£o de um diretorio com subdiretorios** Voc√™ dever√° implementar o m√©todo `index_text_dir` que, dado um diretorio, navega em todos os seus subdiret√≥rios e indexa todos os arquivos HTMLs. Considere que os arquivos sejam sempre nomeados pelo seu ID. Veja o exemplo em `doc_test`. Logo ap√≥s, execute o teste unit√°rio para ver a corretude do seu indexador.

In [None]:
!python3 -m index.indexer_test IndexerTest.test_indexer

Agora, para fazer a especifica√ß√£o do projeto, voc√™ deve baixar o dataset da Wikip√©dia e index√°-lo. Voc√™ deve tamb√©m achar um arquivo de stopwords com mais termos aos que feito neste teste.

In [1]:
from index.indexer import *
#importamos o m√≥dulo structure
#novamente para n√£o precisar de executar o c√≥digo do in√≠cio da tarefa
from index.structure import *

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/jonathan.candido/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [1]:
## lista de stopwords retirada de: https://gist.github.com/alopes/5358189
cleaner_test = Cleaner(stop_words_file="./wiki/stopwords.txt",
                        language="portuguese",
                        perform_stop_words_removal=True,
                        perform_accents_removal=True,
                        perform_stemming=True)
print(cleaner_test.set_stop_words)


NameError: name 'Cleaner' is not defined

In [2]:
from index.indexer import *
from index.structure import *
import tracemalloc
time_first = datetime.now()
obj_index = FileIndex()
html_indexer = HTMLIndexer(obj_index)
tracemalloc.start()
html_indexer.index_text_dir("index/wiki/wikiSample")
current, peak = tracemalloc.get_traced_memory()            
time_end = datetime.now()
tempo_gasto = time_end-time_first 
print(f"Memoria usada: {current / 10**6:,} MB; M√°ximo {peak / 10**6:,} MB")
print(f"Finalizado:{tempo_gasto.total_seconds()}")

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/jonathan.candido/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Arquivo -> 0
Arquivo -> 62
Arquivo -> 133
Arquivo -> 941
Arquivo -> 1038
Arquivo -> 1076
Arquivo -> 1122
Arquivo -> 1213
Arquivo -> 1238
Arquivo -> 1282
Arquivo -> 1332
Arquivo -> 1400
Arquivo -> 1786
Arquivo -> 1881
Arquivo -> 1959
Arquivo -> 2009
Arquivo -> 2108
Arquivo -> 2148
Arquivo -> 2516
Arquivo -> 2564
Arquivo -> 2602
Arquivo -> 2638
Arquivo -> 2668
Arquivo -> 2770
Arquivo -> 2871
Arquivo -> 2918
Arquivo -> 2956
Arquivo -> 2997
Arquivo -> 3459
Arquivo -> 3563
Arquivo -> 3658
Arquivo -> 3703
Arquivo -> 3751
Arquivo -> 3787
Arquivo -> 3822
Arquivo -> 3873
Arquivo -> 3923
Arquivo -> 3980
Arquivo -> 4024
Arquivo -> 4057
Arquivo -> 4083
Arquivo -> 4113
Arquivo -> 4174
Arquivo -> 4208
Arquivo -> 4253
Arquivo -> 4292
Arquivo -> 4343
Arquivo -> 4399
Arquivo -> 4431
Arquivo -> 4460
Arquivo -> 4500
Arquivo -> 4549
Arquivo -> 4633
Arquivo -> 4700
Arquivo -> 4757
Arquivo -> 4793
Arquivo -> 4819
Arquivo -> 4856
Arquivo -> 4878
Arquivo -> 4936
Arquivo -> 5018
Arquivo -> 5060
Arquivo -> 5093

Arquivo -> 33646
Arquivo -> 33704
Arquivo -> 33746
Arquivo -> 33805
Arquivo -> 33897
Arquivo -> 34625
Arquivo -> 34676
Arquivo -> 34710
Arquivo -> 34738
Arquivo -> 34773
Arquivo -> 35126
Arquivo -> 35179
Arquivo -> 35215
Arquivo -> 35265
Arquivo -> 35364
Arquivo -> 35796
Arquivo -> 35865
Arquivo -> 35907
Arquivo -> 36360
Arquivo -> 36462
Arquivo -> 36495
Arquivo -> 36540
Arquivo -> 36584
Arquivo -> 36633
Arquivo -> 36685
Arquivo -> 36707
Arquivo -> 36774
Arquivo -> 36807
Arquivo -> 36888
Arquivo -> 36969
Arquivo -> 36984
Arquivo -> 37014
Arquivo -> 37094
Arquivo -> 37152
Arquivo -> 37190
Arquivo -> 37214
Arquivo -> 37230
Arquivo -> 37334
Arquivo -> 37414
Arquivo -> 37448
Arquivo -> 37502
Arquivo -> 37542
Arquivo -> 37578
Arquivo -> 37613
Arquivo -> 37652
Arquivo -> 37685
Arquivo -> 37755
Arquivo -> 37804
Arquivo -> 37853
Arquivo -> 37899
Arquivo -> 37949
Arquivo -> 37984
Arquivo -> 38023
Arquivo -> 38050
Arquivo -> 38077
Arquivo -> 38128
Arquivo -> 38169
Arquivo -> 38207
Arquivo -> 382

AttributeError: 'HTMLIndexer' object has no attribute 'dic_index'

In [2]:
a = 0
soma = 0
with open("times.txt","r",encoding="utf-8") as file:
    for line in file.readlines():
        a+=1
        soma+=  float(line.split(":")[1])

    print(f"Qtd arquivos: {a} Soma total: {soma} media:{(soma/a)} segundos")

Qtd arquivos: 62128 Soma total: 14337.998765999993 media:0.23078159229332978 segundos


In [None]:
#Recuperando o indice
from index.indexer import *
from index.structure 
import *
import pickle
with open("occur_index.idx","rb") as idx_file:
    obj_index = FileIndex()
    t = obj_index.next_from_file(idx_file)
    while t != None:
        print(t)
        t = obj_index.next_from_file(idx_file)