# Dificuldades, Decisões e Arquitetura
A parte mais desafiadora de se desenvolver o coletor foi de tratar certas excessões que nem sempre são claras. Ao pensar na coleta é importante manter atenção à detalhes como repetição de links e páginas. Esses problemas não ocorrem em uma coleta ideal, mas as coisas não são perfeitas e os links podem entrar em loop. A parte complexa desses problemas é que eles não se manifestam como erro sintático e, portanto, é muito mais difícil identificar o local adequado para tratá-los. Vale lembrar que se o tratamento for feito de forma indevida podemos obter resultados inesperados na coleta.

A principal decisão sobre esse coletor foi o de aproveitar ao máximo os recursos de dicionário para Python. Em outras linguagens poderia ser interessantes fazer uso de árvores, listas encadeadas, etc. para melhor lidar com os resultados. Porém, como a implementação de dicionários já está consolidada no Python, viu-se interessante usar ela para simplificar a abstração. Não só os dicionários foram um agente facilitador, mas as bibliotecas para tratamento de url e multithread também foram fundamentais para obter uma solução mais clara, abstraindo detalhes desnecessários.

# URL's acessadas
- PORTAL UOL. URL: https://www.uol.com.br. Último acesso em: 12/07/21.
- PORTAL UAI. URL: https://www.uai.com.br. Último acesso em: 12/07/21.
- PORTAL TERRA. URL: https://www.terra.com.br. Último acessso em: 12/07/21.
- JORNAL BBC. URL: https://www.bbc.com. Último acesso em: 12/07/21.
- PORTAL G1. URL: https://www.g1.globo.com. Último acesso em: 12/07/21.
- PORTAL TECMUNDO. URL: https://www.tecmundo.com.br. Último acesso em:12/07/21.
- PORTAL OLHARDIGITAL. URL: https://www.olhardigital.com.br. Último acesso em: 12/07/21.
- PORTAL ESTADÃO. URL: https://www.estadao.com.br. Último acesso em: 12/07/21.
- PORTAL ESTADO DE MINAS. URL: https://www.em.com.br. Último acesso em: 12/07/21.

# Critérios e Protocolos
O coletor precisa atender boas condutas para solicitar as páginas aos servidores. Para atender a essa política de boa navegação, pode-se elencar o método `get_next_url` da classe `Scheduler` no arquivo `scheduler.py`. Nele é possível encontrar o comando `sleep()` tendo como parâmetro uma constante de tempo que obedece aos protocolos de novas solicitações. Esse tipo de parada evita sobrecarregar o mesmo servidor. 

In [None]:
# ...
TIME_LIMIT_BETWEEN_REQUESTS = 20
# ...
def get_next_url(self) -> tuple:
        """
        Obtém uma nova URL por meio da fila. Essa URL é removida da fila.
        Logo após, caso o servidor não tenha mais URLs, o mesmo também é removido.
        """
        for domain in self.dic_url_per_domain.keys():
            if domain.is_accessible():
                # Não extraia self.dic_url_per_domain[domain] para uma variável, pois essas modificações devem ser
                # feitas por referência
                if len(self.dic_url_per_domain[domain]) > 0:
                    self.__acess_domain(domain)
                    return self.dic_url_per_domain[domain].pop(0)
        sleep(Scheduler.TIME_LIMIT_BETWEEN_REQUESTS)
        return None, None
# ...

Pensando ainda na política de comportamento, podemos observar no método `request_url` da classe `PageFetcher` no arquivo `page_fetcher.py` que o User Agent é identificado por uma constante da classe e ela é uma string com o termo `Bot`. Isso permite a identificação correta do coletor ao fazer as solicitações aos servidores.

In [None]:
# ...
USER_AGENT = 'amarelaoBot'
# ...
def request_url(self, obj_url: ParseResult):
        """
            Faz a requisição e retorna o conteúdo em binário da URL passada como parametro

            obj_url: Instancia da classe ParseResult com a URL a ser requisitada.
        """
        response = requests.get(url=obj_url.geturl(), headers={
                                'User-Agent': PageFetcher.USER_AGENT})
        return response.content if 'text/html' in response.headers['Content-Type'] else None
# ...

# impacto na velocidade de coleta
- quantidade de páginas por segundo
- threads de 10 a 100
- crescendo de 20 em 20 threads
- coletanto sempre 100 páginas
- recomendado usar: **seaborn**
> gerar gráfico