# Apresentação: Construção de um Web Scraper, Indexador e Buscador 

## 1  Web Scraper

O primeiro passo é construir um web scraper para coletar dados de páginas da web. Para isso, criamos duas classes: `Url` e `Coletor`.


`OBS: No script principal usei as classes Coletor, Indexador e Buscador para coletar dados da web, indexá-los e realizar uma busca. Ele coleta dados de uma lista de URLs, salva os dados coletados em um arquivo JSON, cria um índice invertido dos dados coletados e realiza uma busca.`

### Classe Url 

A classe `Url` tem um método chamado `buscar_html`, que faz uma solicitação GET para uma URL especificada e retorna o HTML da página.

```python
class Url:
    def __init__(self, url):
        self.url = url

    def buscar_html(self):
        # Faz uma solicitação GET e retorna o HTML da página #




### Classe Coletor 

A classe `Coletor` usa a classe `Url` para coletar dados de várias URLs. Ela tem um método chamado `coletar_urls`, que coleta dados de uma URL e todas as URLs ligadas a ela até uma certa profundidade. Os dados coletados são salvos em um arquivo JSON.

```python
class Coletor:
    def __init__(self):
        # Inicializa a lista de URLs visitadas e os dados coletados

    def coletar_urls(self, url_inicial, profundidade=1, tags=['h1', 'h2', 'p']):
        # Coleta dados da URL inicial e todas as URLs ligadas a ela

    def salvar_dados_json(self, nome_arquivo):
        # Salva os dados coletados em um arquivo JSON





## 2. Indexador

O próximo passo é construir um indexador para criar um índice invertido dos dados coletados. Para isso, criamos a classe `Indexador`.

### Classe Indexador

A classe `Indexador` tem um método chamado `inverted_index_generator`, que cria um índice invertido dos dados coletados. Cada palavra dos textos coletados é mapeada para o conjunto de URLs que contêm essa palavra.

```python
class Indexador:
    def __init__(self, coletor):
        # Inicializa o índice invertido

    def inverted_index_generator(self):
        # Cria um índice invertido dos dados coletados




## 3. Buscador

Finalmente, construímos um buscador para buscar termos no índice invertido. Para isso, criamos a classe `Buscador`.

### Classe Buscador

A classe `Buscador` tem dois métodos: `buscar` e `buscar_todos_termos`. O método `buscar` retorna todos os URLs associados a um único termo de busca. O método `buscar_todos_termos` retorna apenas os URLs que estão associados a todos os termos na consulta de busca.

```python
class Buscador:
    def __init__(self, indexador):
        # Inicializa o buscador com o índice invertido

    def buscar(self, termo):
        # Retorna todos os URLs associados a um termo de busca

    def buscar_todos_termos(self, consulta):
        # Retorna apenas os URLs que estão associados a todos os termos na consulta de busca





## Funcionalidades

Este conjunto de códigos permite que você crie um web scraper para coletar dados da web, um indexador para criar um índice invertido dos dados coletados e um buscador para buscar termos no índice invertido. Isso pode ser útil para uma variedade de aplicações, como análise de conteúdo da web, SEO, pesquisa de mercado, etc.



## Curiosidades

- O índice invertido é uma estrutura de dados comum usada em motores de busca. Ele permite pesquisas rápidas de termos em grandes conjuntos de dados.
- A biblioteca BeautifulSoup usada aqui é uma das bibliotecas mais populares para web scraping em Python devido à sua capacidade de lidar com HTML e XML e sua facilidade de uso.
- A biblioteca requests é uma das bibliotecas mais usadas em Python para fazer solicitações HTTP. Ela permite que você envie solicitações HTTP/1.1 com vários métodos como GET, POST, etc.