# Coleta de Dados Web
por [Anderson França](https://andersonfranca.me)

A coleta de dados na internet desempenha um papel fundamental na obtenção de informações relevantes, auxiliando em processos de tomada de decisão, pesquisa, análise de mercado e desenvolvimento de serviços. Entretanto, muitas vezes é bem difícil encontrar conjuntos de dados de código aberto que correspondam perfeitamente ao que você está procurando, ou APIs gratuitas que lhe dão acesso aos dados. Nesse caso, a raspagem de dados da web, ou web scraping, pode ser uma solução para obter mais dados.

### O que é Web Scraping?

Web scraping, também conhecido como web data mining ou web harvesting, é o processo de extrair informações de websites de forma automatizada. Essa técnica envolve o uso de programas ou scripts para acessar e analisar o conteúdo de páginas da web, coletando dados estruturados ou não estruturados.

O web scraping nos permite extrair dados de diferentes fontes na internet, como sites de comércio eletrônico, mídias sociais, notícias, blogs e qualquer outro tipo de site. Ele pode ser usado para extrair informações como textos, imagens, links, tabelas, dados de produtos, avaliações de usuários e muito mais.

Existem várias bibliotecas e ferramentas disponíveis em diferentes linguagens de programação que facilitam o processo de web scraping. Por exemplo, em Python, as bibliotecas [BeautifulSoup](https://beautiful-soup-4.readthedocs.io/en/latest/#), [Scrapy](https://scrapy.org/) e [Selenium](https://www.selenium.dev/) são amplamente utilizadas para extrair dados de páginas web.

É importante destacar que ao realizar web scraping, é necessário considerar aspectos legais e éticos. Alguns sites podem proibir explicitamente a extração de dados através de seus termos de serviço, enquanto outros podem restringir a frequência ou volume de acesso. É sempre recomendável revisar os termos de serviço do site-alvo e aderir às políticas de scraping responsável.

### Como funciona?

O web scraping envolve várias etapas para extrair dados de um site. O processo pode incluir os principais passos:

- **Identificar o alvo:** Primeiro, é necessário identificar o site-alvo a partir do qual deseja extrair dados. Isso pode ser qualquer página da web que contenha as informações que você está interessado em coletar.

- **Analisar a estrutura da página:** Antes de iniciar o web scraping, é importante entender a estrutura da página. Isso envolve examinar o código HTML da página para identificar os elementos que contêm os dados desejados. Você pode usar o recurso de inspeção do navegador para visualizar o código-fonte da página e identificar os elementos relevantes.

- **Selecionar e extrair os dados:** Com base na análise da estrutura da página, você pode usar bibliotecas ou ferramentas de web scraping, como BeautifulSoup em Python, para selecionar e extrair os dados desejados. Isso envolve identificar os elementos HTML específicos (por meio de seletores CSS ou XPath) e recuperar seu conteúdo, como texto, imagens ou links.

- **Tratar e limpar os dados:** Após a extração dos dados, é possível que você precise realizar algum pré-processamento para tratar e limpar as informações coletadas. Isso pode envolver a remoção de caracteres indesejados, a conversão de formatos ou a padronização dos dados de acordo com suas necessidades.

- **Armazenar ou utilizar os dados:** Depois de tratar os dados, você pode optar por armazená-los em um formato específico, como um arquivo CSV, JSON ou em um banco de dados. Alternativamente, você pode utilizar os dados diretamente em análises, visualizações ou aplicativos específicos.

- **Iterar e automatizar:** O processo de web scraping pode ser repetido para várias páginas ou sites semelhantes. Você pode iterar o processo para coletar dados de várias fontes. Além disso, é possível automatizar o processo de web scraping, criando scripts ou programas que executam a extração de dados de forma programada e regular.


<img src="https://drive.google.com/uc?id=1v1WwiGw_SKHeSxJ-uj1WoBN92e8JrYZC" width="400" align="center"/>

Imagem: [Medium - Ahmed Besbes](https://medium.datadriveninvestor.com/introduction-to-scraping-in-python-with-beautifulsoup-and-requests-ab7b1c9bc113)

### Tipos de webscraping

Existem diversos tipos de web scraping, que dependem da abordagem utilizada e dos objetivos do projeto. Os principais são:

- **Web Scraping Estático:** É o tipo mais utilizado. Nesse caso, o _scraper_ coleta dados de páginas estáticas, ou seja, aquelas em que o conteúdo não é gerado dinamicamente por meio de JavaScript ou AJAX. O web scraper faz o download do HTML da página e extrai os dados desejados diretamente do código-fonte.

- **Web Scraping Dinâmico:** Nesse caso, o scraper lida com páginas que possuem conteúdo gerado dinamicamente por meio de JavaScript ou AJAX. Para coletar os dados, é necessário usar ferramentas como Selenium ou Puppeteer, que permitem a automação de um navegador web real para renderizar e interagir com a página. O scraper pode extrair os dados depois que a página foi totalmente carregada e o JavaScript foi executado.

- **Web Scraping Focused:** Nesse tipo de scraping, o foco está em extrair informações específicas de uma página, como um conjunto de elementos, campos de formulário ou blocos de texto. É uma abordagem mais direcionada e pode ser usada para coletar informações específicas de interesse, evitando a necessidade de extrair todo o conteúdo da página.

- **Web Crawling:** Enquanto o web scraping envolve a extração de dados específicos de páginas individuais, o web crawling envolve a navegação sistemática por vários sites para descobrir e coletar informações. Os crawlers são usados por mecanismos de busca para indexar páginas da web (ex. Google, Bing, Yahoo!, etc), seguir links e coletar informações para construir um índice de pesquisa.


### Começando com Scraping em Python

Para começar a contruir pequenos projetos, como baixar um dado em um link, buscar uma tabela em uma página, ou mesmo retornar um texto de uma notícia, basta apenas uma familiaridade com sintaxes de HTML e conhecimentos básicos de bibliotecas como requests e pandas.

Para projetos mais robustos, com sites dinâmicos e conteúdos customizados, será necessário conhecer frameworks mais avançados como Scrapy ou Selenium, além disso, ter familiaridade com JavaScript, CSS e recursos Web.



### O que é um HTML?

HTML (HyperText Markup Language) é a linguagem de marcação padrão utilizada para criar páginas web. É a estrutura básica na qual os sites são construídos. O HTML é composto por uma série de elementos ou tags que são usados para definir a estrutura e o conteúdo de uma página web.

Cada elemento HTML é representado por uma tag, que é delimitada por "<" (sinal de menor que) e ">" (sinal de maior que). As tags podem conter atributos que fornecem informações adicionais sobre o elemento. Os elementos HTML podem ser usados para criar títulos, parágrafos, listas, links, imagens, tabelas e muitos outros componentes encontrados em páginas web.

Um exemplo simples de código HTML pode ser:


<!DOCTYPE html>
\<html>
\<head>
    \<title> Título da Página \</title>
\</head>

\<body>
    \<h1>Exemplo de Página HTML\</h1>
    \<p>Este é um parágrafo de exemplo.\</p>
    \<img src="imagem.jpg" alt="Imagem de Exemplo">
    \<a href="https://www.exemplo.com">Link de Exemplo\</a>
\</body>
\</html>

Neste exemplo, temos um documento HTML básico. A estrutura geral de um documento HTML inclui as tags **\<html>**, **\<head>** e **\<body>**.

O conteúdo da página é definido dentro do elemento **\<body>**, que pode conter vários elementos, como **\<h1>** (cabeçalho), **\<p> (parágrafo)**, **\<img>** (imagem) e **\<a> (link)**.

Os navegadores interpretam o código HTML e exibem o conteúdo de acordo com as instruções fornecidas pelas tags. Com o uso adequado das tags e atributos, é possível criar páginas web estruturadas e bem formatadas.

### Definindo o ambiente

Para começar a desenvolver os códigos em python, vamo utilizar algumas bibliotecas comuns para acesso e estruturação aos dados.

- requests: Simula requisições HTTP como GET e POST. Será muito utilizada para acessar o código fonte das páginas e baixar arquivos.
- BeautifulSoup: utilizada para estruturar HTML e XML de forma simplificada
- Pandas: estrutura os dados em dataframe e exporta os dados em diversos formatos

Se você utiliza o Anaconda, esses pacotes já estão instalados. Caso contrário, você pode instalá-los da seguinte forma:

In [None]:
#pip install requests
#pip install beautifulsoup4
#pip install lxml
#pip install pandas

### Portal de Dados Abertos da Anvisa

Para nossa automação, vamos utilizar o Portal de dados abertos da ANVISA. O Portal de Dados Abertos da ANVISA é uma iniciativa da Agência Nacional de Vigilância Sanitária (ANVISA) do Brasil, que tem como objetivo disponibilizar publicamente diversos conjuntos de dados relacionados às atividades da agência.

O portal é uma plataforma online onde os usuários podem acessar e baixar uma variedade de dados e informações relacionadas à saúde, medicamentos, alimentos, produtos de higiene pessoal, cosméticos, agrotóxicos, entre outros aspectos regulados pela ANVISA. Os conjuntos de dados disponíveis incluem informações técnicas, estatísticas, regulatórias, fiscalizatórias e outras áreas de atuação da agência.

Através do Portal de Dados Abertos da ANVISA, os dados são disponibilizados em formatos abertos, como CSV, XML, JSON, entre outros, permitindo que pesquisadores, desenvolvedores, jornalistas e cidadãos interessados possam utilizar esses dados para análises, pesquisas, desenvolvimento de aplicativos, geração de relatórios e outras finalidades.

Essa iniciativa visa promover a transparência, o acesso à informação e a possibilidade de reutilização dos dados disponibilizados pela ANVISA, contribuindo para a promoção da saúde e segurança da população, além de estimular a inovação e o desenvolvimento de soluções tecnológicas no âmbito da saúde pública.

<img src="https://drive.google.com/uc?id=1pjXy13A3SL225jgupzwIHtUolgkD2RaF" width="800" align="center"/>

#### Baixar Dados de Diretórios Públicos

Para a nossa primeira automação, vamos utilizar o diretório de venda de medicamentos controlados e atimicrobianos. Esta base de Dados Abertos disponibiliza dados públicos de venda de medicamentos sujeitos à escrituração junto ao SNGPC.

<img src="https://drive.google.com/uc?id=135G1KWuTWYkVtTFS4a-y_Opl0M1pq69h" width="500" align="center"/>


Acesso: [Medicamentos controlados e atimicrobianos - manipulados](https://dados.gov.br/dados/conjuntos-dados/venda-de-medicamentos-controlados-e-antimicrobianos---medicamentos-manipulados)

### Acessando o HTML de uma página

Para acessar o HTML de uma página, basta abrir a página desejada no navegador e em seguida pressionar **F12**. Veja que o site ficará à esquerda e logo à direita, todo o código fonte da página.

Para navegar nas estruturas e recursos de um site, é necessário conhecimentos básicos em HTML, CSS e JavaScript.

<img src="https://drive.google.com/uc?id=1g85rb5vW0lZem3fUvolnmxigfyT92Cll" width="800" align="center"/>

_Nota 1: Cada navegador pode apresentar uma posição diferente_

_Nota 2: Cada página possui um código fonte distinto e recursos diferentes_

### Identificando o comportamento da página

Note que para cada mês temos um arquivo distindo e ao clicar em 'Acessar Recurso', o arquivo csv é imediatamente baixado em nosso computador, o que significa que o botão está fazendo uma requisição direta para um arquivo CSV.

<img src="https://drive.google.com/uc?id=1ojK8_KKKx_qf9W7bNWU6oFPZ7-KXmjq4" width="600" align="center"/>


Para verificar qual o link do arquivo CSV, acesse o código fonte da página e em seguida, clique em **network**. Note que de agora em diante, todos as atividades da página, bem como imagens, solicitação, códigos ou ações, serão registradas nessa tela.

<img src="https://drive.google.com/uc?id=12Yn9NmcD-nRgX9UiBa8_RcrBm9DNd9Ni" width="400" align="center"/>


Em seguida, com essa tela aberta, vamos clicar no botão de ação acessar recurso. Note que o clique gerou um novo registro chamado 'registrar-download'. Lembrando que esse é um comportamento exclusivo para esse site, para outras plataformas, podem aparecer diversos componentes e é preciso analisar cada um deles.

<img src="https://drive.google.com/uc?id=14zT0dgv1zdN-4fSqchIGJVlSZ0qCh7tg" width="400" align="center"/>


Como sabemos que o link aponta direto para o download de um arquivo, vamos inspecionar esse elemento para encontrar qual é essa url. Veja que ao clicar no elemento, e navegar pelas abas desse elemento, em payload, encontramos a url direta para o arquivo.

<img src="https://drive.google.com/uc?id=1mc7vNl56TzT9AOvDeJErVBYFC-9H8JSY" width="600" align="center"/>

Ao clicar nos demais recursos, notamos que as URLs seguem a mesma estrutura, apenas altera o ano e o mês de referência, logo, podemos assumir que é uma estrutura padronizada. Se você copiar esse link e colar diretamente no navegador, é possível baixar o dado diretamente em seu computador. Com isso, é possível utilizar apenas uma requisição em python para extrair esses dados de forma padronizada.

In [None]:
import pandas as pd
import requests

In [None]:
# Utilizar um link com a estrutura identificada
url = 'https://dados.anvisa.gov.br/dados/SNGPC/Manipulados/EDA_Manipulados_201402.csv'

In [None]:
#Fazer a requisição do arquivo
resposta = requests.get(url,verify=False)



In [None]:
#Salvar o arquivo em um csv
if resposta.status_code == 200:
    with open("EDA_Manipulados_201402.csv", "wb") as file:
        file.write(resposta.content)
    print("Download concluído com sucesso!")
else:
    print(f"Falha ao baixar o arquivo.")

Download concluído com sucesso!


In [None]:
dados = pd.read_csv('arquivo.csv', sep=';', encoding='Latin-1', low_memory=False)
dados.head()

Unnamed: 0,ANO_VENDA,MES_VENDA,UF_VENDA,MUNICIPIO_VENDA,DCB,PRINCIPIO_ATIVO,QTD_ATIVO_POR_UNID_FARMACOTEC,UNIDADE_MEDIDA_PRINCIPIO_ATIVO,QTD_UNIDADE_FARMACOTECNICA,TIPO_UNIDADE_FARMACOTECNICA,CONSELHO_PRESCRITOR,UF_CONSELHO_PRESCRITOR,TIPO_RECEITUARIO,CID10,SEXO,IDADE,UNIDADE_IDADE
0,2014,1,TO,PARAÍSO DO TOCANTINS,6000,MIRTAZAPINA,4,GRAMA,540,CÁPSULA,CRM,TO,1,,,,
1,2014,1,TO,PARAÍSO DO TOCANTINS,6000,MIRTAZAPINA,3,GRAMA,1080,CÁPSULA,CRM,TO,1,,,,
2,2014,1,TO,PARAÍSO DO TOCANTINS,6000,MIRTAZAPINA,15,GRAMA,1080,CÁPSULA,CRM,TO,1,,,,
3,2014,1,TO,PARAÍSO DO TOCANTINS,6524,CLORIDRATO DE NORTRIPTILINA,285,GRAMA,1080,CÁPSULA,CRM,TO,1,,,,
4,2014,1,TO,PARAÍSO DO TOCANTINS,6524,CLORIDRATO DE NORTRIPTILINA,57,GRAMA,2160,CÁPSULA,CRM,TO,1,,,,


In [None]:
dados['UF_VENDA'].value_counts()[0:10]

SP    108167
MG     33984
PR     26912
GO     17862
RJ     15436
RS     11422
SC      8267
ES      7005
BA      6937
MS      5426
Name: UF_VENDA, dtype: int64

## Baixar tabela de uma página

Muitas vezes os dados são publicados no formato de tabela. Saber trabalhar com tabelas, pode facilitar na hora de criar indicadores e compilar as informações publicadas online.

Para fins didáticos, vamos utilizar uma tabela publicada no wikipedia contendo uma lista da população das unidades federativas brasileiras segundo estimativas de 25 de dezembro de 2022, com base nos dados da prévia do Censo de 2022 do Instituto Brasileiro de Geografia e Estatística (IBGE).

A lista está disponível em: [Lista de unidades federativas do Brasil por população](https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o)

1. Criar uma tabela no python da tabela **Lista** contendo os campos:

- Posição
- Unidade federativa
- População - Censo 2010
- População - Prévia 2022
- Mudança
- % da população total
- País Comparável

2. Criar uma tabela **Por região** contendo os campos:

- Posição
- Unidade federativa
- População - Censo 2010
- População - Prévia 2022
- Mudança
- % da população total
- País Comparável

In [None]:
import requests
from bs4 import BeautifulSoup

Antes de tudo, vamos enviaruma solicitação GET para a URL da Wikipédia onde está localizada nossa tabela. Antes de baixar as informações, vamos verificar o status do site. Se o status for 200 podemos seguir e baixar os dados.

Para saber sobre mais sobre os status veja a sessão: [Status de Websites](#status-websites)

In [None]:
# Fazer a requisição HTTP
url = "https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o"
resposta = requests.get(url)
resposta.status_code

200

Agora que confirmamos o acesso à página, vamos usar a biblioteca BeautifulSoup para converter a página em um objeto beautiful soup e acessar todos os recursos da página.

In [None]:
# Criar o objeto BeautifulSoup
soup = BeautifulSoup(resposta.content, "html.parser")

Para extrair os dados do site, vamos colocar o cursor na tabela que queremos baixar, clicamos com o botão direito e inspecionamos o elemento. Isso nos dá o conteúdo HTML através do qual podemos encontrar as tags onde os dados são armazenados. Geralmente, as tabela são armazenadas dentro da tag <table> em HTML.

Veja que as tabelas estão dentro da tag \<table wikitable> note que a tag é table e a classe é wikitable.

<img src="https://drive.google.com/uc?id=1iuIqoSO1uV_73vguakVDIx05pm48zZCI" width="500" align="center"/>

Vamos utilizar essas informações no comando **find_all** do beatifulSoup.

In [None]:
# Encontrar a tabela desejada
tabelas = soup.find_all("table", {"class": "wikitable"})
#print(tabelas)

Agora vamos ler o objeto beautiful soup utilizando o **read_html** do pandas e vamos armazenar em um objeto chamado base_dados

In [None]:
base_dados = pd.read_html(str(tabelas))

In [None]:
base_dados[0]

Unnamed: 0,Posição,Unidade federativa,População(Censo de 2010)[2],População(Prévia 2022),Mudança,% da pop. total,País comparável (habitantes)
0,1,São Paulo,41 262 199,46 024 937,+11.5%,"22,2%",Espanha (46 754 778)
1,2,Minas Gerais,19 597 330,20 732 660,+5.8%,"10,0%",Burquina Fasso (20 903 273)
2,3,Rio de Janeiro,15 989 929,16 615 526,+3.9%,"8,0%",Camboja (16 718 965)
3,4,Bahia,14 016 906,14 659 023,+4.6%,"7,1%",Zimbabwe (14 862 924)
4,5,Paraná,10 444 526,11 835 379,+13.3%,"5,7%",Tunísia (11 818 619)
5,6,Rio Grande do Sul,10 693 929,11 088 065,+3.7%,"5,3%",Cuba (11 326 616)
6,7,Pernambuco,8 796 448,9 051 113,+2.9%,"4,4%",Áustria (9 006 398)
7,8,Ceará,8 452 381,8 936 431,+5.7%,"4,3%",Papua-Nova Guiné (8 947 024)
8,9,Pará,7 581 051,8 442 962,+11.4%,"4,1%",Suíça (8 654 622)
9,10,Santa Catarina,6 248 436,7 762 154,+24.2%,"3,7%",Paraguai (7 132 538)


Pronto! A tabela do Wikipédia está convertida em um dataframe e agora pode ser usado para análises de dados e tarefas de aprendizado de máquina.

## Exercício 1

Exercício 1: [Acesse](https://drive.google.com/file/d/19k59RLLADdgVoMbvmGSmdqj7CxKyp1is/view?usp=sharing)

## Exercício 2

Exercício 2: [Acesse](https://drive.google.com/file/d/1NCMe0MG_u90614dT5iFGKEEcrS71gByM/view?usp=sharing)

## Exercício 3
Exercício 3: [Acesse](https://drive.google.com/file/d/1CMMy4AC3gzUXDJUtkEYB2IAlHyhPl8hI/view?usp=sharing)

### <a id="status-websites"></a> Status de Websites

Os principais status de um website são retornados pelo servidor web como parte da resposta HTTP. Esses status fornecem informações sobre o resultado de uma solicitação feita ao servidor. Alguns dos status mais comuns são:


**200 OK:** Indica que a solicitação foi bem-sucedida e o servidor retornou os dados solicitados.

**301 Moved Permanently:** Indica que a página solicitada foi permanentemente movida para uma nova URL. É comumente usado para redirecionamento permanente.

**302 Found:** Indica que a página solicitada foi temporariamente movida para uma nova URL. É comumente usado para redirecionamento temporário.

**400 Bad Request:** Indica que a solicitação feita pelo cliente ao servidor foi inválida, geralmente devido a um erro na sintaxe.

**401 Unauthorized:** Indica que a solicitação requer autenticação do usuário. É comumente usado quando o acesso não foi autorizado devido à falta de credenciais válidas.

**403 Forbidden:** Indica que o acesso à página ou recurso solicitado foi negado pelo servidor. Diferente do status 401, que exige autenticação, o status 403 indica que a solicitação é proibida, mesmo com autenticação.

**404 Not Found:** Indica que a página ou recurso solicitado não foi encontrado no servidor.

**500 Internal Server Error:** Indica que ocorreu um erro interno no servidor ao processar a solicitação.