## Webscraping com Python

Tutorial de webscraping com pyhton utilizando a biblioteca BeautifulSoup

### O que é webscraping?

Webscraping é uma técnica de extração de dados, com ela podemos coletar dados de sites. Fazemos a 'raspagem' dos dados  que são interessantes para nós.

Por exemplo: resgatar os últimos posts que foram escritos em vários blogs, assim sem precisarmos entrar nos sites alvo, podemos simplesmente iterar sobre eles e resgatar os dados, esta seria um exemplo simples da aplicação da técnica.

Porém há muitas empresas que utilizam como forma de gerar recursos, um exemplo clássico é o site Buscapé, ele varre os sites que vendem os produtos pesquisados em busca dos menores preços.

### Mais sobre o webscraping:

Depois da extração dos dados, podemos armazenar eles de diversas formas:

- Salvar em um banco de dados;
- Salvar em CSV;
- Salvar em XLS;
- Entre outros;

O processo em si é bem básico, definimos os dados que queremos, escolhemos os sites, montamos o script e recebemos os dados para análiser, este é o ciclo de vida do webscraping.

Outro ponto legal é que se você souber um pouco de programação web vai se sentir muito confortável na exploração das tags, e na própria estrutura do html, isso já te deixa na frente.

### Porque utilizar?

Bom, vamos imaginar um caso: precisamos dos comentários de um produto X em 200 e-commerces diferentes para analisa-los e validar se o produto tem aceitação no mercado.

Poderiamos entrar nos 200 sites copiar todos os comentários e salva-los numa planinha, por exemplo, mas e quantas horas gastariamos nisso? E se a pesquisa precisa ser repetida toda semana? Se faltou algum dado na primeira pesquisa?

Teriamos que novamente nos submetermos a todo este processo manual, gastando horas para algo super simples!

É aí que entra o webscraping, automatizamos todo o processo e só precisamos rodar o script até quando precisarmos, é muito mais vantajoso, e se feito de maneira correta se torna muito mais preciso também, a prova de erros humanos.

### Antes de iniciarmos a prática

Vou utilizar o Jupyter Notebook para demonstrar todos os exemplos, instalando o Anaconda você já consegue todas as libs usadas neste tutorial e inclusive o Notebook.

Caso você opte por instalar as libs separadamente, faça isso com o pip, o resultado final será o mesmo, gosto da solução da Anaconda pois é prática e rápida, além de ser muito utilizada para tutoriais.

Fiz um artigo de como instalar o Jupyter em diversas plataformas, caso queira aproveitar: [confira aqui!](https://medium.com/matheusbudkewicz/como-instalar-o-jupyter-notebook-windows-e-linux-20701fc583c)

### Hello World em webscraping

Vamos colocar a mão na massa para adicionar um pouco de prática, assim já conseguiremos abordar tópicos mais avançados

In [3]:
# Importando as libs
from urllib.request import urlopen

# Definimos a url alvo. obs: esta url vem de um livro sobre o assunto do tópico
url = 'http://pythonscraping.com/pages/page1.html'

# Aplicamos uma requisição para pegar o HTML
html = urlopen(url)

# Verificação do conteúdo
html.read()

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

### Pronto!

Temos o primeiro resultado por webscraping, foi fácil não?

O retorno do método urlopen foi um HTML simples com diversos elementos que vemos todos os dias, o próximo passo seria extrair os dados que nós desejamos.

Outro ponto importante é que no passo acima utilizamos a lib urllopen, nativa do Python, porém em outros tutoriais você pode se deparar com a Requests, que é bem conhecida e a comunidade abraça bem ela, então porque utilizamos a urllib?


### Requests ou urllib?

Bom, como vamos fazer requisições HTTP, no caso get, nas páginas que queremos extrair dados, precisamos de uma lib para isso, durante meus estudos sobre o tema estas duas apareceram de forma igual, então fui atrás para saber as vantagens e desvantagens de cada uma.

Basicamente o que encontrei é que Requests é uma lib externa, no caso estariamos criando uma dependência para o projeto, outro ponto forte é a simplicidade de escrever o código, escrevemos menos linhas para chegar ao mesmo resultado comparando com a urllib, além disso há alguns comentários que dizem que Requests tem um código mais limpo e moderno que a outra.

Já urllib é nativa do Python, o que quer dizer que provavelmente será mantida e pela mesma equipe que trabalha na linguagem, há alguns comentários pelo stackoverflow que falam sobre o desenvolvimento dela ser feito numa lógica de 'resolver o problema' ao invés de código limpo e performático.

Neste post pretendo seguir com a urllib, mas teremos um exemplo com a Requests para você poder escolher a que mais te agrada.

In [7]:
# Importando a Requests
import requests

# Vamos testar a biblioteca requests
html = requests.get(url)

# Diferente da urllib, usamos text para apresentar o conteudo que o get nos trouxe
html.text

'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

Agora que vimos como conseguir os dados de um site, está na hora de avançarmos ao próximo nível: usar uma biblioteca para poder manipular o HTML de uma forma mais fácil

### BeautifulSoup

Com a BeautifulSoup tudo será tranquilo, esta biblioteca do Python serve para extrairmos dados de HTML e XML, de forma fácil e descomplicada podemos acessar os 'nós' da estrutura do HTML da página e pegar as informações

Vamos utilizar ela num exemplo para que fique claro o quanto mais fácil será se locomover pelas tags HTML ao invés de texto puro, como nos retornos dos métodos anteriores

No próximo exemplo vou pegar o título da página

In [10]:
# Importando a BeautifulSoup
from bs4 import BeautifulSoup

# Vamos mudar a URL
url = 'https://www.python.org/'

# lendo a URL com a urllopen
html = urlopen(url)

# Enfim mostrando o poder da bs4
bs = BeautifulSoup(html, 'lxml')

# Imprimindo o título da página
print(bs.title)

<title>Welcome to Python.org</title>


In [None]:
validacao de erros

http e server