## Webscraping com Python

Tutorial de webscraping com pyhton utilizando a biblioteca BeautifulSoup

### O que é webscraping?

Webscraping é uma técnica de extração de dados, com ela podemos coletar dados de sites. Fazemos a 'raspagem' dos dados  que são interessantes para nós.

Por exemplo: resgatar os últimos posts que foram escritos em vários blogs, assim sem precisarmos entrar nos sites alvo, podemos simplesmente iterar sobre eles e resgatar os dados, esta seria um exemplo simples da aplicação da técnica.

Porém há muitas empresas que utilizam como forma de gerar recursos, um exemplo clássico é o site Buscapé, ele varre os sites que vendem os produtos pesquisados em busca dos menores preços.

### Mais sobre o webscraping:

Depois da extração dos dados, podemos armazenar eles de diversas formas:

- Salvar em um banco de dados;
- Salvar em CSV;
- Salvar em XLS;
- Entre outros;

O processo em si é bem básico, definimos os dados que queremos, escolhemos os sites, montamos o script e recebemos os dados para análiser, este é o ciclo de vida do webscraping.

Outro ponto legal é que se você souber um pouco de programação web vai se sentir muito confortável na exploração das tags, e na própria estrutura do html, isso já te deixa na frente.

### Porque utilizar?

Bom, vamos imaginar um caso: precisamos dos comentários de um produto X em 200 e-commerces diferentes para analisa-los e validar se o produto tem aceitação no mercado.

Poderiamos entrar nos 200 sites copiar todos os comentários e salva-los numa planinha, por exemplo, mas e quantas horas gastariamos nisso? E se a pesquisa precisa ser repetida toda semana? Se faltou algum dado na primeira pesquisa?

Teriamos que novamente nos submetermos a todo este processo manual, gastando horas para algo super simples!

É aí que entra o webscraping, automatizamos todo o processo e só precisamos rodar o script até quando precisarmos, é muito mais vantajoso, e se feito de maneira correta se torna muito mais preciso também, a prova de erros humanos.

### Antes de iniciarmos a prática

Vou utilizar o Jupyter Notebook para demonstrar todos os exemplos, instalando o Anaconda você já consegue todas as libs usadas neste tutorial e inclusive o Notebook.

Caso você opte por instalar as libs separadamente, faça isso com o pip, o resultado final será o mesmo, gosto da solução da Anaconda pois é prática e rápida, além de ser muito utilizada para tutoriais.

Fiz um artigo de como instalar o Jupyter em diversas plataformas, caso queira aproveitar: [confira aqui!](https://medium.com/matheusbudkewicz/como-instalar-o-jupyter-notebook-windows-e-linux-20701fc583c)

### Hello World em webscraping

Vamos colocar a mão na massa para adicionar um pouco de prática, assim já conseguiremos abordar tópicos mais avançados

In [2]:
# Importando as libs
from urllib.request import urlopen

# Definimos a url alvo. obs: esta url vem de um livro sobre o assunto do tópico
url = 'http://pythonscraping.com/pages/page1.html'

# Aplicamos uma requisição para pegar o HTML
html = urlopen(url)

# Verificação do conteúdo
html.read()

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

### Pronto!

Temos o primeiro resultado por webscraping, foi fácil não?

O retorno do método urlopen foi um HTML simples com diversos elementos que vemos todos os dias, o próximo passo seria extrair os dados que nós desejamos.

Outro ponto importante é que no passo acima utilizamos a lib urllopen, nativa do Python, porém em outros tutoriais você pode se deparar com a Requests, que é bem conhecida e a comunidade abraça bem ela, então porque utilizamos a urllib?


### Requests ou urllib?

Bom, como vamos fazer requisições HTTP, no caso get, nas páginas que queremos extrair dados, precisamos de uma lib para isso, durante meus estudos sobre o tema estas duas apareceram de forma igual, então fui atrás para saber as vantagens e desvantagens de cada uma.

Basicamente o que encontrei é que Requests é uma lib externa, no caso estariamos criando uma dependência para o projeto, outro ponto forte é a simplicidade de escrever o código, escrevemos menos linhas para chegar ao mesmo resultado comparando com a urllib, além disso há alguns comentários que dizem que Requests tem um código mais limpo e moderno que a outra.

Já urllib é nativa do Python, o que quer dizer que provavelmente será mantida e pela mesma equipe que trabalha na linguagem, há alguns comentários pelo stackoverflow que falam sobre o desenvolvimento dela ser feito numa lógica de 'resolver o problema' ao invés de código limpo e performático.

Neste post pretendo seguir com a urllib, mas teremos um exemplo com a Requests para você poder escolher a que mais te agrada.

In [3]:
# Importando a Requests
import requests

# Vamos testar a biblioteca requests
html = requests.get(url)

# Diferente da urllib, usamos text para apresentar o conteudo que o get nos trouxe
html.text

'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

Agora que vimos como conseguir os dados de um site, está na hora de avançarmos ao próximo nível: usar uma biblioteca para poder manipular o HTML de uma forma mais fácil

### BeautifulSoup

Com a BeautifulSoup tudo será tranquilo, esta biblioteca do Python serve para extrairmos dados de HTML e XML, de forma fácil e descomplicada podemos acessar os 'nós' da estrutura do HTML da página e pegar as informações

Vamos utilizar ela num exemplo para que fique claro o quanto mais fácil será se locomover pelas tags HTML ao invés de texto puro, como nos retornos dos métodos anteriores

No próximo exemplo vou pegar o título da página

In [4]:
# Importando a BeautifulSoup
from bs4 import BeautifulSoup

# Vamos mudar a URL
url = 'https://www.python.org/'

# lendo a URL com a urllopen
html = urlopen(url)

# Enfim mostrando o poder da bs4
bs = BeautifulSoup(html, 'lxml')

# Imprimindo o título da página
print(bs.title)

<title>Welcome to Python.org</title>


In [5]:
# Imprimindo o título da página
print(bs.find_all('h1'))

[<h1 class="site-headline">
<a href="/"><img alt="python™" class="python-logo" src="/static/img/python-logo.png"/></a>
</h1>, <h1>Functions Defined</h1>, <h1>Compound Data Types</h1>, <h1>Intuitive Interpretation</h1>, <h1>Quick &amp; Easy to Learn</h1>, <h1>All the Flow You’d Expect</h1>]


### Introdução de HTML

Vou apresentar uma rápida introdução ao HTML, caso você já se sinta confortável para entender a estrutura ou já trabalhou com desenvolvimento web, pule para a próxima parte. :)

A seguir uma estrutura HTML simples:


![HTML](img/ws4.png)

Toda página HTML tem pelo menos 3 tags que vão definir o esqueleto principal:

- **< html >:** ela define que este é um documento HTML;
- **< head >:** dentro destas tags serão colocadas configurações da página como encode, adicionados outros arquivos externos como scripts, definido o título da página ( o que aparece no browser ), entre outras que são como parâmetros para a página web;
- **< body >:** esta tag contém todos os elementos visíveis da página, textos, listas, parágrafos e etc;

Tudo que está entre sinais de < e > são tags, é por meio delas que estruturamos a página, a grande maioria precisa ser aberta e fechada, como no exemplo a seguir:

< p >Texto do parágrafo< /p >

Porém há algumas que não tem essa necessidade, mas não vem ao caso neste post, fogem do escopo.

Como observado antes no nosso primeiro exemplo de webscraping, requisitamos title que é a tag title 

HTML é uma linguagem de marcação, não de programação, ela nos ajuda a estruturar as páginas, com elementos que podem representar blocos que dividem as páginas em partes (div), elementos de texto como título (h1), listas (ul), tabelas (table) e por aí vai, sempre seguindo esta lógica de cada tag conter um conteúdo diferente, lembrando que tudo que é visível fica dentro da tag body.

As tags tambem aceitam parâmetros, os mais utilizados são classes e ids:

- **classe:** o intuito de adicionar uma classe é que vários elementos possam aproveitar suas características
- **id:** quando colocamos um id num elemento, ele tende a ser único na página, nas boas práticas dois elementos diferentes não podem ter o mesmo id

Quando falo características me refiro a CSS ou manipulação do DOM com JS, não vou entrar nesse assunto também, mas é basicamente estilização dos elementos ou manipulação deles por meio destas duas linguagens.

Voltando para o webscraping, as classes e ids nos auxiliarão a acessar os elementos que queremos resgatar os dados.

Por exemplo: identificamos que um dado importante está em um parágrafo, se procurarmos por parágrafos podemos achar inúmeros elementos com essa tag, agora se o elemento alvo conter um id ele será apenas um, e isso facilitará muito nossa vida.

Creio que com isso, o básico do HTML está exemplificado e além disso conseguimos estabelecer ligações entre o webscraping e a estrutura HTML, como iremos navegar para resgatar os dados!

Vamos retornar para a BeautifulSoup

### Métodos find() e find_all()

O método find_all procura por todo o documento por resultados da nossa pesquisa, e nos retornas toda as ocorrências encontradas.

Porém as vezes queremos encontrar apenas um elemento, o que nos dá duas possibilidades

- passar o argumento limit = 1, no find_all()
- utilizar o find()

Com o find() o primeiro elemento encontrado é retornado, assim caso buscassemos uma tabela e soubermos que apenas uma tabela existe em todo o HTML é desnecessário utilizar o find_all() que leria o documento todo, assim por questões até de performance optariamos pelo find()

Veremos agora os dois na prática:

In [6]:
# Vamos permanecer na url que o site do Python se contra e vamos verificar todas as tags h1
print(bs.find_all('h1'))

# pulando linha
print('\n')

# Número de h1's encontrados
print('Foram encontradas {} ocorrências de h1'.format(len(bs.find_all('h1'))))

[<h1 class="site-headline">
<a href="/"><img alt="python™" class="python-logo" src="/static/img/python-logo.png"/></a>
</h1>, <h1>Functions Defined</h1>, <h1>Compound Data Types</h1>, <h1>Intuitive Interpretation</h1>, <h1>Quick &amp; Easy to Learn</h1>, <h1>All the Flow You’d Expect</h1>]


Foram encontradas 6 ocorrências de h1


### O que aconteceu?

Usamos bs que é a instância de BeautifulSoup criada anteriormente para extrair dados da página.

Conseguimos pegar todos os h1's presentes na home do site, vimos que 6 elementos foram encontrados.

E caso quisessemos apenas o primeiro?

find() ao resgate!

In [7]:
# Agora com find, para apenas o primeiro resultado ser extraído
bs.find('h1')

<h1 class="site-headline">
<a href="/"><img alt="python™" class="python-logo" src="/static/img/python-logo.png"/></a>
</h1>

### O primeiro h1 foi encontrado e o método ja nos retornou

Como explicado anteriormente, em vez de ler todo o HTML a bs4 apenas achou o elemento alvo e nos retornou.

Simples não?

### Selecionando por class e id

Agora vamos mudar de URL, para termos mais exemplos e trabalharmos com estruturas diferentes.

O que será abordado neste tópico é a seleção de elementos por class e id, como vimos anteriormente no HTML estes dois atributos são amplamente utilizados e vão nos guiar até os elementos corretos

BeautifulSoup não poderia ficar para trás, criou formas de selecionarmos os elementos pelos dois.

### Inspecionando elemento

Vale a pena ressaltar aqui também, caso você não tenha muita experiência com web, a funcionalidade de inspecionar elementos do HTML

Com ela é que vamos descobrir as classes e ids que queremos.

- **No Chrome:** podemos acessar clicando com o botão direito na página e selecionando 'Inspecionar'
- **No Firefox:** podemos acessar clicando com o botão direito na página e selecionando 'Inspecionar Elemento'

Nos demais brownsers a lógica é a mesma, não tem muito mistério.


### Voltando ao exemplo

Vamos inspecionar o título principal do site da [Wikipedia](https://www.wikipedia.org/)

![Wikipedia](img/ws1.png)

Agora vamos ver a estrutura HTML

![DOM](img/ws2.png)

Temos uma div com uma classe chamada 'central-textlogo__image', é exatamente ela que vamos selecionar para extrair o texto do título, veja abaixo:

In [8]:
# Trocando URL
url = 'https://www.wikipedia.org/'

# lendo a URL com a urllopen
html = urlopen(url)

# Enfim mostrando o poder da bs4
bs = BeautifulSoup(html, 'lxml')

# Imprimindo o título da página
print(bs.find('div', class_='central-textlogo__image'))

# Se quisermos apenas o texto, podemos utilizar a propriedade text
print(bs.find('div', class_='central-textlogo__image').text)

<div class="central-textlogo__image sprite svg-Wikipedia_wordmark">
Wikipedia
</div>

Wikipedia



Conseguimos ter o retorno esperado, pela classe conseguimos filtrar melhor o que queremos extrair

### Selecionando por id

Agora vamos ver com o parâmetro id, como devemos utilizar para selecionar o elemento alvo

Mais abaixo no HTML temos as seleções de linguagem, vamos selecionar a que se refere a língua francesa

![linguagem francês](img/ws3.png)

O elemento com id 'js-link-box-fr' é o que precisamos selecionar

![id](img/ws5.png)

In [9]:
# Selecionando a língua francesa
print(bs.find(id='js-link-box-fr'))

# Imprimindo apenas o texto
print(bs.find(id='js-link-box-fr').text)

<a class="link-box" data-slogan="L’encyclopédie libre" href="//fr.wikipedia.org/" id="js-link-box-fr" title="Français — Wikipédia — L’encyclopédie libre">
<strong>Français</strong>
<small><bdi dir="ltr">2 031 000+</bdi> <span>articles</span></small>
</a>

Français
2 031 000+ articles



### Mais preciso

Agora temos maneiras de selecionar dados de formas mais precisas, sem ter que navegador muito pelo HTML, com classes e ids nosso trabalho é facilitado


### Seletores CSS

Outra maneira de selecionar dados são os seletores CSS, como vimos anteriormente no HTML as tags são aninhadas uma nas outras, assim sendo podemos nos guiar por esta estrutura para selecionar algum elemento, exemplos:

- **p a:** todas as tags a dentro de um parágrafo
- **div p:** todos os parágrafos dentro de divs
- **div p span:** todos os spans que estão dentro de um parágrafo que estes estão dentro de uma div
- **table td**: todos os tds que estão dentro de tables

Basicamente selecionamos de acordo com o aninhamento da estrutura, talvez se você conheça um pouco de web já se sinta mais confortável, mas caso não, é bem simples: olhe a árvore do HTML e verifique dentro de que elemento está o seu alvo, quanto mais preciso for, no caso de mais tags colocar, mais refinado seu resultado virá

E uma pequena mudança: agora vamos utilizar o método select(), passando como argumento o seletor CSS desejado

In [19]:
# Vamos selecionar todas as tags strong dentro de divs
print(bs.select('div strong'))

# pulando linha
print('\n')

# Agora todas as tags input dentro de forms que estão dentro de divs
print(bs.select('div form input'))

[<strong class="jsl10n localized-slogan" data-jsl10n="slogan">The Free Encyclopedia</strong>, <strong>English</strong>, <strong>日本語</strong>, <strong>Español</strong>, <strong>Deutsch</strong>, <strong>Русский</strong>, <strong>Français</strong>, <strong>Italiano</strong>, <strong>中文</strong>, <strong>Português</strong>, <strong>Polski</strong>, <strong class="jsl10n" data-jsl10n="app-links.title">Wikipedia apps are now available:</strong>]


[<input name="family" type="hidden" value="wikipedia"/>, <input id="hiddenLanguageInput" name="language" type="hidden" value="en"/>, <input accesskey="F" autocomplete="off" autofocus="autofocus" dir="auto" id="searchInput" list="suggestions" name="search" size="20" type="search"/>, <input name="go" type="hidden" value="Go"/>]


[<input name="family" type="hidden" value="wikipedia"/>, <input id="hiddenLanguageInput" name="language" type="hidden" value="en"/>, <input accesskey="F" autocomplete="off" autofocus="autofocus" dir="auto" id="searchInput" 

Podemos também utilizar os seletores CSS para classes e ids, que são representados por:

- **.** : quando colocamos um . (ponto) na frente de algum texto, bs4 assim como CSS vai automaticamente procurar por classes deste nome
- **#** : e o mesmo caso acontece para ids, colocando # na frente de algum nome de id

Veja nos exemplos abaixo a aplicação:

In [20]:
# Aqui selecionamos pela classe pure-form todos os inputs dentro dela
print(bs.select('.pure-form input'))

# pulando linha
print('\n')


# Aqui selecionamos pela classe pure-form todos os inputs dentro dela
print(bs.select('#search-form'))

[<input name="family" type="hidden" value="wikipedia"/>, <input id="hiddenLanguageInput" name="language" type="hidden" value="en"/>, <input accesskey="F" autocomplete="off" autofocus="autofocus" dir="auto" id="searchInput" list="suggestions" name="search" size="20" type="search"/>, <input name="go" type="hidden" value="Go"/>]


[<form action="//www.wikipedia.org/search-redirect.php" class="pure-form" data-el-section="search" id="search-form">
<fieldset>
<!-- search-redirect.php is project-independent, requires a family -->
<input name="family" type="hidden" value="wikipedia"/>
<input id="hiddenLanguageInput" name="language" type="hidden" value="en"/>
<div class="search-input" id="search-input">
<input accesskey="F" autocomplete="off" autofocus="autofocus" dir="auto" id="searchInput" list="suggestions" name="search" size="20" type="search"/>
<div class="styled-select no-js">
<div class="hide-arrow">
<select id="searchLanguage" name="language">
<!-- 100,000+ content pages, sorted by roma

### Validação de erros

Agora que já vimos as maneiras mais comuns de selecionar dados, e posso dizer que para operações simples de webscraping isso já está de bom tamanho, precisamos falar de erros

Erros podem acontecer por vários motivos:

- Servidor
- Programação
- Mudança do site

Quando saímos da prática e o webscraping vira uma atividade do nosso trabalho, precisamos adicionar confiabilidade no código, e com isso tratar erros para que o código não simplesmente exploda quando alguem tentar rodar, mas sim, informe a pessoa sobre o provavelmente aconteceu

Vamos ver agora a nível de requisição como é possível fazer uma validação simples, porém efetiva

Primeiramente devemos importar o submódulos que tratam estes erros, que são:

In [11]:
# Importando os submódulos que vão ajudar a tratar os erros
from urllib.error import HTTPError
from urllib.error import URLError

E então podemos fazer uma validação por classificação de erro, que fica assim:

In [12]:
# Aqui iniciamos a tratar os erros em nível de URL
try:
    html = urlopen('http://www.python5.com.br')
except HTTPError as e:
# Erros HTTP
    print(e)
except URLError as e:
    # URL errada
    print('The server could not be found!')

The server could not be found!


Como exemplo forcei um erro de URL errada, porém caso o servidor retorne erros como 404 ou 503, caíriam no primeiro caso

Isso nos ajudará, não só nós mas também quem vai pegar o código depois, a ter um log que fará com que os problemas se identifiquem mais rapidamente

É de responsabilidade do desenvolvedor fazer um código consistente e que trate erros, então fora destes exemplos aqui, sempre opte por tratar os erros e enviar mensagens ao usuários do sistema, caso não possam aparecer na tela emita logs


### Projeto

Agora para fixar os conceitos vamos nos aproximar de algo mais real, nossos objetivos serão:

- Fazer uma pesquisa num e-commerce
- Salvar os dados de produtos, neste caso nome e preço
- Transferir os dados para um dataset
- Salvar num arquivo

Nós vamos iniciar do absoluto zero e comentar cada passo dado até o fim do procedimento, incialmente vamos importas as libs que serão utilizadas:

In [13]:
# Importando as libs
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
from bs4 import BeautifulSoup

Com as bibliotecas importadas, o próximo passo é definir a URL e o termo de pesquisa para que as consultas não sejam fixas, vamos deixar que o usuário do script escolha o termo a pesquisar

In [14]:
# URL base
url = 'https://buscas2.casasbahia.com.br/busca?q='

# Termo de pesquisa
termo = 'celular'

# Concatenando URL com o termo de pesquisa
urlCompleta = url + termo

print(urlCompleta)

https://buscas2.casasbahia.com.br/busca?q=celular


Temos nossas variáveis definidas, agora vamos fazer a validação da url com os submódulos de urllib

In [15]:
# Tratando erros da url
try:
    html = urlopen(urlCompleta)
except HTTPError as e:
# Erros HTTP
    print(e)
except URLError as e:
    # URL errada
    print('The server could not be found!')

In [16]:

#projeto final

#ética