# O que é webscraping?

Webscraping é uma técnica de extração de dados.

Com ela podemos coletar dados de sites. Fazemos a ‘raspagem’ dos dados que são interessantes para nós.

Existem muitas empresas que utilizam como forma de gerar recursos; agragadores de links, comparadores de preços produtos são exemplo clássicos do usos de tecnicas e programas de webscraping.

Ao se obter um conjunto de dados através de um webscraping podemos armazená-los em arquivos com formatos distintos, a partir do próprio programa webscraping.

Por exemplo:

- salvar em um banco de dados;
- salvar em CSV;
- salvar em XLS;
- salvar numa tabela dentro de um banco de dados NoSQL.

# Primeiros passos para se construir uma aplicação Webscraping

Para construirmos um programa webscraping são necessários alguns passos básicos:

- definir a natureza dos dados/informções que queremos pesquisar;
- pesquisar e definir os websites que receberão as pesquisas através do programa webscraping;
- fazer o mapeamento do código html dos sites escolhidos;
- criarmos o script e parametrizar os dados que serão recebidos.

Possuir conhecimento prévio em tenologias relacionadas a websites (a menos html e css)é extremamente util para que seja possivel construir um pragama webscraping.

# WebScraping é realmente necessário?

Quando queremos automatizar a busca de um volume de dados/informações siginificatvios dentro de websites ou plataformas de rede social, por exemplo, um programa webscraping torna-se fortemente necessário. Vamos partir da premissa que quermos buscar o preço de um mesmo produto em diferentes plataformas de e-commerce: um webscrpaing pode fazer esse trabalho para nós a cada 2 minutos, por exemplo.

Podemos, também, instruir nosso programa webscraping a buscar comentarios - dentro de redes sociais - sobre algum tema especifico. Com algumas linhas de código podemos automatizar esse processo. A única coisa necessária - depois da implementação do código - é "rodar" nosso script.

## O que é necessário para criar um programa WebScraping

Algumas ferramentas que já utilizamos para trabalahr com Python:

- distribuição Ancaconda ou a instalação Python no sistema operacional do nosso computador;
- Jupyter Notebook ou uma IDE de sua preferência;

## Construindo nosso programa WebScraping

Vamos implementar o primeiro webscraping utilizando o método urlopen(). Para isso, precisamos:

- como primeira implementação 
- importar o módulo urllib.request para dentro de nosso programa:

In [1]:
# Import da lib
from urllib.request import urlopen

In [15]:
# Agora precisamos indicar a URL que queremos inspecionar
url = 'https://pythonscraping.com/pages/page1.html'

In [16]:
# Implementação para a requisição e abertura do site para coletar os dados
codeHTML = urlopen(url) # URLOpen é um método

In [17]:
# Verificando se houve a "Captura" do HTML
codeHTML.read()

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

O retorno do método urlopen foi: o conteúdo HTML com os inumeros elementos que podemos observar em qualquer estrutura HMTL de um website simples. A partir desse momento, podemos iniciar a extração especifica do conteúdo que queremos.

Para fazer o scraping desse conteudo acima usamos o módulo de dependência urllib com o método urlopen(). Esse módulo é nativo Python. É possivel, também, usarmos aquilo que é conhecido como projeto "terceirizado" Python. Muitos módulos de dependência utilizados em python fazem parte desse grupo. O módulo de dependencia Requests - usado amplamente em projetos webscraping - é um deles.

## Utilizando urllib e requests

Requests é um módulo de dependencia "externo" (isso significa que, ao usá-lo, criamos uma dependência para o projeto). A principal caracteristica do uso do módulo request é sua sintaxe: o código para criarmos um programa webscraping com request é implementado, geralemte, com menos linhas de código em relação a módulo urllib. Mesmo com menos linhas de código podemos chegar ao mesmo resultado. Isso com que o módulo de dependencia request seja adotado massivamente pela comunidade python.

Por sua vez, urllib é, então, tecnicamente, chamada de módulo de dependencia nativo do Python: isso siginifica que a manutenção/ atualização cdo código que faz esse módulo funcionar corretamente recebe a tenção e o trabalho da mesma equipe que trabalha na linguagem no desenvolvimento e aperfeiçoamento da linguagem Python.

No nosso próximo passo, utilizaremos requests e observaremos seu uso. vamos fazer, novamente, o scraping do endereço web indicado no bloco de código anterior.

In [20]:
import requests # Importando o requests
url = 'https://pythonscraping.com/pages/page1.html' # Indicando a URL a ser inspecionada
code2 = requests.get(url) # Implementando a requisição
code2.text # Apresentando o que foi capturado

'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

## Manipulando o HTML

#### BeautifulSoup - WebScraping Magic

BeautifulSoup é um módulo de dependencia massivamente utilizado em Python. Seu uso tem como finalidade principal: **facilitar todo o processo de manipulação que planejamos aplicar ao HTML**.

Com BeautifulSoup em Python é possivel extrair dados de HTML e XML de forma muito simples. Para fazer isso acessamos os elementos "nós" (nodes) da estrutura do HTML da pagina em que estamos aplicando nosso programa webscraping. Percorrendo as tags HTML ao invés de texto puro, facilitamos imensamente a obentação dos dados que pretendemos extrai do website pesquisado. Observe que neste passo o pragrama webscraping vai buscar o título do website. Para isso, indicamos, no nosso codigo, o elemento-tag title encontrado em qualquer estrtutura HTML de qualquer website simples.

In [21]:
# Importando as libs necessárias
from urllib.request import urlopen
from bs4 import BeautifulSoup

In [22]:
# Indicando a URL desejada
url = 'http://www.wikipedia.org/'

In [23]:
# Fazendo a leitura da URL indicada
acessar = urlopen(url)

In [24]:
# Utilizando um método da Lib BS para manipular o HTML
bs = BeautifulSoup(acessar, 'lxml') # lxml é um componente da Lib BS

In [25]:
print(bs.title)

<title>Wikipedia</title>


### Métodos Find() e FindAll()

O método find() possui como caracteristica principal encontrar o primeiro elemento e retorná-lo como resultado. 

O método find_all() executa uma varredura em todo o documento HTML indicado pela url e retorna todas as ocorrências - que indicamos como parâmetro - encontradas. 

Vamos utilizar, agora, o método find() para pesquisar e capturar o primeiro elemento-tag 'h1' que ele encontrar.

In [26]:
# Procurando o primeiro H1(Cabeçalho de nível 1)
bs.find('h1')

<h1 class="central-textlogo-wrapper">
<span class="central-textlogo__image sprite svg-Wikipedia_wordmark">
Wikipedia
</span>
<strong class="jsl10n localized-slogan" data-jsl10n="portal.slogan">The Free Encyclopedia</strong>
</h1>

In [31]:
# Utilizando o FindAll
print(bs.find_all('h1'))

[<h1 class="central-textlogo-wrapper">
<span class="central-textlogo__image sprite svg-Wikipedia_wordmark">
Wikipedia
</span>
<strong class="jsl10n localized-slogan" data-jsl10n="portal.slogan">The Free Encyclopedia</strong>
</h1>]


Caso seja necessário encontrar um elemento - utilizando o método find_all() podemos optar por dois caminhos:
utilizar plenamente o método o find() - como no passo anteiror;

- passar o argumento limit = 1, ao método find_all()
- Manteremos o scraping da mesma url mas mudaremos nosso elemento-tag - agora será link pesquisado. Vamos observar o código abaixo:

In [43]:
# Procurando Link
print(bs.find_all('link'))

print('\n')

# Limitando a busca a somente encontar um elemento
print(bs.find_all('link', limit = 1))

print('\n')

# Exibir a contagem de ocorrências da Tag Link
print('Número total de ocorrências na pesquisa = {}'.format(len(bs.find_all('link'))))

[<link href="/static/apple-touch/wikipedia.png" rel="apple-touch-icon"/>, <link href="/static/favicon/wikipedia.ico" rel="shortcut icon"/>, <link href="//creativecommons.org/licenses/by-sa/3.0/" rel="license"/>, <link href="//upload.wikimedia.org" rel="preconnect"/>]


[<link href="/static/apple-touch/wikipedia.png" rel="apple-touch-icon"/>]


Número total de ocorrências na pesquisa = 4


## Usar elementos 'class' e 'id' para fazer extração

Nesse próximo observaremos a extração buscando elementos class e id. Possivelmente, ao inspecionar qualquer website, encontraremos estes atributos. O módulo de dependencia BeautifulSoup oferece maneiras simples para acessarmos eelementos dentro do website utilizando os dois recursos.

#### Procurando pela CLASS

In [44]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

urlAcessar = 'https://www.wikipedia.org'
codigo = urlopen(urlAcessar)

bs = BeautifulSoup(codigo, 'lxml')

print(bs.find(class_='central-featured-logo'))

<img alt="Wikipedia" class="central-featured-logo" height="183" src="portal/wikipedia.org/assets/img/Wikipedia-logo-v2.png" srcset="portal/wikipedia.org/assets/img/Wikipedia-logo-v2@1.5x.png 1.5x, portal/wikipedia.org/assets/img/Wikipedia-logo-v2@2x.png 2x" width="200"/>


#### Procurando pelo ID

In [46]:
# Procurando o elemento ID para a lingua Portuguesa e exebindo o texto encontrado
print(bs.find(id='js-link-box-pt').text)


Português
1 066 000+ artigos



## Acesso utilizando elementos CSS

Seletores CSS são uma outra eficiente para acessar e extrair dados com nossa aplicação webscraping. Podemos considerar alguns exemplos de seletores CSS para mapearmos os dados que queremos acessar:

- p a: aqui, estamos buscando todas as tags 'a' dentro de um parágrafo
- div p: mapeamos todas os parágrafos (tags 'p') dentro de uma div
- div p span: mapeamos todos os elementos 'span' dentro de um parágrafo (tag 'p') que, por sua vez, estão dentro de uma div (tag 'div')
- table td: todos os elementos 'td' contidos dentro do elemento 'tables'

**A ideia é**: selecionar/acessar seguindo a hierarquia da estrutura. Para entendermos a arquitetura dos elementos dentro do website basta mapear a árvore-HTML. 

Assim é possivel encontrar o elemento-alvo e pesquisar os elementos contidos dentro dele. Quanto mais nitida a informação passada ao programa webscraping (especifcação das tags) mais fácil será - para nossa aplicação - enconte o dado que buscamos. Para exemplificar o uso de seletores CSS, será utilizado método select(), acoplando como argumento o seletor CSS desejado. 

Observe o código abaixo:


In [49]:
# Selecionar todas as tags "STRONG(NEGRITO)" que estão dentro das tags div
print(bs.select('div strong'))
print('\n')

# Pegando todas as tags input, que estão dentro do elemento forms que por sua
# vez estará dentro da DIV
print(bs.select('div form input'))

[<strong class="jsl10n localized-slogan" data-jsl10n="portal.slogan">The Free Encyclopedia</strong>, <strong>English</strong>, <strong>日本語</strong>, <strong>Español</strong>, <strong>Deutsch</strong>, <strong>Русский</strong>, <strong>Français</strong>, <strong>中文</strong>, <strong>Italiano</strong>, <strong>Português</strong>, <strong>Polski</strong>, <strong class="jsl10n" data-jsl10n="portal.app-links.title">
<a class="jsl10n" data-jsl10n="portal.app-links.url" href="https://en.wikipedia.org/wiki/List_of_Wikipedia_mobile_applications">
Download Wikipedia for Android or iOS
</a>
</strong>]


[<input name="family" type="hidden" value="Wikipedia"/>, <input id="hiddenLanguageInput" name="language" type="hidden" value="en"/>, <input accesskey="F" autocomplete="off" autofocus="autofocus" dir="auto" id="searchInput" name="search" size="20" type="search"/>, <input name="go" type="hidden" value="Go"/>]


Também é possivel utilizar seletores CSS para classes e ids, que são representados por:

- (.) : ao utilizar o elemento . (ponto), o módulo de dependecia BeautifulSoup - assim como CSS - automaticamente pesquisará por classes que forma indicado com este seletor
- (#) : para elementos 'id', o módulo de dependencia BeautifulSouo segue a mesma premissa dos elementos "class"

In [50]:
# aqui, acessamos o conteudo do elemento 'class' chamado footer-sidebar
print(bs.select('.footer-sidebar'))

print('\n')

# aqui, acessamos o conteudo do elemento 'id' da opção 'Português'
print(bs.select('#js-link-box-pt'))

[<div class="footer-sidebar">
<div class="footer-sidebar-content">
<div class="footer-sidebar-icon sprite svg-Wikimedia-logo_black">
</div>
<div class="footer-sidebar-text jsl10n" data-jsl10n="portal.footer-description">
Wikipedia is hosted by the Wikimedia Foundation, a non-profit organization that also hosts a range of other projects.
</div>
<div class="footer-sidebar-text">
<a href="https://donate.wikimedia.org/?utm_medium=portal&amp;utm_campaign=portalFooter&amp;utm_source=portalFooter" target="_blank">
<span class="jsl10n" data-jsl10n="footer-donate">You can support our work with a donation.</span>
</a>
</div>
</div>
</div>, <div class="footer-sidebar app-badges">
<div class="footer-sidebar-content">
<div class="footer-sidebar-text">
<div class="footer-sidebar-icon sprite svg-wikipedia_app_tile"></div>
<strong class="jsl10n" data-jsl10n="portal.app-links.title">
<a class="jsl10n" data-jsl10n="portal.app-links.url" href="https://en.wikipedia.org/wiki/List_of_Wikipedia_mobile_applic

## Tratamento de exceções (Handling Exception)

Ao criar e executar uma programa webscraping é possivel que alguns erros ocorram antes, durante ou depois da execução. Abaixo, listamos 3 possibilidades de erro que são consideradas comuns:

- erro em relação ao servidor onde o site está hospedado
- erro na estrutura do códido da aplicação webscraping
- erro de execução quando o link de referencia - por exemplo - foi alterado

Para observados - quando se trata da requisição que nossa aplicação webscraping realiza - a validação efetiva a partir do nosso código devemos estruturá-la com mais algumas instruções. é necessário importar alguns módulos que auxiliarão a execução dessa validação.

Observe o código abaixo:

In [51]:
from urllib.error import HTTPError
from urllib.error import URLError

try:
    html = urlopen('https://www.wikipedia.org/')
except HTTPError as e:
    # Se ocorrer algium erro, exibimos ele através da chamada print()
    print(e)
except URLError as e:
    # Se ocorrer algum erro com a URL exibimos ele através da chamada 'print()'
    print('O servidor não pode ser encontrado!')

In [52]:
# Gerando erros de Forma MANUAL
try:
    html = urlopen('https://www.wikipedia90.org/')
except HTTPError as e:
    # Se ocorrer algium erro, exibimos ele através da chamada print()
    print(e)
except URLError as e:
    # Se ocorrer algum erro com a URL exibimos ele através da chamada 'print()'
    print('URL não encontrada!')

URL não encontrada!
