# O QUE É WEBSCRAPING

- Webscraping é uma técnica de extração de dados.

Com ela podemos coletar dados de sites, fazendo a raspagem dos dados que são interessantes para nós.


Existem muitas empresas que utilizam como forma de gerar recursos, agregadores de links, comparadores de preços e produtos são exemplos clássicos dos usos de técnicas e programas de webscraping.

Ao se obter um conjunto de dados através de um webscraping podemos armazená-los em arquivos com formatos distintos, a partir do próprio webscraping, por exemplo:

* Salvar em um banco de dados;
* Salvar em CSV;
* Salvar em XLS;
* Salvar em uma tabela dentro de um banco de dados no NoSQL

## Primeiros passos para se construir uma aplicação WebScraping 

Para construirmos um programa WebScraping são necessários alguns passos básicos:

- Definir a natureza dos dados/informações que queremos pesquisar;
- Pesquisar e definir os WebSites que receberão as pesquisas através do programa WebScraping. 
- Fazer o mapeamento do código HTML dos sites escolhidos;
- criarmos o Script e parametrizar os dados que serão recebidos.

Possuir conhecimento prévio em tecnologias relacionadas a WebSites (a menos HTML e Css) é extremamente útil para que seja possível construir um programa WebScraping.

## WebScraping é realmente necessário ? 

Quando queremos automatizar a busca de um volume de dados/informações significativos dentro de WebSites ou plataformas de rede social, por exemplo, um programa WebScraping torna-se fortemente necessário. Vamos partir da premissa que queremos buscar o preço de um mesmo produto em diferentes sites, um programa WebScraping pode fazer o trabalho para nós a cada 2 minutos, por exemplo.

Podemos também instruir nosso programa a buscar comentários dentro de redes sociais, sobre algum tema específico. Com algumas linhas de código podemos automatizar esse processo. A única coisa necessária, depois da implementação do código, é rodar nosso script.

## O que é necessário para criar um programa WebScraping

Algumas ferramentas que já utilizamos para trabalhar com Python:

- Distribuição ANACONDA ou a instação do Python no sistema operacional do nosso computador.
- Jupyter Notebook ou uma IDE de sua preferência.

## Construindo nosso programa WebScraping

Vamos implementar o primeiro WebScraping utilizando o método urlopen(). E para isso precisamos de: 

* Como primeira implementação;
* Importar o módulo urllib.request para dentro do nosso programa.

In [1]:
# Importando a lib

from urllib.request import urlopen

In [2]:
# Agora precisamos indicar a URL que queremos inspecionar 

url = 'https://pythonscraping.com/pages/page1.html'

url2 = 'https://www.globo.com/'

In [3]:
# Implementação para requisição e abertura do site para coletar os dados

codeHTML = urlopen(url) # URLopen é um método

code2 = urlopen(url2)

In [4]:
# Verificando se houve a "captura" do HTML

codeHTML.read()

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

In [5]:
code2.read()



### O retorno do método open foi: o conteúdo HTML com os inúmeros elementos que podemos observar em qualquer estrutura HTML de um WebSite simples. A partir desse momento, podemos iniciar a estração específica do conteúdo que queremos.

### Para fazer o scraping desse conteúdo a cima usamos o módulo de dependência "urllib" com o método "urlopen()". Esse módulo é nativo do python, e é possível também usarmos aquilo que é conhecido como projeto "tercerizado" do python", muitos módulos de dependênmcia utilizados em python fazem parte desse grupo, o módulo de dependência "requests" (onde usamos amplamente em projetos scraping), é um deles.

# Utilizando  urllib e requests

- Requests é um módulo de dependência externo (isso significa que, ao usá - lo, criamos um dependência no projeto). A principal característica do uso do módulo requests é uma sintaxe: 
    - O código para criarmos um programa WebScraping com request é implementado, geralmente, com menos linha de código em relação ao módulo urllib. Mesmo com mesmos linhas de código podemos chegar ao mesmo resultado, isso com que o módulo de dependência requests seja adotado massivamente pela comunidade python.
    
- Por sua Vez, urllib é chamado, tecnicamente, de módulo de dependência nativo do python:
    - Isso significa que a manutenção/atualização do código que faz esse módulo funcionar corretamente recebe a tenção e o trabalho da mesma equipe que trabalha na linguagem do desenvolvimento e aperfeiçoamento da linguagem python.
   

In [6]:
# Importando o requests

import requests

# Indicando a URL a ser inspecionada
url = 'https://pythonscraping.com/pages/page1.html'

# Implementando a requisição 

code3 = requests.get(url)

code3.text

'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

# Manipulando o HTML

### BeautifulSoup - WebScraping Magic

- BeautifulSoup é um módulo de dependência massivamente utilizado em Python. seu uso tem como finalidade princial de **facilitar todo o processo de manipulação que planejamos aplicar ao HTML**.

- Com o BeautifulSoup em Python é possível extrair dados de HTML e XML de forma muito simples. Para isso acessamos os elementos "nós" (nodes) da estrutura do HTML da página em que estamos aplicando nosso programa WebScraping. Percorrendo as tags HTML ao invés de texto puro, facilitamos imensamente a obtenção dos dados que pretendemos extrair do WebSite pesquisado. Observe que neste passo o programa WebScraping vai buscar o título do site, para isso, indicamos no nosso código, o elemento-tag tittle encontrado em qualquer estrutura HTML de qualquer WebSite simples.

In [7]:
# Importando as libs necessárias

from urllib.request import urlopen
from bs4 import BeautifulSoup

In [8]:
# Indicando a URL desejada

url = 'https://www.wikipedia.org/'

In [9]:
# Fazendo a leitura da URL indicada 

acessar = urlopen(url)

In [10]:
# Utilizando o método da lib BS para manipular o HTML 

bs = BeautifulSoup(acessar, 'lxml') # lxml é um concorrente da lib BS

In [11]:
print(bs.title)

<title>Wikipedia</title>


## Método fin() e FindAll()

O método find() possui como característica principal encontrar o primeiro elemento e retorná-lo como resultado, já o find_all() executa uma varredura em todo o documento HTML indicado pela URL e retorna todas as ocorrências encontrada que indicamos como parâmetro. Vamos utilizar agora o método find() para pesquisar e capturar o primeiro elemento-tag 'h1' que ele encontrar.

In [12]:
# Produrando o primeiro "h1" - cabeçário nível 1 

bs.find('h1')

<h1 class="central-textlogo-wrapper">
<span class="central-textlogo__image sprite svg-Wikipedia_wordmark">
Wikipedia
</span>
<strong class="jsl10n localized-slogan" data-jsl10n="portal.slogan">The Free Encyclopedia</strong>
</h1>

In [13]:
# utilizando o findALL, neste caso como o link só tem um ele trouxe o unico

print(bs.find_all('h1'))

[<h1 class="central-textlogo-wrapper">
<span class="central-textlogo__image sprite svg-Wikipedia_wordmark">
Wikipedia
</span>
<strong class="jsl10n localized-slogan" data-jsl10n="portal.slogan">The Free Encyclopedia</strong>
</h1>]


In [14]:
print(bs.find_all('p'))

[<p class="jsl10n" data-jsl10n="portal.app-links.description">
Save your favorite articles to read offline, sync your reading lists across devices and customize your reading experience with the official Wikipedia app.
</p>, <p class="site-license">
<small class="jsl10n" data-jsl10n="license">This page is available under the <a href="https://creativecommons.org/licenses/by-sa/3.0/">Creative Commons Attribution-ShareAlike License</a></small>
<small class="jsl10n" data-jsl10n="terms"><a href="https://meta.wikimedia.org/wiki/Terms_of_use">Terms of Use</a></small>
<small class="jsl10n" data-jsl10n="privacy-policy"><a href="https://meta.wikimedia.org/wiki/Privacy_policy">Privacy Policy</a></small>
</p>]


In [15]:
print(bs.find_all('a'))

[<a class="link-box" data-slogan="The Free Encyclopedia" href="//en.wikipedia.org/" id="js-link-box-en" title="English — Wikipedia — The Free Encyclopedia">
<strong>English</strong>
<small><bdi dir="ltr">6 383 000+</bdi> <span>articles</span></small>
</a>, <a class="link-box" data-slogan="フリー百科事典" href="//ja.wikipedia.org/" id="js-link-box-ja" title="Nihongo — ウィキペディア — フリー百科事典">
<strong>日本語</strong>
<small><bdi dir="ltr">1 292 000+</bdi> <span>記事</span></small>
</a>, <a class="link-box" data-slogan="Свободная энциклопедия" href="//ru.wikipedia.org/" id="js-link-box-ru" title="Russkiy — Википедия — Свободная энциклопедия">
<strong>Русский</strong>
<small><bdi dir="ltr">1 756 000+</bdi> <span>статей</span></small>
</a>, <a class="link-box" data-slogan="Die freie Enzyklopädie" href="//de.wikipedia.org/" id="js-link-box-de" title="Deutsch — Wikipedia — Die freie Enzyklopädie">
<strong>Deutsch</strong>
<small><bdi dir="ltr">2 617 000+</bdi> <span>Artikel</span></small>
</a>, <a class="link

In [16]:
print(bs.find_all('a'))

[<a class="link-box" data-slogan="The Free Encyclopedia" href="//en.wikipedia.org/" id="js-link-box-en" title="English — Wikipedia — The Free Encyclopedia">
<strong>English</strong>
<small><bdi dir="ltr">6 383 000+</bdi> <span>articles</span></small>
</a>, <a class="link-box" data-slogan="フリー百科事典" href="//ja.wikipedia.org/" id="js-link-box-ja" title="Nihongo — ウィキペディア — フリー百科事典">
<strong>日本語</strong>
<small><bdi dir="ltr">1 292 000+</bdi> <span>記事</span></small>
</a>, <a class="link-box" data-slogan="Свободная энциклопедия" href="//ru.wikipedia.org/" id="js-link-box-ru" title="Russkiy — Википедия — Свободная энциклопедия">
<strong>Русский</strong>
<small><bdi dir="ltr">1 756 000+</bdi> <span>статей</span></small>
</a>, <a class="link-box" data-slogan="Die freie Enzyklopädie" href="//de.wikipedia.org/" id="js-link-box-de" title="Deutsch — Wikipedia — Die freie Enzyklopädie">
<strong>Deutsch</strong>
<small><bdi dir="ltr">2 617 000+</bdi> <span>Artikel</span></small>
</a>, <a class="link

In [17]:
print(bs.find_all('li'))

[<li><a href="//pl.wikipedia.org/" lang="pl">Polski</a></li>, <li><a href="//ar.wikipedia.org/" lang="ar" title="Al-ʿArabīyah"><bdi dir="rtl">العربية</bdi></a></li>, <li><a href="//de.wikipedia.org/" lang="de">Deutsch</a></li>, <li><a href="//en.wikipedia.org/" lang="en" title="English">English</a></li>, <li><a href="//es.wikipedia.org/" lang="es">Español</a></li>, <li><a href="//fr.wikipedia.org/" lang="fr">Français</a></li>, <li><a href="//it.wikipedia.org/" lang="it">Italiano</a></li>, <li><a href="//arz.wikipedia.org/" lang="arz" title="Maṣrī"><bdi dir="rtl">مصرى</bdi></a></li>, <li><a href="//nl.wikipedia.org/" lang="nl">Nederlands</a></li>, <li><a href="//ja.wikipedia.org/" lang="ja" title="Nihongo">日本語</a></li>, <li><a href="//pt.wikipedia.org/" lang="pt">Português</a></li>, <li><a href="//ru.wikipedia.org/" lang="ru" title="Russkiy">Русский</a></li>, <li><a href="//ceb.wikipedia.org/" lang="ceb">Sinugboanong Binisaya</a></li>, <li><a href="//sv.wikipedia.org/" lang="sv">Svenska

In [18]:
print(bs.find('span'))

<span class="central-textlogo__image sprite svg-Wikipedia_wordmark">
Wikipedia
</span>


Caso seja necessária encontrar um elemente, utilizando o método fin_all() podemos optar por dois caminhos: utilizar o método find(), como no passo anterior. 

* Passar o argumento limit = 1, ao método find_all()
* Manteremos o scraping da mesma url, mas mudaremos nosso elemento-tag, agora será link pesquisado.

In [19]:
# procurando o link

print(bs.find_all('link'))

print('\n')
print('------------------------------------')
# Limitando a busca para encontrar somente um elemento

print(bs.find_all('link', limit = 1))

print('\n')
print('------------------------------------')

# Exibir a contagem de ocorrências da tag link

print('Nº total de ocorrências na pesquisa = {}'.format(len(bs.find_all('link'))))

[<link href="/static/apple-touch/wikipedia.png" rel="apple-touch-icon"/>, <link href="/static/favicon/wikipedia.ico" rel="shortcut icon"/>, <link href="//creativecommons.org/licenses/by-sa/3.0/" rel="license"/>, <link href="//upload.wikimedia.org" rel="preconnect"/>]


------------------------------------
[<link href="/static/apple-touch/wikipedia.png" rel="apple-touch-icon"/>]


------------------------------------
Nº total de ocorrências na pesquisa = 4


# Usar elementos 'class' e 'id' para fazer extração 

- Nesse próximo passo observamos a extração buscando elementos de cass e id. Possivelmente, ao inspecionar qualquer WebSite, encontramos estes atributos. O módulo de dependência BeautifulSoup oferece maneiras simples para acessarmos elementos do WebSite utilizando os dois recursos. 

## Procurando pelo class

In [20]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

urlAcessar = 'http://www.wikipedia.org'

codigo = urlopen(urlAcessar)

bs = BeautifulSoup(codigo,'lxml')

print(bs.find(class_='central-featured-logo')) 

##pegando uma imagem em específico

<img alt="Wikipedia" class="central-featured-logo" height="183" src="portal/wikipedia.org/assets/img/Wikipedia-logo-v2.png" srcset="portal/wikipedia.org/assets/img/Wikipedia-logo-v2@1.5x.png 1.5x, portal/wikipedia.org/assets/img/Wikipedia-logo-v2@2x.png 2x" width="200"/>


In [21]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

urlAcessar = 'http://www.wikipedia.org'

codigo = urlopen(urlAcessar)

bs = BeautifulSoup(codigo,'lxml')

print(bs.find_all,'img') ## Pegando todas as imgens 

<bound method Tag.find_all of <!DOCTYPE html>
<html class="no-js" lang="en">
<head>
<meta charset="utf-8"/>
<title>Wikipedia</title>
<meta content="Wikipedia is a free online encyclopedia, created and edited by volunteers around the world and hosted by the Wikimedia Foundation." name="description"/>
<script>
document.documentElement.className = document.documentElement.className.replace( /(^|\s)no-js(\s|$)/, "$1js-enabled$2" );
</script>
<meta content="initial-scale=1,user-scalable=yes" name="viewport"/>
<link href="/static/apple-touch/wikipedia.png" rel="apple-touch-icon"/>
<link href="/static/favicon/wikipedia.ico" rel="shortcut icon"/>
<link href="//creativecommons.org/licenses/by-sa/3.0/" rel="license"/>
<style>
.sprite{background-image:linear-gradient(transparent,transparent),url(portal/wikipedia.org/assets/img/sprite-e99844f6.svg);background-repeat:no-repeat;display:inline-block;vertical-align:middle}.svg-Commons-logo_sister{background-position:0 0;width:47px;height:47px}.svg-Med

## Procurando pelo ID

In [22]:
print(bs.find(id='js-link-box-pt').text)


Português
1 074 000+ artigos



# Acesso utilizando elementos CSS

Seletores CSS é uma outra eficiente ferramenta para acessar e extrair dados com nossa aplicação WebScraping. Podemos considerar alguns exemplos de seletores CSS para mapearmos os dados que queremos acessar: 

    * p a: aqui, estamos buscando todas as tags 'a' dentro de um parágrafo;
    * div p: mapeamos todos os parágrafos (tags 'p') dentro de um div;
    * div p span: mapeamos todos os elementos 'span' dentro de um parágrafo (tag 'p'), que por sua vez estão dentro de uma div (tag 'div')
    * table td: todos os elementos 'td' contidos dentro do elemento 'tables'
    
**A ideia é:** Selecionar/acessar seguindo a hirarquia da estrutura. Para entendermos a arquitetura dos elementos dentro do WebSite basta mapear a árvore-HTML.

Assim é possível encontrar o elemento alvo e pesquisar os caracteres contidos nele. Quanto mais nítida a informação passada ao programa WebScraping (epecificação das tags) mais fácil será, para nossa aplicação, encontrar o dado que buscamos. Para exemplificar o uso de seletores CSS, será utilizado o método select(), acoplando como argumento do seletor CSS desejado. 

In [23]:
# selecionar todas as tags "Strong(NEGRITO)" que estão dentro das tags div

print(bs.select('div strong'))
print ('\n')

# pegando todas tags input, que estão dentro do elemento forms que por sua vez estará dentro da div

print(bs.select('div form input'))

[<strong class="jsl10n localized-slogan" data-jsl10n="portal.slogan">The Free Encyclopedia</strong>, <strong>English</strong>, <strong>日本語</strong>, <strong>Русский</strong>, <strong>Deutsch</strong>, <strong>Español</strong>, <strong>Français</strong>, <strong>中文</strong>, <strong>Italiano</strong>, <strong>Português</strong>, <strong>Polski</strong>, <strong class="jsl10n" data-jsl10n="portal.app-links.title">
<a class="jsl10n" data-jsl10n="portal.app-links.url" href="https://en.wikipedia.org/wiki/List_of_Wikipedia_mobile_applications">
Download Wikipedia for Android or iOS
</a>
</strong>]


[<input name="family" type="hidden" value="Wikipedia"/>, <input id="hiddenLanguageInput" name="language" type="hidden" value="en"/>, <input accesskey="F" autocomplete="off" autofocus="autofocus" dir="auto" id="searchInput" name="search" size="20" type="search"/>, <input name="go" type="hidden" value="Go"/>]


Também é possível utilizar o CSS para classes e ids, que são representados por: 

* (,): Ao utilizar o elemento .(ponto), o módulo de dependendo BeautifulSoup - assim como CSS - automaticamente pesquisará por classe que forma indicado com este seletor;
* (#): Para elementos 'id', o módulo de dependência BeautifulSoup segue a mesma premissa dos elementos 'class'.

In [24]:
# aqui, acessamos o conteúdo do elemento 'class' chamado footer-sidebar
print(bs.select('.footer-sidebar'))

print('\n')

# Aqui, acessamo o conteúdo do elemento 'id' da opção 'português'
print(bs.select('#js-link-box-pt'))

[<div class="footer-sidebar">
<div class="footer-sidebar-content">
<div class="footer-sidebar-icon sprite svg-Wikimedia-logo_black">
</div>
<div class="footer-sidebar-text jsl10n" data-jsl10n="portal.footer-description">
Wikipedia is hosted by the Wikimedia Foundation, a non-profit organization that also hosts a range of other projects.
</div>
<div class="footer-sidebar-text">
<a href="https://donate.wikimedia.org/?utm_medium=portal&amp;utm_campaign=portalFooter&amp;utm_source=portalFooter" target="_blank">
<span class="jsl10n" data-jsl10n="footer-donate">You can support our work with a donation.</span>
</a>
</div>
</div>
</div>, <div class="footer-sidebar app-badges">
<div class="footer-sidebar-content">
<div class="footer-sidebar-text">
<div class="footer-sidebar-icon sprite svg-wikipedia_app_tile"></div>
<strong class="jsl10n" data-jsl10n="portal.app-links.title">
<a class="jsl10n" data-jsl10n="portal.app-links.url" href="https://en.wikipedia.org/wiki/List_of_Wikipedia_mobile_applic

# Tratamento de exceções (Handling Exception)

Ao criar e executar um programa WebScraping é possível que alguns erros ocorram antes, durante ou depois da execução. Abaixo listamos 3 possibilidades de erro que são consideradas comum: 

* erro em relação ao servidor onde o site está hospedado;
* erro na estrutura do código da aplicação webscraping;
* erro de execução quando o link de referencia foi alterado;

Para observarmos, quando se trata da requisição que nossa aplicação WebScraping realiza, para validação efetiva a partir do nosso código, devemos estrutura-lo com mais algumas instruções. É necessário importar alguns módulos que nos auxiliarão na execução dessa validação. 

In [25]:
from urllib.error import HTTPError
from urllib.error import URLError

try:
    html = urlopen('https://wikipedia.org/')
except HTTPError as e:
    # Se ocorrer algum erro exibimos ele através da chamada primitiva - print
    print(e)
    
except URLError as e:
    print('O servidor não pode ser encontrado ! ')

In [26]:
# Gerando erros de forma manual

try:
    html = urlopen('https://wikipedia90.org/')
except HTTPError as e:
    # Se ocorrer algum erro exibimos ele através da chamada primitiva - print
    print(e)
    
except URLError as e:
    print('O servidor/URL não pode ser encontrado ! ')

O servidor/URL não pode ser encontrado ! 
