# Exemplo de como fazer um crawler utilizando urllib e BeatifulSoup

## Importações necessárias

In [106]:
# importações
from urllib.request import urlopen
from urllib.parse import urljoin
from bs4 import BeautifulSoup

## Capturar conteúdo HTML da página (GET)

In [107]:
# fazer GET da página web
init = "https://pt.wikipedia.org/wiki/Cerveja"
get = urlopen(init)
# recuperar conteúdo HTML
html = get.read()

In [None]:
# mostrar html
html

## Procurar por links (marcador <a\>) no conteúdo da página

In [108]:
# criar objeto do BS
bsObj = BeautifulSoup(html, "html.parser")
# encontrar todos os links <a>
links_a = bsObj.find_all('a')


In [None]:
# mostral links extraídos
links_a

## Procurar apenas links com href válidos (não vazios e que não comecem com #)

In [109]:
# utilizar beatiful soup para pegar apenas os links válidos
# função para verificar se o link é válido (não vazio e não inicia com #)
def links_validos(href):
    return href and href[0] != '#'
# função é enviada como valor do parâmtero href
validos = bsObj.find_all('a', href=links_validos)

In [None]:
validos

## Outros exemplos de uso do find_all

In [110]:
# procurar links com filtro do atributo class
filtro_classe = bsObj.find_all('a', attrs={'class':'mw-redirect'})
filtro_classe

[<a class="mw-redirect" href="/wiki/Fermento" title="Fermento">fermentação</a>,
 <a class="mw-redirect" href="/wiki/Cereais" title="Cereais">cereais</a>,
 <a class="mw-redirect" href="/wiki/Ser_humano" title="Ser humano">ser humano</a>,
 <a class="mw-redirect" href="/wiki/Estela_de_Hamurabi" title="Estela de Hamurabi">Estela de Hamurabi</a>,
 <a class="mw-redirect" href="/wiki/Sum%C3%A9rios" title="Sumérios">sumérios</a>,
 <a class="mw-redirect" href="/wiki/Eg%C3%ADpcios" title="Egípcios">egípcios</a>,
 <a class="mw-redirect" href="/wiki/Mesopot%C3%A2mios" title="Mesopotâmios">mesopotâmios</a>,
 <a class="mw-redirect" href="/wiki/Estela_de_Hamurabi" title="Estela de Hamurabi">Estela de Hamurabi</a>,
 <a class="mw-redirect" href="/wiki/Hier%C3%B3glifos" title="Hieróglifos">hieróglifos</a>,
 <a class="mw-redirect" href="/wiki/Amon" title="Amon">Templo de Amon</a>,
 <a class="mw-redirect" href="/wiki/Era_Viquingue" title="Era Viquingue">Era Viquingue</a>,
 <a class="mw-redirect" href="/wi

In [None]:
# procurar links com filtro do atributo class e title
filtro_classe_titulo = bsObj.find_all('a', attrs={'class':'mw-redirect', 'title':'Pilsen'})
filtro_classe_titulo

In [None]:
# procurar links com recursive = False
filtro_recursive = bsObj.find_all('a', recursive=False)
filtro_recursive

In [None]:
# procurar links com texto Pilsen
filtro_string = bsObj.find_all('a', string='Pilsen')
filtro_string

In [None]:
# procurar links utilizando **kwargs
filtro_classe = bsObj.find_all('a', class_='mw-redirect')
filtro_classe_titulo = bsObj.find_all('a', class_='mw-redirect', title='Pilsen')
filtro_classe, filtro_classe_titulo


In [None]:
# procurar por elementos do tipo span com classe mw-headline
filtro_span = bsObj.find_all('span', class_='mw-headline')
# procurar por qualquer elemento que contenha o texto cerveja
# retorna apenas o texto, e não o elemento
import re
filtro_cerveja = bsObj.find_all(string=re.compile('cerveja',re.IGNORECASE))
filtro_span, filtro_cerveja

## Extrair os atributos href dos links HTML e transformar nos endereços completos

In [111]:
# retornar apenas atributo href (onde está o link)
# e transformar no endereço completo utilizando urljoin 
# urljoin mescla dois links
# se for um link para outro endereço, utiliza apenas o novo link
# se for um link para o mesmo endereço, junta o endereço base com o link
# exemplo: urljoin("https://pt.wikipedia.org/wiki/Cerveja", "/wiki/Bebida") --> https://pt.wikipedia.org/wiki/Bebida
# exemplo: urljoin("https://pt.wikipedia.org/wiki/Cerveja", "http://google.com") --> http://google.com
enderecos = [urljoin(init, l.get('href')) for l in links_a]

In [None]:
# mostrar endereços dos links
enderecos

In [112]:
# apenas endereços que comecem com https://pt.wikipedia.org/wiki/
enderecos = [e for e in enderecos if e.startswith('https://pt.wikipedia.org/wiki')]

In [None]:
enderecos

## Percorrer lista de links para armazenar o conteúdo
## exemplo para os 10 primeiros links da lista

In [113]:
# percorrer os 10 primeiros links para fazer fazer o GET e adicionar em uma lista
lista_html = []
for e in enderecos_wiki[:10]:
    # retorna um objeto HTTPResponse
    get = urlopen(str(e))
    # retorna o conteudo html
    html = get.read()
    # coloca em uma lista
    lista_html.append(html)

In [None]:
# quantidade de páginas retornadas
lista_html

## Salvar lista de conteúdos em arquivos

In [None]:
# salvar html em um arquivos
for i,h in enumerate(lista_html):
    with open('pagina_'+str(i)+'.txt','wb') as file:
        file.write(h)

# Juntando tudo: crawler para recuperar páginas da wikipedia com tamanho máximo de páginas

In [129]:
# função para encontrar os links
def busca_links(conteudo, link):
    links = BeautifulSoup(conteudo, "html.parser").find_all('a', href=links_validos)
    # retorna o link absoluto
    links = [wiki for wiki in [urljoin(init, l.get('href')) for l in links] if wiki.startswith('https://pt.wikipedia.org/wiki') ]
    return links

In [130]:
# função para salvar link em um arquivo
def salva_arquivo(nome, conteudo):
    with open('wikis/'+nome,'wb') as file:
        file.write(conteudo)

In [131]:
# função para fazer o get
def crawler(init, max = 10):
    buscar = set([init])
    buscados = set()
    contador = 1
    while buscar and contador <= max:
        # remove último elemento do vetor
        link = buscar.pop()
        if link not in buscados:
            print(link)
            try:                
                
                conteudo = urlopen(link).read()
                salva_arquivo('wiki'+str(contador)+'.txt', conteudo)
                contador += 1            
                novos_links = busca_links(conteudo, link)
                # atualiza lista para buscar com novos links.
                # o método update do set desconsidera os repetidos os repetidos
                buscar.update(novos_links)
                buscados.add(link)
            except Exception as ex:
                print(ex)
                pass
  

In [132]:
# executar crawler
init = 'https://pt.wikipedia.org/wiki/Cerveja'
r = busca_pagina(init, max = 10)

https://pt.wikipedia.org/wiki/Cerveja
https://pt.wikipedia.org/wiki/T%C3%A1cito
https://pt.wikipedia.org/wiki/Categoria:!CS1_manut:_Nomes_m%C3%BAltiplos:_lista_de_autores
https://pt.wikipedia.org/wiki/Cl%C3%A1udio
https://pt.wikipedia.org/wiki/Categoria:Oradores_da_Roma_Antiga
https://pt.wikipedia.org/wiki/Aaron_Eckhart
https://pt.wikipedia.org/wiki/Tib%C3%A9rio_Cl%C3%A1udio_C%C3%A9sar_Brit%C3%A2nico
https://pt.wikipedia.org/wiki/L%C3%BAcio_Dom%C3%ADcio_Apolin%C3%A1rio
https://pt.wikipedia.org/wiki/Box_Office_Mojo
https://pt.wikipedia.org/wiki/Amido
