#**Livro que utilizei como base:**
- *Web Scraping com Python: coletando mais dados na web moderna, 2ª edição, Ryan Mitchell (O'Reilly).*

O princípio desse notebook é estudar sobre Web Scraping, para isso, testarei exemplos que foram abordados no livro (mencionado acima), e no final de cada capítulo, farei um exemplo na prática em base do capítulo lido. 

# **Capítulo 3 - Escrevendo Web Crawlers**

*Caso precise utilizar dados do Wikipedia, podemos utilizar seu API, no seguinte link.*

https://www.mediawiki.org/wiki/API:Main_page


**Six degrees of Kevin Bacon**

In [None]:
# Coletar todos os links
from urllib.request import urlopen
from bs4 import BeautifulSoup

url= "https://pt.wikipedia.org/wiki/Kevin_Bacon"
html= urlopen(url)

bs= BeautifulSoup(html, "html.parser")

for link in bs.find_all("a"):
  if "href" in link.attrs:
    print(link.attrs["href"])

#content
/wiki/Wikip%C3%A9dia:P%C3%A1gina_principal
/wiki/Especial:Pesquisar
/w/index.php?title=Especial:Criar_conta&returnto=Kevin+Bacon
/w/index.php?title=Especial:Criar_conta&returnto=Kevin+Bacon
/w/index.php?title=Especial:Entrar&returnto=Kevin+Bacon
/wiki/Wikip%C3%A9dia:Boas-vindas
/wiki/Especial:Minha_discuss%C3%A3o
/wiki/Especial:Minhas_contribui%C3%A7%C3%B5es
/wiki/Wikip%C3%A9dia:P%C3%A1gina_principal
/wiki/Portal:Conte%C3%BAdo_destacado
/wiki/Portal:Eventos_atuais
/wiki/Wikip%C3%A9dia:Esplanada
/wiki/Especial:Aleat%C3%B3ria
/wiki/Portal:%C3%8Dndice
/wiki/Wikip%C3%A9dia:Informe_um_erro
/wiki/Wikip%C3%A9dia:Boas-vindas
/wiki/Ajuda:P%C3%A1gina_principal
/wiki/Ajuda:P%C3%A1gina_de_testes
/wiki/Wikip%C3%A9dia:Portal_comunit%C3%A1rio
/wiki/Especial:Mudan%C3%A7as_recentes
/wiki/Wikip%C3%A9dia:Manuten%C3%A7%C3%A3o
/wiki/Ajuda:Guia_de_edi%C3%A7%C3%A3o/Como_come%C3%A7ar_uma_p%C3%A1gina
/wiki/Especial:P%C3%A1ginas_novas
/wiki/Wikip%C3%A9dia:Contato
//donate.wikimedia.org/wiki/Special:Fun

In [None]:
# Coletar todos os links sem os links inuteis
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

url= "https://pt.wikipedia.org/wiki/Kevin_Bacon"
html= urlopen(url)

bs= BeautifulSoup(html, "html.parser")
objeto_analise= bs.find("div", {"id":"bodyContent"}).find_all("a", href=re.compile("^(/wiki/)((?!:).)*$"))

for link in objeto_analise:
  if "href" in link.attrs:
    print(link.attrs["href"])

/wiki/8_de_julho#Nascimentos
/wiki/1958
/wiki/Filad%C3%A9lfia
/wiki/Povo_dos_Estados_Unidos
/wiki/Ator
/wiki/Kyra_Sedgwick
/wiki/Pr%C3%AAmios_Globo_de_Ouro
/wiki/Golden_Globe_Award_para_Melhor_Ator_(miniss%C3%A9rie_ou_filme)_em_televis%C3%A3o
/wiki/2010
/wiki/Pr%C3%A9mios_Screen_Actors_Guild
/wiki/Pr%C3%A9mio_Screen_Actors_Guild_de_melhor_ator_em_miniss%C3%A9rie_ou_telefilme
/wiki/Pr%C3%A9mio_Screen_Actors_Guild_de_melhor_elenco_em_cinema
/wiki/1996
/wiki/Apollo_13_(filme)
/wiki/Pr%C3%AAmios_Critics%27_Choice_Movie
/wiki/Pr%C3%A9mio_Critics_Choice_de_melhor_ator_em_cinema
/wiki/Murder_in_the_First
/wiki/Filad%C3%A9lfia
/wiki/8_de_julho
/wiki/1958
/wiki/Ator
/wiki/Povo_dos_Estados_Unidos
/wiki/Animal_House_(filme)
/wiki/Footloose_(1984)
/wiki/Teoria_dos_seis_graus_de_separa%C3%A7%C3%A3o
/wiki/Nova_Iorque
/wiki/Teatro_Broadway
/wiki/Animal_House_(filme)
/wiki/John_Belushi
/wiki/John_Landis
/wiki/Los_Angeles
/wiki/Teatro
/wiki/Sean_Penn
/wiki/Val_Kilmer
/wiki/Sexta-Feira_13_(1980)
/wiki/D

In [None]:
# Six Degrees
from urllib.request import urlopen
from bs4 import BeautifulSoup
import datetime
import random
import re

# Garante que todas as vezes que rodarmos seja diferentes
random.seed(datetime.datetime.now())

# Conseguir todos os links do url
def conseguir_links(url):
  html= urlopen("http://en.wikipedia.org{}".format(url))
  bs= BeautifulSoup(html, "html.parser")
  objeto_analise= bs.find("div", {"id":"bodyContent"}).find_all("a", href=re.compile("^(/wiki/)((?!:).)*$"))
  return(objeto_analise)

# Começo do url
links= conseguir_links("/wiki/Kevin_Bacon")
cont= 0

# Estrutura de repetição para pesquisar a nova pagina de forma aleatoria
while len(links) > 0:
  novo_url= links[random.randint(0, len(links)-1)].attrs["href"]
  print(novo_url)
  links= conseguir_links(novo_url)
  cont += 1

  # Parada
  if cont == 10:
    break

/wiki/Boston_Society_of_Film_Critics_Award_for_Best_Cast
/wiki/Candice_Bergen
/wiki/Oliver%27s_Story
/wiki/Tagline
/wiki/Jingle
/wiki/Lyrics
/wiki/Singing_in_the_Spirit
/wiki/Solo_(music)
/wiki/String_octet
/wiki/Jazz_quartet


*Utilidades*

- Podemos passar todos os links para conseguirmos mapear um site.
- E após mapeamos o site, podemos fazer uma coleta de dados.

*recursão*

- Python tem um limite default para recursão igual a 1000. Tomar cuidado

In [None]:
# Para evitarmos de passarmos em site repetidos.

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

# Conseguir todos os links do url
paginas_rastreadas= set()
cont = 0
def conseguir_links(url):
  global paginas_rastreadas                   # não conseguia

  html= urlopen("http://en.wikipedia.org{}".format(url))
  bs= BeautifulSoup(html, "html.parser")
  objeto_analise= bs.find_all("a", href=re.compile("^(/wiki/)((?!:).)*$"))

  for link in objeto_analise:
    if "href" in link.attrs:
      if link.attrs["href"] not in paginas_rastreadas:
        nova_url= link.attrs["href"]
        print(nova_url)

        paginas_rastreadas.add(nova_url)
        conseguir_links(nova_url)

conseguir_links("/wiki/Kevin_Bacon")

/wiki/Kevin_Bacon_(disambiguation)
/wiki/Kevin_Bacon
/wiki/Philadelphia,_Pennsylvania
/wiki/Philly_(disambiguation)
/wiki/Philadelphia
/wiki/Philadelphia_(disambiguation)
/wiki/Philadelphia_County,_Pennsylvania
/wiki/Consolidated_city-county
/wiki/United_States#Government_and_politics
/wiki/Americas
/wiki/America_(disambiguation)
/wiki/America
/wiki/US_(disambiguation)
/wiki/United_States_of_America
/wiki/USA_(disambiguation)
/wiki/USA
/wiki/The_United_States_of_America_(disambiguation)
/wiki/The_United_States_of_America
/wiki/United_States_(disambiguation)
/wiki/United_States
/wiki/Geographic_coordinate_system
/wiki/Geodesy
/wiki/Geodetic_(disambiguation)
/wiki/Geodetic_Hills


KeyboardInterrupt: ignored

**O erro acima é porque eu parei o código de rodar para não ser infinito**

*Os demais exemplos do livro*

- Randomizar os pulos de um site para outro link de outro site (externo).
- Obter os links externo e interno.

#**Meu exemplo para praticar**
- Objetivo é partir de um link do wikipedia e pegar o link e o titulo dos outros links.

In [None]:
!pip install prettytable

In [13]:
from urllib.request import urlopen
from urllib.error import HTTPError, URLError
from bs4 import BeautifulSoup
from prettytable import PrettyTable
import re

def verificar_coneccao(url):
  try:
    html= urlopen("http://en.wikipedia.org{}".format(url))
    return(conseguir_titulo(html))
  
  except HTTPError as e:
    return("URL incorreto.")
  
  except URLError as e:
    return("Servidor indisponivel.")

def conseguir_titulo(html):
  try:
    bs= BeautifulSoup(html.read(), "lxml")
    return(bs.title.get_text())
  
  except AttributeError as e:
    return("Erro")

def conseguir_links(url):
  html= urlopen("http://en.wikipedia.org{}".format(url))
  bs= BeautifulSoup(html, "html.parser")
  objeto_analise= bs.find_all("a", href=re.compile("^(/wiki/)((?!:).)*$"))

  estrutura_tabela= PrettyTable()
  estrutura_tabela.field_names= ["Titulo", "Link"]

  for link in objeto_analise:
    if "href" in link.attrs:
      nova_url= link.attrs["href"]
      estrutura_tabela.add_row([verificar_coneccao(nova_url),nova_url])

  print(estrutura_tabela)

url= "/wiki/Xadrez"
conseguir_links(url)

+----------------------------------------------------------------------+------------------------------------------------------------------------+
|                                Titulo                                |                                  Link                                  |
+----------------------------------------------------------------------+------------------------------------------------------------------------+
|                  Chess (disambiguation) - Wikipedia                  |                      /wiki/Chess_(disambiguation)                      |
|                    Staunton chess set - Wikipedia                    |                        /wiki/Staunton_chess_set                        |
|                       King (chess) - Wikipedia                       |                           /wiki/King_(chess)                           |
|                       Rook (chess) - Wikipedia                       |                           /wiki/Rook_(chess)       