#Começando o estudo de Web Scraping.

**Livro que utilizei como base:**
- *Web Scraping com Python: coletando mais dados na web moderna, 2ª edição, Ryan Mitchell (O'Reilly).*

O princípio desse notebook é estudar sobre Web Scraping, para isso, testarei exemplos que foram abordados no livro (mencionado acima), e no final de cada capítulo, farei um exemplo na prática em base do capítulo lido. 

# **Capítulo 1 - Seu primeiro Web Scraper**

**Exibição do código HTML da página**

In [None]:
from urllib.request import urlopen

html= urlopen("http://pythonscraping.com/pages/page1.html")
print(html.read())

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'

**Instalando a biblioteca beautifulsoup**

In [None]:
!pip install beautifulsoup4



In [None]:
from bs4 import BeautifulSoup

**Ação do BeautifulSoup no 1º Exemplo**

In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

html= urlopen("http://pythonscraping.com/pages/page1.html")
bs= BeautifulSoup(html.read(), "html.parser")

# Resultado são iguais
print(bs.h1)
print(bs.html.body.h1)
print(bs.html.h1)
print(bs.body.h1)

<h1>An Interesting Title</h1>
<h1>An Interesting Title</h1>
<h1>An Interesting Title</h1>
<h1>An Interesting Title</h1>


**Diferentes tipos de parser**

- O significado de Parse é uma análise sintática de uma quantidade de símbolos em alguma linguagem.
  - Informação retirada em: https://cursos.alura.com.br/forum/topico-significado-de-parse-87061

*Parser: lxml*

Vantagens em relação ao html.parser: 
- Melhor resposta quando temos código HTML confuso;
- Parser mais tolerante;
- Corrige tags sem fechamento ou tags indevidamente aninhadas ou algo parecido;
- Mais rápido.

Desvantagens:
- Deve se instalar separadamente;
- Depende de bibliotecas C;
- Pode causar problemas de portabilidade e de facilidade de uso.

In [None]:
!pip install lxml



In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

html= urlopen("http://pythonscraping.com/pages/page1.html")
bs= BeautifulSoup(html.read(), "lxml")

print(bs.h1)

<h1>An Interesting Title</h1>


*Parser: html5lib*

Vantagens: 
- Melhor resposta quando temos código HTML confuso;
- Parser mais tolerante e comparado com lxml;
- Corrige tags sem fechamento ou tags indevidamente aninhadas ou algo parecido;

Desvantagens:
- Mais lento que lxml;
- Deve se instalar separadamente;

In [None]:
!pip install html5lib



In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

html= urlopen("http://pythonscraping.com/pages/page1.html")
bs= BeautifulSoup(html.read(), "html5lib")

print(bs.h1)

<h1>An Interesting Title</h1>


*Conectando-se de forma confiável e tratando exceções*

In [None]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

def conseguir_titulo(url):
  try:
    html= urlopen(url)
  except HTTPError as e:
    return(None)

  try:
    bs= BeautifulSoup(html.read(), "html.parser")
    titulo= bs.body.h1
  except AttributeError as e:
    return(None)
  return(titulo)

titulo= conseguir_titulo("http://pythonscraping.com/pages/page1.html")
if titulo == None:
  print("Titulo não encontrado")
else:
  print(titulo)

<h1>An Interesting Title</h1>


#**Meu exemplo para praticar**

In [None]:
from urllib.request import urlopen
from urllib.error import HTTPError, URLError
from bs4 import BeautifulSoup

def verificar_coneccao(url):
  try:
    html= urlopen(url)
    return(conseguir_titulo(html))
  
  except HTTPError as e:
    print("URL incorreto.")
    return(None)
  
  except URLError as e:
    print("Servidor indisponivel")
    return(None)

def conseguir_titulo(html):
  try:
    bs= BeautifulSoup(html.read(), "lxml")
    return(bs.title)
  
  except AttributeError as e:
    return(None)

url= "https://pt.wikipedia.org/wiki/Xadrez"
verificar_coneccao(url)

<title>Xadrez – Wikipédia, a enciclopédia livre</title>