# ------------ Web-Scraping com Python ------------ #


# <center> Exemplo de Código em HTML</center>

![](images/exemplo_html.png)

# Como identificar informações e tecnologias de um site ? #

# <center>Exemplo - Inspecionar Website</center>

![](images/exemplo_html2.png)

## O arquivo robots.txt !

## https://www.crummy.com/robots.txt

## Tecnologias usadas em um website

In [None]:
#!pip install builtwith

In [None]:
import builtwith

In [None]:
builtwith.parse("https://www.facebook.com")

## Extrair informações de owner do website e servidores 

In [None]:
#!pip install python-whois

In [None]:
import whois

In [None]:
print(whois.whois('www.cdb.com.br'))

# Expressoes Regulares ( REGEX ) #

In [None]:
import re

In [None]:
exemplo = 'Este é o 4º Meetup da PoD, Estou muito feliz em aprender Web Scraping com nosso querido amigo Sales'

* método search 

In [None]:
#search busca a primeira ocorrencia em qualquer posicao do texto
busca = re.search('Meetup',exemplo)

In [None]:
print(busca)

* método findall

In [None]:
padrao = '[0-9]'

In [None]:
#findall busca todas ocorrencias encontradas
busca = re.findall(padrao,exemplo)

In [None]:
print(busca)

* método match

In [None]:
#match busca a primeira ocorrencia somente no inicio da string
busca = re.match('E',exemplo)

In [None]:
print(busca)

In [None]:
#retorna None se não encontrar
busca = re.match('F',exemplo)

In [None]:
print(busca)

* método sub

In [None]:
exemplo2 = 'CACHORRO é um animal muito DÓCIL! Eu tenho 10 cachorros'

In [None]:
#sub - realiza substituicoes na string
busca = re.sub('[\D]', lambda m: m.group(0).lower(),exemplo2)

In [None]:
busca

In [None]:
busca = re.sub('[0-9]', '' ,exemplo2)

In [None]:
busca

* método split

In [None]:
texto = 'Felipe|Joao|Silva|Aline|Jose'

#quebra strings por um caracter, ou um padrao
print(re.split("\|",texto))

#percebam que utilizei a contra barra "\" juntamente com o pipe '|', pois o pipe '|' também signigica "OU" ( lógico ) 


* método compile

In [None]:
#armazena o padrão em um objeto compilado (ganho de performance)
padrao = re.compile('[A-Z]')

In [None]:
texto = 'meu nome é Felipe'

In [None]:
padrao.search(texto)

In [None]:
padrao.findall(texto)

In [None]:
print(padrao.match(texto))

* Flags

In [None]:
texto ='''Meu nome é Felipe,
          esse é nosso curso de
          web scraping'''

padrao = '.+'

In [None]:
#padrao = re.findall(padrao,texto)
padrao = re.findall(padrao,texto,re.DOTALL)

In [None]:
padrao

In [None]:
#Como o Python trata caracteres de espacamento
print("\nWeb        \b\b\bScraping com \t Python")

In [None]:
#utilizamos 'r'(RAW) para que o Python nao interprete tais caracteres
print(r"\nWeb  \bScraping com \t Python")

### Como encontrar CPFs e CNPJs ?

In [None]:
import re

In [None]:
# Vamos procurar CPFs e CNPJs utilizando REGEX! 

cpfs = "^([0-9]{3})[\.]?([0-9]{3})[\.]?([0-9]{3})[-]?([0-9]{2})$"

cnpjs = "^(\d{2})\.?(\d{3})\.?(\d{3})\/?(\d{4})-?(\d{2})$"


In [None]:
cpf1 = '43047826811'
cpf2 = '123456789-11'
cpf3 = '1111111111111111'

In [None]:
cpfs_1=re.findall(cpfs,cpf1)
cpfs_2=re.findall(cpfs,cpf2)
cpfs_3=re.findall(cpfs,cpf3)

In [None]:
print(cpfs_1,cpfs_2,cpfs_3)

In [None]:
cnpj1 = '43047826811'
cnpj2 = '11.111.123/0001-12'
cnpj3 = '11111111111111'

In [None]:
cnpj_1=re.findall(cnpjs,cnpj1)
cnpj_2=re.findall(cnpjs,cnpj2)
cnpj_3=re.findall(cnpjs,cnpj3)

In [None]:
print(cnpj_1,cnpj_2,cnpj_3)

In [None]:
cpfs_ = [''.join(tup) for tup in cpfs_1]

In [None]:
for i in cpfs_:
    print(i)

### Como localizar e-mails utilizando Regex ?

In [None]:
testee = 'meu nome é felipe e meu email é felipejardimf@gmail.com.br , possuo também o felipe2-jardim.fiorentino@yahoo.com.br'

In [None]:
re.findall('[\w\.-]+@[\w\.-]+\.\w+',testee)

### Como localizar CEPs ?

In [None]:
cep = '13500-313'

cep2= '04305000'

cep3= '03232432443242'

In [None]:
re.findall('^\d{5}-?\d{3}$',cep3)

### Localizando celulares com Regex !

In [None]:
import re

In [None]:
exemplo_telefone = '''
Meu telefone é (19)991709972
Meu telefone é (19)99170-8942
Meu telefone é (11)999129999
Meu telefone é (11)99129999
Meu telefone é 11999
Meu telefone é 992453312
'''

In [None]:
re.findall('\(?\d{2}\)?[\s-]?[\s9]?\d{4}-?\d{4}',exemplo_telefone)

# Realizando meu primeiro Scrap! #

# Requests

Biblioteca utilizada para enviar requisições para documentos HTML

#### Instalação ####

pip install requests

conda install -c anaconda requests


#### Importação ####

import requests


#### Uso ####

html = requests.get("www.site.com")   - método get manda uma requisição para o servidor buscando todo conteúdo html do website.

html.text = método text traz todo documento html para um objeto do tipo str

outras requisições HTTP:

html = requests.put('https://www.site.com/put', data = {'key':'value'})

html = requests.delete('https://www.site.com/delete')

html = requests.head('https://www.site.com/head')

html = requests.options('https://www.site.com/options')


html.response -  método response mostra o resultado da requisição enviada ao servidor.

Respostas de informação (100-199)

Respostas de sucesso (200-299)  (200 é a mais comum, significa OK.)

Redirecionamentos (300-399)

Erros do cliente (400-499)

Erros do servidor (500-599)

# urllib

Lib padrão de Python para se trabalhar com requisições HTTP.
tem recursos similares com a lib Requests.

#### Instalação ####

Lib padrão Python, não necessita de instalação.

#### Importação ####

import urllib

from urllib.requests import urlopen

import urllib.request

#### Uso ####

html = urlopen("http://www.site.com")  Envia requisição GET para um servidor , retornando todo documento HTML

html.read() - Função retorna todo conteúdo HTML .

html.status() - método Status retorna o resultado da conexão ( quando OK , #200 )

Respostas de informação (100-199)

Respostas de sucesso (200-299)  (200 é a mais comum, significa OK.)

Redirecionamentos (300-399)

Erros do cliente (400-499)

Erros do servidor (500-599)

urllib.request.urlretrieve('http://python.org/','teste.txt') - salva o conteúdo HTML em um arquivo.


# BeautifulSoup

#### Instalação ####

pip install beautifulsoup4

conda install beautifulsoup4


#### Importação ####

from bs4 import BeautifulSoup


#### Uso ####


métodos mais utilizados:

BeautifulSoup.find - Retorna o primeiro elemento encontrado

BeautifulSoup.findAll #find_all tem a mesma finalidade - Retorna todos elementos contidos no documento HTML, correspondendo com a busca.

BeautifulSoup.prettify - Exibe o documento HTML com quebras em camadas.

BeautifulSoup.get - Usado para retornar o valor de um atributo.

BeautifulSoup.text - Usado para retornar o texto contido dentro de uma TAG .
    

In [None]:

#!pip install beautifulsoup4
#conda install beautifulsoup4
from bs4 import BeautifulSoup

In [None]:

import urllib
from urllib.request import urlopen

In [None]:
html = urlopen("http://localhost:8000/exemplo.html")

In [None]:
bs = BeautifulSoup(html.read(),'html.parser')

In [None]:
#Exibe o documento HTML com quebras em camadas.
print(bs.prettify())

### Como extrair informações de um determinado elemento HTML ?

In [None]:
bs.title

In [None]:
bs.head

In [None]:
bs.html.head.title

In [None]:
bs.div

### Encontrando elementos HTML por Atributo, classes, IDs , CSS 

In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

In [None]:
teste = urlopen("http://localhost:8000/exemplo.html")

In [None]:
bs = BeautifulSoup(teste,'html.parser')

In [None]:
#Procurando por ID
print(bs.findAll(id='datas'))

In [None]:
#Procurando por TAG + ID

print(bs.findAll('div', attrs={'id':'exemplo'}))

In [None]:
#Procurando por Classe

print(bs.findAll(class_='teste'))

In [None]:
#Procurando por múltiplos elementos

print(bs.findAll('marquee',direction='right', attrs={'bgcolor':'blue'}))


In [None]:
#Procurando por CSS Selectors


print(bs.select('title')) #Procurando pela TAG

print("\n\n****\n\n")

print(bs.select('#datas')) #Procurando pelo ID 




### Como Extrair todos links externos de um documento HTML ?

In [None]:
links = bs.findAll('a')

In [None]:
#pegando as descriçoes dos links dentro do HTML
for link in links:
    print(link.text)

In [None]:
#pegando todos links de um documento html
for link in links:
    print(link.get('href'))


###  Como extrair tabelas de um documento HTML usando BeautifulSoup ? 

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
html = requests.get('http://localhost:8000/exemplo.html')


In [None]:
soup = BeautifulSoup(html.text,'html.parser')



In [None]:
soup.findAll(id='tabela_1')

In [None]:
tabela = soup.find(id='tabela_1')

In [None]:
cols = [x.text for x in tabela.findAll('th')]

In [None]:
rows = tabela.findAll('tr')

In [None]:
data = []
for row in rows: #percorrendo as linhas, pegando os dados..
    data_rows = row.findAll('td')
    data_rows = [ele.text.strip() for ele in data_rows] # trazendo os textos dentro das tags
    data.append([ele for ele in data_rows])

In [None]:
pd.DataFrame(data=data, columns=cols)

### Problemas de Encoding ?

In [None]:
import requests

In [None]:
html = requests.get('http://localhost:8000/exemplo.html')

In [None]:
soup = BeautifulSoup(html.text,'html.parser')

In [None]:
soup.find('ul')

In [None]:
html = html.content

In [None]:
soup = BeautifulSoup(html.decode('utf-8','ignore'))

In [None]:
soup.find('ul')

### Como extrair listas de um documento HTML ?

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
exemplo_lista = urlopen("http://localhost:8000/exemplo.html")

In [None]:
soup = BeautifulSoup(exemplo_lista,'html.parser')

In [None]:
# Listas ordenadas
ord_list =soup.findAll('ol')

In [None]:
# Listas desordenadas
unord_list =soup.findAll('ul')

In [None]:
for lista in ord_list:
    print(lista.text)

In [None]:
for lista in unord_list:
    print(lista.text)

### Exemplo de uso do REGEX na extração de dados

In [None]:
import re
from bs4 import BeautifulSoup

In [None]:
exemplo_regex = urlopen("http://localhost:8000/exemplo.html")

In [None]:
soup = BeautifulSoup(exemplo_regex,'html.parser')

In [None]:
datas = soup.find_all('div',  id='datas')
data_info = re.sub("[\D]", "", str(datas))

In [None]:
data_info

### Tratamento de Excessões 

In [None]:
#tratamento de excessões

from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
try:
    html = urlopen('https://www.medium.com')
except HTTPError as e:
    print(e)
except URLError as e:
    print('Servidor não encontrado!')
else:
    print('Funcionou,bora extrair!')


In [None]:
try:
    html= urlopen("https://www.worldometers.info/coronavirus/#countries")
except Exception as e:
    print(e)

In [None]:
try:
    html=requests.get("https://www.worldometers.info/coronavirus/#countries")
except Exception as e:
    print(e)
    

### Uso de User Agents

In [None]:
try:
    html=requests.get("https://www.fundamentus.com.br/detalhes.php?papel=ABEV3")
except Exception as e:
    print(e)
    

In [None]:
html.text

In [None]:
#simulando o uso de um navegador no caso do website negar nossa solicitação !
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}
   

In [None]:
html = requests.get("https://www.fundamentus.com.br/detalhes.php?papel=ABEV3", headers=header)

In [None]:

html.text

# Referências:





Documentação da biblioteca re(regex) do Python : https://docs.python.org/3/library/re.html

Documentação em Português do Brasil da Biblioteca BeautifulSoup : https://www.crummy.com/software/BeautifulSoup/bs4/doc.ptbr/

Testar Expressões Regulares : https://regex101.com/  |   https://pythex.org/

Dicas sobre HTML : https://htmlcheatsheet.com/

Livro Web Scraping com Python: Coletando Mais Dados da web Moderna : https://www.oreilly.com/library/view/web-scraping-with/9781491985564/

Documentação Biblioteca urllib : https://docs.python.org/3/library/urllib.html

Documentação Biblioteca Requests : https://requests.readthedocs.io/en/master/