<a href="https://colab.research.google.com/github/lauraemmanuella/DataScience/blob/main/1_Web_Scraping_com_BeautifulSoup.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# O que é Web Scraping?

**Coleta automatizada de dados na internet** 

> Web scraping é a prática de coletar dados por qualquer meio que não seja um programa interagindo com uma API (ou, obviamente, por um ser humano usando um navegador web). **Isso é comumente feito escrevendo um programa automatizado (bot) que consulta um servidor web, requisita dados (em geral, na forma de HTML e de outros arquivos que compõem as páginas web) e então faz parse (análise sintática) desses dados para extrair as informações necessárias.**

*Mitchell, Ryan. Web Scraping com Python (p. 9). Novatec Editora. Edição do Kindle.*

## Por que usar Web Scraping?

> “Mas as web APIs não servem para coletar dados?”. As APIs podem ser incríveis se você encontrar uma que atenda aos seus propósitos. Elas são projetadas para fornecer um stream conveniente de dados bem formatados, de um programa de computador para outro. É possível encontrar uma API para vários tipos de dados que você queira usar, por exemplo, postagens do Twitter ou páginas da Wikipédia. Em geral, é preferível usar uma API (caso haja uma), em vez de implementar um bot para obter os mesmos dados. Contudo, talvez não haja uma API ou, quem sabe, ela não seja conveniente para seus propósitos.

*Mitchell, Ryan. Web Scraping com Python (p. 10). Novatec Editora. Edição do Kindle.*

## Passos gerais

*   Obter dados html de um domínio
*   Fazer parse desses dados em busca das informações desejadas
*   Armazenar as informações desejadas
*   Opcionalmente, passar para outra página e repetir o processo


## Expressões regulares

https://docs.python.org/pt-br/3.8/howto/regex.html

Expressões Regulares identificam padrões de caracteres em um texto. Aqui no web scraping podem ser úteis para identificar uma parte do texto que precisamos recuperar.





# Bibliotecas necessárias

In [None]:
import pandas as pd
import numpy as np

import requests as rq
from bs4 import BeautifulSoup
import re

requests: https://docs.python-requests.org/pt_BR/latest/

BeautifulSoup: https://beautiful-soup-4.readthedocs.io/en/latest/#quick-start

re: https://docs.python.org/3/library/re.html

# Coleta de dados no site Skoob

Projeto original: https://github.com/vitorStein/livros-Skoob

### Obtendo dados e salvando em um objeto BeautifulSoup

In [None]:
url = 'https://www.skoob.com.br/o-fantastico-mundo-da-filosofia-12004442ed11994099.html'
response = rq.get(url) #Obter dados html da url
pagina_html = BeautifulSoup(response.text,'html.parser') #Cria objeto BeautifulSoup com analisador de HTML (parser)

In [None]:
print(pagina_html)

> Com o objeto BeautifulSoup, podemos encontrar elementos específicos no código, como o head (pagina_html.head) ou o body (pagina_html.body)

In [None]:
pagina_html.head

<head prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb# books: http://ogp.me/ns/books#">
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/> <title>O Fantástico mundo da filosofia</title>
<meta content="Fantástico,mundo,filosofia,Michael,Patton,Kevin,Cannon,Excelsior" name="keywords"/><meta/><meta content="A Filosofia como você nunca viu!!! Heráclito, pensador grego espirituoso, nos guia em um passeio de canoa enquanto navegamos...(O Fantástico mundo da filosofia)" name="description"/><meta content="https://www.skoob.com.br/o-fantastico-mundo-da-filosofia-12004442ed11994099" property="og:url"/><meta content="O Fantástico mundo da filosofia" property="og:title"/><meta content="books.book" property="og:type"/><meta content="https://cache.skoob.com.br/local/images//mbp29XwjiEXXMyNYG9oQy5CX9r4=/200x/center/top/smart/filters:format(jpeg)/https://skoob.s3.amazonaws.com/livros/12004442/O_FANTASTICO_MUNDO_DA_FILOSOFI_163516974712004442SK-V11635169748B.jpg" property="og:im

In [None]:
pagina_html.body

> Para identificar melhor o que você precisa, você pode inspecionar o código no navegador para encontrar a localização dos itens e nomes de ids. Para isso, pode apertar a tecla F12 na página de interesse.

> A forma normalmente usada para recuperar os elementos desejados é utilizar as funções de busca: **find() e find_all()**. find() é usada quando queremos recuperar apenas uma ocorrência da tag (a primeira encontrada será retornada). Já find_all()vai buscar todas as ocorrências do elemento procurado.

> Por exemplo, o **pagina_html.a**, assim como o **pagina_html.find('a')**, encontra a primeira tag ‘a’; já o **pagina_html.find_all('a')** retorna uma lista com todas essas tags.

> Observe que o elemento retornado pelo find é do tipo Tag, o que permite que façamos novos find() ou find_all() a partir dele. Já o elemento retornado pelo find_all é um ResultSet, que permite que o usemos como uma lista.

In [None]:
div_lateral = pagina_html.find('div', {'id': 'pg-livro-menu-principal-container'})
print(type(div_lateral))
print(div_lateral)


<class 'bs4.element.Tag'>
<div data-ng-controller="shelf" id="pg-livro-menu-principal-container">
<div><a class="capa-link-item" href="/o-fantastico-mundo-da-filosofia-12004442ed11994099.html" title="O Fantástico mundo da filosofia"><img alt="O Fantástico mundo da filosofia" class="cpimg" itemprop="image" src="https://cache.skoob.com.br/local/images//mbp29XwjiEXXMyNYG9oQy5CX9r4=/200x/center/top/smart/filters:format(jpeg)/https://skoob.s3.amazonaws.com/livros/12004442/O_FANTASTICO_MUNDO_DA_FILOSOFI_163516974712004442SK-V11635169748B.jpg" title="O Fantástico mundo da filosofia"/></a></div><br clear="both"/>
<strong class="sidebar-titulo">O Fantástico mundo da filosofia</strong>
<i class="sidebar-subtitulo">Michael F. Patton e Kevin Cannon</i>
<div class="pg-livro-bt-compra"> <div class="sidebar-buy" data-ng-controller="ofertaCtrl" style="font-size:13px; border:none; width:180px;">
<div data-ng-init="checkPrices('9786580448371')">
<div data-ng-cloak="" data-ng-if="preco">
<span><i class="

In [None]:
div_menor = div_lateral.find('div', {'class': 'sidebar-desc'})
isbns = div_menor.findAll('span')

print(type(div_menor))
print(type(isbns))

print(isbns[0])

<class 'bs4.element.Tag'>
<class 'bs4.element.ResultSet'>
<span>9786580448371</span>


> Podemos usar o método search da biblioteca re para buscar ocorrências específicas dentro de uma string

https://docs.python.org/3/howto/regex.html#regex-howto

In [None]:
print( re.search('[0-9]+', str(isbns[0])) ) #Varre toda a string, procurando qualquer local onde esta re tem correspondência
print( re.search('[0-9]+', str(isbns[0])).group() ) #Retorna a string que corresponde com a re

<re.Match object; span=(6, 19), match='9786580448371'>
9786580448371


In [None]:
menuazul = pagina_html.find('div', {'id': 'pg-livro-menu-azul'}) 
dados = menuazul.find_all('a')

print(dados)

[<a class="link_11_off l_icones sk-cor-branco" href="/livro/leitores/favoritos/12004442/edicao:11994099">Favoritos (2)</a>, <a class="link_11_off l_icones sk-cor-branco" href="/livro/leitores/desejam/12004442/edicao:11994099">Desejados (14)</a>, <a class="link_11_off l_icones sk-cor-branco" href="/livro/leitores/trocam/12004442/edicao:11994099">Trocam (2)</a>, <a class="link_11_off l_icones sk-cor-branco" href="/livro/leitores/avaliaram/12004442/edicao:11994099">Avaliaram (2)</a>]


> Se você deseja apenas o texto legível dentro de um documento ou tag, você pode usar o método get_text()

In [None]:
print(dados[0].get_text())

Favoritos (2)


In [None]:
print(re.search('[0-9]+', dados[0].get_text()))
print(re.search('[0-9]+', dados[0].get_text()).group())

<re.Match object; span=(11, 12), match='2'>
2


## Coleta de dados em 1 página do Skoob

In [None]:
url = 'https://www.skoob.com.br/o-fantastico-mundo-da-filosofia-12004442ed11994099.html'

livro = {} #dicionário que armazenará os dados desejados nessa pagina

try:
  response = rq.get(url) #Obter dados html da url
  pagina_html = BeautifulSoup(response.text,'html.parser') #Cria objeto BeautifulSoup com analisador de HTML (parser)

  div_lateral = pagina_html.find('div', {'id': 'pg-livro-menu-principal-container'})
  livro['titulo'] = div_lateral.find('strong').get_text()
  livro['autores'] = div_lateral.find('i').get_text()
  
  div_menor = div_lateral.find('div', {'class': 'sidebar-desc'})
  isbns = div_menor.findAll('span')
  
  livro['ISBN_13'] = re.search('[0-9]+', str(isbns[0])).group()
  livro['ISBN_10'] = re.search('[0-9]+', str(isbns[1])).group()

  texto = div_menor.get_text()
  livro['ano'] = texto.split('Ano: ')[1].split(' ')[0]
  livro['paginas'] = texto.split('Páginas: ')[1].split(' ')[0]
  livro['idioma'] = texto.split('Idioma: ')[1].split(' ')[0]
  livro['editora'] = texto.split('Editora: ')[1].split(' ')[0]
  
  div_superior = pagina_html.find('div', {'id': 'livro-perfil-status'})
  livro['rating'] = div_superior.find('span', {'class': 'rating'}).get_text()

  info = div_superior.findAll('a', {'class': 'text_blue'})
  livro['resenha'] = info[0].get_text()
  livro['abandonos']  = info[1].get_text()
  livro['relendo']  = info[2].get_text()
  livro['querem_ler'] = info[3].get_text()
  livro['lendo'] = info[4].get_text()
  livro['leram'] = info[5].get_text()

  menuazul = pagina_html.find('div', {'id': 'pg-livro-menu-azul'}) 
  dados = menuazul.find_all('a')

  livro['favoritos'] = re.search('[0-9]+', dados[0].get_text()).group()
  livro['desejados'] = re.search('[0-9]+', dados[1].get_text()).group()
  livro['trocam'] = re.search('[0-9]+', dados[2].get_text()).group()
  livro['avaliaram'] = re.search('[0-9]+', dados[3].get_text()).group()

  info = pagina_html.find('p', {'itemprop': 'description'})
  livro['descricao'] = info.get_text().replace('\n', '')

  info = pagina_html.find('span', {'class': 'pg-livro-generos'})
  livro['genero'] = info.get_text()

  info = pagina_html.find('span', {'class': 'pg-livro-icone-male-label'})
  livro['male'] = int(info.get_text().replace('%', ''))

  info = pagina_html.find('span', {'class': 'pg-livro-icone-female-label'})
  livro['female'] = int(info.get_text().replace('%', ''))

except Exception as e:
  print(e)

In [None]:
print(texto)


ISBN-13: 9786580448371ISBN-10: 6580448377
Ano: 2021 / Páginas: 176 Idioma: português  Editora: Excelsior 


In [None]:
texto.split('Ano: ')

['\nISBN-13: 9786580448371ISBN-10: 6580448377\n',
 '2021 / Páginas: 176 Idioma: português  Editora: Excelsior ']

In [None]:
texto.split('Ano: ')[1]

'2021 / Páginas: 176 Idioma: português  Editora: Excelsior '

In [None]:
texto.split('Ano: ')[1].split(' ')[0]

'2021'

In [None]:
livro

{'ISBN_10': '6580448377',
 'ISBN_13': '9786580448371',
 'abandonos': '0',
 'ano': '2021',
 'autores': 'Michael F. Patton e Kevin Cannon',
 'avaliaram': '2',
 'descricao': 'A Filosofia como você nunca viu!!! Heráclito, pensador grego espirituoso, nos guia em um passeio de canoa enquanto navegamos através dos grandes debates do pensamento filosófico. Ao seguirmos nosso caminho pelo rio sinuoso da Filosofia, conhecemos os pré-socráticos, primeiros a questionar a mitologia e a refletir sobre o mundo ao redor; além disso, encontramos as disciplinas da lógica, da percepção e da epistemologia; encaramos o problema central do livre-arbítrio, e testemunhamos discussões históricas sobre a existência de um Deus. Pelo caminho, pensadores famosos como René Descartes e Immanuel Kant expõem suas obras em conversas claras e descontraídas. A prosa de Patton, combinada com a arte preciosa de Cannon, torna divertida a busca pelas verdades fundamentais, concedendo o amor pela sabedoria a qualquer pessoa q

## Coleta de dados em várias páginas do Skoob

In [None]:
#monte o drive caso precise usar/salvar arquivos do seu drive
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#mude o ponto de execução para outro diretório, caso deseje
%cd /content/drive/MyDrive/Colab Notebooks/DataScience

/content/drive/MyDrive/Colab Notebooks/DataScience


In [None]:
df_links = pd.read_csv('./livros_link.csv')

In [None]:
info_livros = [] #guardará todos os livros do df_links

for index, row in df_links.iterrows(): #itera nas linhas do df_links
  
  if index  == 10: #fazendo apenas 10 livros
    break
  
  livro = {} #guardará os dados de cada livro
  
  try:
    # Request para a paǵina do livro
    url = 'https://www.skoob.com.br{}'.format(df_links['link'][index]) #pega o link do df_links 
    response = rq.get(url)
    pagina_html = BeautifulSoup(response.text,'html.parser')

    div_lateral = pagina_html.find('div', {'id': 'pg-livro-menu-principal-container'})
    livro['titulo'] = div_lateral.find('strong').get_text()
    livro['autores'] = div_lateral.find('i').get_text()
    
    #Algumas páginas tem essa informação de modo diferente
    if livro['autores'] == '':
      div_autor = pagina_html.find('div', {'class': 'livro-autor-biografia'})
      livro['autores'] = div_autor.find('h3').get_text()
  
    div_menor = div_lateral.find('div', {'class': 'sidebar-desc'})
    isbns = div_menor.findAll('span')
  
    livro['ISBN_13'] = re.search('[0-9]+', str(isbns[0])).group()
    livro['ISBN_10'] = re.search('[0-9]+', str(isbns[1])).group()

    texto = div_menor.get_text()
    livro['ano'] = texto.split('Ano: ')[1].split(' ')[0]
    livro['paginas'] = texto.split('Páginas: ')[1].split(' ')[0]
    livro['idioma'] = texto.split('Idioma: ')[1].split(' ')[0]
    livro['editora'] = texto.split('Editora: ')[1].split(' ')[0]
  
    div_superior = pagina_html.find('div', {'id': 'livro-perfil-status'})
    livro['rating'] = div_superior.find('span', {'class': 'rating'}).get_text()

    info = div_superior.findAll('a', {'class': 'text_blue'})
    livro['resenha'] = info[0].get_text()
    livro['abandonos']  = info[1].get_text()
    livro['relendo']  = info[2].get_text()
    livro['querem_ler'] = info[3].get_text()
    livro['lendo'] = info[4].get_text()
    livro['leram'] = info[5].get_text()

    menuazul = pagina_html.find('div', {'id': 'pg-livro-menu-azul'}) 
    dados = menuazul.find_all('a')

    livro['favoritos'] = re.search('[0-9]+', dados[0].get_text()).group()
    livro['desejados'] = re.search('[0-9]+', dados[1].get_text()).group()
    livro['trocam'] = re.search('[0-9]+', dados[2].get_text()).group()
    livro['avaliaram'] = re.search('[0-9]+', dados[3].get_text()).group()

    info = pagina_html.find('p', {'itemprop': 'description'})
    livro['descricao'] = info.get_text().replace('\n', '')

    info = pagina_html.find('span', {'class': 'pg-livro-generos'})
    livro['genero'] = info.get_text()

    info = pagina_html.find('span', {'class': 'pg-livro-icone-male-label'})
    livro['male'] = int(info.get_text().replace('%', ''))

    info = pagina_html.find('span', {'class': 'pg-livro-icone-female-label'})
    livro['female'] = int(info.get_text().replace('%', ''))

    info_livros.append(livro)  #coloca na lista de livros

  except Exception as e:
    print(e)

In [None]:
df_livros = pd.DataFrame(info_livros)

In [None]:
df_livros 

Unnamed: 0,titulo,autores,ISBN_13,ISBN_10,ano,paginas,idioma,editora,rating,resenha,abandonos,relendo,querem_ler,lendo,leram,favoritos,desejados,trocam,avaliaram,descricao,genero,male,female
0,Orçamento sem falhas,Nath Finanças,9786555601565,6555601566,2021,128,português,Intrínseca,4.2,278.0,3,3,1.483,152,1.107,29,107,11,907,"Quando o assunto é dinheiro, não dá para achar...","Economia, Finanças / Literatura Brasileira / N...",15,85
1,A Segunda Vida de Missy,Beth Morrey,9786555600834,6555600837,2021,304,português,Intrínseca,4.0,383.0,30,3,3.577,153,1.464,119,442,4,1,Romance de estreia traz protagonista incomum e...,Ficção / Literatura Estrangeira / Romance,7,93
2,As Sombras do Mal,Guillermo del Toro,9786555600117,655560011,2021,320,português,Intrínseca,3.8,36.0,1,0,787.0,12,141.0,7,114,1,131,Uma das mentes mais criativas e geniais da atu...,Ficção / Literatura Estrangeira / Romance poli...,29,71
3,Minha Sombria Vanessa,Kate Elizabeth Russell,9788551006276,8551006274,2020,432,português,Intrínseca,4.3,1.348,152,1,8.841,558,6.372,877,1,12,5,Elogiado por Gillian Flynn e considerado um do...,Drama / Ficção / Literatura Estrangeira / Susp...,7,93
4,Recursão,Blake Crouch,9788551005378,8551005375,2020,320,português,Intrínseca,4.4,1.406,66,4,10.558,489,6.638,1,1,5,6,E se um dia memórias vívidas de coisas que nun...,Ficção / Ficção científica / Literatura Estran...,19,81
5,"M, o Filho do Século",Antonio Scurati,9788551006078,855100607,2020,816,português,Intrínseca,4.6,14.0,6,1,1.062,56,102.0,13,206,1,84,"O romance M, o Filho do Século conta em trama ...","Biografia, Autobiografia, Memórias / História ...",36,64
6,Oblivion Song: Entre Dois Mundos,Robert Kirkman,9788551006252,8551006258,2020,136,português,Intrínseca,4.1,24.0,0,0,413.0,5,276.0,10,64,2,237,Mestre em traçar universos distópicos permeado...,"Ficção / HQ, comics, mangá / Literatura Estran...",45,55
7,"Não se humilha, não",Isabela Freitas,9788551006092,8551006096,2020,320,português,Intrínseca,4.3,302.0,42,6,4.376,210,2.245,171,438,3,1,"Muito antes de decidir desapegar, Isabela pass...",Autoajuda / Literatura Brasileira / Não-ficção,2,98
8,Os segredos que guardamos,Lara Prescott,9788551005675,8551005677,2020,368,português,Intrínseca,4.1,226.0,20,1,2.815,88,1.16,100,345,9,1,Inspirado em uma missão real da CIA durante a ...,História Geral / Literatura Estrangeira / Não-...,9,91
9,Baby Shark!,Stevie Lewis,9788551005842,8551005847,2020,32,português,Intrínseca,4.2,2.0,0,0,159.0,1,8.0,1,7,2,6,Com 4 bilhões de visualizações no YouTube e ve...,Ficção / Infantil / Literatura Estrangeira,23,77
