# <font color=green>1. TREINO DE SCRAPING

# 1.1. Introdução

## *Web Scraping* é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.

# 1.2. Ambiente e bibliotecas
### Utilizaremos em nosso treinamento o navegador Google Chrome

In [1]:
import bs4
import urllib.request as urllib_request
import pandas

print("BeautifulSoup ->", bs4.__version__)
print("urllib ->", urllib_request.__version__)
print("pandas ->", pandas.__version__)

BeautifulSoup -> 4.10.0
urllib -> 3.9
pandas -> 1.3.4


# 1.3. Meu primeiro scraping

In [2]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://alura-site-scraping.herokuapp.com/hello-world.php'

response = urlopen(url)
html = response.read()

soup = BeautifulSoup(html, 'html.parser')

print(soup.find('h1', id='hello-world').get_text())
print(soup.find('p').get_text())

Hello World!!!
Web Scraping é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.


In [3]:
soup.find('h1', {'class': 'sub-header'}).get_text()

'Curso de Web Scraping'

---
# <font color=green>2. OBTENDO E TRATANDO O CONTEÚDO DE UM HTML

# 2.1. Entendendo a web

<img src="./web/web.png" width="700">

# 2.2. Obtendo o conteúdo HTML de um site

# urllib.request
## https://docs.python.org/3/library/urllib.html

In [4]:
from urllib.request import urlopen

url = 'https://alura-site-scraping.herokuapp.com/index.php'

response = urlopen(url)
html = response.read()
# html

## https://docs.python.org/3/library/urllib.request.html#urllib.request.Request

In [7]:
from urllib.request import  Request, urlopen
from urllib.error import URLError, HTTPError

#site com proteção
url = 'https://www.alura.com.br'


In [9]:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}

try:
    req = Request(url, headers = headers)
    response = urlopen(req)
    print(response.read()[:300])

except HTTPError as e:
    print(e.status, e.reason)

b'<!DOCTYPE html><html\nlang="pt-BR"><head><meta\ncharset="UTF-8"><meta\nname="viewport" content="width=device-width,initial-scale=1,minimum-scale=1.0"><title>Alura | Cursos online de Tecnologia</title><meta\nname="description" content="Aprenda Programa\xc3\xa7\xc3\xa3o, Front-end, Back-end, Data Science, UX, DevOps,'


In [10]:
#exibindo mensagem de erro a partir de url com erro de digitação
url = 'https://www.alurao.com.br'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}

try:
    req = Request(url,headers = headers)
    response = urlopen(req)
    print(response.read()[:300])

#erro de permissão
except HTTPError as e:
    print(e.status, e.reason)
    
#erro de digitação
except URLError as e:
    print(e.reason)

[Errno 11001] getaddrinfo failed


# 2.3. Tratamento de string

In [11]:
url = 'https://alura-site-scraping.herokuapp.com/index.php'

response = urlopen(url)
html = response.read()

### Convertando o tipo bytes para string

In [12]:
type(html)

bytes

In [13]:
html = html.decode('utf-8')

In [14]:
type(html)

str

In [15]:
html[:300]

'<!DOCTYPE html>\r\n<html lang="pt-br">\r\n<head>\r\n    <meta charset="utf-8">\r\n    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\r\n\r\n    <title>Alura Motors</title>\r\n\r\n\t<style>\r\n\t\t/*Regra para a animacao*/\r\n\t\t@keyframes spin {\r\n\t\t\t0% { transform: rotate(0deg); }\r\n\t'

### Eliminando os caracteres de tabulação, quebra de linha etc.

In [17]:
html.split()[:10]

['<!DOCTYPE',
 'html>',
 '<html',
 'lang="pt-br">',
 '<head>',
 '<meta',
 'charset="utf-8">',
 '<meta',
 'name="viewport"',
 'content="width=device-width,']

In [19]:
" ".join(html.split())[:300]

'<!DOCTYPE html> <html lang="pt-br"> <head> <meta charset="utf-8"> <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no"> <title>Alura Motors</title> <style> /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); }'

### Eliminando os espaços em branco entre as TAGS

In [20]:
" ".join(html.split()).replace('> <', '><')[:300]

'<!DOCTYPE html><html lang="pt-br"><head><meta charset="utf-8"><meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no"><title>Alura Motors</title><style> /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } } /*M'

### Função de tratamento de strings

In [23]:
def trata_html(html):
    return " ".join(html.split()).replace('> <', '><')

In [24]:
html[:300]

'<!DOCTYPE html>\r\n<html lang="pt-br">\r\n<head>\r\n    <meta charset="utf-8">\r\n    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\r\n\r\n    <title>Alura Motors</title>\r\n\r\n\t<style>\r\n\t\t/*Regra para a animacao*/\r\n\t\t@keyframes spin {\r\n\t\t\t0% { transform: rotate(0deg); }\r\n\t'

In [25]:
html = trata_html(html)
html[:300]

'<!DOCTYPE html><html lang="pt-br"><head><meta charset="utf-8"><meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no"><title>Alura Motors</title><style> /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } } /*M'

In [26]:
type(html)

str

---
# <font color=green>3. INTRODUÇÃO AO BEAUTIFULSOUP

# 3.1. HTML da nossa página

**HTML** (*HyperText Markup Language*) é uma linguagem de marcação composta por **tags** que deteminam o papel que cada parte do documento vai assumir. As **tags** são formadas pelo seu nome e atributos. Os atributos servem para configurar e também modificar as características padrões de uma **tag**.

## Estrutura básica

```html
<html>
    <head>
        <meta charset="utf-8" />
        <title>Alura Motors</title>
    </head>
    <body>
        <div id="container">
            <h1>Alura</h1>
            <h2 class="formato">Cursos de Tecnologia</h2>
            <p>Você vai estudar, praticar, discutir e aprender.</p>
            <a href="https://www.alura.com.br/">Clique aqui</a>
        </div>
    </body>
</html>
```

```<html>``` - determina o início do documento.

```<head>``` - cabeçalho. Contém informações e configurações do documento.

```<body>``` - é o corpo do documento, onde todo o conteúdo é colocado. Esta é a parte visível em um navegador.

## Tags mais comuns

```<div>``` - define uma divisão da página. Pode ser formatada de diversas maneiras.

```<h1>, <h2>, <h3>, <h4>, <h5>, <h6>``` - marcadores de títulos.

```<p>``` - marcador de parágrafo.

```<a>``` - hiperlink.

```<img>``` - exibição de imagens.

```<table>``` - definição de tabelas.

```<ul>, <li>``` - definição de listas.


# 3.2. Criando um objeto BeautifulSoup

## https://www.crummy.com/software/BeautifulSoup/

### Sobre parser ver: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parser-installation

In [36]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

# soup
string = str(soup)
string[:300]

'<!DOCTYPE html>\n<html lang="pt-br"><head><meta charset="utf-8"/><meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/><title>Alura Motors</title><style> /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } } '

In [23]:
type(soup)

bs4.BeautifulSoup

In [37]:
print(soup.prettify()[:300])

<!DOCTYPE html>
<html lang="pt-br">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
  <title>
   Alura Motors
  </title>
  <style>
   /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transfo


# 3.3. Acessando tags

In [40]:
# Retorna todo o conteúdo a partir da tag html
# soup.html

In [42]:
soup.html.head.title

<title>Alura Motors</title>

In [43]:
soup.title

<title>Alura Motors</title>

In [44]:
soup.div

<div aria-labelledby="loadingModal_label" class="modal fade" data-backdrop="static" id="loadingModal" role="dialog" tabindex="-1"><div class="modal-dialog" role="document"><div class="modal-content"><div class="modal-header"><h5 class="modal-title" id="loadingModal_label"><span class="glyphicon glyphicon-refresh"></span>Aguarde... </h5></div><div class="modal-body"><div class="alert" role="alert"><center><div class="loader" id="loader"></div><br/><h4><b id="loadingModal_content"></b></h4></center></div></div></div></div></div>

In [45]:
soup.div.div.div.div.h5

<h5 class="modal-title" id="loadingModal_label"><span class="glyphicon glyphicon-refresh"></span>Aguarde... </h5>

In [46]:
soup.h5

<h5 class="modal-title" id="loadingModal_label"><span class="glyphicon glyphicon-refresh"></span>Aguarde... </h5>

# 3.4. Acessando o conteúdo das tags

In [47]:
soup.title.get_text()

'Alura Motors'

In [48]:
soup.h5.get_text()

'Aguarde... '

In [49]:
soup.title.getText()

'Alura Motors'

In [50]:
soup.h5.getText()

'Aguarde... '

In [51]:
soup.getText()[:300]

'Alura MotorsYou need to enable JavaScript to run this app.Aguarde... Motors Hello WorldAnúnciosVeículos de Luxo Novos e Usados - Todas as Marcas246 veículos encontradosPágina 1 de 25LAMBORGHINI AVENTADORUSADOMotor 1.8 16vAno 1993 - 55.286 km► 4 X 4► Câmera de estacionamento► Controle de tração► Sens'

# 3.5. Acessando os atributos de uma tag

In [52]:
soup.img

<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>

In [53]:
soup.img.attrs

{'src': 'img/alura-logo.svg',
 'class': ['d-inline-block', 'align-top'],
 'alt': 'Alura'}

In [54]:
soup.img.attrs.keys()

dict_keys(['src', 'class', 'alt'])

In [55]:
soup.img.attrs.values()

dict_values(['img/alura-logo.svg', ['d-inline-block', 'align-top'], 'Alura'])

In [56]:
soup.img['class']

['d-inline-block', 'align-top']

In [57]:
soup.img.get('src')

'img/alura-logo.svg'

---
# <font color=green>4. PESQUISANDO COM O BEAUTIFULSOUP

# 4.1. Os métodos *find()* e *findAll()*

- ### *find(tag, attributes, recursive, text, **kwargs)*

- ### *findAll(tag, attributes, recursive, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all

> **Observação:**
> - *findAll()* também pode ser utilizado como *find_all()*

### Método *find()*

In [58]:
soup.find('img')

<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>

In [59]:
soup.img

<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>

### Método *findAll()*

In [60]:
soup.findAll('img')

[<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/alfa/alfa-1823056__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/puech/puech-4055386__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-murcielago/lamborghini-murcielago-2872974__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/

### Comando equivalente ao método *find()*

In [61]:
soup.findAll('img', limit=1)

[<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>]

In [62]:
soup.findAll('img', limit=1)[0]

<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>

### Atalho para o método *findAll()*

In [63]:
soup('img')

[<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/alfa/alfa-1823056__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/puech/puech-4055386__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-murcielago/lamborghini-murcielago-2872974__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/

### Passando listas de TAGs

In [64]:
soup.findAll(['h1','h2','h3','h4','h5','h6'])

[<h5 class="modal-title" id="loadingModal_label"><span class="glyphicon glyphicon-refresh"></span>Aguarde... </h5>,
 <h4><b id="loadingModal_content"></b></h4>,
 <h1 class="sub-header">Veículos de Luxo Novos e Usados - Todas as Marcas</h1>]

### Utilizando o argumento *attributes*

In [65]:
soup.findAll('p', {'class': 'txt-value'})

[<p class="txt-value">R$ 338.000</p>,
 <p class="txt-value">R$ 346.000</p>,
 <p class="txt-value">R$ 480.000</p>,
 <p class="txt-value">R$ 133.000</p>,
 <p class="txt-value">R$ 175.000</p>,
 <p class="txt-value">R$ 239.000</p>,
 <p class="txt-value">R$ 115.000</p>,
 <p class="txt-value">R$ 114.000</p>,
 <p class="txt-value">R$ 75.000</p>,
 <p class="txt-value">R$ 117.000</p>]

### Buscando por conteúdo de uma TAG

In [66]:
soup.findAll('p', text='Belo Horizonte - MG')

[<p class="txt-location">Belo Horizonte - MG</p>,
 <p class="txt-location">Belo Horizonte - MG</p>,
 <p class="txt-location">Belo Horizonte - MG</p>,
 <p class="txt-location">Belo Horizonte - MG</p>,
 <p class="txt-location">Belo Horizonte - MG</p>]

### Utilizando diretamente os atributos

In [67]:
soup.findAll('img', alt='Foto')

[<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/alfa/alfa-1823056__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/puech/puech-4055386__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-murcielago/lamborghini-murcielago-2872974__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/aston-martin/aston-martin-2977916__340.jpg" width="220"/>,
 <img al

In [68]:
for item in soup.findAll('img', alt='Foto'):
    print(item.get('src'))

https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/alfa/alfa-1823056__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/puech/puech-4055386__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-murcielago/lamborghini-murcielago-2872974__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/aston-martin/aston-martin-2977916__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/tvr/tvr-2943925__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/excalibur/excalibur-2916730__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/mclaren/mclaren-2855240__340.jpg
htt

### Cuidado com o atributo "class"

In [69]:
soup.findAll('p', class_='txt-value')

[<p class="txt-value">R$ 338.000</p>,
 <p class="txt-value">R$ 346.000</p>,
 <p class="txt-value">R$ 480.000</p>,
 <p class="txt-value">R$ 133.000</p>,
 <p class="txt-value">R$ 175.000</p>,
 <p class="txt-value">R$ 239.000</p>,
 <p class="txt-value">R$ 115.000</p>,
 <p class="txt-value">R$ 114.000</p>,
 <p class="txt-value">R$ 75.000</p>,
 <p class="txt-value">R$ 117.000</p>]

### Obtendo todo o conteúdo de texto de uma página

In [70]:
soup.findAll(text=True)[:10]

['html',
 'Alura Motors',
 " /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } } /*Mudando o tamanho do icone de resposta*/ div.glyphicon { color:#6B8E23; font-size: 38px; } /*Classe que mostra a animacao 'spin'*/ .loader { border: 16px solid #f3f3f3; border-radius: 50%; border-top: 16px solid #3498db; width: 80px; height: 80px; -webkit-animation: spin 2s linear infinite; animation: spin 2s linear infinite; } ",
 ' requisitar("https://alura-scraping.herokuapp.com/produtos?_page="+1+"&_limit=10") ',
 'You need to enable JavaScript to run this app.',
 'Aguarde... ',
 'Motors ',
 'Hello World',
 'Anúncios',
 'Veículos de Luxo Novos e Usados - Todas as Marcas']

In [71]:
html = """
    <html>
        <body>
            <div id="container-a">
                <h1>Título A</h1>
                <h2 class="ref-a">Sub título A</h2>
                <p>Texto de conteúdo A</p>
            </div>
            <div id="container-b">
                <h1>Título B</h1>
                <h2 class="ref-b">Sub título B</h2>
                <p>Texto de conteúdo B</p>
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')

In [72]:
soup.find('h2', {'class': 'ref-b'})

<h2 class="ref-b">Sub título B</h2>

In [73]:
soup.find('div',{'id': 'container-b'}).p.getText()

'Texto de conteúdo B'

In [74]:
soup.findAll('h1')

[<h1>Título A</h1>, <h1>Título B</h1>]

# 4.2. Outros métodos de pesquisa

- ### *findParent(tag, attributes, text, **kwargs)*

- ### *findParents(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-parents-and-find-parent

> **Observação:**
> - *findParent()* e *findParents()* também podem ser utilizados como *find_parent()* e *find_parents()*, respectivamente.
---
- ### *findNextSibling(tag, attributes, text, **kwargs)*

- ### *findNextSiblings(tag, attributes, text, limit, **kwargs)*

- ### *findPreviousSibling(tag, attributes, text, **kwargs)*

- ### *findPreviousSiblings(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-next-siblings-and-find-next-sibling
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-previous-siblings-and-find-previous-sibling

> **Observação:**
> - *findNextSibling()*, *findNextSiblings()*, *findPreviousSibling()* e *findPreviousSiblings()* também podem ser utilizados como *find_next_sibling()*, *find_next_siblings()*, *find_previous_sibling()* e *find_previous_siblings()*, respectivamente.
---
- ### *findNext(tag, attributes, text, **kwargs)*

- ### *findAllNext(tag, attributes, text, limit, **kwargs)*

- ### *findPrevious(tag, attributes, text, **kwargs)*

- ### *findAllPrevious(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-next-and-find-next
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-previous-and-find-previous

> **Observação:**
> - *findNext()*, *findAllNext()*, *findPrevious* e *findAllPrevious* também podem ser utilizados como *find_next()*, *find_all_next()*, *find_previous()* e *find_all_previous()*, respectivamente.

## HTML de exemplo para ilustrar a utilização dos métodos de pesquisa do BeautifulSoup

<img src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/BeautifulSoup-method.png" width=80%>

---
## Resultado

<html>
    <body>
        <div id=“container-a”>
            <h1>Título A</h1>
            <h2 class="ref-a">Sub título A</h2>
            <p>Texto de conteúdo A</p>
        </div>
        <div id=“container-b”>
            <h1>Título B</h1>
            <h2 class="ref-b">Sub título B</h2>
            <p>Texto de conteúdo B</p>
        </div>
    </body>
</html>

In [75]:
html_teste = """
<html>
    <body>
        <div id=“container-a”>
            <h1>Título A</h1>
            <h2 class="ref-a">Sub título A</h2>
            <p>Texto de conteúdo A</p>
        </div>
        <div id=“container-b”>
            <h1>Título B</h1>
            <h2 class="ref-b">Sub título B</h2>
            <p>Texto de conteúdo B</p>
        </div>
    </body>
</html>
"""

### Tratamentos para a string HTML

In [76]:
html_teste

'\n<html>\n    <body>\n        <div id=“container-a”>\n            <h1>Título A</h1>\n            <h2 class="ref-a">Sub título A</h2>\n            <p>Texto de conteúdo A</p>\n        </div>\n        <div id=“container-b”>\n            <h1>Título B</h1>\n            <h2 class="ref-b">Sub título B</h2>\n            <p>Texto de conteúdo B</p>\n        </div>\n    </body>\n</html>\n'

In [77]:
html_teste = trata_html(html_teste)
print(type(html_teste))
html_teste

<class 'str'>


'<html><body><div id=“container-a”><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div><div id=“container-b”><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div></body></html>'

### Criando o objeto BeautifulSoup

In [78]:
soup = BeautifulSoup(html_teste, 'html.parser')
print(type(soup))
soup

<class 'bs4.BeautifulSoup'>


<html><body><div id="“container-a”"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div><div id="“container-b”"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div></body></html>

### Parents

In [79]:
soup.find('h2')

<h2 class="ref-a">Sub título A</h2>

In [80]:
soup.find('h2').find_parent('div')

<div id="“container-a”"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div>

In [81]:
soup.find('h2').find_parents()

[<div id="“container-a”"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div>,
 <body><div id="“container-a”"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div><div id="“container-b”"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div></body>,
 <html><body><div id="“container-a”"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div><div id="“container-b”"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div></body></html>,
 <html><body><div id="“container-a”"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div><div id="“container-b”"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div></body></html>]

In [82]:
soup.findAll('h2')

[<h2 class="ref-a">Sub título A</h2>, <h2 class="ref-b">Sub título B</h2>]

In [83]:
for item in soup.findAll('h2'):
    print(item.find_parent('div'))

<div id="“container-a”"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div>
<div id="“container-b”"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div>


## Siblings

In [84]:
soup.find('h2').findNextSibling()

<p>Texto de conteúdo A</p>

In [85]:
soup.find('h2').findPreviousSibling()

<h1>Título A</h1>

In [86]:
soup.find('p').findPreviousSiblings()

[<h2 class="ref-a">Sub título A</h2>, <h1>Título A</h1>]

## Next e Previous

In [71]:
soup.find('h2').findNext()

<p>Texto de conteúdo A</p>

In [72]:
soup.find('h2').findPrevious()

<h1>Título A</h1>

In [73]:
soup.find('h2').findAllNext()

[<p>Texto de conteúdo A</p>,
 <div id="“container-b”"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div>,
 <h1>Título B</h1>,
 <h2 class="ref-b">Sub título B</h2>,
 <p>Texto de conteúdo B</p>]

In [74]:
html = """
    <html>
        <body>
            <div id="container-a">
                <h1>Título A</h1>
                <h2 class="ref-a">Sub título A</h2>
                <p>Curso de</p>
                <p>Web</p>
                <p>Scraping</p>
                <p>com Python</p>
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')

In [75]:
soup.find('p').findNextSiblings('p', limit=2)

[<p>Web</p>, <p>Scraping</p>]

In [76]:
soup.find('p').findNextSiblings('p')

[<p>Web</p>, <p>Scraping</p>, <p>com Python</p>]

# <font color=green>5. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE UM ANÚNCIO

# 5.1. Identificando e selecionando os dados no HTML

### Obtendo o HTML e criando o objeto BeautifulSoup

In [88]:
response = urlopen('https://alura-site-scraping.herokuapp.com/index.php')
html = response.read().decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')
# soup
string = str(soup)
string[:300]

'<!DOCTYPE html>\n\n<html lang="pt-br">\n<head>\n<meta charset="utf-8"/>\n<meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>\n<title>Alura Motors</title>\n<style>\r\n\t\t/*Regra para a animacao*/\r\n\t\t@keyframes spin {\r\n\t\t\t0% { transform: rotate(0deg); }\r\n\t\t\t100% { transform: '

### Criando variávels para armazenar informações

In [89]:
cards = []
card = {}

### Obtendo os dados do primeiro CARD

In [90]:
anuncio = soup.find('div', {'class': 'well card'})
anuncio

<div class="well card">
<div class="col-md-3 image-card">
<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>
</div>
<div class="col-md-6 body-card">
<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>
<p class="txt-category badge badge-secondary inline">USADO</p>
<p class="txt-motor">Motor 1.8 16v</p>
<p class="txt-description">Ano 1993 - 55.286 km</p>
<ul class="lst-items">
<li class="txt-items">► 4 X 4</li>
<li class="txt-items">► Câmera de estacionamento</li>
<li class="txt-items">► Controle de tração</li>
<li class="txt-items">► Sensor de estacionamento</li>
<li class="txt-items">...</li>
</ul>
<p class="txt-location">Belo Horizonte - MG</p>
</div>
<div class="col-md-3 value-card">
<div class="value">
<p class="txt-value">R$ 338.000</p>
</div>
</div>
</div>

# 5.2. Obtendo o VALOR do veículo anunciado

In [91]:
anuncio.find('div', {'class': 'value-card'})

<div class="col-md-3 value-card">
<div class="value">
<p class="txt-value">R$ 338.000</p>
</div>
</div>

In [92]:
anuncio.find('p', {'class': 'txt-value'}).get_text()

'R$ 338.000'

In [93]:
card['value'] = anuncio.find('p', {'class': 'txt-value'}).get_text()

In [94]:
card

{'value': 'R$ 338.000'}

### <font color=red>Resumo

In [95]:
# Valor
anuncio.find('p', {'class': 'txt-value'}).get_text()

'R$ 338.000'

# 5.3. Obtendo as informações sobre o veículo anunciado

In [85]:
anuncio.find('div', {'class': 'body-card'}).findAll('p')

[<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>,
 <p class="txt-category badge badge-secondary inline">USADO</p>,
 <p class="txt-motor">Motor 1.8 16v</p>,
 <p class="txt-description">Ano 1993 - 55.286 km</p>,
 <p class="txt-location">Belo Horizonte - MG</p>]

In [86]:
infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')

In [87]:
for info in infos:
    print(info)

<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>
<p class="txt-category badge badge-secondary inline">USADO</p>
<p class="txt-motor">Motor 1.8 16v</p>
<p class="txt-description">Ano 1993 - 55.286 km</p>
<p class="txt-location">Belo Horizonte - MG</p>


In [88]:
for info in infos:
    print(info.get('class'))

['txt-name', 'inline']
['txt-category', 'badge', 'badge-secondary', 'inline']
['txt-motor']
['txt-description']
['txt-location']


In [89]:
for info in infos:
    print(info.get('class'), ' - ', info.get_text())

['txt-name', 'inline']  -  LAMBORGHINI AVENTADOR
['txt-category', 'badge', 'badge-secondary', 'inline']  -  USADO
['txt-motor']  -  Motor 1.8 16v
['txt-description']  -  Ano 1993 - 55.286 km
['txt-location']  -  Belo Horizonte - MG


In [90]:
for info in infos:
    print(info.get('class')[0], ' - ', info.get_text())

txt-name  -  LAMBORGHINI AVENTADOR
txt-category  -  USADO
txt-motor  -  Motor 1.8 16v
txt-description  -  Ano 1993 - 55.286 km
txt-location  -  Belo Horizonte - MG


In [91]:
for info in infos:
    print(info.get('class')[0].split('-'), ' - ', info.get_text())

['txt', 'name']  -  LAMBORGHINI AVENTADOR
['txt', 'category']  -  USADO
['txt', 'motor']  -  Motor 1.8 16v
['txt', 'description']  -  Ano 1993 - 55.286 km
['txt', 'location']  -  Belo Horizonte - MG


In [92]:
for info in infos:
    print(info.get('class')[0].split('-')[-1], ' - ', info.get_text())

name  -  LAMBORGHINI AVENTADOR
category  -  USADO
motor  -  Motor 1.8 16v
description  -  Ano 1993 - 55.286 km
location  -  Belo Horizonte - MG


In [93]:
for info in infos:
    card[info.get('class')[0].split('-')[-1]] = info.get_text()

In [94]:
card

{'value': 'R$ 338.000',
 'name': 'LAMBORGHINI AVENTADOR',
 'category': 'USADO',
 'motor': 'Motor 1.8 16v',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG'}

### <font color=red>Resumo

In [188]:
# Informações
infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')

for info in infos:
    card[info.get('class')[0].split('-')[-1]] = info.get_text()

In [189]:
html = """
    <html>
        <body>
            <div id="container-a">
                <h1>Curso de Web Scraping</h1>
                <h3>Treinamento Alura</h3>
                <p class="main descr">Curso para ensinar técnicas de coleta de dados na web.</p>
            </div>
            <div id="tools">
                <p class="main lib-a">BeautifulSoup</p>
                <p class="libs">findAll()</p>
                <p class="libs">getText()</p>
                <p class="main lib-b">urllib.request</p>
                <p class="libs">urlopen()</p>
                <p class="main lib-c">pandas</p>
                <p class="libs">DataFrame()</p>
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')

In [190]:
itens = soup.find('div', {'id': 'tools'}).findAll('p', {'class': ['lib-a', 'lib-b', 'lib-c']})
for item in itens:
    print(item.getText())

BeautifulSoup
urllib.request
pandas


In [191]:
itens = soup.find('div', {'id': 'tools'}).findAll('p', {'class': 'main'})
for item in itens:
    print(item.getText())

BeautifulSoup
urllib.request
pandas


In [192]:
itens = soup.find('div', {'id': 'tools'})('p', {'class': 'main'})
for item in itens:
    print(item.getText())

BeautifulSoup
urllib.request
pandas


# 5.4. Obtendo os ACESSÓRIOS do veículo anunciado

In [100]:
anuncio.find('div', {'class': 'body-card'}).findAll('ul')

[<ul class="lst-items">
 <li class="txt-items">► 4 X 4</li>
 <li class="txt-items">► Câmera de estacionamento</li>
 <li class="txt-items">► Controle de tração</li>
 <li class="txt-items">► Sensor de estacionamento</li>
 <li class="txt-items">...</li>
 </ul>]

In [101]:
anuncio.find('div', {'class': 'body-card'}).ul

<ul class="lst-items">
<li class="txt-items">► 4 X 4</li>
<li class="txt-items">► Câmera de estacionamento</li>
<li class="txt-items">► Controle de tração</li>
<li class="txt-items">► Sensor de estacionamento</li>
<li class="txt-items">...</li>
</ul>

In [102]:
anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')

[<li class="txt-items">► 4 X 4</li>,
 <li class="txt-items">► Câmera de estacionamento</li>,
 <li class="txt-items">► Controle de tração</li>,
 <li class="txt-items">► Sensor de estacionamento</li>,
 <li class="txt-items">...</li>]

In [103]:
itens = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
itens

[<li class="txt-items">► 4 X 4</li>,
 <li class="txt-items">► Câmera de estacionamento</li>,
 <li class="txt-items">► Controle de tração</li>,
 <li class="txt-items">► Sensor de estacionamento</li>,
 <li class="txt-items">...</li>]

In [104]:
itens.pop()

<li class="txt-items">...</li>

In [105]:
itens

[<li class="txt-items">► 4 X 4</li>,
 <li class="txt-items">► Câmera de estacionamento</li>,
 <li class="txt-items">► Controle de tração</li>,
 <li class="txt-items">► Sensor de estacionamento</li>]

In [106]:
for item in itens:
    print(item.getText())

► 4 X 4
► Câmera de estacionamento
► Controle de tração
► Sensor de estacionamento


In [107]:
for item in itens:
    print(item.getText().replace('► ', ''))

4 X 4
Câmera de estacionamento
Controle de tração
Sensor de estacionamento


In [108]:
acessorios = []
for item in itens:
    acessorios.append(item.getText().replace('► ', ''))
acessorios

['4 X 4',
 'Câmera de estacionamento',
 'Controle de tração',
 'Sensor de estacionamento']

In [109]:
card['itens'] = acessorios
card

{'value': 'R$ 338.000',
 'name': 'LAMBORGHINI AVENTADOR',
 'category': 'USADO',
 'motor': 'Motor 1.8 16v',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG',
 'itens': ['4 X 4',
  'Câmera de estacionamento',
  'Controle de tração',
  'Sensor de estacionamento']}

### <font color=red>Resumo

In [110]:
# Acessórios
itens = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
itens.pop()
acessorios = []
for item in itens:
    acessorios.append(item.getText().replace('► ', ''))
card['itens'] = acessorios
card

{'value': 'R$ 338.000',
 'name': 'LAMBORGHINI AVENTADOR',
 'category': 'USADO',
 'motor': 'Motor 1.8 16v',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG',
 'itens': ['4 X 4',
  'Câmera de estacionamento',
  'Controle de tração',
  'Sensor de estacionamento']}

In [111]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <ul>
                <li>Abertura</li>
                <li>10%</li>
                <li>11%</li>
                <li>10.5%</li>
                <li>9%</li>
                <li>Fechamento</li>
            </ul>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')

In [112]:
valores = soup.ul('li')
valores.pop(0)
valores.pop()
valores

[<li>10%</li>, <li>11%</li>, <li>10.5%</li>, <li>9%</li>]

In [113]:
valores = soup.ul('li')[1:-1]
valores

[<li>10%</li>, <li>11%</li>, <li>10.5%</li>, <li>9%</li>]

# 5.5 Criando um DataFrame com os dados coletados do Alura Motors

In [114]:
card

{'value': 'R$ 338.000',
 'name': 'LAMBORGHINI AVENTADOR',
 'category': 'USADO',
 'motor': 'Motor 1.8 16v',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG',
 'itens': ['4 X 4',
  'Câmera de estacionamento',
  'Controle de tração',
  'Sensor de estacionamento']}

In [115]:
import pandas as pd

In [116]:
dataset = pd.DataFrame(card)

In [117]:
dataset

Unnamed: 0,value,name,category,motor,description,location,itens
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,4 X 4
1,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,Câmera de estacionamento
2,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,Controle de tração
3,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,Sensor de estacionamento


In [118]:
dataset = pd.DataFrame.from_dict(card, orient='index')
dataset

Unnamed: 0,0
value,R$ 338.000
name,LAMBORGHINI AVENTADOR
category,USADO
motor,Motor 1.8 16v
description,Ano 1993 - 55.286 km
location,Belo Horizonte - MG
itens,"[4 X 4, Câmera de estacionamento, Controle de ..."


In [119]:
# T no final para transpor a matriz
dataset = pd.DataFrame.from_dict(card, orient='index').T
dataset

Unnamed: 0,value,name,category,motor,description,location,itens
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[4 X 4, Câmera de estacionamento, Controle de ..."


Salva dataframe em arquivo .csv

In [120]:
# dataset.to_csv('./output/data/dataset.csv', sep=';', index=False, encoding='utf-8-sig')

# 5.6. Obtendo a imagem do anúncio

In [121]:
anuncio.find('div', {'class': 'image-card'})

<div class="col-md-3 image-card">
<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>
</div>

In [122]:
imagem = anuncio.find('div', {'class': 'image-card'}).img
imagem

<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>

In [123]:
imagem.get('src')

'https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg'

In [124]:
print(imagem.get('src'))

https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg


### Visualizando a FOTO no notebook

In [125]:
from IPython.core.display import display, HTML

display(HTML(str(anuncio.find('div', {'class': 'image-card'}).img)))

In [126]:
display(HTML("<img src=" + anuncio.find('div', {'class': 'image-card'}).img.get('src') + '>'))

### Rotina para acessar e salvar a FOTO do anúncio

https://docs.python.org/3/library/urllib.request.html#urllib.request.urlretrieve

In [127]:
imagem.get('src').split('/')[-1]

'lamborghini-aventador-2932196__340.jpg'

In [128]:
from urllib.request import urlretrieve

In [129]:
# urlretrieve(imagem.get('src'), './output/img/' + imagem.get('src').split('/')[-1] )

('./output/img/lamborghini-aventador-2932196__340.jpg',
 <http.client.HTTPMessage at 0x1f040adcf40>)

### <font color=red>Resumo

In [130]:
imagem = anuncio.find('div', {'class': 'image-card'}).img
# urlretrieve(imagem.get('src'), './output/img/' + imagem.get('src').split('/')[-1] )

('./output/img/lamborghini-aventador-2932196__340.jpg',
 <http.client.HTTPMessage at 0x1f040adcd90>)

# <font color=green>6. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE TODOS OS ANÚNCIOS DE UMA PÁGINA

# 6.1. Identificando as informações no HTML

In [96]:
url = 'https://alura-site-scraping.herokuapp.com/index.php'

response = urlopen(url)
html = response.read()
soup = BeautifulSoup(html, 'html.parser')

string = str(soup)
string[:300]

'<!DOCTYPE html>\n\n<html lang="pt-br">\n<head>\n<meta charset="utf-8"/>\n<meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>\n<title>Alura Motors</title>\n<style>\r\n\t\t/*Regra para a animacao*/\r\n\t\t@keyframes spin {\r\n\t\t\t0% { transform: rotate(0deg); }\r\n\t\t\t100% { transform: '

Apresenta informação contida na div que possui id 'container-cards'

In [102]:
# soup.find('div', {'id': 'container-cards'})

Dentro da div com id 'container-cars', busca por todas as tags div com class 'well card'

In [103]:
# soup.find('div', {'id': 'container-cards'}).findAll('div', class_='well card')

In [101]:
len(soup.find('div', {'id': 'container-cards'}).findAll('div', class_='well card'))

10

In [104]:
anuncios = soup.find('div', {'id': 'container-cards'}).findAll('div', class_='well card')

Imprime todos os 10 anúncios separados pela div de class 'well card"

In [106]:
# for auncio in anuncios:
    # print(str(anuncio) + '\n\n')

# 6.2. Criando uma rotina de scraping

In [137]:
# Valor
card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

# Informações
infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')
for info in infos:
    card[info.get('class')[0].split('-')[-1]] = info.get_text()

# Acessórios
items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
items.pop()
acessorios = []
for item in items:
    acessorios.append(item.get_text().replace('► ', ''))
card['items'] = acessorios

# Imagens
image = anuncio.find('div', {'class': 'image-card'}).img
#urlretrieve(image.get('src'), './output/img/' + image.get('src').split('/')[-1])     

('./output/img/lamborghini-aventador-2932196__340.jpg',
 <http.client.HTTPMessage at 0x1f040b64040>)

# <font color=green>7. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE TODOS OS ANÚNCIOS DO SITE

# 7.1. Identificando as informações no HTML

In [178]:
soup.find('span', class_='info-pages')

<span class="info-pages">Página 1 de 25</span>

In [179]:
soup.find('span', class_='info-pages').getText()

'Página 1 de 25'

In [180]:
soup.find('span', class_='info-pages').getText().split()

['Página', '1', 'de', '25']

In [181]:
soup.find('span', class_='info-pages').getText().split()[-1]

'25'

In [182]:
int(soup.find('span', class_='info-pages').getText().split()[-1])

25

# 7.2. Buscando a quantidade de páginas

In [144]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <h1>Fotos</h1>
            <div>
                <img alt="Foto" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/mercedes-benz-slr/mercedes-benz-slr-2925433__340.jpg">
                <img alt="Foto" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/vwbeetle/vwbeetle-836065__340.jpg">
                <img alt="Foto" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/porsche-911-gt2rs/porsche-911-gt2rs-3076518__340.jpg">
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')

In [153]:
for img in soup('img'):
    print(img.get('src'))

https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/mercedes-benz-slr/mercedes-benz-slr-2925433__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/vwbeetle/vwbeetle-836065__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/porsche-911-gt2rs/porsche-911-gt2rs-3076518__340.jpg


In [162]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <h1>Busca por veículos</h1>
            <div>
                <p id="info-search">Encontramos 1325 anúncios</p>
                <span class="info-pages">20 anúncios por página</span>
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')

In [163]:
soup.p

<p id="info-search">Encontramos 1325 anúncios</p>

In [165]:
soup.p.getText().split()

['Encontramos', '1325', 'anúncios']

In [166]:
soup.p.getText().split()[1]

'1325'

In [167]:
int(soup.p.getText().split()[1])

1325

In [174]:
int(soup.span.getText().split()[0])

20

In [175]:
int(soup.p.getText().split()[1])/int(soup.span.getText().split()[0])

66.25

In [176]:
import math
math.ceil(int(soup.p.getText().split()[1])/int(soup.span.getText().split()[0]))

67