In [1]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <div id="container-a">
                <h1>Título A</h1>
                <h2 class="ref-a">Sub título A</h2>
                <p>Texto de conteúdo A</p>
                <div id="container-a-1">
                    <h1>Título A.1</h1>
                    <h2 class="ref-a">Sub título A.1</h2>
                    <p>Texto de conteúdo A.1</p>
                </div>
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')
soup


<html>
<body>
<div id="container-a">
<h1>Título A</h1>
<h2 class="ref-a">Sub título A</h2>
<p>Texto de conteúdo A</p>
<div id="container-a-1">
<h1>Título A.1</h1>
<h2 class="ref-a">Sub título A.1</h2>
<p>Texto de conteúdo A.1</p>
</div>
</div>
</body>
</html>

In [6]:
soup.getText(separator = ' || ',  strip=True)

'Título A || Sub título A || Texto de conteúdo A || Título A.1 || Sub título A.1 || Texto de conteúdo A.1'

In [7]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <div id="container-a">
                <h1>Título A</h1>
                <h2 class="ref-a">Sub título A</h2>
                <p>Texto de conteúdo A</p>
            </div>
            <div id="container-b">
                <h1>Título B</h1>
                <h2 class="ref-b">Sub título B</h2>
                <p>Texto de conteúdo B</p>
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')

In [10]:
soup.find('h2', {'class': 'ref-b'})

<h2 class="ref-b">Sub título B</h2>

In [11]:
soup.find('div',{'id': 'container-b'}).p.get_text()

'Texto de conteúdo B'

In [12]:
soup.findAll('h1')

[<h1>Título A</h1>, <h1>Título B</h1>]

In [13]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <div id="container-a">
                <h1>Curso de Web Scraping</h1>
                <h3>Treinamento Alura</h3>
                <p class="main descr">Curso para ensinar técnicas de coleta de dados na web.</p>
            </div>
            <div id="tools">
                <p class="main lib-a">BeautifulSoup</p>
                <p class="libs">findAll()</p>
                <p class="libs">getText()</p>
                <p class="main lib-b">urllib.request</p>
                <p class="libs">urlopen()</p>
                <p class="main lib-c">pandas</p>
                <p class="libs">DataFrame()</p>
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')

In [14]:
items = soup.find('div', {'id': 'tools'}).findAll('p', {'class': 'main'})
for item in items:
    print(item.getText())

BeautifulSoup
urllib.request
pandas


In [16]:
items = soup.find('div', {'id': 'tools'})('p', {'class': 'main'})
for item in items:
    print(item.getText())

BeautifulSoup
urllib.request
pandas


In [17]:
items = soup.find('div', {'id': 'tools'}).findAll('p', {'class': ['lib-a', 'lib-b', 'lib-c']})
for item in items:
    print(item.getText())

BeautifulSoup
urllib.request
pandas


In [18]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <ul>
                <li>Abertura</li>
                <li>10%</li>
                <li>11%</li>
                <li>10.5%</li>
                <li>9%</li>
                <li>Fechamento</li>
            </ul>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')

In [22]:
valores = soup.ul('li')
valores.pop(0)
valores.pop()
valores

[<li>10%</li>, <li>11%</li>, <li>10.5%</li>, <li>9%</li>]

In [23]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <h1>Fotos</h1>
            <div>
                <img alt="Foto" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/mercedes-benz-slr/mercedes-benz-slr-2925433__340.jpg">
                <img alt="Foto" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/vwbeetle/vwbeetle-836065__340.jpg">
                <img alt="Foto" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/porsche-911-gt2rs/porsche-911-gt2rs-3076518__340.jpg">
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')

In [27]:
for image in soup('img'):
    print(image.get('src'))

https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/mercedes-benz-slr/mercedes-benz-slr-2925433__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/vwbeetle/vwbeetle-836065__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/porsche-911-gt2rs/porsche-911-gt2rs-3076518__340.jpg


In [28]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <h1>Busca por veículos</h1>
            <div>
                <p id="info-search">Encontramos 1325 anúncios</p>
                <span class="info-pages">20 anúncios por página</span>
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')

In [29]:
import math
math.ceil(16.12)

17

In [34]:
math.ceil(int(soup.p.get_text().split()[1]) / int(soup.span.get_text().split()[0]))

67