# Web Scraping com Python (Parte 1)

## Resumo

Neste notebook, iremos conhecer o [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) e faremos alguns exemplos com HTML para entendemos o funcionamento desta biblioteca.

## Para saber mais:


* Ryan Mitchell. Web Scraping com Python: Coletando Mais Dados da Web Moderna. Novatec Editora, 2019.

## 1) Explorando o HTML

Para os exemplos a seguir, iremos utilizar o código HTML abaixo.

<html>
    <head>
        <title>Indicados e vencedores do Oscar em 2020</title>
    </head>
    <body>
        <h1>Oscar 2020</h1>
        <p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>
        <ul class="destaques">
            <li>Coringa</li>
            <li>1917</li>
            <li>Era Uma Vez em Hollywood</li>
            <li>O Irlandês</li>
        </ul>
        <p>Veja abaixo os vencedores de 3 categorias.</p>
        <div>
            <div class="categoria-melhor-filme">
                <h2>Categoria: melhor filme</h2>
                <ul>
                    <li>Ford vs Ferrari</li>
                    <li>O Irlandês</li>
                    <li>JoJo Rabbit</li>
                    <li>Coringa</li>
                    <li>Adoráveis Mulheres</li>
                    <li>História de um Casamento</li>
                    <li>1917</li>
                    <li>Era Uma Vez Em Hollywood</li>
                    <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-ator">
                <h2>Categoria: melhor ator</h2>
                <ul>
                    <li>Antonio Banderas - Dor e Glória</li>
                    <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
                    <li>Adam Driver - História de um Casamento</li>
                    <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>
                    <li>Jonathan Price - Dois Papas</li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-atriz">
                <h2>Categoria: melhor atriz</h2>
                <ul>
                    <li>Cythia Erivo - Harriet</li>
                    <li>Scarlett Johansson - História de um Casamento</li>
                    <li>Saoirse Ronan - Adoráveis Mulheres</li>
                    <li>Charlize Theron - O Escândalo</li>
                    <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
        </div>
    </body>
</html>

Obtendo os Dados Estaticos

In [1]:
html = """
<html>
    <head>
        <title>Indicados e vencedores do Oscar em 2020</title>
    </head>
    <body>
        <h1>Oscar 2020</h1>
        <p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>
        <ul class="destaques">
            <li>Coringa</li>
            <li>1917</li>
            <li>Era Uma Vez em Hollywood</li>
            <li>O Irlandês</li>
        </ul>
        <p>Veja abaixo os vencedores de 3 categorias.</p>
        <div>
            <div class="categoria-melhor-filme">
                <h2>Categoria: melhor filme</h2>
                <ul>
                    <li>Ford vs Ferrari</li>
                    <li>O Irlandês</li>
                    <li>JoJo Rabbit</li>
                    <li>Coringa</li>
                    <li>Adoráveis Mulheres</li>
                    <li>História de um Casamento</li>
                    <li>1917</li>
                    <li>Era Uma Vez Em Hollywood</li>
                    <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-ator">
                <h2>Categoria: melhor ator</h2>
                <ul>
                    <li>Antonio Banderas - Dor e Glória</li>
                    <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
                    <li>Adam Driver - História de um Casamento</li>
                    <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>
                    <li>Jonathan Price - Dois Papas</li>
                </ul>
            </div>
            <br>
            <div class="categoria-melhor-atriz">
                <h2>Categoria: melhor atriz</h2>
                <ul>
                    <li>Cythia Erivo - Harriet</li>
                    <li>Scarlett Johansson - História de um Casamento</li>
                    <li>Saoirse Ronan - Adoráveis Mulheres</li>
                    <li>Charlize Theron - O Escândalo</li>
                    <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>
                </ul>
            </div>
        </div>
    </body>
</html>
"""

**Coletando Informações**

## 2) Criando um objeto Beautiful Soup

In [2]:
from bs4 import BeautifulSoup

**Criando o Objeto**

In [3]:
soup = BeautifulSoup(html, 'html.parser')

In [4]:
type(soup)

bs4.BeautifulSoup

In [5]:
soup


<html>
<head>
<title>Indicados e vencedores do Oscar em 2020</title>
</head>
<body>
<h1>Oscar 2020</h1>
<p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>
<ul class="destaques">
<li>Coringa</li>
<li>1917</li>
<li>Era Uma Vez em Hollywood</li>
<li>O Irlandês</li>
</ul>
<p>Veja abaixo os vencedores de 3 categorias.</p>
<div>
<div class="categoria-melhor-filme">
<h2>Categoria: melhor filme</h2>
<ul>
<li>Ford vs Ferrari</li>
<li>O Irlandês</li>
<li>JoJo Rabbit</li>
<li>Coringa</li>
<li>Adoráveis Mulheres</li>
<li>História de um Casamento</li>
<li>1917</li>
<li>Era Uma Vez Em Hollywood</li>
<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
</ul>
</div>
<br/>
<div class="categoria-melhor-ator">
<h2>Categoria: melhor ator</h2>
<ul>
<li>Antonio Banderas - Dor e Glória</li>
<li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
<li>Adam Driver - História de um Casamento</li>
<li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</

In [6]:
print(soup.prettify())

<html>
 <head>
  <title>
   Indicados e vencedores do Oscar em 2020
  </title>
 </head>
 <body>
  <h1>
   Oscar 2020
  </h1>
  <p>
   A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:
  </p>
  <ul class="destaques">
   <li>
    Coringa
   </li>
   <li>
    1917
   </li>
   <li>
    Era Uma Vez em Hollywood
   </li>
   <li>
    O Irlandês
   </li>
  </ul>
  <p>
   Veja abaixo os vencedores de 3 categorias.
  </p>
  <div>
   <div class="categoria-melhor-filme">
    <h2>
     Categoria: melhor filme
    </h2>
    <ul>
     <li>
      Ford vs Ferrari
     </li>
     <li>
      O Irlandês
     </li>
     <li>
      JoJo Rabbit
     </li>
     <li>
      Coringa
     </li>
     <li>
      Adoráveis Mulheres
     </li>
     <li>
      História de um Casamento
     </li>
     <li>
      1917
     </li>
     <li>
      Era Uma Vez Em Hollywood
     </li>
     <li class="vencedor">
      Parasita
      <strong>
       [VENCEDOR]
      </strong>
     </li>
    </ul

## 3) Aprendendo a extrair dados de tags no HTML

### 3.1) Começando pelo começo: como extrair o título da página?

In [7]:
soup.html.head.title

<title>Indicados e vencedores do Oscar em 2020</title>

In [9]:
soup.title

<title>Indicados e vencedores do Oscar em 2020</title>

# Coletando o texto do titulo

In [8]:
soup.title.get_text()

'Indicados e vencedores do Oscar em 2020'

### 3.2) E se eu quiser extrair o título do maior hierarquia no corpo da página?

In [10]:
soup.html.body.h1

<h1>Oscar 2020</h1>

In [11]:
soup.h1

<h1>Oscar 2020</h1>

In [12]:
soup.h1.get_text()

'Oscar 2020'

### Questionário 1: com qual dos comandos abaixo eu NÃO coleto o texto "Categoria: melhor filme"?

a) soup.body.div.div.h2.get_text()

b) soup.div.div.h2.get_text()

c) soup.div.ul.h2.get_text()

d) soup.h2.get_text()

In [13]:
soup.body.div.div.h2.get_text()

'Categoria: melhor filme'

In [14]:
soup.div.div.h2.get_text()

'Categoria: melhor filme'

In [15]:
soup.h2.get_text()

'Categoria: melhor filme'

### 3.3) Coletando o texto "A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:"

In [16]:
soup.p.get_text()

'A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:'

### Mas... E se eu quiser coletar o texto "Veja abaixo os vencedores de 3 categorias."?

### 3.4) O método find()

In [17]:
soup.find("p")

<p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>

In [18]:
soup.find("p").get_text()

'A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:'

### 3.5) O método find_all()

In [19]:
soup.find_all("p")

[<p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>,
 <p>Veja abaixo os vencedores de 3 categorias.</p>]

In [20]:
soup.find_all("p")[1]

<p>Veja abaixo os vencedores de 3 categorias.</p>

In [21]:
soup.find_all("p")[1].get_text()

'Veja abaixo os vencedores de 3 categorias.'

In [22]:
soup.find_all("h2")

[<h2>Categoria: melhor filme</h2>,
 <h2>Categoria: melhor ator</h2>,
 <h2>Categoria: melhor atriz</h2>]

In [23]:
soup.find_all("h2")[2]

<h2>Categoria: melhor atriz</h2>

### 3.6) Coletando a lista de destaques

In [24]:
soup.ul.find_all("li")

[<li>Coringa</li>,
 <li>1917</li>,
 <li>Era Uma Vez em Hollywood</li>,
 <li>O Irlandês</li>]

In [25]:
print("Lista de destaques:")

for filme in soup.ul.find_all("li"):
    print(filme.get_text())

Lista de destaques:
Coringa
1917
Era Uma Vez em Hollywood
O Irlandês


### Mini-desafio 1: colete todos os filmes da categoria de melhor filme

In [35]:
# Insira a sua resposta aqui
soup.div.ul.findAll("li")

[<li>Ford vs Ferrari</li>,
 <li>O Irlandês</li>,
 <li>JoJo Rabbit</li>,
 <li>Coringa</li>,
 <li>Adoráveis Mulheres</li>,
 <li>História de um Casamento</li>,
 <li>1917</li>,
 <li>Era Uma Vez Em Hollywood</li>,
 <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>]

### 3.7) O método find_all() pode ser equivalente ao método find()

In [36]:
soup.find_all('p', limit = 1)

[<p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>]

In [37]:
soup.find_all('p')[0]

<p>A maior premiação do cinema aconteceu em Fevereiro. Os destaques deste ano foram:</p>

In [39]:
soup.find_all('li', limit = 4)

[<li>Coringa</li>,
 <li>1917</li>,
 <li>Era Uma Vez em Hollywood</li>,
 <li>O Irlandês</li>]

### 3.8) Também posso passar uma lista de tags para o find_all()

In [40]:
soup.find_all(["h2", "li"])

[<li>Coringa</li>,
 <li>1917</li>,
 <li>Era Uma Vez em Hollywood</li>,
 <li>O Irlandês</li>,
 <h2>Categoria: melhor filme</h2>,
 <li>Ford vs Ferrari</li>,
 <li>O Irlandês</li>,
 <li>JoJo Rabbit</li>,
 <li>Coringa</li>,
 <li>Adoráveis Mulheres</li>,
 <li>História de um Casamento</li>,
 <li>1917</li>,
 <li>Era Uma Vez Em Hollywood</li>,
 <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>,
 <h2>Categoria: melhor ator</h2>,
 <li>Antonio Banderas - Dor e Glória</li>,
 <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>,
 <li>Adam Driver - História de um Casamento</li>,
 <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>,
 <li>Jonathan Price - Dois Papas</li>,
 <h2>Categoria: melhor atriz</h2>,
 <li>Cythia Erivo - Harriet</li>,
 <li>Scarlett Johansson - História de um Casamento</li>,
 <li>Saoirse Ronan - Adoráveis Mulheres</li>,
 <li>Charlize Theron - O Escândalo</li>,
 <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>

### 3.9) Posso buscar por tags com um conteúdo específico?

In [41]:
soup.find_all("li", text="Coringa")

[<li>Coringa</li>, <li>Coringa</li>]

In [42]:
soup.find_all("li", text="1917")

[<li>1917</li>, <li>1917</li>]

In [43]:
soup.find_all("li", text="O Irlandês")

[<li>O Irlandês</li>, <li>O Irlandês</li>]

In [44]:
import re

In [45]:
soup.find_all("h2", text=re.compile("^Categoria"))

[<h2>Categoria: melhor filme</h2>,
 <h2>Categoria: melhor ator</h2>,
 <h2>Categoria: melhor atriz</h2>]

### 3.10) Coletando por meio de atributos

In [46]:
soup.find_all("ul", {"class": "destaques"})

[<ul class="destaques">
 <li>Coringa</li>
 <li>1917</li>
 <li>Era Uma Vez em Hollywood</li>
 <li>O Irlandês</li>
 </ul>]

In [47]:
for item in soup.find_all("ul", {"class": "destaques"}):
    print(item.get_text())


Coringa
1917
Era Uma Vez em Hollywood
O Irlandês



In [48]:
soup.find_all("li", {"class": "vencedor"})

[<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>,
 <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>,
 <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>]

In [49]:
for item in soup.find_all("li", {"class": "vencedor"}):
    print(item.get_text())

Parasita [VENCEDOR]
Joaquin Phoenix - Coringa [VENCEDOR]
Renée Zellweger - Judy: Muito Além do Arco-Íris [VENCEDOR]


In [50]:
for item in soup.find_all("li", {"class": "vencedor"}):
    print(item.get_text().replace(" [VENCEDOR]", ""))

Parasita
Joaquin Phoenix - Coringa
Renée Zellweger - Judy: Muito Além do Arco-Íris


### 3.11) Parents, siblings, next e previous: outra forma de percorrer o HTML

* Quando as tags que precisamos pesquisar não apresentam atributos que as diferencie (como as classes, por exemplo), podemos percorrer o HTML de outras formas.

#### Parents

In [53]:
soup.find("li", {"class": "vencedor"}).get_text()

'Parasita [VENCEDOR]'

In [54]:
soup.find("li", {"class": "vencedor"}).find_parent()

<ul>
<li>Ford vs Ferrari</li>
<li>O Irlandês</li>
<li>JoJo Rabbit</li>
<li>Coringa</li>
<li>Adoráveis Mulheres</li>
<li>História de um Casamento</li>
<li>1917</li>
<li>Era Uma Vez Em Hollywood</li>
<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
</ul>

In [55]:
soup.find("li", {"class": "vencedor"}).find_parent('div')

<div class="categoria-melhor-filme">
<h2>Categoria: melhor filme</h2>
<ul>
<li>Ford vs Ferrari</li>
<li>O Irlandês</li>
<li>JoJo Rabbit</li>
<li>Coringa</li>
<li>Adoráveis Mulheres</li>
<li>História de um Casamento</li>
<li>1917</li>
<li>Era Uma Vez Em Hollywood</li>
<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
</ul>
</div>

In [56]:
soup.find("li", {"class": "vencedor"}).find_parent('div').find('h2').get_text()

'Categoria: melhor filme'

#### Siblings

In [57]:
soup.find('h2').get_text()

'Categoria: melhor filme'

In [58]:
soup.find('h2').find_next_sibling()

<ul>
<li>Ford vs Ferrari</li>
<li>O Irlandês</li>
<li>JoJo Rabbit</li>
<li>Coringa</li>
<li>Adoráveis Mulheres</li>
<li>História de um Casamento</li>
<li>1917</li>
<li>Era Uma Vez Em Hollywood</li>
<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
</ul>

In [59]:
soup.find('div', {'class': 'categoria-melhor-filme'}).find_next_siblings()

[<br/>,
 <div class="categoria-melhor-ator">
 <h2>Categoria: melhor ator</h2>
 <ul>
 <li>Antonio Banderas - Dor e Glória</li>
 <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
 <li>Adam Driver - História de um Casamento</li>
 <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>
 <li>Jonathan Price - Dois Papas</li>
 </ul>
 </div>,
 <br/>,
 <div class="categoria-melhor-atriz">
 <h2>Categoria: melhor atriz</h2>
 <ul>
 <li>Cythia Erivo - Harriet</li>
 <li>Scarlett Johansson - História de um Casamento</li>
 <li>Saoirse Ronan - Adoráveis Mulheres</li>
 <li>Charlize Theron - O Escândalo</li>
 <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>
 </ul>
 </div>]

**Pegar o irmao anterior**

In [60]:
soup.find('li', {'class': 'vencedor'}).find_previous_sibling().get_text()

'Era Uma Vez Em Hollywood'

In [61]:
soup.find('div', {'class': 'categoria-melhor-atriz'}).find_previous_siblings()

[<br/>,
 <div class="categoria-melhor-ator">
 <h2>Categoria: melhor ator</h2>
 <ul>
 <li>Antonio Banderas - Dor e Glória</li>
 <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>
 <li>Adam Driver - História de um Casamento</li>
 <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>
 <li>Jonathan Price - Dois Papas</li>
 </ul>
 </div>,
 <br/>,
 <div class="categoria-melhor-filme">
 <h2>Categoria: melhor filme</h2>
 <ul>
 <li>Ford vs Ferrari</li>
 <li>O Irlandês</li>
 <li>JoJo Rabbit</li>
 <li>Coringa</li>
 <li>Adoráveis Mulheres</li>
 <li>História de um Casamento</li>
 <li>1917</li>
 <li>Era Uma Vez Em Hollywood</li>
 <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>
 </ul>
 </div>]

#### Next e Previous

In [62]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).get_text()

'Joaquin Phoenix - Coringa [VENCEDOR]'

In [63]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_next('li').get_text()

'Jonathan Price - Dois Papas'

In [64]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_previous('li').get_text()

'Adam Driver - História de um Casamento'

In [65]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_all_next('li')

[<li>Jonathan Price - Dois Papas</li>,
 <li>Cythia Erivo - Harriet</li>,
 <li>Scarlett Johansson - História de um Casamento</li>,
 <li>Saoirse Ronan - Adoráveis Mulheres</li>,
 <li>Charlize Theron - O Escândalo</li>,
 <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>]

In [66]:
soup.find('div', {'class': 'categoria-melhor-ator'}).find('li', {'class': 'vencedor'}).find_all_previous('li')

[<li>Adam Driver - História de um Casamento</li>,
 <li>Leonardo DiCaprio - Era Uma Vez Em... Hollywood</li>,
 <li>Antonio Banderas - Dor e Glória</li>,
 <li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>,
 <li>Era Uma Vez Em Hollywood</li>,
 <li>1917</li>,
 <li>História de um Casamento</li>,
 <li>Adoráveis Mulheres</li>,
 <li>Coringa</li>,
 <li>JoJo Rabbit</li>,
 <li>O Irlandês</li>,
 <li>Ford vs Ferrari</li>,
 <li>O Irlandês</li>,
 <li>Era Uma Vez em Hollywood</li>,
 <li>1917</li>,
 <li>Coringa</li>]

### Mini-desafio 2: colete todos os filmes que não tenham vencido suas categorias

In [69]:
# Insira a sua resposta aqui
soup.find("div", {'class': 'categoria-melhor-filme'}).find_all('li', {'class':''})

[<li>Ford vs Ferrari</li>,
 <li>O Irlandês</li>,
 <li>JoJo Rabbit</li>,
 <li>Coringa</li>,
 <li>Adoráveis Mulheres</li>,
 <li>História de um Casamento</li>,
 <li>1917</li>,
 <li>Era Uma Vez Em Hollywood</li>]

## 4) Trabalhando com dicionários e DataFrames

In [70]:
import pandas as pd

In [71]:
soup.find_all("h2", text=re.compile("^Categoria"))

[<h2>Categoria: melhor filme</h2>,
 <h2>Categoria: melhor ator</h2>,
 <h2>Categoria: melhor atriz</h2>]

In [72]:
categorias = soup.find_all("h2", text=re.compile("^Categoria"))

In [73]:
soup.find_all("li", {"class": "vencedor"})

[<li class="vencedor">Parasita <strong>[VENCEDOR]</strong></li>,
 <li class="vencedor">Joaquin Phoenix - Coringa <strong>[VENCEDOR]</strong></li>,
 <li class="vencedor">Renée Zellweger - Judy: Muito Além do Arco-Íris <strong>[VENCEDOR]</strong></li>]

In [74]:
vencedores = soup.find_all("li", {"class": "vencedor"})

In [75]:
vencedores_categorias = {}

In [76]:
for cat, ven in zip(categorias, vencedores):
    categoria = cat.get_text().replace("Categoria: ", "")
    vencedor = ven.get_text().replace(" [VENCEDOR]", "")
    
    vencedores_categorias.update({categoria: [vencedor]})

In [77]:
vencedores_categorias

{'melhor filme': ['Parasita'],
 'melhor ator': ['Joaquin Phoenix - Coringa'],
 'melhor atriz': ['Renée Zellweger - Judy: Muito Além do Arco-Íris']}

In [79]:
vencedores_categorias_df = pd.DataFrame.from_dict(vencedores_categorias, orient="index", columns=["Vencedores"])

In [80]:
vencedores_categorias_df

Unnamed: 0,Vencedores
melhor filme,Parasita
melhor ator,Joaquin Phoenix - Coringa
melhor atriz,Renée Zellweger - Judy: Muito Além do Arco-Íris


## 5) Coletando dados da Web

In [81]:
from urllib.request import urlopen

In [82]:
url = 'https://ocean-web-scraping.herokuapp.com/'

In [83]:
response = urlopen(url)

In [84]:
html_ocean_ws = response.read()

In [85]:
html_ocean_ws

b'<!DOCTYPE html>\n<html lang="pt-br">\n\t<head>\n\t\t<meta charset="UTF-8">\n\t\t<meta name="viewport" content="width=device-width">\n\n\t\t<title>Oceano de Alugu\xc3\xa9is</title>\n\t\t\n\t\t<link rel="stylesheet" href="reset.css">\n\t\t<link rel="stylesheet" href="style.css">\n\t\t<link href="https://fonts.googleapis.com/css?family=Montserrat&display=swap" rel="stylesheet">\n\t</head>\n\n\t<body>\n\t\t<header>\n\t\t\t<div>\n\t\t\t\t<img src="imagens/oceano-logo.png">\n\t\t\t\t<h1>Oceano de Alugu\xc3\xa9is</h1>\n\t\t\t\t<nav>\n\t\t\t\t\t<ul>\n\t\t\t\t\t\t<li><a href="results&page=1.html">Resultados</a></li>\n\t\t\t\t\t\t<li><a href="corretoras.html">Corretoras</a></li>\n\t\t\t\t\t\t<li><a href="sobre.html">Sobre</a></li>\n\t\t\t\t\t</ul>\n\t\t\t\t</nav>\n\t\t\t</div>\n\t\t</header>\n\n\t\t<main>\n\t\t\t<div class="ad-card-list">\n\t\t\t\t<p>21 resultados obtidos - P\xc3\xa1gina 1</p>\n\n\t\t\t\t<div class="ad-card">\n\t\t\t\t\t<img src="imagens/apto-01.jpg" class="apto-img">\n\t\t\t\

In [86]:
soup_ocean_ws = BeautifulSoup(html_ocean_ws, 'html.parser')

In [87]:
soup_ocean_ws

<!DOCTYPE html>

<html lang="pt-br">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width" name="viewport"/>
<title>Oceano de Aluguéis</title>
<link href="reset.css" rel="stylesheet"/>
<link href="style.css" rel="stylesheet"/>
<link href="https://fonts.googleapis.com/css?family=Montserrat&amp;display=swap" rel="stylesheet"/>
</head>
<body>
<header>
<div>
<img src="imagens/oceano-logo.png"/>
<h1>Oceano de Aluguéis</h1>
<nav>
<ul>
<li><a href="results&amp;page=1.html">Resultados</a></li>
<li><a href="corretoras.html">Corretoras</a></li>
<li><a href="sobre.html">Sobre</a></li>
</ul>
</nav>
</div>
</header>
<main>
<div class="ad-card-list">
<p>21 resultados obtidos - Página 1</p>
<div class="ad-card">
<img class="apto-img" src="imagens/apto-01.jpg"/>
<div class="ad-card-info">
<h2>Lindo apartamento para alugar</h2>
<ul class="features">
<li><img src="imagens/area.png"/> 100 m²</li>
<li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banh

In [88]:
print(soup_ocean_ws.prettify())

<!DOCTYPE html>
<html lang="pt-br">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width" name="viewport"/>
  <title>
   Oceano de Aluguéis
  </title>
  <link href="reset.css" rel="stylesheet"/>
  <link href="style.css" rel="stylesheet"/>
  <link href="https://fonts.googleapis.com/css?family=Montserrat&amp;display=swap" rel="stylesheet"/>
 </head>
 <body>
  <header>
   <div>
    <img src="imagens/oceano-logo.png"/>
    <h1>
     Oceano de Aluguéis
    </h1>
    <nav>
     <ul>
      <li>
       <a href="results&amp;page=1.html">
        Resultados
       </a>
      </li>
      <li>
       <a href="corretoras.html">
        Corretoras
       </a>
      </li>
      <li>
       <a href="sobre.html">
        Sobre
       </a>
      </li>
     </ul>
    </nav>
   </div>
  </header>
  <main>
   <div class="ad-card-list">
    <p>
     21 resultados obtidos - Página 1
    </p>
    <div class="ad-card">
     <img class="apto-img" src="imagens/apto-01.jpg"/>
     <div class="ad-