# Web Scraping com Python (Parte 2)

## Resumo

Neste notebook, iremos explorar e coletar dados do site [Oceano de Aluguéis](https://ocean-web-scraping.herokuapp.com/) utilizando a biblioteca [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/). Em seguida, iremos analisar todas as informações coletadas.

## Para saber mais:

* Jupyter Notebooks Docummentattion - https://jupyter-notebook.readthedocs.io/en/stable/index.html
* Ryan Mitchell. Web Scraping com Python: Coletando Mais Dados da Web Moderna. Novatec Editora, 2019.


## 1) Criando os objetos Beautiful Soup

In [177]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

In [178]:
url_sobre = 'https://ocean-web-scraping.herokuapp.com/sobre.html'
url_busca = 'https://ocean-web-scraping.herokuapp.com/'
url_corretoras = 'https://ocean-web-scraping.herokuapp.com/corretoras.html'

### 1.1) Página 'Sobre'

In [179]:
response_sobre = urlopen(url_sobre)
html_sobre = response_sobre.read()
html_sobre

b'<!DOCTYPE html>\n<html lang="pt-br">\n\t<head>\n\t\t<meta charset="UTF-8">\n\t\t<meta name="viewport" content="width=device-width">\n\n\t\t<title>Oceano de Alugu\xc3\xa9is</title>\n\t\t\n\t\t<link rel="stylesheet" href="reset.css">\n\t\t<link rel="stylesheet" href="style.css">\n\t\t<link href="https://fonts.googleapis.com/css?family=Montserrat&display=swap" rel="stylesheet">\n\t</head>\n\n\t<body>\n\t\t<header>\n\t\t\t<div>\n\t\t\t\t<img src="imagens/oceano-logo.png">\n\t\t\t\t<h1>Oceano de Alugu\xc3\xa9is</h1>\n\t\t\t\t<nav>\n\t\t\t\t\t<ul>\n\t\t\t\t\t\t<li><a href="results&page=1.html">Resultados</a></li>\n\t\t\t\t\t\t<li><a href="corretoras.html">Corretoras</a></li>\n\t\t\t\t\t\t<li><a href="sobre.html">Sobre</a></li>\n\t\t\t\t\t</ul>\n\t\t\t\t</nav>\n\t\t\t</div>\n\t\t</header>\n\n\t\t<main>\n\t\t\t<div class="about">\n\t\t\t\t<h2>Sobre este site</h2>\n\n\t\t\t\t<p>Este site foi criado para treinamentos de Web Scraping do <a href="http://www.oceanbrasil.com/">Ocean</a>.</p>\n\n\t

In [180]:
soup_sobre = BeautifulSoup(html_sobre, 'html.parser')
soup_sobre

<!DOCTYPE html>

<html lang="pt-br">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width" name="viewport"/>
<title>Oceano de Aluguéis</title>
<link href="reset.css" rel="stylesheet"/>
<link href="style.css" rel="stylesheet"/>
<link href="https://fonts.googleapis.com/css?family=Montserrat&amp;display=swap" rel="stylesheet"/>
</head>
<body>
<header>
<div>
<img src="imagens/oceano-logo.png"/>
<h1>Oceano de Aluguéis</h1>
<nav>
<ul>
<li><a href="results&amp;page=1.html">Resultados</a></li>
<li><a href="corretoras.html">Corretoras</a></li>
<li><a href="sobre.html">Sobre</a></li>
</ul>
</nav>
</div>
</header>
<main>
<div class="about">
<h2>Sobre este site</h2>
<p>Este site foi criado para treinamentos de Web Scraping do <a href="http://www.oceanbrasil.com/">Ocean</a>.</p>
<p>Vamos para os primeiros desafios?</p>
<ol>
<li>Que tal coletar o texto <em>"Sobre este site"</em> para começar?</li>
<li>Agora extraia o link contido na palavra <em>"Ocean"</em>.</li>
<li>Em seguida, colete t

### 1.2) Página de resultados da busca por imóveis

In [181]:
response_busca = urlopen(url_busca)
html_busca = response_busca.read()
html_busca

b'<!DOCTYPE html>\n<html lang="pt-br">\n\t<head>\n\t\t<meta charset="UTF-8">\n\t\t<meta name="viewport" content="width=device-width">\n\n\t\t<title>Oceano de Alugu\xc3\xa9is</title>\n\t\t\n\t\t<link rel="stylesheet" href="reset.css">\n\t\t<link rel="stylesheet" href="style.css">\n\t\t<link href="https://fonts.googleapis.com/css?family=Montserrat&display=swap" rel="stylesheet">\n\t</head>\n\n\t<body>\n\t\t<header>\n\t\t\t<div>\n\t\t\t\t<img src="imagens/oceano-logo.png">\n\t\t\t\t<h1>Oceano de Alugu\xc3\xa9is</h1>\n\t\t\t\t<nav>\n\t\t\t\t\t<ul>\n\t\t\t\t\t\t<li><a href="results&page=1.html">Resultados</a></li>\n\t\t\t\t\t\t<li><a href="corretoras.html">Corretoras</a></li>\n\t\t\t\t\t\t<li><a href="sobre.html">Sobre</a></li>\n\t\t\t\t\t</ul>\n\t\t\t\t</nav>\n\t\t\t</div>\n\t\t</header>\n\n\t\t<main>\n\t\t\t<div class="ad-card-list">\n\t\t\t\t<p>21 resultados obtidos - P\xc3\xa1gina 1</p>\n\n\t\t\t\t<div class="ad-card">\n\t\t\t\t\t<img src="imagens/apto-01.jpg" class="apto-img">\n\t\t\t\

In [182]:
soup_busca = BeautifulSoup(html_busca, 'html.parser')
soup_busca

<!DOCTYPE html>

<html lang="pt-br">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width" name="viewport"/>
<title>Oceano de Aluguéis</title>
<link href="reset.css" rel="stylesheet"/>
<link href="style.css" rel="stylesheet"/>
<link href="https://fonts.googleapis.com/css?family=Montserrat&amp;display=swap" rel="stylesheet"/>
</head>
<body>
<header>
<div>
<img src="imagens/oceano-logo.png"/>
<h1>Oceano de Aluguéis</h1>
<nav>
<ul>
<li><a href="results&amp;page=1.html">Resultados</a></li>
<li><a href="corretoras.html">Corretoras</a></li>
<li><a href="sobre.html">Sobre</a></li>
</ul>
</nav>
</div>
</header>
<main>
<div class="ad-card-list">
<p>21 resultados obtidos - Página 1</p>
<div class="ad-card">
<img class="apto-img" src="imagens/apto-01.jpg"/>
<div class="ad-card-info">
<h2>Lindo apartamento para alugar</h2>
<ul class="features">
<li><img src="imagens/area.png"/> 100 m²</li>
<li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banh

### 1.3) Página de contatos das corretoras

In [183]:
response_corretoras = urlopen(url_corretoras)
html_corretoras = response_corretoras.read()
html_corretoras

b'<!DOCTYPE html>\n<html lang="pt-br">\n\t<head>\n\t\t<meta charset="UTF-8">\n\t\t<meta name="viewport" content="width=device-width">\n\n\t\t<title>Oceano de Alugu\xc3\xa9is</title>\n\t\t\n\t\t<link rel="stylesheet" href="reset.css">\n\t\t<link rel="stylesheet" href="style.css">\n\t\t<link href="https://fonts.googleapis.com/css?family=Montserrat&display=swap" rel="stylesheet">\n\t</head>\n\n\t<body>\n\t\t<header>\n\t\t\t<div>\n\t\t\t\t<img src="imagens/oceano-logo.png">\n\t\t\t\t<h1>Oceano de Alugu\xc3\xa9is</h1>\n\t\t\t\t<nav>\n\t\t\t\t\t<ul>\n\t\t\t\t\t\t<li><a href="results&page=1.html">Resultados</a></li>\n\t\t\t\t\t\t<li><a href="corretoras.html">Corretoras</a></li>\n\t\t\t\t\t\t<li><a href="sobre.html">Sobre</a></li>\n\t\t\t\t\t</ul>\n\t\t\t\t</nav>\n\t\t\t</div>\n\t\t</header>\n\n\t\t<main>\n\t\t\t<div class="contacts">\n\t\t\t\t<table>\n\t\t\t\t\t<thead>\n\t\t\t\t\t\t<tr>\n\t\t\t\t\t\t\t<th>Corretora</th>\n\t\t\t\t\t\t\t<th>Contatos</th>\n\t\t\t\t\t\t</tr>\n\t\t\t\t\t</thead>\n

In [184]:
soup_corretoras = BeautifulSoup(html_corretoras, 'html.parser')
soup_corretoras

<!DOCTYPE html>

<html lang="pt-br">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width" name="viewport"/>
<title>Oceano de Aluguéis</title>
<link href="reset.css" rel="stylesheet"/>
<link href="style.css" rel="stylesheet"/>
<link href="https://fonts.googleapis.com/css?family=Montserrat&amp;display=swap" rel="stylesheet"/>
</head>
<body>
<header>
<div>
<img src="imagens/oceano-logo.png"/>
<h1>Oceano de Aluguéis</h1>
<nav>
<ul>
<li><a href="results&amp;page=1.html">Resultados</a></li>
<li><a href="corretoras.html">Corretoras</a></li>
<li><a href="sobre.html">Sobre</a></li>
</ul>
</nav>
</div>
</header>
<main>
<div class="contacts">
<table>
<thead>
<tr>
<th>Corretora</th>
<th>Contatos</th>
</tr>
</thead>
<tbody>
<tr>
<td>Tubarão</td>
<td>João Marinho - Fone:(XX)XXXX-XXXX</td>
</tr>
<tr>
<td>Carangueijo</td>
<td>Ana Sirigueijo - Fone:(XX)XXXX-XXXX; Sebastião Costa - Fone:(XX)XXXX-XXXX</td>
</tr>
<tr>
<td>Baleia Azul</td>
<td>
<ul>
<li>Alina Ferreira - Fone:(XX)XXXX-XXXX</li>

## 2) Lista de desafios da página 'Sobre'

### 2.1) Desafio 1: que tal coletar o texto 'Sobre este site' para começar?

In [185]:
soup_sobre.find('div', {'class': 'about'}).find('h2').get_text()

'Sobre este site'

### 2.2) Desafio 2: agora extraia o link contido na palavra 'Ocean'.

In [186]:
soup_sobre.find('div', {'class': 'about'}).find('a').get('href')

'http://www.oceanbrasil.com/'

### 2.3) Desafio 3: Em seguida, colete todos os itens desta lista.

In [187]:
soup_sobre.find('div', {'class': 'about'}).find('ol').find_all('li')

[<li>Que tal coletar o texto <em>"Sobre este site"</em> para começar?</li>,
 <li>Agora extraia o link contido na palavra <em>"Ocean"</em>.</li>,
 <li>Em seguida, colete todos os itens desta lista.</li>,
 <li>Por fim, colete apenas este último item da lista.</li>]

In [188]:
for item in soup_sobre.find('div', {'class': 'about'}).find('ol').find_all('li'):
    print(item.get_text())

Que tal coletar o texto "Sobre este site" para começar?
Agora extraia o link contido na palavra "Ocean".
Em seguida, colete todos os itens desta lista.
Por fim, colete apenas este último item da lista.


### 2.4) Desafio 4: por fim, colete apenas este último item da lista.

In [189]:
soup_sobre.find('div', {'class': 'about'}).find('ol').find_all('li')[-1].get_text()

'Por fim, colete apenas este último item da lista.'

## 3) Coletando a lista de resultados da busca por imóveis

In [190]:
import pandas as pd

### 3.1) Coletando apenas o primeiro item da lista

In [191]:
soup_busca.find('div', {'class': 'ad-card'})

<div class="ad-card">
<img class="apto-img" src="imagens/apto-01.jpg"/>
<div class="ad-card-info">
<h2>Lindo apartamento para alugar</h2>
<ul class="features">
<li><img src="imagens/area.png"/> 100 m²</li>
<li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>
<li><img src="imagens/parking.png"/> 2 vaga(s)</li>
</ul>
<ul class="resources">
<li>Mobiliado</li>
<li>Portaria 24h</li>
<li>Elevador</li>
<li>Piscina</li>
<li>Churrasqueira</li>
<li>Salão de Festas</li>
<li>Academia</li>
<li>Playground</li>
<li>Quadra poliesportiva</li>
<li>Salão de jogos</li>
<li>Aceita animais</li>
</ul>
<p>Localização: Oceano Pacífico</p>
</div>
<div class="ad-card-price">
<p>Aluguel: R$ 4.000,00</p>
<p>Condomínio: 500,00</p>
<p>IPTU: R$ 100,00</p>
<p>Corretora: Tubarão</p>
</div>
</div>

#### 3.1.1) Coletando as características

In [192]:
soup_busca.find('ul', {'class': 'features'})

<ul class="features">
<li><img src="imagens/area.png"/> 100 m²</li>
<li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>
<li><img src="imagens/parking.png"/> 2 vaga(s)</li>
</ul>

In [193]:
soup_busca.find('ul', {'class': 'features'}).find_all('li')

[<li><img src="imagens/area.png"/> 100 m²</li>,
 <li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>,
 <li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>,
 <li><img src="imagens/parking.png"/> 2 vaga(s)</li>]

In [194]:
for caracteristica in soup_busca.find('ul', {'class': 'features'}).find_all('li'):
    print(caracteristica.get_text())

 100 m²
 3 quarto(s)
 2 banheiro(s)
 2 vaga(s)


#### 3.1.2) Coletando os recursos

In [195]:
soup_busca.find('ul', {'class': 'resources'})

<ul class="resources">
<li>Mobiliado</li>
<li>Portaria 24h</li>
<li>Elevador</li>
<li>Piscina</li>
<li>Churrasqueira</li>
<li>Salão de Festas</li>
<li>Academia</li>
<li>Playground</li>
<li>Quadra poliesportiva</li>
<li>Salão de jogos</li>
<li>Aceita animais</li>
</ul>

In [196]:
soup_busca.find('ul', {'class': 'resources'}).find_all('li')

[<li>Mobiliado</li>,
 <li>Portaria 24h</li>,
 <li>Elevador</li>,
 <li>Piscina</li>,
 <li>Churrasqueira</li>,
 <li>Salão de Festas</li>,
 <li>Academia</li>,
 <li>Playground</li>,
 <li>Quadra poliesportiva</li>,
 <li>Salão de jogos</li>,
 <li>Aceita animais</li>]

In [197]:
for recurso in soup_busca.find('ul', {'class': 'resources'}).find_all('li'):
    print(recurso.get_text())

Mobiliado
Portaria 24h
Elevador
Piscina
Churrasqueira
Salão de Festas
Academia
Playground
Quadra poliesportiva
Salão de jogos
Aceita animais


#### 3.1.3) Coletando todos os valores (aluguel, condomínio e IPTU)

In [198]:
soup_busca.find('div', {'class': 'ad-card-price'})

<div class="ad-card-price">
<p>Aluguel: R$ 4.000,00</p>
<p>Condomínio: 500,00</p>
<p>IPTU: R$ 100,00</p>
<p>Corretora: Tubarão</p>
</div>

In [199]:
soup_busca.find('div', {'class': 'ad-card-price'}).find_all('p')

[<p>Aluguel: R$ 4.000,00</p>,
 <p>Condomínio: 500,00</p>,
 <p>IPTU: R$ 100,00</p>,
 <p>Corretora: Tubarão</p>]

In [200]:
soup_busca.find('div', {'class': 'ad-card-price'}).find_all('p')[:-1]

[<p>Aluguel: R$ 4.000,00</p>,
 <p>Condomínio: 500,00</p>,
 <p>IPTU: R$ 100,00</p>]

In [201]:
for precos in soup_busca.find('div', {'class': 'ad-card-price'}).find_all('p')[:-1]:
    print(precos.get_text())

Aluguel: R$ 4.000,00
Condomínio: 500,00
IPTU: R$ 100,00


#### 3.1.4) Coletando a corretora

In [202]:
soup_busca.find('div', {'class': 'ad-card-price'})

<div class="ad-card-price">
<p>Aluguel: R$ 4.000,00</p>
<p>Condomínio: 500,00</p>
<p>IPTU: R$ 100,00</p>
<p>Corretora: Tubarão</p>
</div>

In [203]:
soup_busca.find('div', {'class': 'ad-card-price'}).find_all('p')

[<p>Aluguel: R$ 4.000,00</p>,
 <p>Condomínio: 500,00</p>,
 <p>IPTU: R$ 100,00</p>,
 <p>Corretora: Tubarão</p>]

In [204]:
soup_busca.find('div', {'class': 'ad-card-price'}).find_all('p')[-1]

<p>Corretora: Tubarão</p>

In [205]:
soup_busca.find('div', {'class': 'ad-card-price'}).find_all('p')[-1].get_text()

'Corretora: Tubarão'

#### 3.1.5) Coletando a localização

In [206]:
soup_busca.find('div', {'class': 'ad-card-info'})

<div class="ad-card-info">
<h2>Lindo apartamento para alugar</h2>
<ul class="features">
<li><img src="imagens/area.png"/> 100 m²</li>
<li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>
<li><img src="imagens/parking.png"/> 2 vaga(s)</li>
</ul>
<ul class="resources">
<li>Mobiliado</li>
<li>Portaria 24h</li>
<li>Elevador</li>
<li>Piscina</li>
<li>Churrasqueira</li>
<li>Salão de Festas</li>
<li>Academia</li>
<li>Playground</li>
<li>Quadra poliesportiva</li>
<li>Salão de jogos</li>
<li>Aceita animais</li>
</ul>
<p>Localização: Oceano Pacífico</p>
</div>

In [207]:
soup_busca.find('div', {'class': 'ad-card-info'}).find('p')

<p>Localização: Oceano Pacífico</p>

In [208]:
soup_busca.find('div', {'class': 'ad-card-info'}).find('p').get_text()

'Localização: Oceano Pacífico'

### 3.2) Coletando todos os itens da primeira página

In [209]:
soup_busca.find('div', {'class': 'ad-card-list'})

<div class="ad-card-list">
<p>21 resultados obtidos - Página 1</p>
<div class="ad-card">
<img class="apto-img" src="imagens/apto-01.jpg"/>
<div class="ad-card-info">
<h2>Lindo apartamento para alugar</h2>
<ul class="features">
<li><img src="imagens/area.png"/> 100 m²</li>
<li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>
<li><img src="imagens/parking.png"/> 2 vaga(s)</li>
</ul>
<ul class="resources">
<li>Mobiliado</li>
<li>Portaria 24h</li>
<li>Elevador</li>
<li>Piscina</li>
<li>Churrasqueira</li>
<li>Salão de Festas</li>
<li>Academia</li>
<li>Playground</li>
<li>Quadra poliesportiva</li>
<li>Salão de jogos</li>
<li>Aceita animais</li>
</ul>
<p>Localização: Oceano Pacífico</p>
</div>
<div class="ad-card-price">
<p>Aluguel: R$ 4.000,00</p>
<p>Condomínio: 500,00</p>
<p>IPTU: R$ 100,00</p>
<p>Corretora: Tubarão</p>
</div>
</div>
<div class="ad-card">
<img class="apto-img" src="imagens/apto-02.jpg"/>
<div class="ad-card-info">
<h2

In [210]:
soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'})

[<div class="ad-card">
 <img class="apto-img" src="imagens/apto-01.jpg"/>
 <div class="ad-card-info">
 <h2>Lindo apartamento para alugar</h2>
 <ul class="features">
 <li><img src="imagens/area.png"/> 100 m²</li>
 <li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
 <li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>
 <li><img src="imagens/parking.png"/> 2 vaga(s)</li>
 </ul>
 <ul class="resources">
 <li>Mobiliado</li>
 <li>Portaria 24h</li>
 <li>Elevador</li>
 <li>Piscina</li>
 <li>Churrasqueira</li>
 <li>Salão de Festas</li>
 <li>Academia</li>
 <li>Playground</li>
 <li>Quadra poliesportiva</li>
 <li>Salão de jogos</li>
 <li>Aceita animais</li>
 </ul>
 <p>Localização: Oceano Pacífico</p>
 </div>
 <div class="ad-card-price">
 <p>Aluguel: R$ 4.000,00</p>
 <p>Condomínio: 500,00</p>
 <p>IPTU: R$ 100,00</p>
 <p>Corretora: Tubarão</p>
 </div>
 </div>,
 <div class="ad-card">
 <img class="apto-img" src="imagens/apto-02.jpg"/>
 <div class="ad-card-info">
 <h2>Ótimo lugar para morar</h2>
 

In [211]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    print(resultado)
    print('-------------')

<div class="ad-card">
<img class="apto-img" src="imagens/apto-01.jpg"/>
<div class="ad-card-info">
<h2>Lindo apartamento para alugar</h2>
<ul class="features">
<li><img src="imagens/area.png"/> 100 m²</li>
<li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>
<li><img src="imagens/parking.png"/> 2 vaga(s)</li>
</ul>
<ul class="resources">
<li>Mobiliado</li>
<li>Portaria 24h</li>
<li>Elevador</li>
<li>Piscina</li>
<li>Churrasqueira</li>
<li>Salão de Festas</li>
<li>Academia</li>
<li>Playground</li>
<li>Quadra poliesportiva</li>
<li>Salão de jogos</li>
<li>Aceita animais</li>
</ul>
<p>Localização: Oceano Pacífico</p>
</div>
<div class="ad-card-price">
<p>Aluguel: R$ 4.000,00</p>
<p>Condomínio: 500,00</p>
<p>IPTU: R$ 100,00</p>
<p>Corretora: Tubarão</p>
</div>
</div>
-------------
<div class="ad-card">
<img class="apto-img" src="imagens/apto-02.jpg"/>
<div class="ad-card-info">
<h2>Ótimo lugar para morar</h2>
<ul class="features">
<l

In [212]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    caracteristicas = resultado.find('ul', {'class': 'features'})
    print(caracteristicas)
    print('-------------')

<ul class="features">
<li><img src="imagens/area.png"/> 100 m²</li>
<li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>
<li><img src="imagens/parking.png"/> 2 vaga(s)</li>
</ul>
-------------
<ul class="features">
<li><img src="imagens/area.png"/> 60 m²</li>
<li><img src="imagens/bedrooms.png"/> 2 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>
<li><img src="imagens/parking.png"/> 1 vaga(s)</li>
</ul>
-------------
<ul class="features">
<li><img src="imagens/area.png"/> 50 m²</li>
<li><img src="imagens/bedrooms.png"/> 1 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 1 banheiro(s)</li>
<li><img src="imagens/parking.png"/> 1 vaga(s)</li>
</ul>
-------------
<ul class="features">
<li><img src="imagens/area.png"/> 60 m²</li>
<li><img src="imagens/bedrooms.png"/> 2 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>
<li><img src="imagens/parking.png"/> 1 vaga(s)</li>
</ul>
-------------
<ul

In [213]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    caracteristicas = resultado.find('ul', {'class': 'features'})
    
    for caract in caracteristicas.find_all('li'):
        print(caract.get_text())
    
    print('-------------')

 100 m²
 3 quarto(s)
 2 banheiro(s)
 2 vaga(s)
-------------
 60 m²
 2 quarto(s)
 2 banheiro(s)
 1 vaga(s)
-------------
 50 m²
 1 quarto(s)
 1 banheiro(s)
 1 vaga(s)
-------------
 60 m²
 2 quarto(s)
 2 banheiro(s)
 1 vaga(s)
-------------
 120 m²
 4 quarto(s)
 3 banheiro(s)
 2 vaga(s)
-------------


In [214]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    caracteristicas = resultado.find('ul', {'class': 'features'})
    recursos = resultado.find('ul', {'class': 'resources'})
    
    for caract in caracteristicas.find_all('li'):
        print(caract.get_text())
        
    for recur in recursos.find_all('li'):
        print(recur.get_text())
        
    print('-------------')

 100 m²
 3 quarto(s)
 2 banheiro(s)
 2 vaga(s)
Mobiliado
Portaria 24h
Elevador
Piscina
Churrasqueira
Salão de Festas
Academia
Playground
Quadra poliesportiva
Salão de jogos
Aceita animais
-------------
 60 m²
 2 quarto(s)
 2 banheiro(s)
 1 vaga(s)
Mobiliado
Portaria 24h
Salão de Festas
Quadra poliesportiva
-------------
 50 m²
 1 quarto(s)
 1 banheiro(s)
 1 vaga(s)
Mobiliado
-------------
 60 m²
 2 quarto(s)
 2 banheiro(s)
 1 vaga(s)
Mobiliado
Portaria 24h
-------------
 120 m²
 4 quarto(s)
 3 banheiro(s)
 2 vaga(s)
Mobiliado
Portaria 24h
Elevador
Piscina
Churrasqueira
Salão de Festas
Academia
Playground
Quadra poliesportiva
Salão de jogos
Aceita animais
-------------


In [215]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    caracteristicas = resultado.find('ul', {'class': 'features'})
    recursos = resultado.find('ul', {'class': 'resources'})
    precos_corretora = resultado.find('div', {'class': 'ad-card-price'})
    
    for caract in caracteristicas.find_all('li'):
        print(caract.get_text())
        
    for recur in recursos.find_all('li'):
        print(recur.get_text())
        
    for prec_corr in precos_corretora.find_all('p'):
        print(prec_corr.get_text())
        
    print('-------------')

 100 m²
 3 quarto(s)
 2 banheiro(s)
 2 vaga(s)
Mobiliado
Portaria 24h
Elevador
Piscina
Churrasqueira
Salão de Festas
Academia
Playground
Quadra poliesportiva
Salão de jogos
Aceita animais
Aluguel: R$ 4.000,00
Condomínio: 500,00
IPTU: R$ 100,00
Corretora: Tubarão
-------------
 60 m²
 2 quarto(s)
 2 banheiro(s)
 1 vaga(s)
Mobiliado
Portaria 24h
Salão de Festas
Quadra poliesportiva
Aluguel: R$ 2.000,00
Condomínio: 200,00
IPTU: R$ 50,00
Corretora: Carangueijo
-------------
 50 m²
 1 quarto(s)
 1 banheiro(s)
 1 vaga(s)
Mobiliado
Aluguel: R$ 1.300,00
Condomínio: 200,00
IPTU: R$ 50,00
Corretora: Baleia Azul
-------------
 60 m²
 2 quarto(s)
 2 banheiro(s)
 1 vaga(s)
Mobiliado
Portaria 24h
Aluguel: R$ 1.800,00
Condomínio: 100,00
IPTU: R$ 20,00
Corretora: Baleia Azul
-------------
 120 m²
 4 quarto(s)
 3 banheiro(s)
 2 vaga(s)
Mobiliado
Portaria 24h
Elevador
Piscina
Churrasqueira
Salão de Festas
Academia
Playground
Quadra poliesportiva
Salão de jogos
Aceita animais
Aluguel: R$ 3.800,00
Condomí

In [216]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    caracteristicas = resultado.find('ul', {'class': 'features'})
    recursos = resultado.find('ul', {'class': 'resources'})
    precos_corretora = resultado.find('div', {'class': 'ad-card-price'})
    localizacao = resultado.find('div', {'class': 'ad-card-info'}).find('p')
    
    for caract in caracteristicas.find_all('li'):
        print(caract.get_text())
        
    for recur in recursos.find_all('li'):
        print(recur.get_text())
        
    for prec_corr in precos_corretora.find_all('p'):
        print(prec_corr.get_text())
    
    print(localizacao.get_text())
        
    print('-------------')

 100 m²
 3 quarto(s)
 2 banheiro(s)
 2 vaga(s)
Mobiliado
Portaria 24h
Elevador
Piscina
Churrasqueira
Salão de Festas
Academia
Playground
Quadra poliesportiva
Salão de jogos
Aceita animais
Aluguel: R$ 4.000,00
Condomínio: 500,00
IPTU: R$ 100,00
Corretora: Tubarão
Localização: Oceano Pacífico
-------------
 60 m²
 2 quarto(s)
 2 banheiro(s)
 1 vaga(s)
Mobiliado
Portaria 24h
Salão de Festas
Quadra poliesportiva
Aluguel: R$ 2.000,00
Condomínio: 200,00
IPTU: R$ 50,00
Corretora: Carangueijo
Localização: Oceano Índico
-------------
 50 m²
 1 quarto(s)
 1 banheiro(s)
 1 vaga(s)
Mobiliado
Aluguel: R$ 1.300,00
Condomínio: 200,00
IPTU: R$ 50,00
Corretora: Baleia Azul
Localização: Mar de Java
-------------
 60 m²
 2 quarto(s)
 2 banheiro(s)
 1 vaga(s)
Mobiliado
Portaria 24h
Aluguel: R$ 1.800,00
Condomínio: 100,00
IPTU: R$ 20,00
Corretora: Baleia Azul
Localização: Oceano Índico
-------------
 120 m²
 4 quarto(s)
 3 banheiro(s)
 2 vaga(s)
Mobiliado
Portaria 24h
Elevador
Piscina
Churrasqueira
Salão d

#### 3.2.1) Persistindo os dados coletados em um DataFrame (tentativa 1)

In [217]:
resutados_lista = []

In [218]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    caracteristicas = resultado.find('ul', {'class': 'features'})
    recursos = resultado.find('ul', {'class': 'resources'})
    precos_corretora = resultado.find('div', {'class': 'ad-card-price'})
    localizacao = resultado.find('div', {'class': 'ad-card-info'}).find('p')
    
    resutado_dict = {}
    
    resutado_dict['área'] = caracteristicas.find_all('li')[0].get_text()
    resutado_dict['quartos'] = caracteristicas.find_all('li')[1].get_text()
    resutado_dict['banheiros'] = caracteristicas.find_all('li')[2].get_text()
    resutado_dict['vagas garagem'] = caracteristicas.find_all('li')[3].get_text()
    
    for recur in recursos.find_all('li'):
        resutado_dict[recur.get_text().lower()] = 'sim'
        
    resutado_dict['aluguel'] = precos_corretora.find_all('p')[0].get_text()
    resutado_dict['condomínio'] = precos_corretora.find_all('p')[1].get_text()
    resutado_dict['iptu'] = precos_corretora.find_all('p')[2].get_text()
    resutado_dict['corretora'] = precos_corretora.find_all('p')[3].get_text()
    
    resutado_dict['localizacao'] = localizacao.get_text()
    
    resutados_lista.append(resutado_dict)

In [219]:
resutados_lista

[{'área': ' 100 m²',
  'quartos': ' 3 quarto(s)',
  'banheiros': ' 2 banheiro(s)',
  'vagas garagem': ' 2 vaga(s)',
  'mobiliado': 'sim',
  'portaria 24h': 'sim',
  'elevador': 'sim',
  'piscina': 'sim',
  'churrasqueira': 'sim',
  'salão de festas': 'sim',
  'academia': 'sim',
  'playground': 'sim',
  'quadra poliesportiva': 'sim',
  'salão de jogos': 'sim',
  'aceita animais': 'sim',
  'aluguel': 'Aluguel: R$ 4.000,00',
  'condomínio': 'Condomínio: 500,00',
  'iptu': 'IPTU: R$ 100,00',
  'corretora': 'Corretora: Tubarão',
  'localizacao': 'Localização: Oceano Pacífico'},
 {'área': ' 60 m²',
  'quartos': ' 2 quarto(s)',
  'banheiros': ' 2 banheiro(s)',
  'vagas garagem': ' 1 vaga(s)',
  'mobiliado': 'sim',
  'portaria 24h': 'sim',
  'salão de festas': 'sim',
  'quadra poliesportiva': 'sim',
  'aluguel': 'Aluguel: R$ 2.000,00',
  'condomínio': 'Condomínio: 200,00',
  'iptu': 'IPTU: R$ 50,00',
  'corretora': 'Corretora: Carangueijo',
  'localizacao': 'Localização: Oceano Índico'},
 {'ár

In [220]:
resultados_df = pd.DataFrame(resutados_lista)

In [221]:
resultados_df

Unnamed: 0,área,quartos,banheiros,vagas garagem,mobiliado,portaria 24h,elevador,piscina,churrasqueira,salão de festas,academia,playground,quadra poliesportiva,salão de jogos,aceita animais,aluguel,condomínio,iptu,corretora,localizacao
0,100 m²,3 quarto(s),2 banheiro(s),2 vaga(s),sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,"Aluguel: R$ 4.000,00","Condomínio: 500,00","IPTU: R$ 100,00",Corretora: Tubarão,Localização: Oceano Pacífico
1,60 m²,2 quarto(s),2 banheiro(s),1 vaga(s),sim,sim,,,,sim,,,sim,,,"Aluguel: R$ 2.000,00","Condomínio: 200,00","IPTU: R$ 50,00",Corretora: Carangueijo,Localização: Oceano Índico
2,50 m²,1 quarto(s),1 banheiro(s),1 vaga(s),sim,,,,,,,,,,,"Aluguel: R$ 1.300,00","Condomínio: 200,00","IPTU: R$ 50,00",Corretora: Baleia Azul,Localização: Mar de Java
3,60 m²,2 quarto(s),2 banheiro(s),1 vaga(s),sim,sim,,,,,,,,,,"Aluguel: R$ 1.800,00","Condomínio: 100,00","IPTU: R$ 20,00",Corretora: Baleia Azul,Localização: Oceano Índico
4,120 m²,4 quarto(s),3 banheiro(s),2 vaga(s),sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,"Aluguel: R$ 3.800,00","Condomínio: 500,00","IPTU: R$ 200,00",Corretora: Tubarão,Localização: Oceano Pacífico


In [222]:
resultados_df.dtypes

área                    object
quartos                 object
banheiros               object
vagas garagem           object
mobiliado               object
portaria 24h            object
elevador                object
piscina                 object
churrasqueira           object
salão de festas         object
academia                object
playground              object
quadra poliesportiva    object
salão de jogos          object
aceita animais          object
aluguel                 object
condomínio              object
iptu                    object
corretora               object
localizacao             object
dtype: object

#### 3.2.2) Persistindo os dados coletados em um DataFrame (tentativa 2)

In [223]:
resutados_lista = []

In [224]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    caracteristicas = resultado.find('ul', {'class': 'features'})
    recursos = resultado.find('ul', {'class': 'resources'})
    precos_corretora = resultado.find('div', {'class': 'ad-card-price'})
    localizacao = resultado.find('div', {'class': 'ad-card-info'}).find('p')
    
    resutado_dict = {}
    
    resutado_dict['área'] = int(caracteristicas.find_all('li')[0].get_text().replace(' ','').replace('m²',''))
    resutado_dict['quartos'] = int(caracteristicas.find_all('li')[1].get_text().replace(' ','').replace('quarto(s)',''))
    resutado_dict['banheiros'] = int(caracteristicas.find_all('li')[2].get_text().replace(' ','').replace('banheiro(s)',''))
    resutado_dict['vagas garagem'] = int(caracteristicas.find_all('li')[3].get_text().replace(' ','').replace('vaga(s)',''))
    
    for recur in recursos.find_all('li'):
        resutado_dict[recur.get_text().lower()] = 'sim'
        
    resutado_dict['aluguel'] = float(precos_corretora.find_all('p')[0].get_text().replace('Aluguel: R$ ','').replace('.','').replace(',','.'))
    resutado_dict['condomínio'] = float(precos_corretora.find_all('p')[1].get_text().replace('Condomínio: ','').replace('.','').replace(',','.'))
    resutado_dict['iptu'] = float(precos_corretora.find_all('p')[2].get_text().replace('IPTU: R$ ','').replace('.','').replace(',','.'))
    
    resutado_dict['corretora'] = precos_corretora.find_all('p')[3].get_text().replace('Corretora: ','')
    
    resutado_dict['localizacao'] = localizacao.get_text().replace('Localização: ','')
    
    resutados_lista.append(resutado_dict)

In [225]:
resultados_df = pd.DataFrame(resutados_lista)
resultados_df

Unnamed: 0,área,quartos,banheiros,vagas garagem,mobiliado,portaria 24h,elevador,piscina,churrasqueira,salão de festas,academia,playground,quadra poliesportiva,salão de jogos,aceita animais,aluguel,condomínio,iptu,corretora,localizacao
0,100,3,2,2,sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,4000.0,500.0,100.0,Tubarão,Oceano Pacífico
1,60,2,2,1,sim,sim,,,,sim,,,sim,,,2000.0,200.0,50.0,Carangueijo,Oceano Índico
2,50,1,1,1,sim,,,,,,,,,,,1300.0,200.0,50.0,Baleia Azul,Mar de Java
3,60,2,2,1,sim,sim,,,,,,,,,,1800.0,100.0,20.0,Baleia Azul,Oceano Índico
4,120,4,3,2,sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,3800.0,500.0,200.0,Tubarão,Oceano Pacífico


In [226]:
resultados_df = resultados_df.fillna(value='não')
resultados_df

Unnamed: 0,área,quartos,banheiros,vagas garagem,mobiliado,portaria 24h,elevador,piscina,churrasqueira,salão de festas,academia,playground,quadra poliesportiva,salão de jogos,aceita animais,aluguel,condomínio,iptu,corretora,localizacao
0,100,3,2,2,sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,4000.0,500.0,100.0,Tubarão,Oceano Pacífico
1,60,2,2,1,sim,sim,não,não,não,sim,não,não,sim,não,não,2000.0,200.0,50.0,Carangueijo,Oceano Índico
2,50,1,1,1,sim,não,não,não,não,não,não,não,não,não,não,1300.0,200.0,50.0,Baleia Azul,Mar de Java
3,60,2,2,1,sim,sim,não,não,não,não,não,não,não,não,não,1800.0,100.0,20.0,Baleia Azul,Oceano Índico
4,120,4,3,2,sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,sim,3800.0,500.0,200.0,Tubarão,Oceano Pacífico


In [227]:
resultados_df.dtypes

área                      int64
quartos                   int64
banheiros                 int64
vagas garagem             int64
mobiliado                object
portaria 24h             object
elevador                 object
piscina                  object
churrasqueira            object
salão de festas          object
academia                 object
playground               object
quadra poliesportiva     object
salão de jogos           object
aceita animais           object
aluguel                 float64
condomínio              float64
iptu                    float64
corretora                object
localizacao              object
dtype: object

### 3.3) Coletando as imagens da primeira página

#### 3.3.1) Criando um diretório para as imagens

In [228]:
import os

In [229]:
# os.makedirs('imagens')

#### 3.3.2) Obtendo as imagens

In [230]:
soup_busca.find('div', {'class': 'ad-card-list'})

<div class="ad-card-list">
<p>21 resultados obtidos - Página 1</p>
<div class="ad-card">
<img class="apto-img" src="imagens/apto-01.jpg"/>
<div class="ad-card-info">
<h2>Lindo apartamento para alugar</h2>
<ul class="features">
<li><img src="imagens/area.png"/> 100 m²</li>
<li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
<li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>
<li><img src="imagens/parking.png"/> 2 vaga(s)</li>
</ul>
<ul class="resources">
<li>Mobiliado</li>
<li>Portaria 24h</li>
<li>Elevador</li>
<li>Piscina</li>
<li>Churrasqueira</li>
<li>Salão de Festas</li>
<li>Academia</li>
<li>Playground</li>
<li>Quadra poliesportiva</li>
<li>Salão de jogos</li>
<li>Aceita animais</li>
</ul>
<p>Localização: Oceano Pacífico</p>
</div>
<div class="ad-card-price">
<p>Aluguel: R$ 4.000,00</p>
<p>Condomínio: 500,00</p>
<p>IPTU: R$ 100,00</p>
<p>Corretora: Tubarão</p>
</div>
</div>
<div class="ad-card">
<img class="apto-img" src="imagens/apto-02.jpg"/>
<div class="ad-card-info">
<h2

In [231]:
soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'})

[<div class="ad-card">
 <img class="apto-img" src="imagens/apto-01.jpg"/>
 <div class="ad-card-info">
 <h2>Lindo apartamento para alugar</h2>
 <ul class="features">
 <li><img src="imagens/area.png"/> 100 m²</li>
 <li><img src="imagens/bedrooms.png"/> 3 quarto(s)</li>
 <li><img src="imagens/toilet.png"/> 2 banheiro(s)</li>
 <li><img src="imagens/parking.png"/> 2 vaga(s)</li>
 </ul>
 <ul class="resources">
 <li>Mobiliado</li>
 <li>Portaria 24h</li>
 <li>Elevador</li>
 <li>Piscina</li>
 <li>Churrasqueira</li>
 <li>Salão de Festas</li>
 <li>Academia</li>
 <li>Playground</li>
 <li>Quadra poliesportiva</li>
 <li>Salão de jogos</li>
 <li>Aceita animais</li>
 </ul>
 <p>Localização: Oceano Pacífico</p>
 </div>
 <div class="ad-card-price">
 <p>Aluguel: R$ 4.000,00</p>
 <p>Condomínio: 500,00</p>
 <p>IPTU: R$ 100,00</p>
 <p>Corretora: Tubarão</p>
 </div>
 </div>,
 <div class="ad-card">
 <img class="apto-img" src="imagens/apto-02.jpg"/>
 <div class="ad-card-info">
 <h2>Ótimo lugar para morar</h2>
 

In [232]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    print(resultado.img)

<img class="apto-img" src="imagens/apto-01.jpg"/>
<img class="apto-img" src="imagens/apto-02.jpg"/>
<img class="apto-img" src="imagens/apto-03.jpg"/>
<img class="apto-img" src="imagens/apto-04.jpg"/>
<img class="apto-img" src="imagens/apto-05.jpg"/>


In [233]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    print(resultado.img.get('src'))

imagens/apto-01.jpg
imagens/apto-02.jpg
imagens/apto-03.jpg
imagens/apto-04.jpg
imagens/apto-05.jpg


In [234]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    print(resultado.img.get('src').replace('imagens/',''))

apto-01.jpg
apto-02.jpg
apto-03.jpg
apto-04.jpg
apto-05.jpg


In [235]:
endereco = 'https://ocean-web-scraping.herokuapp.com/'

for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    print(endereco + resultado.img.get('src'))

https://ocean-web-scraping.herokuapp.com/imagens/apto-01.jpg
https://ocean-web-scraping.herokuapp.com/imagens/apto-02.jpg
https://ocean-web-scraping.herokuapp.com/imagens/apto-03.jpg
https://ocean-web-scraping.herokuapp.com/imagens/apto-04.jpg
https://ocean-web-scraping.herokuapp.com/imagens/apto-05.jpg


In [236]:
from urllib.request import urlretrieve

In [237]:
for resultado in soup_busca.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
    endereco_imagem = endereco + resultado.img.get('src')
    nome_imagem = resultado.img.get('src').replace('imagens/','')
    
    urlretrieve(endereco_imagem, '/working/imagens/' + nome_imagem)

FileNotFoundError: [Errno 2] No such file or directory: '/working/imagens/apto-01.jpg'

#### 3.3.3) Compactando todas as imagens para baixar posteriormente

In [None]:
from zipfile import ZipFile

In [None]:
with ZipFile('imagens.zip', 'w') as zf:
    for pasta_principal, sub_pastas, arquivos in os.walk('/kaggle/working/imagens/'):
        for arquivo in arquivos:
            pasta = os.path.join(pasta_principal, arquivo)
            zf.write(pasta)

### 3.4) E se eu quiser coletar todos os resultados da busca por imóveis?

#### 3.4.1) Dados gerais

In [None]:
resutados_lista = []

In [None]:
for i in range(1,6):
    url_busca_todos = 'https://ocean-web-scraping.herokuapp.com/results&page=' + str(i) + '.html'
    print(url_busca_todos)
    response_busca_todos = urlopen(url_busca_todos)
    html_busca_todos = response_busca_todos.read()
    soup_busca_todos = BeautifulSoup(html_busca_todos, 'html.parser')
    
    for resultado in soup_busca_todos.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
        caracteristicas = resultado.find('ul', {'class': 'features'})
        recursos = resultado.find('ul', {'class': 'resources'})
        precos_corretora = resultado.find('div', {'class': 'ad-card-price'})
        localizacao = resultado.find('div', {'class': 'ad-card-info'}).find('p')

        resutado_dict = {}

        resutado_dict['área'] = int(caracteristicas.find_all('li')[0].get_text().replace(' ','').replace('m²',''))
        resutado_dict['quartos'] = int(caracteristicas.find_all('li')[1].get_text().replace(' ','').replace('quarto(s)',''))
        resutado_dict['banheiros'] = int(caracteristicas.find_all('li')[2].get_text().replace(' ','').replace('banheiro(s)',''))
        resutado_dict['vagas garagem'] = int(caracteristicas.find_all('li')[3].get_text().replace(' ','').replace('vaga(s)',''))

        for recur in recursos.find_all('li'):
            resutado_dict[recur.get_text().lower()] = 'sim'

        resutado_dict['aluguel'] = float(precos_corretora.find_all('p')[0].get_text().replace('Aluguel: R$ ','').replace('.','').replace(',','.'))
        resutado_dict['condomínio'] = float(precos_corretora.find_all('p')[1].get_text().replace('Condomínio: ','').replace('.','').replace(',','.'))
        resutado_dict['iptu'] = float(precos_corretora.find_all('p')[2].get_text().replace('IPTU: R$ ','').replace('.','').replace(',','.'))
        resutado_dict['corretora'] = precos_corretora.find_all('p')[3].get_text().replace('Corretora: ','')

        resutado_dict['localizacao'] = localizacao.get_text().replace('Localização: ','')

        resutados_lista.append(resutado_dict)

In [None]:
resultados_df = pd.DataFrame(resutados_lista)
resultados_df = resultados_df.fillna(value='não')
resultados_df

#### Salvando toda a base de dados

In [None]:
resultados_df.to_csv('./resultados.csv', sep = ';', index = False, encoding = 'utf-8')

#### 3.4.2) Imagens

In [None]:
for i in range(1,6):
    url_busca_todos = 'https://ocean-web-scraping.herokuapp.com/results&page=' + str(i) + '.html'
    print(url_busca_todos)
    response_busca_todos = urlopen(url_busca_todos)
    html_busca_todos = response_busca_todos.read()
    soup_busca_todos = BeautifulSoup(html_busca_todos, 'html.parser')
    
    endereco = 'https://ocean-web-scraping.herokuapp.com/'
    
    for resultado in soup_busca_todos.find('div', {'class': 'ad-card-list'}).find_all('div', {'class': 'ad-card'}):
        endereco_imagem = endereco + resultado.img.get('src')
        nome_imagem = resultado.img.get('src').replace('imagens/','')
    
        urlretrieve(endereco_imagem, '/working/imagens/' + nome_imagem)

In [None]:
with ZipFile('imagens.zip', 'w') as zf:
    for pasta_principal, sub_pastas, arquivos in os.walk('/working/imagens/'):
        for arquivo in arquivos:
            pasta = os.path.join(pasta_principal, arquivo)
            zf.write(pasta)

## 4) Coletando a lista de contato das corretoras

In [None]:
lista_corretoras = []
lista_nomes = []
lista_contatos = []
contatos_corretoras_dict = {}

### 4.1) Coletando dados da corretora 'Tubarão'

In [None]:
soup_corretoras.find('tbody')

In [None]:
soup_corretoras.find('tbody').find_all('tr')

In [None]:
soup_corretoras.find('tbody').find_all('tr')[0]

In [None]:
soup_corretoras.find('tbody').find_all('tr')[0].find_all('td')

In [None]:
print('Corretora: ', soup_corretoras.find('tbody').find_all('tr')[0].find_all('td')[0].get_text())
print('Contatos: ', soup_corretoras.find('tbody').find_all('tr')[0].find_all('td')[1].get_text())

In [None]:
soup_corretoras.find('tbody').find_all('tr')[0].find_all('td')[1].get_text().split(' - Fone:')

In [None]:
print('Corretora: ', soup_corretoras.find('tbody').find_all('tr')[0].find_all('td')[0].get_text())

contato = soup_corretoras.find('tbody').find_all('tr')[0].find_all('td')[1].get_text().split(' - Fone:')
print('Nome: ', contato[0])
print('Telefone: ', contato[1])

#### Salvando os dados nas listas

In [None]:
lista_corretoras.append(soup_corretoras.find('tbody').find_all('tr')[0].find_all('td')[0].get_text())
lista_nomes.append(contato[0])
lista_contatos.append(contato[1])

In [None]:
lista_corretoras, lista_nomes, lista_contatos

### 4.2) Coletando dados da corretora 'Carangueijo'

In [None]:
soup_corretoras.find('tbody').find_all('tr')[1]

In [None]:
soup_corretoras.find('tbody').find_all('tr')[1].find_all('td')

#### Problema de aplicar a mesma solução da corretora 'Tubarão'

In [None]:
soup_corretoras.find('tbody').find_all('tr')[1].find_all('td')[1].get_text().split(' - Fone:')

#### Resolvendo o problema

In [None]:
soup_corretoras.find('tbody').find_all('tr')[1].find_all('td')[1].get_text().split('; ')

In [None]:
for item in soup_corretoras.find('tbody').find_all('tr')[1].find_all('td')[1].get_text().split('; '):
    print(item.split(' - Fone:'))

In [None]:
print('Corretora: ', soup_corretoras.find('tbody').find_all('tr')[1].find_all('td')[0].get_text())

contatos = soup_corretoras.find('tbody').find_all('tr')[1].find_all('td')[1].get_text().split('; ')

for contato in contatos:
    contato = contato.split(' - Fone:')
    print('Nome: ', contato[0])
    print('Telefone: ', contato[1])

#### Salvando os dados nas listas

In [None]:
contatos = soup_corretoras.find('tbody').find_all('tr')[1].find_all('td')[1].get_text().split('; ')

for contato in contatos:
    lista_corretoras.append(soup_corretoras.find('tbody').find_all('tr')[1].find_all('td')[0].get_text())
    
    contato = contato.split(' - Fone:')
    
    lista_nomes.append(contato[0])
    lista_contatos.append(contato[1])

In [None]:
lista_corretoras, lista_nomes, lista_contatos

### 4.3) Coletando dados da corretora 'Baleia Azul'

In [None]:
soup_corretoras.find('tbody').find_all('tr')[2]

In [None]:
soup_corretoras.find('tbody').find_all('tr')[2].find_all('td')

In [None]:
soup_corretoras.find('tbody').find_all('tr')[2].find_all('td')[1].find_all('li')

In [None]:
print('Corretora: ', soup_corretoras.find('tbody').find_all('tr')[2].find_all('td')[0].get_text())

contatos = soup_corretoras.find('tbody').find_all('tr')[2].find_all('td')[1].find_all('li')

for contato in contatos:
    contato = contato.get_text().split(' - Fone:')
    print('Nome: ', contato[0])
    print('Telefone: ', contato[1])

#### Salvando os dados nas listas

In [None]:
contatos = soup_corretoras.find('tbody').find_all('tr')[2].find_all('td')[1].find_all('li')

for contato in contatos:
    lista_corretoras.append(soup_corretoras.find('tbody').find_all('tr')[2].find_all('td')[0].get_text())
    
    contato = contato.get_text().split(' - Fone:')
    
    lista_nomes.append(contato[0])
    lista_contatos.append(contato[1])

In [None]:
lista_corretoras, lista_nomes, lista_contatos

### 4.4) Coletando dados da corretora 'Enguia'

In [None]:
!pip install tabula-py

In [None]:
import tabula

In [None]:
soup_corretoras.find('tbody').find_all('tr')[3].find_all('td')

In [None]:
soup_corretoras.find('tbody').find_all('tr')[3].find_all('td')[1]

In [None]:
soup_corretoras.find('tbody').find_all('tr')[3].find_all('td')[1].find('a')

In [None]:
soup_corretoras.find('tbody').find_all('tr')[3].find_all('td')[1].find('a').get('href')

In [None]:
nome_pdf = soup_corretoras.find('tbody').find_all('tr')[3].find_all('td')[1].find('a').get('href')
arquivo = 'https://ocean-web-scraping.herokuapp.com/' + nome_pdf
arquivo

In [None]:
corretora_enguia_df = tabula.read_pdf(arquivo, pages='all', multiple_tables=False)[0]

In [None]:
corretora_enguia_df

In [None]:
print('Corretora: ', soup_corretoras.find('tbody').find_all('tr')[3].find_all('td')[0].get_text())

for nome,contato in zip(corretora_enguia_df['Corretor(a)'].to_list(),
                        corretora_enguia_df['Contato'].to_list()):
    print(nome)
    print(contato.replace('Fone:',''))

#### Salvando os dados nas listas

In [None]:
for nome,contato in zip(corretora_enguia_df['Corretor(a)'].to_list(),
                        corretora_enguia_df['Contato'].to_list()):
    lista_corretoras.append(soup_corretoras.find('tbody').find_all('tr')[3].find_all('td')[0].get_text())
    lista_nomes.append(nome)
    lista_contatos.append(contato.replace('Fone:',''))

In [None]:
lista_corretoras, lista_nomes, lista_contatos

### 4.5) Persistindo todas as informações das corretoras

In [None]:
contatos_corretoras_dict.update({'Corretoras': lista_corretoras,
                                 'Nomes': lista_nomes,
                                 'Contatos': lista_contatos})

contatos_corretoras_dict

In [None]:
contatos_corretoras_df = pd.DataFrame.from_dict(contatos_corretoras_dict)

contatos_corretoras_df

In [None]:
contatos_corretoras_df.to_csv('./contatos_corretoras.csv', sep = ';', index = False, encoding = 'utf-8')

## 5) Análise dos dados coletados

In [None]:
resultados_df

#### 5.1) Eu gostaria de pagar um aluguel de no máximo R$ 1.800,00 e morar em um apto de pelo menos 2 quartos e com 1 vaga na garagem, no Oceano Atlântico

In [None]:
busca = resultados_df['aluguel'] <= 1800
busca

In [None]:
len(resultados_df.loc[busca])

In [None]:
resultados_df.loc[busca]

In [None]:
busca = ((resultados_df['aluguel'] <= 1800) & (resultados_df['quartos'] >= 2))

In [None]:
len(resultados_df.loc[busca])

In [None]:
resultados_df.loc[busca]

In [None]:
busca = ((resultados_df['aluguel'] <= 1800) & 
         (resultados_df['quartos'] >= 2) & 
         (resultados_df['vagas garagem'] >= 1))

In [None]:
len(resultados_df.loc[busca])

In [None]:
resultados_df.loc[busca]

In [None]:
busca = ((resultados_df['aluguel'] <= 1800) & 
         (resultados_df['quartos'] >= 2) & 
         (resultados_df['vagas garagem'] >= 1) &
         (resultados_df['localizacao'] == 'Oceano Atlântico'))

In [None]:
len(resultados_df.loc[busca])

In [None]:
resultados_df.loc[busca]

#### Entrando em contato com as corretoras

In [None]:
contatos_corretoras_df

In [None]:
busca_corretora = contatos_corretoras_df['Corretoras'] == 'Carangueijo'

In [None]:
contatos_corretoras_df.loc[busca_corretora]

## 6) Exemplos de outras análises

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
sns.set(font_scale=1.4)
sns.set_style({'font.family': 'serif',
               'fontname': 'Times New Roman'})

### Quem tem mais/menos imóveis?

In [None]:
resultados_df['localizacao'].value_counts()

In [None]:
resultados_df['localizacao'].value_counts().sort_values().plot(kind = 'barh', 
                                                               figsize=(8, 5))

> ### Quais são os locais com imóveis maiores/menores e com os imóveis mais baratos/caros?

In [None]:
fig_dims = (8, 6)
fig, ax = plt.subplots(figsize=fig_dims)

sns.scatterplot(data = resultados_df, 
                x = 'área', 
                y = 'aluguel', 
                hue = 'localizacao',
                s = 200,
                ax = ax)