<a href="https://colab.research.google.com/github/leticiaplang/web_scraping/blob/main/web_sacraping_imoveis_b4s_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Instalações e Importações

In [1]:
!pip install beautifulsoup4



In [2]:
# Imports
import requests
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
import regex as re

%matplotlib inline

## Definindo a URL e B4S

In [3]:
## Preço Metro² Florianópolis
url = 'https://www.agenteimovel.com.br/mercado-imobiliario/a-venda/sc/florianopolis/'

# Usaremos o request para realizar a requisição
house_response = requests.get(url)

# Conversão da resposta para HTML Usando Beautiful Soup
house_soup = BeautifulSoup(house_response.text, 'html.parser')

# Titulo da Página
house_soup.title

<title>Preços &amp; Valores de Imóveis à Venda do M2 em Florianópolis SC | Agente Imóvel</title>

## Valores por tipo de imóvel

In [4]:
tables_house = house_soup.find('table')

In [5]:
tables_house

<table class="dados">
<tr>
<th>N° quartos</th>
<th>N° de imóveis</th>
<th>Aug'2021</th>
<th>Anual</th>
<th>1 mês antes</th>
<th>3 meses antes</th>
<th>1 ano antes</th>
</tr>
<tr>
<td>
                                                                1
                                                            </td>
<td>2.935</td>
<td>R$ 8.598</td>
<td class="green">+17.42%</td>
<td>R$ 8.461</td>
<td>R$ 8.318</td>
<td>R$ 7.322</td>
</tr>
<tr>
<td>
                                                                2
                                                            </td>
<td>13.964</td>
<td>R$ 7.304</td>
<td class="green">+19.55%</td>
<td>R$ 7.171</td>
<td>R$ 7.058</td>
<td>R$ 6.110</td>
</tr>
<tr>
<td>
                                                                3
                                                            </td>
<td>18.809</td>
<td>R$ 7.835</td>
<td class="green">+17.59%</td>
<td>R$ 7.734</td>
<td>R$ 7.614</td>
<td>R$ 6.663</td>
</tr>
<tr>
<td>
                

In [6]:
## Aqui Temos todas as linhas das Tabelas
linhas = tables_house.findAll()

In [7]:
linhas

[<tr>
 <th>N° quartos</th>
 <th>N° de imóveis</th>
 <th>Aug'2021</th>
 <th>Anual</th>
 <th>1 mês antes</th>
 <th>3 meses antes</th>
 <th>1 ano antes</th>
 </tr>,
 <th>N° quartos</th>,
 <th>N° de imóveis</th>,
 <th>Aug'2021</th>,
 <th>Anual</th>,
 <th>1 mês antes</th>,
 <th>3 meses antes</th>,
 <th>1 ano antes</th>,
 <tr>
 <td>
                                                                 1
                                                             </td>
 <td>2.935</td>
 <td>R$ 8.598</td>
 <td class="green">+17.42%</td>
 <td>R$ 8.461</td>
 <td>R$ 8.318</td>
 <td>R$ 7.322</td>
 </tr>,
 <td>
                                                                 1
                                                             </td>,
 <td>2.935</td>,
 <td>R$ 8.598</td>,
 <td class="green">+17.42%</td>,
 <td>R$ 8.461</td>,
 <td>R$ 8.318</td>,
 <td>R$ 7.322</td>,
 <tr>
 <td>
                                                                 2
                                                       

In [8]:
cabecalho = tables_house.findAll('th')
cabecalho

[<th>N° quartos</th>,
 <th>N° de imóveis</th>,
 <th>Aug'2021</th>,
 <th>Anual</th>,
 <th>1 mês antes</th>,
 <th>3 meses antes</th>,
 <th>1 ano antes</th>]

In [9]:
valores = tables_house.findAll('td')
valores

[<td>
                                                                 1
                                                             </td>,
 <td>2.935</td>,
 <td>R$ 8.598</td>,
 <td class="green">+17.42%</td>,
 <td>R$ 8.461</td>,
 <td>R$ 8.318</td>,
 <td>R$ 7.322</td>,
 <td>
                                                                 2
                                                             </td>,
 <td>13.964</td>,
 <td>R$ 7.304</td>,
 <td class="green">+19.55%</td>,
 <td>R$ 7.171</td>,
 <td>R$ 7.058</td>,
 <td>R$ 6.110</td>,
 <td>
                                                                 3
                                                             </td>,
 <td>18.809</td>,
 <td>R$ 7.835</td>,
 <td class="green">+17.59%</td>,
 <td>R$ 7.734</td>,
 <td>R$ 7.614</td>,
 <td>R$ 6.663</td>,
 <td>
                                                                 4
                                                             </td>,
 <td>5.830</td>,
 <td>R$ 7.906</td>,
 <td cl

### Data cleaning

In [10]:
n_quartos = [valores[0], valores[7], valores[14], valores[21], valores[28]]

n_quartos = [re.sub('[^0-9]', '', str(n)) for n in n_quartos] # excluí o +

n_quartos.append('total')

n_quartos[4] = '4+'

n_quartos

['1', '2', '3', '4', '4+', 'total']

In [11]:
n_imoveis = [valores[1],valores[8],valores[15],valores[22],valores[29],valores[36]]
n_imoveis = [re.sub('[^0-9]', '', str(n)) for n in n_imoveis]
n_imoveis 

['2935', '13964', '18809', '5830', '2712', '44301']

In [13]:
aug2021 = [valores[2],valores[9],valores[16],valores[23],valores[30],valores[37]]
aug2021 = [re.sub('[^0-9]', '', str(n)) for n in aug2021]
aug2021

['8598', '7304', '7835', '7906', '7335', '7697']

In [None]:
# class = [valores[3],valores[10],valores[17],valores[24],valores[31],valores[38]]


In [14]:
mes_antes = [valores[4],valores[11],valores[18],valores[25],valores[32],valores[39]]
mes_antes = [re.sub('[^0-9]', '', str(n)) for n in mes_antes]
mes_antes

['8461', '7171', '7734', '7840', '7278', '7591']

In [15]:
tres_meses_antes = [valores[5],valores[12],valores[19],valores[26],valores[33],valores[40]]
tres_meses_antes = [re.sub('[^0-9]', '', str(n)) for n in tres_meses_antes]

In [16]:
um_ano_antes = [valores[6],valores[13],valores[20],valores[27],valores[34],valores[41]]
um_ano_antes = [re.sub('[^0-9]', '', str(n)) for n in um_ano_antes]
um_ano_antes

['7322', '6110', '6663', '6890', '6545', '6545']

In [17]:
df = pd.DataFrame({'n_quartos': n_quartos, 'n_imoveis': n_imoveis, 'aug2021': aug2021, 'mes_antes': mes_antes, 'tres_meses_antes': tres_meses_antes, 'um_ano_antes':um_ano_antes})
df


Unnamed: 0,n_quartos,n_imoveis,aug2021,mes_antes,tres_meses_antes,um_ano_antes
0,1,2935,8598,8461,8318,7322
1,2,13964,7304,7171,7058,6110
2,3,18809,7835,7734,7614,6663
3,4,5830,7906,7840,7742,6890
4,4+,2712,7335,7278,7223,6545
5,total,44301,7697,7591,7480,6545


## Tabelas com Pandas

In [35]:
#table_neig = house_soup.find('table')

#bairro = table_neig.findAll("<div class='table'> = $0")

#bairro


[]

In [48]:
dfs = pd.read_html('https://www.agenteimovel.com.br/mercado-imobiliario/a-venda/sc/florianopolis/')

In [49]:
tipo_imovel = dfs[0]
tipo_imovel

Unnamed: 0,N° quartos,N° de imóveis,Aug'2021,Anual,1 mês antes,3 meses antes,1 ano antes
0,1,2.935,R$ 8.598,+17.42%,R$ 8.461,R$ 8.318,R$ 7.322
1,2,13.964,R$ 7.304,+19.55%,R$ 7.171,R$ 7.058,R$ 6.110
2,3,18.809,R$ 7.835,+17.59%,R$ 7.734,R$ 7.614,R$ 6.663
3,4,5.83,R$ 7.906,+14.75%,R$ 7.840,R$ 7.742,R$ 6.890
4,4+,2.712,R$ 7.335,+12.07%,R$ 7.278,R$ 7.223,R$ 6.545
5,Total,44.301,R$ 7.697,+17.60%,R$ 7.591,R$ 7.480,R$ 6.545


In [50]:
bairro = dfs[1]
bairro

Unnamed: 0,Bairro,Alteração Mensal,Preço/M²,Preço médio
0,Agronômica,+0.88%,R$ 11.564,R$ 1.919.249
1,Jurerê Internacional,+1.79%,R$ 11.490,R$ 4.018.146
2,Jurerê,+1.38%,R$ 10.597,R$ 1.654.089
3,Centro,+1.04%,R$ 9.908,R$ 1.386.824
4,Praia Brava,+2.70%,R$ 9.626,R$ 1.932.722
5,Cacupé,+2.25%,R$ 9.502,R$ 4.359.080
6,João Paulo,+1.74%,R$ 8.664,R$ 1.996.573
7,Itacorubi,+1.07%,R$ 8.217,R$ 929.758
8,Campeche,+1.21%,R$ 8.073,R$ 1.264.142
9,Trindade,+0.95%,R$ 7.794,R$ 761.951
