## Web Scraping com a biblioteca BeautifulSoup

### O website utilizado será o site da [Imobiliária Imovirtual](https://www.imovirtual.com/comprar/apartamento/viseu/) e o navegador utilizado será o [Google Chrome](https://www.google.com/intl/pt-BR/chrome/).

***

In [1]:
# Importação de bibliotecas:

from bs4 import BeautifulSoup
import urllib.request as urllib_request
import pandas as pd
from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError
import re

***

### 1. Requisição das informações:

In [2]:
# Realizando a requisição do HTML:

url = 'https://www.imovirtual.com/comprar/apartamento/viseu/'

headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}

try:
    
    req = Request(url, headers = headers, method = 'GET')
    response = urlopen(req)
    
except HTTPError as e:
    print(e.status, e.reason)
    
except URLError as e:
    print(e.reason)

In [3]:
# Criação de variáveis e do objeto BeautifulSoup:

html = response.read().decode('utf-8')

soup = BeautifulSoup(html, 'html.parser')

***

### 2. Tratamento preliminar da informação coletada:

In [4]:
# Separando as informações para tirar os espaços em excesso:


split = html.split()
join = " ".join(split)
replace = " ".join(html.split()).replace('> <', '><')
soup = BeautifulSoup(html, 'html.parser')

***

### 3. Variáveis para armazenar a informação coletada:

In [5]:
# Cada card (informações de 1 dos imóveis do site) será armazenado em um dicionário:

card = {}

# Será criada uma lista com todos os cards do site, isto é, cada item da lista será um card:
# Lembrando que cada card é representado pelo dicionário acima.

cards = []

***

### 4. Coleta das informações de 1 card (1 anúncio):

#### 4.1 Coleta das informações referentes ao preço do imóvel:

In [6]:
# Preço:

anuncio_preco = soup.find('li', {'class':'offer-item-price'}).get_text()
anuncio_preco.strip().replace(' ','')

'130000€'

In [7]:
# Tratamento da informação coletada:

preco=re.findall(r'[0-9]', anuncio_preco) 
preco = int(''.join(preco))
preco

130000

In [8]:
# Área:

anuncio_area = soup.find('li', {'class':'hidden-xs offer-item-area'}).get_text()
anuncio_area

'165 m²'

#### 4.1 Funções de formatação:

In [9]:
# Definição de função par tratamento de informações - texto >> numeral:

def texto_numero(texto):
    numero = re.findall(r'[0-9]', texto)
    numero = int(''.join(numero))
    return numero

In [10]:
# Conversão da informação em formato texto para o formato numérico conveniente:

area = texto_numero(anuncio_area)
area

165

In [11]:
# Preço por metro quadrado:

anuncio_m2 = soup.find('li', {'class':'hidden-xs offer-item-price-per-m'}).get_text()
anuncio_m2

'788 €/m²'

In [12]:
# Conversão da informação em formato texto para o formato numérico conveniente:

preco_m2 = texto_numero(anuncio_m2)
preco_m2

788

In [13]:
# Quantidade de quartos:

anuncio_quartos = soup.find('li', {'class':'offer-item-rooms hidden-xs'}).get_text()
anuncio_quartos

'T4'

In [14]:
# Conversão da informação em formato texto para o formato numérico conveniente:

quartos = texto_numero(anuncio_quartos)
quartos

4

In [15]:
anuncio_comp = soup.find('ul', {'class': 'parameters-view hidden-xs'}).get_text()
#anuncio_comp.replace('\n', ' ').split()
anuncio_2 = anuncio_comp.replace('\n', ' ')
anuncio_2

' Casas de Banho: 4 ou mais Usado '

In [16]:
banheiros = texto_numero(anuncio_2)
banheiros

4

In [17]:
# Status do apartamento:

status = anuncio_2.replace('\n', ' ').split()[-1]
status

'Usado'

***

### 5. Criação do dicionário do 1º anúncio:

In [18]:
#card['area'] = area

In [19]:
#card['quartos'] = quartos

In [20]:
#card['banheiros'] = banheiros 

In [21]:
#card['preco'] = preco

In [22]:
#card['preco_m2'] = preco_m2

In [23]:
#card['status'] = status

In [24]:
#card

***

### 6. Lista de todos os anúncios da primeira página do site:

In [25]:
anuncios = soup.find('div', {'class' : 'col-md-content section-listing__row-content'}).find_all('article')

In [26]:
# Quantidade de anúncios por página:

len(anuncios)

24

In [27]:
# SOMENTE PARA VISUALIZAÇÃO:

# Pular 4 linhas entre um anúncio e outro:

#for anuncio in anuncios:
    
    # Pulando 4 linhas entre um anúncio e outro:
    # print(str(anuncio) + '\n\n\n\n')

***

### 7. Rotina para coleta das informações dos anúncios da primeira página:

In [31]:
anuncios = soup.find('div', {'class' : 'col-md-content section-listing__row-content'}).find_all('article')
cards=[]
card={}

for anuncio in anuncios:
    
    anuncio_preco = anuncio.find('li', {'class':'offer-item-price'}).get_text()
    preco = texto_numero(anuncio_preco)
    card['preco'] = preco

    anuncio_area = anuncio.find('li', {'class':'hidden-xs offer-item-area'}).get_text()
    area = texto_numero(anuncio_area)    
    card['area'] = area
    
    anuncio_m2 = anuncio.find('li', {'class':'hidden-xs offer-item-price-per-m'}).get_text()
    m2 = texto_numero(anuncio_m2)
    card['preco_m2'] = m2
    
    anuncio_quartos = anuncio.find('li', {'class':'offer-item-rooms hidden-xs'}).get_text()
    quartos = texto_numero(anuncio_quartos)
    card['quartos'] = quartos
    
    #anuncio_comp = anuncio.find('ul', {'class': 'parameters-view hidden-xs'}).get_text()
    #anuncio_comp.replace('\n', ' ').split()
    #anuncio_2 = anuncio_comp.replace('\n', ' ')
    
    #banheiros = texto_numero(anuncio_2)
    #status = anuncio_2.replace('\n', ' ').split()[-1]
    
    #card['banheiros'] = banheiros
    #card['status'] = status
    
# Adicionando resultado a lista cards
    cards.append(card)
    card={}
    
# Criando um DataFrame com os resultados

apartamentos = pd.DataFrame(cards)
#apartamentos.to_csv('data/aptos.csv', sep=';', index = False, encoding = 'utf-8-sig')
apartamentos

Unnamed: 0,preco,area,preco_m2,quartos
0,130000,165,788,4
1,80000,115,696,3
2,230000,118,1949,3
3,135000,119,1134,3
4,112000,137,818,3
5,160000,167,958,5
6,250000,184,1359,2
7,205000,119,1723,3
8,220000,142,1549,4
9,180000,13220,1362,3
