## Treinamento de Web Scraping com a biblioteca BeautifulSoup

### O website utilizado para o treinamento será o site da [Imobiliária Imovirtual](https://www.imovirtual.com/comprar/apartamento/viseu/) e o navegador utilizado será o [Google Chrome](https://www.google.com/intl/pt-BR/chrome/).

In [1]:
# Importação de bibliotecas:

from bs4 import BeautifulSoup
import urllib.request as urllib_request
import pandas as pd
from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError
import re

### 1. Requisição das informações:

In [2]:
# Realizando a requisição do HTML:

url = 'https://www.imovirtual.com/comprar/apartamento/viseu/'

headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}

try:
    
    req = Request(url, headers = headers, method = 'GET')
    response = urlopen(req)
    
except HTTPError as e:
    print(e.status, e.reason)
    
except URLError as e:
    print(e.reason)

In [3]:
# Criação de variáveis e do objeto BeautifulSoup:

html = response.read().decode('utf-8')

soup = BeautifulSoup(html, 'html.parser')

### 2. Tratamento preliminar da informação coletada:

In [9]:
# Separando as informações para tirar os espaços em excesso:

html = " ".join(html.split()).replace('> <', '><')
soup = BeautifulSoup(html, 'html.parser')

### 3. Variáveis para armazenar a informação coletada:

In [10]:
# Cada card (informações de 1 dos imóveis do site) será armazenado em um dicionário:

card = {}

# Será criada uma lista com todos os cards do site, isto é, cada item da lista será um card:
# Lembrando que cada card é representado pelo dicionário acima.

cards = []

### 4. Coleta das informações de 1 card (1 anúncio):

#### 4.1 Coleta das informações referentes ao preço do imóvel:

In [14]:
# Preço:

anuncio_preco = soup.find('li', {'class':'offer-item-price'}).get_text()
anuncio_preco.strip().replace(' ','')

'130000€'

In [15]:
# Tratamento da informação coletada:

preco=re.findall(r'[0-9]', anuncio_preco) 
preco = int(''.join(preco))
preco

130000