# 1. Web Scraping

## *Web Scraping* é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.

### O [website](https://alura-site-scraping.herokuapp.com/index.php) utilizado para o treinamento foi elaborado pelo curso ALURA para fins didáticos.

### O navegador utilizado será o [Chrome](https://www.google.com/intl/pt-BR/chrome/).

In [1]:
# Importação de bibliotecas:

from bs4 import BeautifulSoup
import urllib.request as urllib_request
import pandas as pd
from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError

***

# 2. Coletando dados do site Alura Motors:

### 2.1 Obtenção do html:

In [2]:
url = 'https://alura-site-scraping.herokuapp.com/index.php'

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'}

# Fazendo (ou tentando!), agora, a requisição:

try:
    
    req = Request(url,headers = headers)
    response = urlopen(req)

except HTTPError as e:
    print(e.status, e.reason)
    
except URLError as e:
    print(e.reason)

### 2.2 Criação de variáveis e do objeto BeautifulSoup:

In [3]:
html = response.read().decode('utf-8')

soup = BeautifulSoup(html, 'html.parser')

In [4]:
# Cada card (anúncio de automóvel do site) será armazenado em um dicionário

card = {}

# Será criada uma lista com todos os cards do site:

cards = []

### 2.3 Obtenção dos dados do primeiro CARD:

In [5]:
anuncio = soup.find('div', {'class':'well card'})
anuncio

<div class="well card">
<div class="col-md-3 image-card">
<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>
</div>
<div class="col-md-6 body-card">
<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>
<p class="txt-category badge badge-secondary inline">USADO</p>
<p class="txt-motor">Motor 1.8 16v</p>
<p class="txt-description">Ano 1993 - 55.286 km</p>
<ul class="lst-items">
<li class="txt-items">► 4 X 4</li>
<li class="txt-items">► Câmera de estacionamento</li>
<li class="txt-items">► Controle de tração</li>
<li class="txt-items">► Sensor de estacionamento</li>
<li class="txt-items">...</li>
</ul>
<p class="txt-location">Belo Horizonte - MG</p>
</div>
<div class="col-md-3 value-card">
<div class="value">
<p class="txt-value">R$ 338.000</p>
</div>
</div>
</div>

### 2.4 Obtenção do valor do veículo coletado no primeiro CARD:

In [6]:
anuncio.find('div', {'class': 'value-card'})

<div class="col-md-3 value-card">
<div class="value">
<p class="txt-value">R$ 338.000</p>
</div>
</div>

In [7]:
# Mais direto ao ponto:

anuncio.find('p', {'class': 'txt-value'}).getText()

'R$ 338.000'

### 2.5 Obtenção das informações sobre o veículo anunciado (TAGS p):

In [8]:
# Trabalhando primeiro com as TAGS do tipo p:

infos = anuncio.find('div', {'class' : 'body-card'}).findAll('p')
infos

[<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>,
 <p class="txt-category badge badge-secondary inline">USADO</p>,
 <p class="txt-motor">Motor 1.8 16v</p>,
 <p class="txt-description">Ano 1993 - 55.286 km</p>,
 <p class="txt-location">Belo Horizonte - MG</p>]

In [9]:
# Criação de um for para coleta das informações do CARD:

for info in infos:
    
    print(info.get('class'), ' - ', info.get_text())

['txt-name', 'inline']  -  LAMBORGHINI AVENTADOR
['txt-category', 'badge', 'badge-secondary', 'inline']  -  USADO
['txt-motor']  -  Motor 1.8 16v
['txt-description']  -  Ano 1993 - 55.286 km
['txt-location']  -  Belo Horizonte - MG


In [10]:
# Formatando a saída dos dados:

for info in infos:
    
    print(info.get('class')[0].split('-'), ' - ', info.get_text())

['txt', 'name']  -  LAMBORGHINI AVENTADOR
['txt', 'category']  -  USADO
['txt', 'motor']  -  Motor 1.8 16v
['txt', 'description']  -  Ano 1993 - 55.286 km
['txt', 'location']  -  Belo Horizonte - MG


In [11]:
# Formatando a saída de dados:

for info in infos:
    
    print(info.get('class')[0].split('-')[-1], ' - ', info.get_text())

name  -  LAMBORGHINI AVENTADOR
category  -  USADO
motor  -  Motor 1.8 16v
description  -  Ano 1993 - 55.286 km
location  -  Belo Horizonte - MG


In [12]:
# Incluindo ao dicionário CARD:

for info in infos:
    
    card[info.get('class')[0].split('-')[-1]] = info.get_text()

In [13]:
card

{'name': 'LAMBORGHINI AVENTADOR',
 'category': 'USADO',
 'motor': 'Motor 1.8 16v',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG'}

### 2.6 Obtenção das informações sobre o veículo anunciado (TAGS ul):

In [14]:
items = anuncio.find('div', {'class' : 'body-card'}).find('ul')
items

<ul class="lst-items">
<li class="txt-items">► 4 X 4</li>
<li class="txt-items">► Câmera de estacionamento</li>
<li class="txt-items">► Controle de tração</li>
<li class="txt-items">► Sensor de estacionamento</li>
<li class="txt-items">...</li>
</ul>

In [15]:
# Tags li dentro da tag ul:

items = anuncio.find('div', {'class' : 'body-card'}).find('ul').findAll('li')
items

[<li class="txt-items">► 4 X 4</li>,
 <li class="txt-items">► Câmera de estacionamento</li>,
 <li class="txt-items">► Controle de tração</li>,
 <li class="txt-items">► Sensor de estacionamento</li>,
 <li class="txt-items">...</li>]

In [16]:
# Observa-se que a última linha não contém informações (...).
# Remoção da última linha:

items.pop()

<li class="txt-items">...</li>

In [17]:
# Formatando a saída dos dados:

for item in items:
    
    print(item.getText())

► 4 X 4
► Câmera de estacionamento
► Controle de tração
► Sensor de estacionamento


In [18]:
# Formatando a saída dos dados:

for item in items:
    
    print(item.getText().replace('►', ''))

 4 X 4
 Câmera de estacionamento
 Controle de tração
 Sensor de estacionamento


In [19]:
# Criando uma lista de acessórios:

acessorios = []

for item in items:
    
    acessorios.append(item.getText().replace('►', ''))
    
acessorios

[' 4 X 4',
 ' Câmera de estacionamento',
 ' Controle de tração',
 ' Sensor de estacionamento']

In [20]:
# Colocando dentro do dicionário deste veículo:

card['itens'] = acessorios

In [21]:
card

{'name': 'LAMBORGHINI AVENTADOR',
 'category': 'USADO',
 'motor': 'Motor 1.8 16v',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG',
 'itens': [' 4 X 4',
  ' Câmera de estacionamento',
  ' Controle de tração',
  ' Sensor de estacionamento']}

### 2.7 Criação de um dataframe para amazenagem dos dados:

In [22]:
# Parâmetro orient: padrão é orientar por coluna. Orientar por index vai criar uma linha pra cada index.

veiculos = pd.DataFrame.from_dict(card, orient = 'index')
veiculos

Unnamed: 0,0
name,LAMBORGHINI AVENTADOR
category,USADO
motor,Motor 1.8 16v
description,Ano 1993 - 55.286 km
location,Belo Horizonte - MG
itens,"[ 4 X 4, Câmera de estacionamento, Controle ..."


In [23]:
# Transformar o que é linha em coluna:

veiculos = pd.DataFrame.from_dict(card, orient = 'index').T
veiculos

Unnamed: 0,name,category,motor,description,location,itens
0,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[ 4 X 4, Câmera de estacionamento, Controle ..."


### 2.8 Criação de um arquivo .csv para amazenamento dos dados:

In [24]:
# Transformando o dataset em arquivo csv:

veiculos.to_csv('data/veiculos.csv', sep = ';', index = False, encoding = 'utf-8-sig')

### 2.9 Obtenção da foto do anúncio:

In [25]:
image = anuncio.find('div', {'class' : 'image-card'}).find('img')
image

<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>

In [26]:
image.get('src')

'https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg'

### 2.10 Rotina para acessar e salvar a foto do anúncio com seu nome original:

In [27]:
# Separando o nome do arquivo no src:

image.get('src').split('/')[-1]

'lamborghini-aventador-2932196__340.jpg'

In [28]:
# Salvando as imagens na pasta img:

from urllib.request import urlretrieve

urlretrieve(image.get('src'), 'img/' + image.get('src').split('/')[-1])

('img/lamborghini-aventador-2932196__340.jpg',
 <http.client.HTTPMessage at 0x7f3ef7dced30>)

### 2.11 Coleta de todos os anúncios da página 01:

In [29]:
# Cada item da lista será um card:

soup.find('div', {'id' : 'container-cards'}).findAll('div', class_ = 'card')

[<div class="well card">
 <div class="col-md-3 image-card">
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>
 </div>
 <div class="col-md-6 body-card">
 <p class="txt-name inline">LAMBORGHINI AVENTADOR</p>
 <p class="txt-category badge badge-secondary inline">USADO</p>
 <p class="txt-motor">Motor 1.8 16v</p>
 <p class="txt-description">Ano 1993 - 55.286 km</p>
 <ul class="lst-items">
 <li class="txt-items">► 4 X 4</li>
 <li class="txt-items">► Câmera de estacionamento</li>
 <li class="txt-items">► Controle de tração</li>
 <li class="txt-items">► Sensor de estacionamento</li>
 <li class="txt-items">...</li>
 </ul>
 <p class="txt-location">Belo Horizonte - MG</p>
 </div>
 <div class="col-md-3 value-card">
 <div class="value">
 <p class="txt-value">R$ 338.000</p>
 </div>
 </div>
 </div>,
 <div class="well card">
 <div class="col-md-3 image-card">
 <img alt="

In [30]:
# Verificando quantos anúncios há em cada página (Sei que são 10):

len(soup.find('div', {'id' : 'container-cards'}).findAll('div', class_ = 'card'))

10

In [31]:
anuncios = soup.find('div', {'id' : 'container-cards'}).findAll('div', class_ = 'card')

In [32]:
for anuncio in anuncios:
    
    # Pulando 2 linhas entre um anúncio e outro:
    print(str(anuncio) + '\n\n')

<div class="well card">
<div class="col-md-3 image-card">
<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>
</div>
<div class="col-md-6 body-card">
<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>
<p class="txt-category badge badge-secondary inline">USADO</p>
<p class="txt-motor">Motor 1.8 16v</p>
<p class="txt-description">Ano 1993 - 55.286 km</p>
<ul class="lst-items">
<li class="txt-items">► 4 X 4</li>
<li class="txt-items">► Câmera de estacionamento</li>
<li class="txt-items">► Controle de tração</li>
<li class="txt-items">► Sensor de estacionamento</li>
<li class="txt-items">...</li>
</ul>
<p class="txt-location">Belo Horizonte - MG</p>
</div>
<div class="col-md-3 value-card">
<div class="value">
<p class="txt-value">R$ 338.000</p>
</div>
</div>
</div>


<div class="well card">
<div class="col-md-3 image-card">
<img alt="Foto" height="155" src="ht

***

# 3. Criação de uma rotina de scraping:

In [37]:
# Importando bibliotecas
from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd

# Declarando variável cards
cards = []


# Obtendo o HTML
response = urlopen('https://alura-site-scraping.herokuapp.com/index.php')
html = response.read().decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')

# Obtendo as TAGs de interesse
anuncios = soup.find('div', {"id": "container-cards"}).findAll('div', class_="card")

# Coletando as informações dos cards
for anuncio in anuncios:
    card = {}

    # Valor
    card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

    # Informações
    infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')
    for info in infos:
        card[info.get('class')[0].split('-')[-1]] = info.get_text()

    # Acessórios
    items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
    items.pop()
    acessorios = []
    for item in items:
        acessorios.append(item.get_text().replace('► ', ''))
    card['items'] = acessorios

# Adicionando resultado a lista cards
    cards.append(card)

    # Imagens
    image = anuncio.find('div', {'class': 'image-card'}).img
    urlretrieve(image.get('src'), 'img/' + image.get('src').split('/')[-1])

# Criando um DataFrame com os resultados

veiculos = pd.DataFrame(cards)
veiculos.to_csv('data/veiculos.csv', sep=';', index = False, encoding = 'utf-8-sig')
veiculos

Unnamed: 0,value,name,category,motor,description,location,items,opportunity
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[4 X 4, Câmera de estacionamento, Controle de ...",
1,R$ 346.000,BMW M2,USADO,Motor 3.0 32v,Ano 2018 - 83.447 km,Belo Horizonte - MG,"[Câmera de estacionamento, Controle de estabil...",
2,R$ 480.000,ALFA,USADO,Motor 1.8 16v,Ano 2004 - 19.722 km,Rio de Janeiro - RJ,"[Central multimídia, Bancos de couro, Rodas de...",
3,R$ 133.000,PUECH,USADO,Motor Diesel V8,Ano 1992 - 34.335 km,São Paulo - SP,"[Bancos de couro, Freios ABS, Rodas de liga, C...",
4,R$ 175.000,LAMBORGHINI MURCIELAGO,USADO,Motor 1.0 8v,Ano 1991 - 464 km,Belo Horizonte - MG,"[Central multimídia, Teto panorâmico, Sensor c...",
5,R$ 239.000,ASTON MARTIN,USADO,Motor Diesel V6,Ano 2004 - 50.189 km,Belo Horizonte - MG,"[Painel digital, Controle de tração, Teto pano...",OPORTUNIDADE
6,R$ 115.000,TVR,USADO,Motor 4.0 Turbo,Ano 2014 - 17.778 km,Belo Horizonte - MG,"[4 X 4, Teto panorâmico, Central multimídia, C...",
7,R$ 114.000,EXCALIBUR,USADO,Motor 3.0 32v,Ano 2009 - 81.251 km,Rio de Janeiro - RJ,"[Painel digital, Câmbio automático, Sensor de ...",
8,R$ 75.000,MCLAREN,NOVO,Motor Diesel,Ano 2019 - 0 km,São Paulo - SP,"[Central multimídia, Câmera de estacionamento,...",
9,R$ 117.000,TOYOTA,USADO,Motor 4.0 Turbo,Ano 1999 - 12.536 km,São Paulo - SP,"[Bancos de couro, Freios ABS, Piloto automátic...",OPORTUNIDADE


#### Note que foi criada a coluna 'opportunity', onde foram apontados os veículos em promoção.

***

# 4. Obtenção de todos os anúncios do site:

### 4.1 Primeiro é necessário coletar as informações necessárias sobre a quantidade de páginas com anúncios disponíveis no site:

In [38]:
soup.find('span', class_ = 'info-pages').get_text().split()[-1]

'25'

In [39]:
# Note que a informação acima é uma string. É necessário converter para valor numérico:

int(soup.find('span', class_ = 'info-pages').get_text().split()[-1])

25

### 4.2 Rotina completa:

In [40]:
# Importando bibliotecas
from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd

# Declarando variável cards
cards = []


# Obtendo o HTML e o total de páginas
response = urlopen('https://alura-site-scraping.herokuapp.com/index.php')
html = response.read().decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')
pages = int(soup.find('span', class_ = 'info-pages').get_text().split()[-1])

# Iterando por todas as páginas do site:
for i in range(pages):
    
    # Obtendo o HTML:
    # Lembrar que a contagem começa do zero, motivo pelo qual foi somado 1 ao i abaixo.
    response = urlopen('https://alura-site-scraping.herokuapp.com/index.php?page=' + str(i+1))
    html = response.read().decode('utf-8')
    soup = BeautifulSoup(html, 'html.parser')

    # Obtendo as TAGs de interesse:
    anuncios = soup.find('div', {"id": "container-cards"}).findAll('div', class_="card")

    # Coletando as informações dos cards:
    for anuncio in anuncios:
        card = {}

        # Valor:
        card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

        # Informações:
        infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')
        for info in infos:
            card[info.get('class')[0].split('-')[-1]] = info.get_text()

        # Acessórios:
        items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
        items.pop()
        acessorios = []
        for item in items:
            acessorios.append(item.get_text().replace('► ', ''))
        card['items'] = acessorios

    # Adicionando resultado a lista cards:
        cards.append(card)

        # Imagens:
        image = anuncio.find('div', {'class': 'image-card'}).img
        urlretrieve(image.get('src'), 'img/' + image.get('src').split('/')[-1])

# Criando um DataFrame com os resultados:

veiculos = pd.DataFrame(cards)
veiculos.to_csv('data/veiculos.csv', sep=';', index = False, encoding = 'utf-8-sig')
veiculos

Unnamed: 0,value,name,category,motor,description,location,items,opportunity
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[4 X 4, Câmera de estacionamento, Controle de ...",
1,R$ 346.000,BMW M2,USADO,Motor 3.0 32v,Ano 2018 - 83.447 km,Belo Horizonte - MG,"[Câmera de estacionamento, Controle de estabil...",
2,R$ 480.000,ALFA,USADO,Motor 1.8 16v,Ano 2004 - 19.722 km,Rio de Janeiro - RJ,"[Central multimídia, Bancos de couro, Rodas de...",
3,R$ 133.000,PUECH,USADO,Motor Diesel V8,Ano 1992 - 34.335 km,São Paulo - SP,"[Bancos de couro, Freios ABS, Rodas de liga, C...",
4,R$ 175.000,LAMBORGHINI MURCIELAGO,USADO,Motor 1.0 8v,Ano 1991 - 464 km,Belo Horizonte - MG,"[Central multimídia, Teto panorâmico, Sensor c...",
...,...,...,...,...,...,...,...,...
241,R$ 489.000,SUV REAR TIRE,USADO,Motor 3.0 32v,Ano 1998 - 74.292 km,São Paulo - SP,"[Câmera de estacionamento, Rodas de liga, Sens...",
242,R$ 427.000,ANTIQUE,NOVO,Motor 2.0 16v,Ano 2019 - 0 km,Belo Horizonte - MG,"[Bancos de couro, Freios ABS, Sensor de estaci...",
243,R$ 203.000,SPORT,USADO,Motor 2.0 16v,Ano 2001 - 102.776 km,Belo Horizonte - MG,"[Sensor crepuscular, Sensor de chuva, Vidros e...",
244,R$ 474.000,IMPERIAL,USADO,Motor 1.8 16v,Ano 2011 - 101.787 km,Belo Horizonte - MG,"[Painel digital, Travas elétricas, Sensor de c...",OPORTUNIDADE


***

## NOTAS:

***

### O que é preciso para coletar o VALOR de um veículo de um card:

In [33]:
# anuncio.find('p', {'class': 'txt-value'}).getText()

### O que é preciso para coletar as informações de TAG 'p' de um card:

In [34]:
# Informações p:

# anuncio.find('div', {'class': 'body-card'}).findAll('p')

# Extração infos e armazenamento dicionario:

#for info in infos:
    
    #card[info.get('class')[0].split('-')[-1]] = info.get_text()

### O que é preciso para coletar as informações de TAG 'ul' de um card:

In [35]:
# Acessórios

#items = anuncio.find('div', {'class' : 'body-card'}).find('ul').findAll('li')
#acessorios = []

#for item in items:
    
    #acessorios.append(item.getText().replace('►', ''))
    
#card['itens'] = acessorios

### O que é preciso para coletar a imagem do anúncio e salvá-la com seu nome original:

In [36]:
# image = anuncio.find('div', {'class' : 'image-card'}).find('img')
# urlretrieve(image.get('src'), 'img/' + image.get('src').split('/')[-1])