# <font color=green>1. MEU PRIMEIRO SCRAPING

# 1.1. Introdução

## *Web Scraping* é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.

# 1.2. Ambiente e bibliotecas
### Utilizaremos em nosso treinamento o navegador Google Chrome

In [40]:
import bs4
import urllib.request as urllib_request
import pandas

print("BeautifulSoup ->", bs4.__version__)
print("urllib ->", urllib_request.__version__)
print("pandas ->", pandas.__version__)

BeautifulSoup -> 4.9.3
urllib -> 3.8
pandas -> 1.1.4


# 1.3. Meu primeiro scraping

In [18]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <div id="container-a">
                <h1>Título A</h1>
                <h2 class="ref-a">Sub título A</h2>
                <p>Texto de conteúdo A</p>
                <div id="container-a-1">
                    <h1>Título A.1</h1>
                    <h2 class="ref-a">Sub título A.1</h2>
                    <p>Texto de conteúdo A.1</p>
                </div>
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')


soup.get_text(separator=' || ', strip=True)

'Título A || Sub título A || Texto de conteúdo A || Título A.1 || Sub título A.1 || Texto de conteúdo A.1'

---
# <font color=green>2. OBTENDO E TRATANDO O CONTEÚDO DE UM HTML

# 2.1. Entendendo a web

<img src="./web/web.png" width="700">

# 2.2. Obtendo o conteúdo HTML de um site

# urllib.request
## https://docs.python.org/3/library/urllib.html

## https://docs.python.org/3/library/urllib.request.html#urllib.request.Request

# 2.3. Tratamento de string

### Convertando o tipo bytes para string

### Eliminando os caracteres de tabulação, quebra de linha etc.

### Eliminando os espaços em branco entre as TAGS

### Função de tratamento de strings

---
# <font color=green>3. INTRODUÇÃO AO BEAUTIFULSOUP

# 3.1. HTML da nossa página

**HTML** (*HyperText Markup Language*) é uma linguagem de marcação composta por **tags** que deteminam o papel que cada parte do documento vai assumir. As **tags** são formadas pelo seu nome e atributos. Os atributos servem para configurar e também modificar as características padrões de uma **tag**.

## Estrutura básica

```html
<html>
    <head>
        <meta charset="utf-8" />
        <title>Alura Motors</title>
    </head>
    <body>
        <div id="container">
            <h1>Alura</h1>
            <h2 class="formato">Cursos de Tecnologia</h2>
            <p>Você vai estudar, praticar, discutir e aprender.</p>
            <a href="https://www.alura.com.br/">Clique aqui</a>
        </div>
    </body>
</html>
```

```<html>``` - determina o início do documento.

```<head>``` - cabeçalho. Contém informações e configurações do documento.

```<body>``` - é o corpo do documento, onde todo o conteúdo é colocado. Esta é a parte visível em um navegador.

## Tags mais comuns

```<div>``` - define uma divisão da página. Pode ser formatada de diversas maneiras.

```<h1>, <h2>, <h3>, <h4>, <h5>, <h6>``` - marcadores de títulos.

```<p>``` - marcador de parágrafo.

```<a>``` - hiperlink.

```<img>``` - exibição de imagens.

```<table>``` - definição de tabelas.

```<ul>, <li>``` - definição de listas.


# 3.2. Criando um objeto BeautifulSoup

## https://www.crummy.com/software/BeautifulSoup/

### Sobre parser ver: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parser-installation

# 3.3. Acessando tags

# 3.4. Acessando o conteúdo das tags

# 3.5. Acessando os atributos de uma tag

---
# <font color=green>4. PESQUISANDO COM O BEAUTIFULSOUP

# 4.1. Os métodos *find()* e *findAll()*

- ### *find(tag, attributes, recursive, text, **kwargs)*

- ### *findAll(tag, attributes, recursive, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all

> **Observação:**
> - *findAll()* também pode ser utilizado como *find_all()*

### Método *find()*

In [4]:
from bs4 import BeautifulSoup
import requests

url = 'https://alura-site-scraping.herokuapp.com/'
r = requests.get(url)
soup = BeautifulSoup(r.text,'html.parser')
soup.img


<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>

In [5]:
soup.find('img')

<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>

### Método *findAll()*

In [20]:
soup.findAll('img')

<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg" width="220"/>

### Comando equivalente ao método *find()*

In [None]:
soup.findAll('img',limit=3)[-1]

### Atalho para o método *findAll()*

In [21]:
soup('img')

[<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/alfa/alfa-1823056__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/puech/puech-4055386__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-murcielago/lamborghini-murcielago-2872974__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/

### Passando listas de TAGs

In [6]:
soup.findAll(['h1','h2','h3','h4','h5'])

[<h5 class="modal-title" id="loadingModal_label">
 <span class="glyphicon glyphicon-refresh"></span>Aguarde...
 					</h5>,
 <h4><b id="loadingModal_content"></b></h4>,
 <h1 class="sub-header">Veículos de Luxo Novos e Usados - Todas as Marcas</h1>]

### Utilizando o argumento *attributes*

In [7]:
for item in soup.findAll('p',{"class":"txt-value"}):
    print(item.text)

R$ 338.000
R$ 346.000
R$ 480.000
R$ 133.000
R$ 175.000
R$ 239.000
R$ 115.000
R$ 114.000
R$ 75.000
R$ 117.000


### Buscando por conteúdo de uma TAG

In [9]:
for item in soup.findAll('p',text = "Belo Horizonte - MG"):
    print(item.text)

Belo Horizonte - MG
Belo Horizonte - MG
Belo Horizonte - MG
Belo Horizonte - MG
Belo Horizonte - MG


### Utilizando diretamente os atributos

In [14]:
soup.findAll('img',alt='Foto')

[<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/alfa/alfa-1823056__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/puech/puech-4055386__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-murcielago/lamborghini-murcielago-2872974__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/aston-martin/aston-martin-2977916__340.jpg" width="220"/>,
 <img al

In [42]:
for item in soup.findAll('img',alt='Foto'):
    print(item.get('src'))

https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/alfa/alfa-1823056__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/puech/puech-4055386__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-murcielago/lamborghini-murcielago-2872974__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/aston-martin/aston-martin-2977916__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/tvr/tvr-2943925__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/excalibur/excalibur-2916730__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/mclaren/mclaren-2855240__340.jpg
htt

### Cuidado com o atributo "class"

In [18]:
for item in soup.findAll('p' , class_='txt-name'):
    print(item.text)

LAMBORGHINI AVENTADOR
BMW M2
ALFA
PUECH
LAMBORGHINI MURCIELAGO
ASTON MARTIN
TVR
EXCALIBUR
MCLAREN
TOYOTA


### Obtendo todo o conteúdo de texto de uma página

In [19]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <div id="container-a">
                <h1>Título A</h1>
                <h2 class="ref-a">Sub título A</h2>
                <p>Texto de conteúdo A</p>
            </div>
            <div id="container-b">
                <h1>Título B</h1>
                <h2 class="ref-b">Sub título B</h2>
                <p>Texto de conteúdo B</p>
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')
soup.findAll('h1')

[<h1>Título A</h1>, <h1>Título B</h1>]

# 4.2. Outros métodos de pesquisa

- ### *findParent(tag, attributes, text, **kwargs)*

- ### *findParents(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-parents-and-find-parent

> **Observação:**
> - *findParent()* e *findParents()* também podem ser utilizados como *find_parent()* e *find_parents()*, respectivamente.
---
- ### *findNextSibling(tag, attributes, text, **kwargs)*

- ### *findNextSiblings(tag, attributes, text, limit, **kwargs)*

- ### *findPreviousSibling(tag, attributes, text, **kwargs)*

- ### *findPreviousSiblings(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-next-siblings-and-find-next-sibling
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-previous-siblings-and-find-previous-sibling

> **Observação:**
> - *findNextSibling()*, *findNextSiblings()*, *findPreviousSibling()* e *findPreviousSiblings()* também podem ser utilizados como *find_next_sibling()*, *find_next_siblings()*, *find_previous_sibling()* e *find_previous_siblings()*, respectivamente.
---
- ### *findNext(tag, attributes, text, **kwargs)*

- ### *findAllNext(tag, attributes, text, limit, **kwargs)*

- ### *findPrevious(tag, attributes, text, **kwargs)*

- ### *findAllPrevious(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-next-and-find-next
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-previous-and-find-previous

> **Observação:**
> - *findNext()*, *findAllNext()*, *findPrevious* e *findAllPrevious* também podem ser utilizados como *find_next()*, *find_all_next()*, *find_previous()* e *find_all_previous()*, respectivamente.

## HTML de exemplo para ilustrar a utilização dos métodos de pesquisa do BeautifulSoup

<img src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/BeautifulSoup-method.png" width=80%>

---
## Resultado

<html>
    <body>
        <div id=“container-a”>
            <h1>Título A</h1>
            <h2 class="ref-a">Sub título A</h2>
            <p>Texto de conteúdo A</p>
        </div>
        <div id=“container-b”>
            <h1>Título B</h1>
            <h2 class="ref-b">Sub título B</h2>
            <p>Texto de conteúdo B</p>
        </div>
    </body>
</html>

In [None]:
soup.find

### Tratamentos para a string HTML

### Criando o objeto BeautifulSoup

### Parents

In [None]:
soup.find('h2')

In [22]:
soup.find('h2').find_parent('div')

<div id="container-a">
<h1>Título A</h1>
<h2 class="ref-a">Sub título A</h2>
<p>Texto de conteúdo A</p>
</div>

In [23]:
soup.find('h2').find_parents()

[<div id="container-a">
 <h1>Título A</h1>
 <h2 class="ref-a">Sub título A</h2>
 <p>Texto de conteúdo A</p>
 </div>,
 <body>
 <div id="container-a">
 <h1>Título A</h1>
 <h2 class="ref-a">Sub título A</h2>
 <p>Texto de conteúdo A</p>
 </div>
 <div id="container-b">
 <h1>Título B</h1>
 <h2 class="ref-b">Sub título B</h2>
 <p>Texto de conteúdo B</p>
 </div>
 </body>,
 <html>
 <body>
 <div id="container-a">
 <h1>Título A</h1>
 <h2 class="ref-a">Sub título A</h2>
 <p>Texto de conteúdo A</p>
 </div>
 <div id="container-b">
 <h1>Título B</h1>
 <h2 class="ref-b">Sub título B</h2>
 <p>Texto de conteúdo B</p>
 </div>
 </body>
 </html>,
 
 <html>
 <body>
 <div id="container-a">
 <h1>Título A</h1>
 <h2 class="ref-a">Sub título A</h2>
 <p>Texto de conteúdo A</p>
 </div>
 <div id="container-b">
 <h1>Título B</h1>
 <h2 class="ref-b">Sub título B</h2>
 <p>Texto de conteúdo B</p>
 </div>
 </body>
 </html>]

In [26]:
for item in soup.findAll('h2'):
    print(item.find_parent('div'))

<div id="container-a">
<h1>Título A</h1>
<h2 class="ref-a">Sub título A</h2>
<p>Texto de conteúdo A</p>
</div>
<div id="container-b">
<h1>Título B</h1>
<h2 class="ref-b">Sub título B</h2>
<p>Texto de conteúdo B</p>
</div>


## Siblings

In [27]:
soup.find('h2').findNextSibling()

<p>Texto de conteúdo A</p>

In [30]:
soup.find('h2').findPreviousSibling()

<h1>Título A</h1>

In [32]:
soup.find('p').findPreviousSiblings()

[<h2 class="ref-a">Sub título A</h2>, <h1>Título A</h1>]

## Next e Previous

In [33]:
soup.find('h2').findNext()

<p>Texto de conteúdo A</p>

In [34]:
soup.find('h2').findPrevious()

<h1>Título A</h1>

In [36]:
soup.find('h2').findAllNext()

[<p>Texto de conteúdo A</p>,
 <div id="container-b">
 <h1>Título B</h1>
 <h2 class="ref-b">Sub título B</h2>
 <p>Texto de conteúdo B</p>
 </div>,
 <h1>Título B</h1>,
 <h2 class="ref-b">Sub título B</h2>,
 <p>Texto de conteúdo B</p>]

# <font color=green>5. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE UM ANÚNCIO

# 5.1. Identificando e selecionando os dados no HTML

### Obtendo o HTML e criando o objeto BeautifulSoup

In [61]:
from urllib.request import urlopen
response = urlopen(url)
html = response.read().decode('utf-8')
soup = BeautifulSoup(html,'html.parser')


### Criando variávels para armazenar informações

In [58]:
cards = []
card = {}

### Obtendo os dados do primeiro CARD

In [67]:
anuncio = soup.find('div', {'class':'well card'})

'R$ 338.000'

# 5.2. Obtendo o VALOR do veículo anunciado

In [71]:
anuncio.find(class_ = 'txt-value').text

'R$ 338.000'

In [73]:
card['value'] = anuncio.find(class_ = 'txt-value').text
card

{'value': 'R$ 338.000'}

### <font color=red>Resumo

In [74]:
# Valor
card['value'] = anuncio.find(class_ = 'txt-value').text
infos = anuncio.find('div', {'class':'body-card'}).findAll('p')
for item in infos:
    card[item.get('class')[0].split('-')[-1]] = item.get_text()

# 5.3. Obtendo as INFORMAÇÕES sobre o veículo anunciado

In [95]:
anuncio.find('div', {'class':'body-card'}).findAll('p')

[<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>,
 <p class="txt-category badge badge-secondary inline">USADO</p>,
 <p class="txt-motor">Motor 1.8 16v</p>,
 <p class="txt-description">Ano 1993 - 55.286 km</p>,
 <p class="txt-location">Belo Horizonte - MG</p>]

In [79]:
infos = anuncio.find('div', {'class':'body-card'}).findAll('p')

In [87]:
for item in infos:
    print(item.get('class')[0].split('-')[-1],' - ',  item.get_text())

name  -  LAMBORGHINI AVENTADOR
category  -  USADO
motor  -  Motor 1.8 16v
description  -  Ano 1993 - 55.286 km
location  -  Belo Horizonte - MG


In [88]:
for item in infos:
    card[item.get('class')[0].split('-')[-1]] = item.get_text()

In [89]:
card

{'value': 'R$ 338.000',
 'name': 'LAMBORGHINI AVENTADOR',
 'category': 'USADO',
 'motor': 'Motor 1.8 16v',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG'}

### <font color=red>Resumo

In [None]:
# Informações
infos = anuncio.find('div', {'class':'body-card'}).findAll('p')
for item in infos:
    card[item.get('class')[0].split('-')[-1]] = item.get_text()

# 5.4. Obtendo os ACESSÓRIOS do veículo anunciado

In [96]:
anuncio.find('div', {'class':'body-card'}).ul

<ul class="lst-items">
<li class="txt-items">► 4 X 4</li>
<li class="txt-items">► Câmera de estacionamento</li>
<li class="txt-items">► Controle de tração</li>
<li class="txt-items">► Sensor de estacionamento</li>
<li class="txt-items">...</li>
</ul>

In [97]:
anuncio.find('div', {'class':'body-card'}).ul.findAll('li')

[<li class="txt-items">► 4 X 4</li>,
 <li class="txt-items">► Câmera de estacionamento</li>,
 <li class="txt-items">► Controle de tração</li>,
 <li class="txt-items">► Sensor de estacionamento</li>,
 <li class="txt-items">...</li>]

In [98]:
items = anuncio.find('div', {'class':'body-card'}).ul.findAll('li')
items

[<li class="txt-items">► 4 X 4</li>,
 <li class="txt-items">► Câmera de estacionamento</li>,
 <li class="txt-items">► Controle de tração</li>,
 <li class="txt-items">► Sensor de estacionamento</li>,
 <li class="txt-items">...</li>]

In [99]:
items.pop()

<li class="txt-items">...</li>

In [103]:
for item in items:
    print(item.text.replace('► ',''))

4 X 4
Câmera de estacionamento
Controle de tração
Sensor de estacionamento


In [105]:
acessorios = []
for item in items:
    acessorios.append(item.text.replace('► ',''))
acessorios

['4 X 4',
 'Câmera de estacionamento',
 'Controle de tração',
 'Sensor de estacionamento']

In [111]:
card['items'] = acessorios

In [112]:
card

{'value': 'R$ 338.000',
 'name': 'LAMBORGHINI AVENTADOR',
 'category': 'USADO',
 'motor': 'Motor 1.8 16v',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG',
 'items': ['4 X 4',
  'Câmera de estacionamento',
  'Controle de tração',
  'Sensor de estacionamento']}

### <font color=red>Resumo

In [113]:
# Acessórios
items = anuncio.find('div', {'class':'body-card'}).ul.findAll('li')
items.pop()
acessorios = []
for item in items:
    acessorios.append(item.text.replace('► ',''))
card['items'] = acessorios

# 5.5 Criando um DataFrame com os dados coletados do Alura Motors

In [115]:
import pandas as pd
dataset = pd.DataFrame(card)

In [116]:
dataset

Unnamed: 0,value,name,category,motor,description,location,items
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,4 X 4
1,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,Câmera de estacionamento
2,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,Controle de tração
3,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,Sensor de estacionamento


In [117]:
dataset = pd.DataFrame.from_dict(card, orient='index')

In [118]:
dataset

Unnamed: 0,0
value,R$ 338.000
name,LAMBORGHINI AVENTADOR
category,USADO
motor,Motor 1.8 16v
description,Ano 1993 - 55.286 km
location,Belo Horizonte - MG
items,"[4 X 4, Câmera de estacionamento, Controle de ..."


In [119]:
dataset = pd.DataFrame.from_dict(card, orient='index').T

In [120]:
dataset

Unnamed: 0,value,name,category,motor,description,location,items
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[4 X 4, Câmera de estacionamento, Controle de ..."


In [122]:
dataset.to_csv('./output/data/dataset.csv' , sep=';' , index = False , encoding = 'utf-8-sig')

# 5.6. Obtendo a FOTO do anúncio

In [130]:
image = anuncio.find('div', {'class':'image-card'}).img
image.get('src')

'https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg'

### Visualizando a FOTO no notebook (extra)

In [131]:
from IPython.core.display import display, HTML
display(HTML(str(anuncio.find('div' , {'class':'image-card'}).img)))

In [136]:
display(HTML("<img src=" + anuncio.find('div' , {'class':'image-card'}).img.get('src') + ">"))

### Rotina para acessar e salvar a FOTO do anúncio

## https://docs.python.org/3/library/urllib.request.html#urllib.request.urlretrieve

In [11]:
from urllib.request import urlretrieve
image

NameError: name 'image' is not defined

In [141]:
urlretrieve(image.get('src'), './output/img/'+  image.get('src').split('/')[-1])

('./output/img/lamborghini-aventador-2932196__340.jpg',
 <http.client.HTTPMessage at 0x7f39c7c7f130>)

### <font color=red>Resumo

# <font color=green>6. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE TODOS OS ANÚNCIOS DE UMA PÁGINA

# 6.1. Identificando as informações no HTML

In [4]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
url = 'https://alura-site-scraping.herokuapp.com/'
response = urlopen(url)
html = response.read().decode('utf-8')
soup = BeautifulSoup(html,'html.parser')


In [6]:
soup.find('div' , {'id':'container-cards'}).findAll('div',class_ = "card")

[<div class="well card">
 <div class="col-md-3 image-card">
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>
 </div>
 <div class="col-md-6 body-card">
 <p class="txt-name inline">LAMBORGHINI AVENTADOR</p>
 <p class="txt-category badge badge-secondary inline">USADO</p>
 <p class="txt-motor">Motor 1.8 16v</p>
 <p class="txt-description">Ano 1993 - 55.286 km</p>
 <ul class="lst-items">
 <li class="txt-items">► 4 X 4</li>
 <li class="txt-items">► Câmera de estacionamento</li>
 <li class="txt-items">► Controle de tração</li>
 <li class="txt-items">► Sensor de estacionamento</li>
 <li class="txt-items">...</li>
 </ul>
 <p class="txt-location">Belo Horizonte - MG</p>
 </div>
 <div class="col-md-3 value-card">
 <div class="value">
 <p class="txt-value">R$ 338.000</p>
 </div>
 </div>
 </div>,
 <div class="well card">
 <div class="col-md-3 image-card">
 <img alt="

In [9]:
anuncios = soup.find('div' , {'id':'container-cards'}).findAll('div',class_ = "card")

In [10]:
for anuncio in anuncios:
    print(str(anuncio) + "\n\n")

<div class="well card">
<div class="col-md-3 image-card">
<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>
</div>
<div class="col-md-6 body-card">
<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>
<p class="txt-category badge badge-secondary inline">USADO</p>
<p class="txt-motor">Motor 1.8 16v</p>
<p class="txt-description">Ano 1993 - 55.286 km</p>
<ul class="lst-items">
<li class="txt-items">► 4 X 4</li>
<li class="txt-items">► Câmera de estacionamento</li>
<li class="txt-items">► Controle de tração</li>
<li class="txt-items">► Sensor de estacionamento</li>
<li class="txt-items">...</li>
</ul>
<p class="txt-location">Belo Horizonte - MG</p>
</div>
<div class="col-md-3 value-card">
<div class="value">
<p class="txt-value">R$ 338.000</p>
</div>
</div>
</div>


<div class="well card">
<div class="col-md-3 image-card">
<img alt="Foto" height="155" src="ht

# 6.2. Criando uma rotina de scraping

In [12]:
from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://alura-site-scraping.herokuapp.com/'
cards = []
card = {}

response = urlopen(url)
html = response.read().decode('utf-8')
soup = BeautifulSoup(html,'html.parser')

anuncios = soup.find('div' , {'id':'container-cards'}).findAll('div',class_ = "card")

for anuncio in anuncios:
    card ={}
    
    card['value'] = anuncio.find(class_ = 'txt-value').text
    infos = anuncio.find('div', {'class':'body-card'}).findAll('p')
    for item in infos:
        card[item.get('class')[0].split('-')[-1]] = item.get_text()

    # Acessórios
    items = anuncio.find('div', {'class':'body-card'}).ul.findAll('li')
    items.pop()
    acessorios = []
    for item in items:
        acessorios.append(item.text.replace('► ',''))
    card['items'] = acessorios
    
    cards.append(card)

    image = anuncio.find('div', {'class':'image-card'}).img
    urlretrieve(image.get('src'), './output/img/'+  image.get('src').split('/')[-1])

    
dataset = pd.DataFrame(cards)
dataset.to_csv('./output/data/dataset.csv' , sep=';' , index = False , encoding = 'utf-8-sig')
dataset
    


Unnamed: 0,value,name,category,motor,description,location,items,opportunity
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[4 X 4, Câmera de estacionamento, Controle de ...",
1,R$ 346.000,BMW M2,USADO,Motor 3.0 32v,Ano 2018 - 83.447 km,Belo Horizonte - MG,"[Câmera de estacionamento, Controle de estabil...",
2,R$ 480.000,ALFA,USADO,Motor 1.8 16v,Ano 2004 - 19.722 km,Rio de Janeiro - RJ,"[Central multimídia, Bancos de couro, Rodas de...",
3,R$ 133.000,PUECH,USADO,Motor Diesel V8,Ano 1992 - 34.335 km,São Paulo - SP,"[Bancos de couro, Freios ABS, Rodas de liga, C...",
4,R$ 175.000,LAMBORGHINI MURCIELAGO,USADO,Motor 1.0 8v,Ano 1991 - 464 km,Belo Horizonte - MG,"[Central multimídia, Teto panorâmico, Sensor c...",
5,R$ 239.000,ASTON MARTIN,USADO,Motor Diesel V6,Ano 2004 - 50.189 km,Belo Horizonte - MG,"[Painel digital, Controle de tração, Teto pano...",OPORTUNIDADE
6,R$ 115.000,TVR,USADO,Motor 4.0 Turbo,Ano 2014 - 17.778 km,Belo Horizonte - MG,"[4 X 4, Teto panorâmico, Central multimídia, C...",
7,R$ 114.000,EXCALIBUR,USADO,Motor 3.0 32v,Ano 2009 - 81.251 km,Rio de Janeiro - RJ,"[Painel digital, Câmbio automático, Sensor de ...",
8,R$ 75.000,MCLAREN,NOVO,Motor Diesel,Ano 2019 - 0 km,São Paulo - SP,"[Central multimídia, Câmera de estacionamento,...",
9,R$ 117.000,TOYOTA,USADO,Motor 4.0 Turbo,Ano 1999 - 12.536 km,São Paulo - SP,"[Bancos de couro, Freios ABS, Piloto automátic...",OPORTUNIDADE


In [None]:
cards

# <font color=green>7. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE TODOS OS ANÚNCIOS DO SITE

# 7.1. Identificando as informações no HTML

In [13]:
response = urlopen(url)
html = response.read().decode('utf-8')
soup = BeautifulSoup(html,'html.parser')

In [16]:
soup.find('span' , class_ = "info-pages").get_text().split()[-1]

'25'

# 7.2. Criando uma rotina de scraping

In [17]:
from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://alura-site-scraping.herokuapp.com/'
urlpagination = 'https://alura-site-scraping.herokuapp.com/index.php?page={}'
cards = []
card = {}

response = urlopen(url)
html = response.read().decode('utf-8')
soup = BeautifulSoup(html,'html.parser')

pages = int(soup.find('span' , class_ = "info-pages").get_text().split()[-1])

for page in range(pages):
    
    response = urlopen(urlpagination.format(str(page+1)))
    html = response.read().decode('utf-8')
    soup = BeautifulSoup(html,'html.parser')

    anuncios = soup.find('div' , {'id':'container-cards'}).findAll('div',class_ = "card")

    for anuncio in anuncios:
        card ={}

        card['value'] = anuncio.find(class_ = 'txt-value').text
        infos = anuncio.find('div', {'class':'body-card'}).findAll('p')
        for item in infos:
            card[item.get('class')[0].split('-')[-1]] = item.get_text()

        # Acessórios
        items = anuncio.find('div', {'class':'body-card'}).ul.findAll('li')
        items.pop()
        acessorios = []
        for item in items:
            acessorios.append(item.text.replace('► ',''))
        card['items'] = acessorios

        cards.append(card)

        image = anuncio.find('div', {'class':'image-card'}).img
        urlretrieve(image.get('src'), './output/img/'+  image.get('src').split('/')[-1])

    
dataset = pd.DataFrame(cards)
dataset.to_csv('./output/data/dataset.csv' , sep=';' , index = False , encoding = 'utf-8-sig')
dataset

Unnamed: 0,value,name,category,motor,description,location,items,opportunity
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[4 X 4, Câmera de estacionamento, Controle de ...",
1,R$ 346.000,BMW M2,USADO,Motor 3.0 32v,Ano 2018 - 83.447 km,Belo Horizonte - MG,"[Câmera de estacionamento, Controle de estabil...",
2,R$ 480.000,ALFA,USADO,Motor 1.8 16v,Ano 2004 - 19.722 km,Rio de Janeiro - RJ,"[Central multimídia, Bancos de couro, Rodas de...",
3,R$ 133.000,PUECH,USADO,Motor Diesel V8,Ano 1992 - 34.335 km,São Paulo - SP,"[Bancos de couro, Freios ABS, Rodas de liga, C...",
4,R$ 175.000,LAMBORGHINI MURCIELAGO,USADO,Motor 1.0 8v,Ano 1991 - 464 km,Belo Horizonte - MG,"[Central multimídia, Teto panorâmico, Sensor c...",
...,...,...,...,...,...,...,...,...
241,R$ 489.000,SUV REAR TIRE,USADO,Motor 3.0 32v,Ano 1998 - 74.292 km,São Paulo - SP,"[Câmera de estacionamento, Rodas de liga, Sens...",
242,R$ 427.000,ANTIQUE,NOVO,Motor 2.0 16v,Ano 2019 - 0 km,Belo Horizonte - MG,"[Bancos de couro, Freios ABS, Sensor de estaci...",
243,R$ 203.000,SPORT,USADO,Motor 2.0 16v,Ano 2001 - 102.776 km,Belo Horizonte - MG,"[Sensor crepuscular, Sensor de chuva, Vidros e...",
244,R$ 474.000,IMPERIAL,USADO,Motor 1.8 16v,Ano 2011 - 101.787 km,Belo Horizonte - MG,"[Painel digital, Travas elétricas, Sensor de c...",OPORTUNIDADE


In [None]:
cards