#**Coleta de dados do site *Alura Motors*** 

O objetivo desse projeto é coletar todas as informações dos veículos anunciados no site Alura Motors. Para isso, será utilizada uma técnica chamada Web Scraping, que consiste em coletar informações da internet de maneira automática e, normalmente, essa coleta é feita por programa que simulam a navegação humana na Web.

Para que o conhecimento fosse construido de uma forma mais clara e didática, primeiro, foi foi feita a coleta de dados de somente um anúncio, depois de apenas uma página do site e, por fim, de todas as páginas do site.

## Bibliotecas

In [1]:
# Obtém conteúdo HTML de um site
from urllib.request import urlopen

# Copia o objeto de uma url e salva em um arquivo local
from urllib.request import urlretrieve

# Coleta de dados (web scraping)
from bs4 import BeautifulSoup

# Manipulação de dados
import pandas as pd

# Visualizar foto no notebook
from IPython.core.display import display, HTML

## Obtendo conteúdo HTML de um site

In [2]:
# url do site de interesse
url = 'https://alura-site-scraping.herokuapp.com'

# Abrindo o site
request = urlopen(url)
# Lendo o conteúdo do site
html = request.read()

# Visualizando o conteúdo lido
html

b'<!DOCTYPE html>\r\n<html lang="pt-br">\r\n<head>\r\n    <meta charset="utf-8">\r\n    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\r\n\r\n    <title>Alura Motors</title>\r\n\r\n\t<style>\r\n\t\t/*Regra para a animacao*/\r\n\t\t@keyframes spin {\r\n\t\t\t0% { transform: rotate(0deg); }\r\n\t\t\t100% { transform: rotate(360deg); }\r\n\t\t}\r\n\t\t/*Mudando o tamanho do icone de resposta*/\r\n\t\tdiv.glyphicon {\r\n\t\t\tcolor:#6B8E23;\r\n\t\t\tfont-size: 38px;\r\n\t\t}\r\n\t\t/*Classe que mostra a animacao \'spin\'*/\r\n\t\t.loader {\r\n\t\t\tborder: 16px solid #f3f3f3;\r\n\t\t\tborder-radius: 50%;\r\n\t\t\tborder-top: 16px solid #3498db;\r\n\t\t\twidth: 80px;\r\n\t\t\theight: 80px;\r\n\t\t\t-webkit-animation: spin 2s linear infinite;\r\n\t\t\tanimation: spin 2s linear infinite;\r\n\t\t}\r\n\t</style>\r\n\t<link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuH

## Fazendo o tratamento de string

In [3]:
# Verificando o tipo de dado da variável html
type(html)

bytes

Como os dados são do tipo bytes e queremos fazer seu tratamento, ele será convertido para string.

In [4]:
# Conversão para tipo string
html = html.decode('utf-8')

In [5]:
# Verificando se a conversão foi bem sucedida
type(html)

str

In [6]:
# Visualizando os dados
html

'<!DOCTYPE html>\r\n<html lang="pt-br">\r\n<head>\r\n    <meta charset="utf-8">\r\n    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\r\n\r\n    <title>Alura Motors</title>\r\n\r\n\t<style>\r\n\t\t/*Regra para a animacao*/\r\n\t\t@keyframes spin {\r\n\t\t\t0% { transform: rotate(0deg); }\r\n\t\t\t100% { transform: rotate(360deg); }\r\n\t\t}\r\n\t\t/*Mudando o tamanho do icone de resposta*/\r\n\t\tdiv.glyphicon {\r\n\t\t\tcolor:#6B8E23;\r\n\t\t\tfont-size: 38px;\r\n\t\t}\r\n\t\t/*Classe que mostra a animacao \'spin\'*/\r\n\t\t.loader {\r\n\t\t\tborder: 16px solid #f3f3f3;\r\n\t\t\tborder-radius: 50%;\r\n\t\t\tborder-top: 16px solid #3498db;\r\n\t\t\twidth: 80px;\r\n\t\t\theight: 80px;\r\n\t\t\t-webkit-animation: spin 2s linear infinite;\r\n\t\t\tanimation: spin 2s linear infinite;\r\n\t\t}\r\n\t</style>\r\n\t<link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHA

##### Elinando os caracteres de tabulação, as quebras de linha, entre outras coisas que estão separando as strings

In [7]:
# Separa os caracteres que estão separados por espaços e os coloca em uma lista
html.split()

['<!DOCTYPE',
 'html>',
 '<html',
 'lang="pt-br">',
 '<head>',
 '<meta',
 'charset="utf-8">',
 '<meta',
 'name="viewport"',
 'content="width=device-width,',
 'initial-scale=1,',
 'shrink-to-fit=no">',
 '<title>Alura',
 'Motors</title>',
 '<style>',
 '/*Regra',
 'para',
 'a',
 'animacao*/',
 '@keyframes',
 'spin',
 '{',
 '0%',
 '{',
 'transform:',
 'rotate(0deg);',
 '}',
 '100%',
 '{',
 'transform:',
 'rotate(360deg);',
 '}',
 '}',
 '/*Mudando',
 'o',
 'tamanho',
 'do',
 'icone',
 'de',
 'resposta*/',
 'div.glyphicon',
 '{',
 'color:#6B8E23;',
 'font-size:',
 '38px;',
 '}',
 '/*Classe',
 'que',
 'mostra',
 'a',
 'animacao',
 "'spin'*/",
 '.loader',
 '{',
 'border:',
 '16px',
 'solid',
 '#f3f3f3;',
 'border-radius:',
 '50%;',
 'border-top:',
 '16px',
 'solid',
 '#3498db;',
 'width:',
 '80px;',
 'height:',
 '80px;',
 '-webkit-animation:',
 'spin',
 '2s',
 'linear',
 'infinite;',
 'animation:',
 'spin',
 '2s',
 'linear',
 'infinite;',
 '}',
 '</style>',
 '<link',
 'rel="stylesheet"',
 'hre

In [8]:
# Juntando todos os itens da lista, só que adicionando um espaço simples entre cada item
" ".join(html.split())

'<!DOCTYPE html> <html lang="pt-br"> <head> <meta charset="utf-8"> <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no"> <title>Alura Motors</title> <style> /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } } /*Mudando o tamanho do icone de resposta*/ div.glyphicon { color:#6B8E23; font-size: 38px; } /*Classe que mostra a animacao \'spin\'*/ .loader { border: 16px solid #f3f3f3; border-radius: 50%; border-top: 16px solid #3498db; width: 80px; height: 80px; -webkit-animation: spin 2s linear infinite; animation: spin 2s linear infinite; } </style> <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" crossorigin="anonymous"> <link rel="stylesheet" href="css/styles.css" media="all"> <script src="https://code.jquery.com/jquery-1.12.4.js"></script> <script src="https://

In [9]:
# Eliminando os espaços em branco entre as TAGS
" ".join(html.split()).replace('> <', '><')

'<!DOCTYPE html><html lang="pt-br"><head><meta charset="utf-8"><meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no"><title>Alura Motors</title><style> /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } } /*Mudando o tamanho do icone de resposta*/ div.glyphicon { color:#6B8E23; font-size: 38px; } /*Classe que mostra a animacao \'spin\'*/ .loader { border: 16px solid #f3f3f3; border-radius: 50%; border-top: 16px solid #3498db; width: 80px; height: 80px; -webkit-animation: spin 2s linear infinite; animation: spin 2s linear infinite; } </style><link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" crossorigin="anonymous"><link rel="stylesheet" href="css/styles.css" media="all"><script src="https://code.jquery.com/jquery-1.12.4.js"></script><script src="https://maxcdn.boo

Tudo o que foi desenvolvido dentro do tratamento de strings foi para ter uma compreensão de como o processo funciona e para que serve cada um dos comandos. Sendo que o tratamento todo pode ser feito em apenas uma linha, que é a última linha de código. Como esse processo poderá ser utilizado mais vezes no futuro, é interessante criar uma função, para simplificar o código.

##### Função para o tratamento de strings

In [10]:
def trata_html(input):
  return " ".join(input.split()).replace('> <', '><')

## Criando um objeto BeautifulSoup

In [11]:
# Cria o objeto
soup = BeautifulSoup(html, 'html.parser')

# Visualização 
soup

<!DOCTYPE html>

<html lang="pt-br">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
<title>Alura Motors</title>
<style>
		/*Regra para a animacao*/
		@keyframes spin {
			0% { transform: rotate(0deg); }
			100% { transform: rotate(360deg); }
		}
		/*Mudando o tamanho do icone de resposta*/
		div.glyphicon {
			color:#6B8E23;
			font-size: 38px;
		}
		/*Classe que mostra a animacao 'spin'*/
		.loader {
			border: 16px solid #f3f3f3;
			border-radius: 50%;
			border-top: 16px solid #3498db;
			width: 80px;
			height: 80px;
			-webkit-animation: spin 2s linear infinite;
			animation: spin 2s linear infinite;
		}
	</style>
<link crossorigin="anonymous" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" rel="stylesheet"/>
<link href="css/styles.css" media="all" rel="stylesheet"/>
<script src="https://code.jquery

**Para que serve o parser?**

O parser é um analisador sintático, ele vai ler uma entrada de dados que possuem regras específicas, vai montar uma estrura de como é sua composição e recusas as entradas que estejam fora das regras estabelecidas. Basicamente, ele é um dos passos para traduzir um texto para algo que o computador entenda, ou seja, consiga interpretar a entrada e saber o que deve ser feito com ela.

**Para que serve o objeto BeautifulSoup?**

O BeautifulSoup serve para extrair informações de um html. Criando o objeto BeautifulSoup é possível encontrar elementos específicos no código, como head, body e title.

In [12]:
# Visualizar de forma organizada e com identações
print(soup.prettify())

<!DOCTYPE html>
<html lang="pt-br">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
  <title>
   Alura Motors
  </title>
  <style>
   /*Regra para a animacao*/
		@keyframes spin {
			0% { transform: rotate(0deg); }
			100% { transform: rotate(360deg); }
		}
		/*Mudando o tamanho do icone de resposta*/
		div.glyphicon {
			color:#6B8E23;
			font-size: 38px;
		}
		/*Classe que mostra a animacao 'spin'*/
		.loader {
			border: 16px solid #f3f3f3;
			border-radius: 50%;
			border-top: 16px solid #3498db;
			width: 80px;
			height: 80px;
			-webkit-animation: spin 2s linear infinite;
			animation: spin 2s linear infinite;
		}
  </style>
  <link crossorigin="anonymous" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" rel="stylesheet"/>
  <link href="css/styles.css" media="all" rel="styles

## Web scraping do site Alura Motors

### Obtendo os dados do primeiro CARD

In [13]:
# Variáveis que vão armazenar as informações
# Lista de dicionário
cards = []
card = {}

Para obter as informações de interesse é necessário inspecionar a html do site, fazendo isso, encontra-se que cada um dos cards está dentro de uma div cuja class é 'well card'

In [14]:
# Acesso ao primeiro card
anuncio = soup.find('div', {'class': 'well card'})
anuncio

<div class="well card">
<div class="col-md-3 image-card">
<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>
</div>
<div class="col-md-6 body-card">
<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>
<p class="txt-category badge badge-secondary inline">USADO</p>
<p class="txt-motor">Motor 1.8 16v</p>
<p class="txt-description">Ano 1993 - 55.286 km</p>
<ul class="lst-items">
<li class="txt-items">► 4 X 4</li>
<li class="txt-items">► Câmera de estacionamento</li>
<li class="txt-items">► Controle de tração</li>
<li class="txt-items">► Sensor de estacionamento</li>
<li class="txt-items">...</li>
</ul>
<p class="txt-location">Belo Horizonte - MG</p>
</div>
<div class="col-md-3 value-card">
<div class="value">
<p class="txt-value">R$ 338.000</p>
</div>
</div>
</div>

Com isso, foi obtida todas as informações contidas no primeiro card. 

#### Valor do veículo

Para obter o valor do veículo, é necessário voltar ao html e encontrar onde esse valor está. É possível ver que ele está dentro de div cuja classe é value-card.

In [15]:
# Obtendo o valor do veículo
anuncio.find('div', {'class': 'value-card'})

<div class="col-md-3 value-card">
<div class="value">
<p class="txt-value">R$ 338.000</p>
</div>
</div>

In [16]:
# Acessando somente o valor
anuncio.find('p', {'class': 'txt-value'}).getText()

'R$ 338.000'

O valor em si estava dentro de uma tag p de classe txt-value.

In [17]:
# Adicionando o valor no dicionário criado card
card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

In [18]:
# Visualizando o conteúdo do dicionário card
card

{'value': 'R$ 338.000'}

#### Informações sobre o veículo 

As informações sobre o veículo estão dentro da div de classe body-card nas tags p

In [19]:
# Obtendo as informações
infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')

In [20]:
# Visualizando as informações
infos

[<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>,
 <p class="txt-category badge badge-secondary inline">USADO</p>,
 <p class="txt-motor">Motor 1.8 16v</p>,
 <p class="txt-description">Ano 1993 - 55.286 km</p>,
 <p class="txt-location">Belo Horizonte - MG</p>]

In [21]:
# Acessando cada uma das informações e adicionando elas ao dicionários card
for info in infos:
  card[info.get('class')[0].split('-')[-1]] = info.get_text()

In [22]:
# Visualizando o dicionário atualizado
card

{'category': 'USADO',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG',
 'motor': 'Motor 1.8 16v',
 'name': 'LAMBORGHINI AVENTADOR',
 'value': 'R$ 338.000'}

#### Acessórios do veículo

Os acessórios do veículo anunciado também está dentro da div de classe body-card, dentro da tag ul e cada um dos itens está em tags li.

In [23]:
# Obtendo os itens
items = anuncio.find('div', {'class': 'body-card'}).find('ul').findAll('li')

In [24]:
# Visualizando os itens
items

[<li class="txt-items">► 4 X 4</li>,
 <li class="txt-items">► Câmera de estacionamento</li>,
 <li class="txt-items">► Controle de tração</li>,
 <li class="txt-items">► Sensor de estacionamento</li>,
 <li class="txt-items">...</li>]

O último item não contém informação nenhuma, somente três pontos, por isso, será removido dos itens.

In [25]:
# Removendo o último item da lista
items.pop()

<li class="txt-items">...</li>

In [26]:
# Visualizando os itens atualizados
items

[<li class="txt-items">► 4 X 4</li>,
 <li class="txt-items">► Câmera de estacionamento</li>,
 <li class="txt-items">► Controle de tração</li>,
 <li class="txt-items">► Sensor de estacionamento</li>]

In [27]:
# Acessando cada um dos itens e adicionando elas a lista acessorios
acessorios = []

for item in items:
  acessorios.append(item.getText().replace('►', ''))

In [28]:
# Visulizando a lista acessorios
acessorios

[' 4 X 4',
 ' Câmera de estacionamento',
 ' Controle de tração',
 ' Sensor de estacionamento']

In [29]:
# Salvando os acessórios no dicionário card
card['items'] = acessorios

# Visualizando o dicionário card atualizado
card

{'category': 'USADO',
 'description': 'Ano 1993 - 55.286 km',
 'items': [' 4 X 4',
  ' Câmera de estacionamento',
  ' Controle de tração',
  ' Sensor de estacionamento'],
 'location': 'Belo Horizonte - MG',
 'motor': 'Motor 1.8 16v',
 'name': 'LAMBORGHINI AVENTADOR',
 'value': 'R$ 338.000'}

#### Criando um DataFrame com os dados coletados do Alura Motors

In [30]:
# Criando o DataFrame a partir de um dicionário
# orient='index -> o index será a coluna
# .T -> transpõe o DataFrame
dataset = pd.DataFrame.from_dict(card, orient='index').T
dataset

Unnamed: 0,value,name,category,motor,description,location,items
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[ 4 X 4, Câmera de estacionamento, Controle ..."


In [31]:
# Exportando o DataFrame criado
dataset.to_csv('dataset.csv', sep=';', index=False, encoding='utf-8-sig')

#### Foto do anúncio 

A foto do anúncio está dentro da div de classe image-card dentro da tag img

In [32]:
# Obtendo a imagem
image = anuncio.find('div', {'class': 'image-card'}).img
image

<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>

In [33]:
# Obtendo somente o link da imagem
print(image.get('src'))

https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg


##### Visualizando a foto

In [34]:
display(HTML('<img src=' + anuncio.find('div', {'class': 'image-card'}).img.get('src') + '>'))

##### Acessando e salvando a foto do anúncio

In [35]:
# Acessar e salvar a foto do anúncio
urlretrieve(image.get('src'), image.get('src').split('/')[-1])

('lamborghini-aventador-2932196__340.jpg',
 <http.client.HTTPMessage at 0x7fa9cabfbdd0>)

### Obtendo os dados de todos os anúncios de uma página

In [36]:
# Variáveis que vão armazenar as informações
# Lista de dicionário
cards = []
card = {}

Fazendo a inspeção da página, analisando o código HTML, encontra-se que o acesso a todos os cards é dados pela div com id container-cards e cada um dos anúncios está dentro de uma div de classe well card (está apenas card no código para simplificar).

In [37]:
# Encontrando todos os anuncios
anuncios = soup.find('div', {'id': 'container-cards'}).findAll('div', class_='card')

In [38]:
# Quantidade de anuncios em uma página
len(soup.find('div', {'id': 'container-cards'}).findAll('div', class_='card'))

10

Cada página possui 10 anúncios.

In [39]:
# Percorrendo cada um dos anúncios
for anuncio in anuncios:
  print(str(anuncio) + '\n\n')

<div class="well card">
<div class="col-md-3 image-card">
<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>
</div>
<div class="col-md-6 body-card">
<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>
<p class="txt-category badge badge-secondary inline">USADO</p>
<p class="txt-motor">Motor 1.8 16v</p>
<p class="txt-description">Ano 1993 - 55.286 km</p>
<ul class="lst-items">
<li class="txt-items">► 4 X 4</li>
<li class="txt-items">► Câmera de estacionamento</li>
<li class="txt-items">► Controle de tração</li>
<li class="txt-items">► Sensor de estacionamento</li>
<li class="txt-items">...</li>
</ul>
<p class="txt-location">Belo Horizonte - MG</p>
</div>
<div class="col-md-3 value-card">
<div class="value">
<p class="txt-value">R$ 338.000</p>
</div>
</div>
</div>


<div class="well card">
<div class="col-md-3 image-card">
<img alt="Foto" height="155" src="ht

Agora, todo o procedimento feito para um card será aplicado para todos os cards.

In [40]:
# Percorrendo cada anúncio um a um
for anuncio in anuncios: 
  # Dicionário card vazio
  card = {}

  # Valor 
  card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

  # Informações
  infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')

  for info in infos:
    card[info.get('class')[0].split('-')[-1]] = info.get_text()

  # Itens
  items = anuncio.find('div', {'class': 'body-card'}).find('ul').findAll('li')
  items.pop()

  acessorios = []

  for item in items:
    acessorios.append(item.getText().replace('►', '')) 

  card['items'] = acessorios
  
  # Adicionando o dicionário card na lista cards
  cards.append(card)

  # Imagens
  image = anuncio.find('div', {'class': 'image-card'}).img
  urlretrieve(image.get('src'), image.get('src').split('/')[-1])

# DataFrame com os resultados
dataset = pd.DataFrame(cards)

# Exportando o DataFrame
dataset.to_csv('dataset.csv', sep=';', index=False, encoding='utf-8-sig')

# Visualizando o DataFrame criado
dataset

Unnamed: 0,value,name,category,motor,description,location,items,opportunity
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[ 4 X 4, Câmera de estacionamento, Controle ...",
1,R$ 346.000,BMW M2,USADO,Motor 3.0 32v,Ano 2018 - 83.447 km,Belo Horizonte - MG,"[ Câmera de estacionamento, Controle de estab...",
2,R$ 480.000,ALFA,USADO,Motor 1.8 16v,Ano 2004 - 19.722 km,Rio de Janeiro - RJ,"[ Central multimídia, Bancos de couro, Rodas...",
3,R$ 133.000,PUECH,USADO,Motor Diesel V8,Ano 1992 - 34.335 km,São Paulo - SP,"[ Bancos de couro, Freios ABS, Rodas de liga...",
4,R$ 175.000,LAMBORGHINI MURCIELAGO,USADO,Motor 1.0 8v,Ano 1991 - 464 km,Belo Horizonte - MG,"[ Central multimídia, Teto panorâmico, Senso...",
5,R$ 239.000,ASTON MARTIN,USADO,Motor Diesel V6,Ano 2004 - 50.189 km,Belo Horizonte - MG,"[ Painel digital, Controle de tração, Teto p...",OPORTUNIDADE
6,R$ 115.000,TVR,USADO,Motor 4.0 Turbo,Ano 2014 - 17.778 km,Belo Horizonte - MG,"[ 4 X 4, Teto panorâmico, Central multimídia...",
7,R$ 114.000,EXCALIBUR,USADO,Motor 3.0 32v,Ano 2009 - 81.251 km,Rio de Janeiro - RJ,"[ Painel digital, Câmbio automático, Sensor ...",
8,R$ 75.000,MCLAREN,NOVO,Motor Diesel,Ano 2019 - 0 km,São Paulo - SP,"[ Central multimídia, Câmera de estacionament...",
9,R$ 117.000,TOYOTA,USADO,Motor 4.0 Turbo,Ano 1999 - 12.536 km,São Paulo - SP,"[ Bancos de couro, Freios ABS, Piloto automá...",OPORTUNIDADE


### Obtendo os dados de todos os anúncios do site


Acessando o página da web, idenfica-se onde se encontra a informação do número de páginas. Clicando em cima dela e selecionando a opção inspecionar, encontra-se no código HTML onde está essa informação, na tag span da classe info-pages.

In [41]:
# Número de páginas
soup.find('span', class_='info-pages')

<span class="info-pages">Página 1 de 25</span>

Deseja-se acessar somente o número total de páginas, que no caso é 25.

In [42]:
# Acessando somento o número total de página e convertendo de string para int
pages = int(soup.find('span', class_='info-pages').getText().split()[-1])

Agora, todo o procedimento que foi feito para um página será feito para todas as páginas.

In [43]:
# Percorrendo todas as páginas do site uma a uma
cards = []
card = {}

for i in range(pages):
  # Acessando as páginas do site
  response = urlopen('https://alura-site-scraping.herokuapp.com/index.php?page=' + str(i+1))
  html = response.read().decode('utf-8')
  soup = BeautifulSoup(html, 'html.parser')
  
  anuncios = soup.find('div', {'id': 'container-cards'}).findAll('div', class_='card')

  for anuncio in anuncios: 
    # Dicionário card vazio
    card = {}

    # Valor 
    card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

    # Informações
    infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')

    for info in infos:
      card[info.get('class')[0].split('-')[-1]] = info.get_text()

    # Itens
    items = anuncio.find('div', {'class': 'body-card'}).find('ul').findAll('li')
    items.pop()

    acessorios = []

    for item in items:
      acessorios.append(item.getText().replace('►', '')) 

    card['items'] = acessorios
    
    # Adicionando o dicionário card na lista cards
    cards.append(card)

    # Imagens
    image = anuncio.find('div', {'class': 'image-card'}).img
    urlretrieve(image.get('src'), image.get('src').split('/')[-1])

  # DataFrame com os resultados
  dataset = pd.DataFrame(cards)

  # Exportando o DataFrame
  dataset.to_csv('dataset.csv', sep=';', index=False, encoding='utf-8-sig')

In [44]:
# Visualizando o DataFrame criado
dataset

Unnamed: 0,value,name,category,motor,description,location,items,opportunity
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[ 4 X 4, Câmera de estacionamento, Controle ...",
1,R$ 346.000,BMW M2,USADO,Motor 3.0 32v,Ano 2018 - 83.447 km,Belo Horizonte - MG,"[ Câmera de estacionamento, Controle de estab...",
2,R$ 480.000,ALFA,USADO,Motor 1.8 16v,Ano 2004 - 19.722 km,Rio de Janeiro - RJ,"[ Central multimídia, Bancos de couro, Rodas...",
3,R$ 133.000,PUECH,USADO,Motor Diesel V8,Ano 1992 - 34.335 km,São Paulo - SP,"[ Bancos de couro, Freios ABS, Rodas de liga...",
4,R$ 175.000,LAMBORGHINI MURCIELAGO,USADO,Motor 1.0 8v,Ano 1991 - 464 km,Belo Horizonte - MG,"[ Central multimídia, Teto panorâmico, Senso...",
...,...,...,...,...,...,...,...,...
241,R$ 489.000,SUV REAR TIRE,USADO,Motor 3.0 32v,Ano 1998 - 74.292 km,São Paulo - SP,"[ Câmera de estacionamento, Rodas de liga, S...",
242,R$ 427.000,ANTIQUE,NOVO,Motor 2.0 16v,Ano 2019 - 0 km,Belo Horizonte - MG,"[ Bancos de couro, Freios ABS, Sensor de est...",
243,R$ 203.000,SPORT,USADO,Motor 2.0 16v,Ano 2001 - 102.776 km,Belo Horizonte - MG,"[ Sensor crepuscular, Sensor de chuva, Vidro...",
244,R$ 474.000,IMPERIAL,USADO,Motor 1.8 16v,Ano 2011 - 101.787 km,Belo Horizonte - MG,"[ Painel digital, Travas elétricas, Sensor d...",OPORTUNIDADE


Observa-se que há um padrão na url de cada uma das páginas, todas elas terminam com page='número da página', por essa razão, foi possível fazer a iteração para acessar todas as páginas da forma como foi feita.

Dessa forma, foi finalizada a coleta de dados do site Alura Motors.