# <font color=green>1. MEU PRIMEIRO SCRAPING

# 1.1. Introdução

## *Web Scraping* é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.

# 1.2. Ambiente e bibliotecas
### Utilizaremos em nosso treinamento o navegador Google Chrome

In [84]:
import bs4
import urllib.request as urllib_request
import pandas

print("BeautifulSoup ->", bs4.__version__)
print("urllib ->", urllib_request.__version__)
print("pandas ->", pandas.__version__)

BeautifulSoup -> 4.11.1
urllib -> 3.10
pandas -> 1.4.2


# 1.3. Meu primeiro scraping

In [85]:
from bs4 import BeautifulSoup #Transforma a resposta em um objeto navegavel
from urllib.request import urlopen #faz requisição e obtem a resposta

url = 'http://alura-site-scraping.herokuapp.com/hello-world.php'

response = urlopen(url) #acessa o site e recebe resposta
html = response.read() #ler a resposta

#Passaremos agora a resposta para o BeatufiulSoup, para conseguir navegar melhor na resposta.

soup = BeautifulSoup(html, 'html.parser')
soup.find('h1', id="hello-world") #procura no html da resposta a tag h1 e o trecho igual a "hello-world"
print(soup.find('h1', id="hello-world").get_text()) #procura no html da resposta a tag h1 e o trecho igual a "hello-world" 
#e retorna somente o trecho procurado
print(soup.find('p').get_text()) #procurando somente pela tag, como só existe uma, trouxe o texto correto, caso houvesse mais de uma, 
#traria a primeira a ser encontrada. Ele começa a verificar do topo da página até o fim.
print(soup.find('h1', {'class': 'sub-header'}).get_text())

Hello World!!!
Web Scraping é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.
Curso de Web Scraping


---
# <font color=green>2. OBTENDO E TRATANDO O CONTEÚDO DE UM HTML

# 2.1. Entendendo a web

<img src="./web/web.png" width="700">

# 2.2. Obtendo o conteúdo HTML de um site

# urllib.request
## https://docs.python.org/3/library/urllib.html

In [3]:
from urllib.request import urlopen

url = 'http://alura-site-scraping.herokuapp.com/index.php'

response = urlopen(url)
html = response.read()

## https://docs.python.org/3/library/urllib.request.html#urllib.request.Request

In [4]:
#Em alguns casos será necessário utilizar outras bibliotecas para fazer o webscraping, pois essas páginas possuem
#particularidades.

#Para tal, iremos usar essas bibliotecas:
from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError #Bibliotecas que capturam erros que podem retornar ao fazer requisição

#Iremos utilizar o site da alura para teste

url = 'https://www.alura.com.br'
#Se fizermos o mesmo processo realizado acima será retornado erro 403: forbiden, pois esse site exige que informemos que estamos acessando
#a página a partir de um navegador padrão, conhecido como User-Agent, essa informação é possível obter através da opção de desevolvedores da
#página, na aba network, na lista de requisições que irá retornar escolhemos uma, em gera o index.php e depois ir na guia Headers, será 
#apresentado as guias General, Response Headers e o Request Headers, dentro de Request Headers haverá a informação do User-Agent.
#Dentro de Request Headers tem os cabeçalhos da requisição que fizemos para obter a página HTML.

#Inicia dicionário com a informação do User-Agent, onde a chave é User-Agent e o valor é o conteúdo do user-agent
#Esse useragent informa que estamos acessando essa página a partir de um desses navegadores.    
user_agent = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'}

#tratando os possíveis erros
try:
    req = Request(url, headers = user_agent) #Cria a variável de requisição, onde o parametro headers recebe o dicionário user_agent.
    response = urlopen(req)
    print(response.read())

#Caso haja erro na requisição
except HTTPError as e:
    print(e.status, e.reason)
    
#Caso haja erro na url
except URLError as e:
    print(e.reason)

#No tratamento de erro é importante colocar na ordem que está, pois caso a ordem esteja inversa, caso haja erro na requisição, esse não
#retornará


b'<!DOCTYPE html><html\nlang="pt-BR"><head><meta\ncharset="UTF-8"><meta\nname="viewport" content="width=device-width,initial-scale=1,minimum-scale=1.0"><title>Alura | Cursos online de Tecnologia</title><meta\nname="description" content="Aprenda Programa\xc3\xa7\xc3\xa3o, Front-end, Back-end, Data Science, UX, DevOps, Inova\xc3\xa7\xc3\xa3o e Gest\xc3\xa3o na maior plataforma de tecnologia do Brasil"><link\nrel="canonical" href="https://www.alura.com.br"><link\nrel="icon" href="/assets/favicon.1647533642.ico" /><link\nhref="https://fonts.googleapis.com/css2?display=swap&family=Inter:wght@400;700;900&family=Roboto+Mono:wght@400;700&display=swap" rel="stylesheet" crossorigin><link\nrel="preconnect" href="https://fonts.gstatic.com/" crossorigin><link\nrel="stylesheet" href="/bundle,base/_reset,base/base,base/buttons,base/colors-apostilas,base/colors,base/titulos.1653434924.css"><link\nrel="stylesheet" href="/bundle,home/homeNova/career-colors,home/homeNova/careers,home/homeNova/cases,home/

# 2.3. Tratamento de string

In [None]:
from urllib.request import urlopen

url = 'http://alura-site-scraping.herokuapp.com/index.php'

response = urlopen(url)
html = response.read()
html

### Convertando o tipo bytes para string

In [39]:
type(html)

bytes

In [40]:
html = html.decode('utf-8') #converte o html de byte para string

In [41]:
type(html)

str

In [None]:
html

### Eliminando os caracteres de tabulação, quebra de linha etc.

In [None]:
html.split() #gera uma lista com o conteúdo separados

#o \n e \t são considerados espaço.

In [None]:
" ".join(html.split()) #Usando join, assim irá retornar o conteúdo sequencial separado por esapaço

### Eliminando os espaços em branco entre as TAGS

In [None]:
" ".join(html.split()).replace('> <', '><')

### Função de tratamento de strings

In [42]:
def trata_html(input):
    return " ".join(input.split()).replace('> <', '><')

In [43]:
html = trata_html(html)

In [None]:
html

---
# <font color=green>3. INTRODUÇÃO AO BEAUTIFULSOUP

# 3.1. HTML da nossa página

**HTML** (*HyperText Markup Language*) é uma linguagem de marcação composta por **tags** que deteminam o papel que cada parte do documento vai assumir. As **tags** são formadas pelo seu nome e atributos. Os atributos servem para configurar e também modificar as características padrões de uma **tag**.

## Estrutura básica

```html
<html>
    <head>
        <meta charset="utf-8" />
        <title>Alura Motors</title>
    </head>
    <body>
        <div id="container">
            <h1>Alura</h1>
            <h2 class="formato">Cursos de Tecnologia</h2>
            <p>Você vai estudar, praticar, discutir e aprender.</p>
            <a href="https://www.alura.com.br/">Clique aqui</a>
        </div>
    </body>
</html>
```

```<html>``` - determina o início do documento.

```<head>``` - cabeçalho. Contém informações e configurações do documento.

```<body>``` - é o corpo do documento, onde todo o conteúdo é colocado. Esta é a parte visível em um navegador.

## Tags mais comuns

```<div>``` - define uma divisão da página. Pode ser formatada de diversas maneiras.

```<h1>, <h2>, <h3>, <h4>, <h5>, <h6>``` - marcadores de títulos.

```<p>``` - marcador de parágrafo.

```<a>``` - hiperlink.

```<img>``` - exibição de imagens.

```<table>``` - definição de tabelas.

```<ul>, <li>``` - definição de listas.


# 3.2. Criando um objeto BeautifulSoup

## https://www.crummy.com/software/BeautifulSoup/

### Sobre parser ver: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parser-installation

In [45]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

#O parser é justamente responsável pela interpretação do documento no formato HTML, para que então o BeautifulSoup 
#entenda cada tipo de elemento presente no texto, como tags, classes e etc.

soup

<!DOCTYPE html>
<html lang="pt-br"><head><meta charset="utf-8"/><meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/><title>Alura Motors</title><style> /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } } /*Mudando o tamanho do icone de resposta*/ div.glyphicon { color:#6B8E23; font-size: 38px; } /*Classe que mostra a animacao 'spin'*/ .loader { border: 16px solid #f3f3f3; border-radius: 50%; border-top: 16px solid #3498db; width: 80px; height: 80px; -webkit-animation: spin 2s linear infinite; animation: spin 2s linear infinite; } </style><link crossorigin="anonymous" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" rel="stylesheet"/><link href="css/styles.css" media="all" rel="stylesheet"/><script src="https://code.jquery.com/jquery-1.12.4.js"></script><script crossorigin="anonymou

In [46]:
type(soup)
bs4.BeautifulSoup

bs4.BeautifulSoup

In [47]:
print(soup.prettify()) #Imprime com identações

<!DOCTYPE html>
<html lang="pt-br">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
  <title>
   Alura Motors
  </title>
  <style>
   /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } } /*Mudando o tamanho do icone de resposta*/ div.glyphicon { color:#6B8E23; font-size: 38px; } /*Classe que mostra a animacao 'spin'*/ .loader { border: 16px solid #f3f3f3; border-radius: 50%; border-top: 16px solid #3498db; width: 80px; height: 80px; -webkit-animation: spin 2s linear infinite; animation: spin 2s linear infinite; }
  </style>
  <link crossorigin="anonymous" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" rel="stylesheet"/>
  <link href="css/styles.css" media="all" rel="stylesheet"/>
  <script src="https://code.jquery.com/jquery-1.12.4.js">
  

# 3.3. Acessando tags

In [48]:
soup.html #Acessando a tag html

<html lang="pt-br"><head><meta charset="utf-8"/><meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/><title>Alura Motors</title><style> /*Regra para a animacao*/ @keyframes spin { 0% { transform: rotate(0deg); } 100% { transform: rotate(360deg); } } /*Mudando o tamanho do icone de resposta*/ div.glyphicon { color:#6B8E23; font-size: 38px; } /*Classe que mostra a animacao 'spin'*/ .loader { border: 16px solid #f3f3f3; border-radius: 50%; border-top: 16px solid #3498db; width: 80px; height: 80px; -webkit-animation: spin 2s linear infinite; animation: spin 2s linear infinite; } </style><link crossorigin="anonymous" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" rel="stylesheet"/><link href="css/styles.css" media="all" rel="stylesheet"/><script src="https://code.jquery.com/jquery-1.12.4.js"></script><script crossorigin="anonymous" integrity="sh

In [49]:
soup.html.head.title #acessando o title, necessário colocar o caminho para encontrar um title especifico

<title>Alura Motors</title>

In [50]:
soup.title #Assim irá acessar o primeiro title encontrado na página

<title>Alura Motors</title>

In [22]:
# Caso houvesse mais de um h5 e para acessar um especifico

soup.div.div.div.div.h5

<h5 class="modal-title" id="loadingModal_label"><span class="glyphicon glyphicon-refresh"></span>Aguarde... </h5>

In [23]:
soup.h5 #só tem uma h5

<h5 class="modal-title" id="loadingModal_label"><span class="glyphicon glyphicon-refresh"></span>Aguarde... </h5>

# 3.4. Acessando o conteúdo das tags

In [24]:
soup.html.head.title

<title>Alura Motors</title>

In [25]:
soup.title

<title>Alura Motors</title>

In [26]:
soup.title.get_text() #Recupera o conteúdo da tag

'Alura Motors'

In [27]:
soup.h5

<h5 class="modal-title" id="loadingModal_label"><span class="glyphicon glyphicon-refresh"></span>Aguarde... </h5>

In [28]:
soup.h5.getText() #O mesmo que get_text()

'Aguarde... '

In [29]:
soup.getText()

'Alura MotorsYou need to enable JavaScript to run this app.Aguarde... Motors Hello WorldAnúnciosVeículos de Luxo Novos e Usados - Todas as Marcas246 veículos encontradosPágina 1 de 25LAMBORGHINI AVENTADORUSADOMotor 1.8 16vAno 1993 - 55.286 km► 4 X 4► Câmera de estacionamento► Controle de tração► Sensor de estacionamento...Belo Horizonte - MGR$ 338.000BMW M2USADOMotor 3.0 32vAno 2018 - 83.447 km► Câmera de estacionamento► Controle de estabilidade► Travas elétricas► Freios ABS...Belo Horizonte - MGR$ 346.000ALFAUSADOMotor 1.8 16vAno 2004 - 19.722 km► Central multimídia► Bancos de couro► Rodas de liga► Câmera de estacionamento...Rio de Janeiro - RJR$ 480.000PUECHUSADOMotor Diesel V8Ano 1992 - 34.335 km► Bancos de couro► Freios ABS► Rodas de liga► Câmbio automático...São Paulo - SPR$ 133.000LAMBORGHINI MURCIELAGOUSADOMotor 1.0 8vAno 1991 - 464 km► Central multimídia► Teto panorâmico► Sensor crepuscular► Piloto automático...Belo Horizonte - MGR$ 175.000ASTON MARTINUSADOOPORTUNIDADEMotor Die

### Conhecemos em nosso treinamento o método get_text(), ou getText(), que nos ajuda a acessar os conteúdos de uma tag HTML. O método get_text() permite a configuração de dois parâmetros, que podem ser úteis no tratamento dos resultados obtidos. O parâmetro separator permite a configuração de uma sequência de caracteres, para servir de separador entre os conteúdos das tags acessadas:

In [30]:
soup = BeautifulSoup('<h1>Título 1</h1><h2>Título 1.1</h2><p>Conteúdo</p>')
soup.get_text(' # ')

'Título 1 # Título 1.1 # Conteúdo'

### O segundo parâmetro é o strip, que, se configurando como True, remove os espaços em branco do início e do fim de cada bloco de texto retornado.

### Visto isso, analise o código abaixo:

In [31]:
from bs4 import BeautifulSoup

html = """
    <html>
        <body>
            <div id="container-a">
                <h1>Título A</h1>
                <h2 class="ref-a">Sub título A</h2>
                <p>Texto de conteúdo A</p>
                <div id="container-a-1">
                    <h1>Título A.1</h1>
                    <h2 class="ref-a">Sub título A.1</h2>
                    <p>Texto de conteúdo A.1</p>
                </div>
            </div>
        </body>
    </html>
"""
soup = BeautifulSoup(html, 'html.parser')
soup.get_text(strip = True)

'Título ASub título ATexto de conteúdo ATítulo A.1Sub título A.1Texto de conteúdo A.1'

In [51]:
soup.get_text(' || ', strip=True) 
#ou
soup.get_text(separator=' || ', strip=True)

'Alura Motors || You need to enable JavaScript to run this app. || Aguarde... || Motors || Hello World || Anúncios || Veículos de Luxo Novos e Usados - Todas as Marcas || 246 veículos encontrados || Página 1 de 25 || LAMBORGHINI AVENTADOR || USADO || Motor 1.8 16v || Ano 1993 - 55.286 km || ► 4 X 4 || ► Câmera de estacionamento || ► Controle de tração || ► Sensor de estacionamento || ... || Belo Horizonte - MG || R$ 338.000 || BMW M2 || USADO || Motor 3.0 32v || Ano 2018 - 83.447 km || ► Câmera de estacionamento || ► Controle de estabilidade || ► Travas elétricas || ► Freios ABS || ... || Belo Horizonte - MG || R$ 346.000 || ALFA || USADO || Motor 1.8 16v || Ano 2004 - 19.722 km || ► Central multimídia || ► Bancos de couro || ► Rodas de liga || ► Câmera de estacionamento || ... || Rio de Janeiro - RJ || R$ 480.000 || PUECH || USADO || Motor Diesel V8 || Ano 1992 - 34.335 km || ► Bancos de couro || ► Freios ABS || ► Rodas de liga || ► Câmbio automático || ... || São Paulo - SP || R$ 133

# 3.5. Acessando os atributos de uma tag

In [52]:
# É possível encontrar alguns tipos de tag pela pagina de desevolvedor do chrome. Ná página, clica no html que seleciona
# toda a página e digite ctrl + f, e coloca o termo que deseja.

soup.img

<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>

In [53]:
soup.img.attrs # Retorna dicionário com os atributos das tags

# Caso um atributo da tab possua duas informações ele coloca dentro de uma lista

{'src': 'img/alura-logo.svg',
 'class': ['d-inline-block', 'align-top'],
 'alt': 'Alura'}

In [54]:
soup.img.attrs.keys()

dict_keys(['src', 'class', 'alt'])

In [55]:
soup.img.attrs.values()

dict_values(['img/alura-logo.svg', ['d-inline-block', 'align-top'], 'Alura'])

In [56]:
soup.img['class']

['d-inline-block', 'align-top']

In [57]:
soup.img.get('src') #Recupera somente a informação do src

'img/alura-logo.svg'

---
# <font color=green>4. PESQUISANDO COM O BEAUTIFULSOUP

# 4.1. Os métodos *find()* e *findAll()*

- ### *find(tag, attributes, recursive, text, **kwargs)*

- ### *findAll(tag, attributes, recursive, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all

> **Observação:**
> - *findAll()* também pode ser utilizado como *find_all()*

### Método *find()*

In [58]:
soup.find('img') #é igual ao soup.img

<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>

In [59]:
soup.img

<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>

### Método *findAll()*

In [60]:
soup.findAll('img')

[<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/alfa/alfa-1823056__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/puech/puech-4055386__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-murcielago/lamborghini-murcielago-2872974__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/

### Comando equivalente ao método *find()*

In [62]:
# Usando o parametro do findAll limit, no exemplo trazemos o primeiro elemento encontrado, pois limitamos a 1

soup.findAll('img', limit = 1) 

# Perceba que ele traz em uma lista, para tirar é só executar:

soup.findAll('img', limit = 1)[0]

<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>

### Atalho para o método *findAll()*

In [63]:
soup('img') #traz todas as tags com img

[<img alt="Alura" class="d-inline-block align-top" src="img/alura-logo.svg"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/alfa/alfa-1823056__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/puech/puech-4055386__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-murcielago/lamborghini-murcielago-2872974__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/

### Passando listas de TAGs

In [64]:
soup.findAll(['h1', 'h2', 'h3', 'h4', 'h5', 'h6']) #procurando por todas as tags que contem os hs, se não encontrar,
#não traz nada

[<h5 class="modal-title" id="loadingModal_label"><span class="glyphicon glyphicon-refresh"></span>Aguarde... </h5>,
 <h4><b id="loadingModal_content"></b></h4>,
 <h1 class="sub-header">Veículos de Luxo Novos e Usados - Todas as Marcas</h1>]

### Utilizando o argumento *attributes*

In [67]:
soup.findAll('p', {"class":"txt-value"})

# Nesse caso foi pesquisado nas tags p tudo que continha como chave class e valor txt-values.

# Estamos usando o argumento atributes do findAll

[<p class="txt-value">R$ 338.000</p>,
 <p class="txt-value">R$ 346.000</p>,
 <p class="txt-value">R$ 480.000</p>,
 <p class="txt-value">R$ 133.000</p>,
 <p class="txt-value">R$ 175.000</p>,
 <p class="txt-value">R$ 239.000</p>,
 <p class="txt-value">R$ 115.000</p>,
 <p class="txt-value">R$ 114.000</p>,
 <p class="txt-value">R$ 75.000</p>,
 <p class="txt-value">R$ 117.000</p>]

### Buscando por conteúdo de uma TAG

In [69]:
# Usando o atributo text do findAll

soup.findAll('p', text = "Belo Horizonte - MG")

# Procura, nas tags p, todos os termos Belo Horizonte - MG

[<p class="txt-location">Belo Horizonte - MG</p>,
 <p class="txt-location">Belo Horizonte - MG</p>,
 <p class="txt-location">Belo Horizonte - MG</p>,
 <p class="txt-location">Belo Horizonte - MG</p>,
 <p class="txt-location">Belo Horizonte - MG</p>]

### Utilizando diretamente os atributos

In [70]:
soup.findAll('img', alt="Foto")

#Utilzamos o atributo alt da tag img, direto para encontrar as fotos

[<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/alfa/alfa-1823056__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/puech/puech-4055386__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-murcielago/lamborghini-murcielago-2872974__340.jpg" width="220"/>,
 <img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/aston-martin/aston-martin-2977916__340.jpg" width="220"/>,
 <img al

In [73]:
for i in soup.findAll('img', alt="Foto"):
    print(i.get('src'))
    
# criamos um for para pegar todas as fotos usando o atributo da tag.
# imprimimos cada item e usamos o get para pegar somente o conteudo de src

https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/bmw-m2/bmw-m2-2970882__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/alfa/alfa-1823056__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/puech/puech-4055386__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-murcielago/lamborghini-murcielago-2872974__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/aston-martin/aston-martin-2977916__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/tvr/tvr-2943925__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/excalibur/excalibur-2916730__340.jpg
https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/mclaren/mclaren-2855240__340.jpg
htt

### Cuidado com o atributo "class"

In [76]:
#soup.findAll('p', class="txt-value")

#Retorna erro pois  class é uma palavra reservada do python
#Nesse caso para resolver o problema é só colocar um undescore na frente do termo

soup.findAll('p', class_="txt-value")

[<p class="txt-value">R$ 338.000</p>,
 <p class="txt-value">R$ 346.000</p>,
 <p class="txt-value">R$ 480.000</p>,
 <p class="txt-value">R$ 133.000</p>,
 <p class="txt-value">R$ 175.000</p>,
 <p class="txt-value">R$ 239.000</p>,
 <p class="txt-value">R$ 115.000</p>,
 <p class="txt-value">R$ 114.000</p>,
 <p class="txt-value">R$ 75.000</p>,
 <p class="txt-value">R$ 117.000</p>]

### Obtendo todo o conteúdo de texto de uma página

In [None]:
soup.findAll(text = True)

#Retorna todos os textos dentro do html

# 4.2. Outros métodos de pesquisa

- ### *findParent(tag, attributes, text, **kwargs)*

- ### *findParents(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-parents-and-find-parent

> **Observação:**
> - *findParent()* e *findParents()* também podem ser utilizados como *find_parent()* e *find_parents()*, respectivamente.
---
- ### *findNextSibling(tag, attributes, text, **kwargs)*

- ### *findNextSiblings(tag, attributes, text, limit, **kwargs)*

- ### *findPreviousSibling(tag, attributes, text, **kwargs)*

- ### *findPreviousSiblings(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-next-siblings-and-find-next-sibling
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-previous-siblings-and-find-previous-sibling

> **Observação:**
> - *findNextSibling()*, *findNextSiblings()*, *findPreviousSibling()* e *findPreviousSiblings()* também podem ser utilizados como *find_next_sibling()*, *find_next_siblings()*, *find_previous_sibling()* e *find_previous_siblings()*, respectivamente.
---
- ### *findNext(tag, attributes, text, **kwargs)*

- ### *findAllNext(tag, attributes, text, limit, **kwargs)*

- ### *findPrevious(tag, attributes, text, **kwargs)*

- ### *findAllPrevious(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-next-and-find-next
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-previous-and-find-previous

> **Observação:**
> - *findNext()*, *findAllNext()*, *findPrevious* e *findAllPrevious* também podem ser utilizados como *find_next()*, *find_all_next()*, *find_previous()* e *find_all_previous()*, respectivamente.

## HTML de exemplo para ilustrar a utilização dos métodos de pesquisa do BeautifulSoup

<img src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/BeautifulSoup-method.png" width=80%>

---
## Resultado

<html>
    <body>
        <div id=“container-a”>
            <h1>Título A</h1>
            <h2 class="ref-a">Sub título A</h2>
            <p>Texto de conteúdo A</p>
        </div>
        <div id=“container-b”>
            <h1>Título B</h1>
            <h2 class="ref-b">Sub título B</h2>
            <p>Texto de conteúdo B</p>
        </div>
    </body>
</html>

In [78]:
html_teste = """
    <html>
        <body>
            <div id="container-a">
                <h1>Título A</h1>
                <h2 class="ref-a">Sub título A</h2>
                <p>Texto de conteúdo A</p>
            </div>
            <div id="container-b">
                <h1>Título B</h1>
                <h2 class="ref-b">Sub título B</h2>
                <p>Texto de conteúdo B</p>
            </div>
        </body>
    </html>
"""

### Tratamentos para a string HTML

In [79]:
html_teste

'\n    <html>\n        <body>\n            <div id="container-a">\n                <h1>Título A</h1>\n                <h2 class="ref-a">Sub título A</h2>\n                <p>Texto de conteúdo A</p>\n            </div>\n            <div id="container-b">\n                <h1>Título B</h1>\n                <h2 class="ref-b">Sub título B</h2>\n                <p>Texto de conteúdo B</p>\n            </div>\n        </body>\n    </html>\n'

In [87]:
html_teste = trata_html(html_teste)
html_teste

'<html><body><div id="container-a"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div><div id="container-b"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div></body></html>'

### Criando o objeto BeautifulSoup

In [88]:
soup = BeautifulSoup(html_teste, 'html.parser')
soup

<html><body><div id="container-a"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div><div id="container-b"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div></body></html>

### Parents

In [89]:
soup.find('h2')

<h2 class="ref-a">Sub título A</h2>

In [91]:
#Pegando o parent(pai) de h2, e que seja div

soup.find('h2').find_parent('div')

#Ele vai pegar a div anterior e todo o conteúdo que estiver dentro dela, da div

<div id="container-a"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div>

In [94]:
soup.find('h2').find_parents()

[<div id="container-a"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div>,
 <body><div id="container-a"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div><div id="container-b"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div></body>,
 <html><body><div id="container-a"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div><div id="container-b"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div></body></html>,
 <html><body><div id="container-a"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div><div id="container-b"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div></body></html>]

In [95]:
soup.findAll('h2').find_parent('div')

# Retorna erro, para conseguir fazer isso é conforme o que está abaixo

AttributeError: ResultSet object has no attribute 'find_parent'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

In [96]:
for item in soup.findAll('h2'):
    print(item.find_parent('div'))

<div id="container-a"><h1>Título A</h1><h2 class="ref-a">Sub título A</h2><p>Texto de conteúdo A</p></div>
<div id="container-b"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div>


## Siblings

In [98]:
# são os irmão, aquele que está na mesma linha, mesma hierarquia

soup.find('h2').findNextSibling()

# Retorna o que está depois de h2 e que esteja na mesma hierarquia

<p>Texto de conteúdo A</p>

In [100]:
soup.find('h2').findPreviousSibling()

# Retorna o que está antes de h2 e que esteja na mesma hierarquia

<h1>Título A</h1>

In [102]:
#Trazer todos os irmão que estão acima de p, perceba que só colocamos o s no Siblings

soup.find('p').findPreviousSiblings()

[<h2 class="ref-a">Sub título A</h2>, <h1>Título A</h1>]

## Next e Previous

In [103]:
soup.find('h2').findNext()

<p>Texto de conteúdo A</p>

In [104]:
soup.find('h2').findPrevious()

<h1>Título A</h1>

In [105]:
soup.find('h2').findAllNext()

[<p>Texto de conteúdo A</p>,
 <div id="container-b"><h1>Título B</h1><h2 class="ref-b">Sub título B</h2><p>Texto de conteúdo B</p></div>,
 <h1>Título B</h1>,
 <h2 class="ref-b">Sub título B</h2>,
 <p>Texto de conteúdo B</p>]

# <font color=green>5. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE UM ANÚNCIO

# 5.1. Identificando e selecionando os dados no HTML

### Obtendo o HTML e criando o objeto BeautifulSoup

In [None]:
response = urlopen('https://alura-site-scraping.herokuapp.com/index.php')
html = response.read().decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')
soup

### Criando variávels para armazenar informações

In [107]:
cards = []
card = {}

### Obtendo os dados do primeiro CARD

In [108]:
anuncio = soup.find('div', {'class': 'well card'})
anuncio

<div class="well card">
<div class="col-md-3 image-card">
<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>
</div>
<div class="col-md-6 body-card">
<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>
<p class="txt-category badge badge-secondary inline">USADO</p>
<p class="txt-motor">Motor 1.8 16v</p>
<p class="txt-description">Ano 1993 - 55.286 km</p>
<ul class="lst-items">
<li class="txt-items">► 4 X 4</li>
<li class="txt-items">► Câmera de estacionamento</li>
<li class="txt-items">► Controle de tração</li>
<li class="txt-items">► Sensor de estacionamento</li>
<li class="txt-items">...</li>
</ul>
<p class="txt-location">Belo Horizonte - MG</p>
</div>
<div class="col-md-3 value-card">
<div class="value">
<p class="txt-value">R$ 338.000</p>
</div>
</div>
</div>

# 5.2. Obtendo o VALOR do veículo anunciado

In [109]:
anuncio.find('div', {'class': 'value-card'})

<div class="col-md-3 value-card">
<div class="value">
<p class="txt-value">R$ 338.000</p>
</div>
</div>

In [110]:
anuncio.find('p', {'class': 'txt-value'}).getText()

'R$ 338.000'

In [111]:
card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

In [114]:
card

{'value': 'R$ 338.000'}

### <font color=red>Resumo

In [113]:
# Valor
card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

# 5.3. Obtendo as INFORMAÇÕES sobre o veículo anunciado

In [116]:
anuncio.find('div', {'class':'body-card'}).findAll('p')

[<p class="txt-name inline">LAMBORGHINI AVENTADOR</p>,
 <p class="txt-category badge badge-secondary inline">USADO</p>,
 <p class="txt-motor">Motor 1.8 16v</p>,
 <p class="txt-description">Ano 1993 - 55.286 km</p>,
 <p class="txt-location">Belo Horizonte - MG</p>]

In [117]:
infos = anuncio.find('div', {'class':'body-card'}).findAll('p')

In [120]:
for info in infos:
    print(info.get('class'), ' - ', info.get_text())
    
#Separa a informação do argumento da tag com a informação da tag

['txt-name', 'inline']  -  LAMBORGHINI AVENTADOR
['txt-category', 'badge', 'badge-secondary', 'inline']  -  USADO
['txt-motor']  -  Motor 1.8 16v
['txt-description']  -  Ano 1993 - 55.286 km
['txt-location']  -  Belo Horizonte - MG


In [121]:
for info in infos:
    print(info.get('class')[0], ' - ', info.get_text())
    
#Pega somente o primeiro item do argumento da tag

txt-name  -  LAMBORGHINI AVENTADOR
txt-category  -  USADO
txt-motor  -  Motor 1.8 16v
txt-description  -  Ano 1993 - 55.286 km
txt-location  -  Belo Horizonte - MG


In [122]:
for info in infos:
    print(info.get('class')[0].split('-'), ' - ', info.get_text())
    
#Separa o argumento da tag

['txt', 'name']  -  LAMBORGHINI AVENTADOR
['txt', 'category']  -  USADO
['txt', 'motor']  -  Motor 1.8 16v
['txt', 'description']  -  Ano 1993 - 55.286 km
['txt', 'location']  -  Belo Horizonte - MG


In [123]:
for info in infos:
    print(info.get('class')[0].split('-')[-1], ' - ', info.get_text())
    
#Após separar o argumento da tag, pega o último item

name  -  LAMBORGHINI AVENTADOR
category  -  USADO
motor  -  Motor 1.8 16v
description  -  Ano 1993 - 55.286 km
location  -  Belo Horizonte - MG


In [124]:
for info in infos:
    card[info.get('class')[0].split('-')[-1]] = info.get_text()
    
#Insere no dicionário card

In [127]:
card

{'value': 'R$ 338.000',
 'name': 'LAMBORGHINI AVENTADOR',
 'category': 'USADO',
 'motor': 'Motor 1.8 16v',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG'}

### <font color=red>Resumo

In [126]:
# Informações
infos = anuncio.find('div', {'class':'body-card'}).findAll('p')

for info in infos:
    card[info.get('class')[0].split('-')[-1]] = info.get_text()

# 5.4. Obtendo os ACESSÓRIOS do veículo anunciado

In [130]:
anuncio.find('div', {'class':'body-card'}).find('ul').findAll('li')

[<li class="txt-items">► 4 X 4</li>,
 <li class="txt-items">► Câmera de estacionamento</li>,
 <li class="txt-items">► Controle de tração</li>,
 <li class="txt-items">► Sensor de estacionamento</li>,
 <li class="txt-items">...</li>]

In [133]:
items = anuncio.find('div', {'class':'body-card'}).find('ul').findAll('li')
items

[<li class="txt-items">► 4 X 4</li>,
 <li class="txt-items">► Câmera de estacionamento</li>,
 <li class="txt-items">► Controle de tração</li>,
 <li class="txt-items">► Sensor de estacionamento</li>,
 <li class="txt-items">...</li>]

In [134]:
#Eliminar último item da lista

items.pop()

<li class="txt-items">...</li>

In [135]:
items

[<li class="txt-items">► 4 X 4</li>,
 <li class="txt-items">► Câmera de estacionamento</li>,
 <li class="txt-items">► Controle de tração</li>,
 <li class="txt-items">► Sensor de estacionamento</li>]

In [137]:
for item in items:
    print(item.getText().replace('► ', ''))

4 X 4
Câmera de estacionamento
Controle de tração
Sensor de estacionamento


In [138]:
acessorios = []

#adiciona a lista
for item in items:
    acessorios.append(item.getText().replace('► ', '')) #Insere na lista
    
acessorios

['4 X 4',
 'Câmera de estacionamento',
 'Controle de tração',
 'Sensor de estacionamento']

In [139]:
card['items'] = acessorios

In [142]:
card

{'value': 'R$ 338.000',
 'name': 'LAMBORGHINI AVENTADOR',
 'category': 'USADO',
 'motor': 'Motor 1.8 16v',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG',
 'items': ['4 X 4',
  'Câmera de estacionamento',
  'Controle de tração',
  'Sensor de estacionamento']}

### <font color=red>Resumo

In [141]:
# Acessórios
items = anuncio.find('div', {'class':'body-card'}).find('ul').findAll('li')
items.pop()
acessorios = []

for item in items:
    acessorios.append(item.getText().replace('► ', ''))
card['items'] = acessorios

# 5.5 Criando um DataFrame com os dados coletados do Alura Motors

In [143]:
card

{'value': 'R$ 338.000',
 'name': 'LAMBORGHINI AVENTADOR',
 'category': 'USADO',
 'motor': 'Motor 1.8 16v',
 'description': 'Ano 1993 - 55.286 km',
 'location': 'Belo Horizonte - MG',
 'items': ['4 X 4',
  'Câmera de estacionamento',
  'Controle de tração',
  'Sensor de estacionamento']}

In [144]:
import pandas as pd

In [145]:
dataset = pd.DataFrame(card)

#Dessa forma é gerado 4 linhas, pois identifica cada registro do item como uma linha,
#mas na verdade é somente uma linha, onde o campo intem contém vários itens

In [146]:
dataset

Unnamed: 0,value,name,category,motor,description,location,items
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,4 X 4
1,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,Câmera de estacionamento
2,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,Controle de tração
3,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,Sensor de estacionamento


In [147]:
dataset = pd.DataFrame.from_dict(card, orient = 'index')
dataset

#Dessa forma ele cria uma datafram de um dicionário usando .from_dict. E, a sua orientação fica baseado no index.

Unnamed: 0,0
value,R$ 338.000
name,LAMBORGHINI AVENTADOR
category,USADO
motor,Motor 1.8 16v
description,Ano 1993 - 55.286 km
location,Belo Horizonte - MG
items,"[4 X 4, Câmera de estacionamento, Controle de ..."


In [148]:
dataset = pd.DataFrame.from_dict(card, orient = 'index').T
dataset

#Usando a opção 'T', ele transpoe o dataframe, colocando-o em uma linha

Unnamed: 0,value,name,category,motor,description,location,items
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[4 X 4, Câmera de estacionamento, Controle de ..."


In [149]:
dataset.to_csv('/home/digitro/Documentos/estudo/alura/scraping_python/web-scraping-aula-1-inicio/output/data/dataset.csv', sep=';', index=False, encoding='utf-8-sig')

# 5.6. Obtendo a FOTO do anúncio

In [155]:
image = anuncio.find('div', {'class': 'image-card'}).img
image

<img alt="Foto" height="155" src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg" width="220"/>

In [156]:
image.get('src')

'https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg'

In [157]:
print(image.get('src'))

https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/img-cars/lamborghini-aventador/lamborghini-aventador-2932196__340.jpg


### Visualizando a FOTO no notebook (extra)

In [160]:
from IPython.core.display import display, HTML

display(HTML(str(anuncio.find('div', {'class':'image-card'}).img)))

#O str é para transformar o link em string

  from IPython.core.display import display, HTML


In [161]:
display(HTML("<img src=" + anuncio.find('div', {'class': 'image-card'}).img.get('src') + ">"))

### Rotina para acessar e salvar a FOTO do anúncio

## https://docs.python.org/3/library/urllib.request.html#urllib.request.urlretrieve

In [163]:
image.get('src').split('/')[-1] #Pegar o nome da imagem

'lamborghini-aventador-2932196__340.jpg'

In [164]:
from urllib.request import urlretrieve

urlretrieve(image.get('src'), './output/img/' + image.get('src').split('/')[-1])

('./output/img/lamborghini-aventador-2932196__340.jpg',
 <http.client.HTTPMessage at 0x7f5db9f4c490>)

### <font color=red>Resumo

In [None]:
image.get('src').split('/')[-1]
urlretrieve(image.get('src'), './output/img/' + image.get('src').split('/')[-1])

# <font color=green>6. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE TODOS OS ANÚNCIOS DE UMA PÁGINA

# 6.1. Identificando as informações no HTML

In [169]:
len(soup.find('div', {'id':'container-cards'}).findAll('div', class_='card')) #A saída do findAll é uma lista

10

In [170]:
anuncios = soup.find('div', {'id':'container-cards'}).findAll('div', class_='card')

In [None]:
for anuncio in anuncios:
    print(str(anuncio) + '\n\n') #transforma em estring e concatena com dois espaços, para separar os itens da lista.

# 6.2. Criando uma rotina de scraping

In [172]:
# # Valor
# card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

# # Informações
# infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')
# for info in infos:
#     card[info.get('class')[0].split('-')[-1]] = info.get_text()

# # Acessórios
# items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
# items.pop()
# acessorios = []
# for item in items:
#     acessorios.append(item.get_text().replace('► ', ''))
# card['items'] = acessorios

# # Imagens
# image = anuncio.find('div', {'class': 'image-card'}).img
# urlretrieve(image.get('src'), './output/img/' + image.get('src').split('/')[-1])     


('./output/img/toyota-3245397__340.jpg',
 <http.client.HTTPMessage at 0x7f5db9892b00>)

In [174]:
# Importando bibliotecas
from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd

# Declarando variável cards
cards = []

# Obtendo o HTML
response = urlopen('https://alura-site-scraping.herokuapp.com/index.php')
html = response.read().decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')

# Obtendo as TAGs de interesse
anuncios = soup.find('div', {'id':'container-cards'}).findAll('div', class_='card')

# Coletando as informações dos cards
for anuncio in anuncios:
    card = {}
    
    # Valor
    card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

    # Informações
    infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')
    for info in infos:
        card[info.get('class')[0].split('-')[-1]] = info.get_text()

    # Acessórios
    items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
    items.pop()
    acessorios = []
    for item in items:
        acessorios.append(item.get_text().replace('► ', ''))
    card['items'] = acessorios
    
    # Adicionando resultado à lista cards
    cards.append(card)

    # Imagens
    image = anuncio.find('div', {'class': 'image-card'}).img
    urlretrieve(image.get('src'), './output/img/' + image.get('src').split('/')[-1])    
    

# Criando um DataFrame com os resultados
dataset = pd.DataFrame(cards)

dataset.to_csv('./output/data/dataset.csv', sep=';', index = False, encoding = 'utf-8-sig')
dataset

Unnamed: 0,value,name,category,motor,description,location,items,opportunity
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[4 X 4, Câmera de estacionamento, Controle de ...",
1,R$ 346.000,BMW M2,USADO,Motor 3.0 32v,Ano 2018 - 83.447 km,Belo Horizonte - MG,"[Câmera de estacionamento, Controle de estabil...",
2,R$ 480.000,ALFA,USADO,Motor 1.8 16v,Ano 2004 - 19.722 km,Rio de Janeiro - RJ,"[Central multimídia, Bancos de couro, Rodas de...",
3,R$ 133.000,PUECH,USADO,Motor Diesel V8,Ano 1992 - 34.335 km,São Paulo - SP,"[Bancos de couro, Freios ABS, Rodas de liga, C...",
4,R$ 175.000,LAMBORGHINI MURCIELAGO,USADO,Motor 1.0 8v,Ano 1991 - 464 km,Belo Horizonte - MG,"[Central multimídia, Teto panorâmico, Sensor c...",
5,R$ 239.000,ASTON MARTIN,USADO,Motor Diesel V6,Ano 2004 - 50.189 km,Belo Horizonte - MG,"[Painel digital, Controle de tração, Teto pano...",OPORTUNIDADE
6,R$ 115.000,TVR,USADO,Motor 4.0 Turbo,Ano 2014 - 17.778 km,Belo Horizonte - MG,"[4 X 4, Teto panorâmico, Central multimídia, C...",
7,R$ 114.000,EXCALIBUR,USADO,Motor 3.0 32v,Ano 2009 - 81.251 km,Rio de Janeiro - RJ,"[Painel digital, Câmbio automático, Sensor de ...",
8,R$ 75.000,MCLAREN,NOVO,Motor Diesel,Ano 2019 - 0 km,São Paulo - SP,"[Central multimídia, Câmera de estacionamento,...",
9,R$ 117.000,TOYOTA,USADO,Motor 4.0 Turbo,Ano 1999 - 12.536 km,São Paulo - SP,"[Bancos de couro, Freios ABS, Piloto automátic...",OPORTUNIDADE


In [None]:
cards

# <font color=green>7. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE TODOS OS ANÚNCIOS DO SITE

# 7.1. Identificando as informações no HTML

In [176]:
soup.find('span', class_='info-pages')

<span class="info-pages">Página 1 de 25</span>

In [177]:
soup.find('span', class_='info-pages').get_text()

'Página 1 de 25'

In [178]:
soup.find('span', class_='info-pages').get_text().split()

['Página', '1', 'de', '25']

In [179]:
soup.find('span', class_='info-pages').get_text().split()[-1]

'25'

In [180]:
int(soup.find('span', class_='info-pages').get_text().split()[-1])

25

# 7.2. Criando uma rotina de scraping

In [185]:
# Importando bibliotecas
from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd

# Declarando variável cards
cards = []

## Obtendo o HTML e o total de páginas
response = urlopen('https://alura-site-scraping.herokuapp.com/index.php')
html = response.read().decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')
pages = int(soup.find('span', class_='info-pages').get_text().split()[-1])

## Iterando por todas as páginas do site
for i in range(pages):
    
    ## Obtendo o HTML
    response = urlopen('https://alura-site-scraping.herokuapp.com/index.php?page=' + str(i + 1))
    html = response.read().decode('utf-8')
    soup = BeautifulSoup(html, 'html.parser')

    # Obtendo as TAGs de interesse
    anuncios = soup.find('div', {"id": "container-cards"}).findAll('div', class_="card")

    # Coletando as informações dos CARDS
    for anuncio in anuncios:
        card = {}

        # Valor
        card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

        # Informações
        infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')
        for info in infos:
                card[info.get('class')[0].split('-')[-1]] = info.get_text()

        # Acessórios
        items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
        items.pop()
        acessorios = []
        for item in items:
            acessorios.append(item.get_text().replace('► ', ''))
        card['items'] = acessorios

        # Adicionando resultado a lista cards
        cards.append(card)

        # Imagens
        image = anuncio.find('div', {'class': 'image-card'}).img
        urlretrieve(image.get('src'), './output/img/' + image.get('src').split('/')[-1])     

        
# Criando um DataFrame com os resultados
dataset = pd.DataFrame(cards)
dataset.to_csv('./output/data/dataset.csv', sep=';', index = False, encoding = 'utf-8-sig')
dataset

Unnamed: 0,value,name,category,motor,description,location,items,opportunity
0,R$ 338.000,LAMBORGHINI AVENTADOR,USADO,Motor 1.8 16v,Ano 1993 - 55.286 km,Belo Horizonte - MG,"[4 X 4, Câmera de estacionamento, Controle de ...",
1,R$ 346.000,BMW M2,USADO,Motor 3.0 32v,Ano 2018 - 83.447 km,Belo Horizonte - MG,"[Câmera de estacionamento, Controle de estabil...",
2,R$ 480.000,ALFA,USADO,Motor 1.8 16v,Ano 2004 - 19.722 km,Rio de Janeiro - RJ,"[Central multimídia, Bancos de couro, Rodas de...",
3,R$ 133.000,PUECH,USADO,Motor Diesel V8,Ano 1992 - 34.335 km,São Paulo - SP,"[Bancos de couro, Freios ABS, Rodas de liga, C...",
4,R$ 175.000,LAMBORGHINI MURCIELAGO,USADO,Motor 1.0 8v,Ano 1991 - 464 km,Belo Horizonte - MG,"[Central multimídia, Teto panorâmico, Sensor c...",
...,...,...,...,...,...,...,...,...
241,R$ 489.000,SUV REAR TIRE,USADO,Motor 3.0 32v,Ano 1998 - 74.292 km,São Paulo - SP,"[Câmera de estacionamento, Rodas de liga, Sens...",
242,R$ 427.000,ANTIQUE,NOVO,Motor 2.0 16v,Ano 2019 - 0 km,Belo Horizonte - MG,"[Bancos de couro, Freios ABS, Sensor de estaci...",
243,R$ 203.000,SPORT,USADO,Motor 2.0 16v,Ano 2001 - 102.776 km,Belo Horizonte - MG,"[Sensor crepuscular, Sensor de chuva, Vidros e...",
244,R$ 474.000,IMPERIAL,USADO,Motor 1.8 16v,Ano 2011 - 101.787 km,Belo Horizonte - MG,"[Painel digital, Travas elétricas, Sensor de c...",OPORTUNIDADE


In [183]:
for i in range(25):
    print('https://alura-site-scraping.herokuapp.com/index.php?page=' + str(i + 1))

https://alura-site-scraping.herokuapp.com/index.php?page=1
https://alura-site-scraping.herokuapp.com/index.php?page=2
https://alura-site-scraping.herokuapp.com/index.php?page=3
https://alura-site-scraping.herokuapp.com/index.php?page=4
https://alura-site-scraping.herokuapp.com/index.php?page=5
https://alura-site-scraping.herokuapp.com/index.php?page=6
https://alura-site-scraping.herokuapp.com/index.php?page=7
https://alura-site-scraping.herokuapp.com/index.php?page=8
https://alura-site-scraping.herokuapp.com/index.php?page=9
https://alura-site-scraping.herokuapp.com/index.php?page=10
https://alura-site-scraping.herokuapp.com/index.php?page=11
https://alura-site-scraping.herokuapp.com/index.php?page=12
https://alura-site-scraping.herokuapp.com/index.php?page=13
https://alura-site-scraping.herokuapp.com/index.php?page=14
https://alura-site-scraping.herokuapp.com/index.php?page=15
https://alura-site-scraping.herokuapp.com/index.php?page=16
https://alura-site-scraping.herokuapp.com/index.p