# Coletando dados da web com Python: Uma introdução ao web scraping

---

## Introdução

Web Scraping é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.


## Ambiente e bibliotecas

* Um navegador web
* Python
* Requests
* BeautifulSoup

In [0]:
import bs4
import requests

print("BeautifulSoup:", bs4.__version__)
print("requests:", requests.__version__)

In [0]:
req

## Primeiro scraping

Para sentir o gostinho.

In [0]:
from bs4 import BeautifulSoup
import requests

url = 'https://alura-site-scraping.herokuapp.com/hello-world.php'
req = requests.get(url)

soup = BeautifulSoup(req.text, 'html.parser')
print(soup.find('h1', id="hello-world").get_text())

## Entendendo a web

![Requisição HTTP](https://www.tankonyvtar.hu/en/tartalom/tamop425/0027_ADW1/images/ADW100.png)

Imagem: [Tableless](https://tableless.com.br/criando-seu-proprio-servidor-http-do-zero-ou-quase-parte-i/)

## Obtendo o conteúdo HTML de um site

### Requests

*Requests é uma biblioteca HTTP do Python, lançada sob a licença Apache2. O objetivo do projeto é tornar as solicitações HTTP mais simples e mais amigáveis ao homem. — [Documentação oficial](https://requests.readthedocs.io/pt_BR/latest/user/quickstart.html)*


In [0]:
import requests

url = 'https://alura-site-scraping.herokuapp.com/index.php'
req = requests.get(url)

In [0]:
type(req)

In [0]:
req.text

## Criando um objeto BeautifulSoup

### BeautifulSoup

*O Beautiful Soup é uma biblioteca Python para extrair dados de arquivos HTML e XML. Ele funciona com seu analisador favorito para fornecer formas idiomáticas de navegar, pesquisar e modificar a árvore de análise. Isso geralmente salva os programadores horas ou dias de trabalho. — [Documentação oficial](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)*

In [0]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(req.text, 'html.parser')

**Para saber mais:**

*Parser: [https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parser-installation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parser-installation)*

In [0]:
type(soup)

In [0]:
soup

In [0]:
print(soup.prettify())

## Acessando tags

In [0]:
soup.html

In [0]:
soup.html.head.title

In [0]:
type(soup.title)

In [0]:
soup.div.div.div.div.h5

In [0]:
soup.h5

### Acessando o conteúdo das tags

In [0]:
soup.html.head.title

In [0]:
soup.title

In [0]:
soup.title.get_text()

In [0]:
soup.h5.getText()

In [0]:
soup.get_text()

### Acessando os atributos de uma tag

In [0]:
soup.img

In [0]:
soup.img.attrs

In [0]:
soup.img.attrs.keys()

In [0]:
soup.img.attrs.values()

In [0]:
soup.img['class']

In [0]:
soup.img.get('src')

## Pesquisando com o BeautifulSoup

### Os métodos find() e find_all()

`find()`
* [https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find)

`find_all()`
* [https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all)

#### `find()`

In [0]:
req.text

In [0]:
soup.find('img')

#### `find_all()`

In [0]:
soup.find_all('img')

##### Atalho para o método `find_all()`

In [0]:
soup('img')

##### Passando listas de TAGs

In [0]:
soup.find_all(['h1', 'h2', 'h3', 'h4', 'h5', 'h6'])

##### Utilizando o argumento attributes

In [0]:
soup.find_all('p', {'class': 'txt-value'})

##### Buscando por conteúdo de uma TAG

In [0]:
soup.find_all('p', text='Belo Horizonte - MG')

##### Utilizando diretamente os atributos

In [0]:
soup.find_all('img', alt='Foto')

In [0]:
for item in soup.find_all('img', alt='Foto'):
    print(item.get('src'))

###### Cuidado com o atributo "`class`"

In [0]:
soup.find_all('p', class_='txt-value')

### Outros métodos de pesquisa

#### Parents, siblings, next e previous

Para saber mais:

- `find_parent(tag, attributes, text, **kwargs)`
- `find_parents(tag, attributes, text, limit, **kwargs)`

*https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-parents-and-find-parent*

---

- `find_next_sibling(tag, attributes, text, **kwargs)`

- `find_next_siblings(tag, attributes, text, limit, **kwargs)`

- `find_previous_sibling(tag, attributes, text, **kwargs)`

- `find_previous_siblings(tag, attributes, text, limit, **kwargs)`

*https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-next-siblings-and-find-next-sibling*

*https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-previous-siblings-and-find-previous-sibling*


<img src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/BeautifulSoup-method.png" width="50%">

Imagem: [Alura](https://www.alura.com.br)

--- 

- `find_next(tag, attributes, text, **kwargs)`

- `find_all_next(tag, attributes, text, limit, **kwargs)`

- `find_previous(tag, attributes, text, **kwargs)`

- `find_all_previous(tag, attributes, text, limit, **kwargs)`

*https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-next-and-find-next*

*https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-previous-and-find-previous*

##### Exemplos:

In [0]:
html_teste = """
    <html>
        <body>
            <div id="container-a">
                <h1>Título A</h1>
                <h2 class="ref-a">Sub título A</h2>
                <p>Texto de conteúdo A</p>
            </div>
            <div id="container-b">
                <h1>Título B</h1>
                <h2 class="ref-b">Sub título B</h2>
                <p>Texto de conteúdo B</p>
            </div>
        </body>
    </html>
"""

# Para visualização no notebook
from IPython.core.display import display, HTML

display(HTML(html_teste))

In [0]:
soup = BeautifulSoup(html_teste, 'html.parser')

###### Parents

In [0]:
soup.find('h2')

In [0]:
soup.find('h2').find_parent('div')

In [0]:
soup.find('h2').find_parents()

In [0]:
soup.find_all('h2')

In [0]:
for item in soup.find_all('h2'):
    print(item.find_parent('div'))

###### Siblings

In [0]:
soup.find('h2').find_next_sibling()

In [0]:
soup.find('h2').find_previous_sibling()

In [0]:
soup.find('p').find_previous_siblings()

###### Next e previous

In [0]:
soup.find('h2').find_next()

In [0]:
soup.find('h2').find_previous()

In [0]:
soup.find('h2').find_all_next()

## Web Scraping: raspando os dados de um anúncio

In [0]:
from bs4 import BeautifulSoup
import requests

url = 'https://alura-site-scraping.herokuapp.com/index.php'
req = requests.get(url)

soup = BeautifulSoup(req.text, 'html.parser')

### Criando variávels para armazenar informações


In [0]:
cards = []
card = {}

### Identificando e selecionando os dados no HTML


#### Obtendo os dados do primeiro CARD

In [0]:
anuncio = soup.find('div', {'class': 'well card'})

In [0]:
anuncio

In [0]:
anuncio.find('div', {'class': 'value-card'})

In [0]:
anuncio.find('p', {'class': 'txt-value'}).get_text()

In [0]:
card['value'] = anuncio.find('p', {'class': 'txt-value'}).get_text()

In [0]:
card

### Obtendo os dados do anúncio

![Inspecionando a página](https://i.imgur.com/h9DvkGd.png)

In [0]:
anuncio.find('div', {'class': 'body-card'}).find_all('p')

In [0]:
infos = anuncio.find('div', {'class': 'body-card'}).find_all('p')

In [0]:
for info in infos:
    print(info.get('class'), ' :: ', info.get_text())

In [0]:
for info in infos:
    print(info.get('class')[0], ' :: ', info.get_text())

In [0]:
for info in infos:
    print(info.get('class')[0].split('-'), ' :: ', info.get_text())

In [0]:
for info in infos:
    print(info.get('class')[0].split('-')[-1], ' :: ', info.get_text())

In [0]:
for info in infos:
    card[info.get('class')[0].split('-')[-1]] = info.get_text()

In [0]:
card

### Obtendo os acessórios do veículo anunciado

![](https://i.imgur.com/E3a9rW1.png)

In [0]:
anuncio.find('div', {'class': 'body-card'}).ul.find_all('li')

In [0]:
items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
items

In [0]:
items.pop()

In [0]:
items

In [0]:
for item in items:
    print(item.getText().replace('► ', ''))

In [0]:
acessorios = []
for item in items:
    acessorios.append(item.getText().replace('► ', ''))
    
acessorios

In [0]:
card['items'] = acessorios

In [0]:
card

#### EXTRA

In [0]:
import pandas as pd

dataset = pd.DataFrame.from_dict(card, orient = 'index').T
dataset

### Obtendo a imagem do anúncio

In [0]:
image = anuncio.find('div', {'class': 'image-card'}).img
src = image.get('src')

# Para visualizar a FOTO no notebook 
from IPython.core.display import display, HTML

display(HTML(f'<img src={src}>'))

## Todos os anúncios (uma página)

In [0]:
soup.find('div', {"id": "container-cards"}).findAll('div', class_="card")

In [0]:
x = len(soup.find('div', {"id": "container-cards"}).findAll('div', class_="card"))

print('Quantidade de anúncios:', x)

In [0]:
anuncios = soup.find('div', {"id": "container-cards"}).findAll('div', class_="card")

In [0]:
for anuncio in anuncios:
    print(str(anuncio) + "\n\n")

### O que temos até aqui? 

In [0]:
from bs4 import BeautifulSoup
import pandas as pd
import requests


cards = []

url = 'https://alura-site-scraping.herokuapp.com/index.php'
req = requests.get(url)
soup = BeautifulSoup(req.text, 'html.parser')

anuncios = soup.find('div', {"id": "container-cards"}).findAll('div', class_="card")

for anuncio in anuncios:
    card = {}

    card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

    infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')
    for info in infos:
        card[info.get('class')[0].split('-')[-1]] = info.get_text()

    items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
    items.pop()
    acessorios = []
    for item in items:
        acessorios.append(item.get_text().replace('► ', ''))
    card['items'] = acessorios

    cards.append(card)
    

dataset = pd.DataFrame(cards)
dataset

## Todos os anúncios (todas as páginas)

### Quantidade de páginas

In [0]:
soup.find('span', class_="info-pages")

In [0]:
soup.find('span', class_="info-pages").get_text()

In [0]:
soup.find('span', class_="info-pages").get_text().split()

In [0]:
soup.find('span', class_="info-pages").get_text().split()[-1]

In [0]:
pages = int(soup.find('span', class_="info-pages").get_text().split()[-1])
print('Quantidade de páginas:', pages)

for i in range(25):
  print(url + '?page=' + str(i+1))

## Dasafio

Desenvolver uma rotina para obter os dados dos 246 anúncios do site.

> Dica:
> - `/index.php?page={}`


### Resultado



In [0]:
from bs4 import BeautifulSoup
import pandas as pd
import requests


cards = []

url = 'https://alura-site-scraping.herokuapp.com/index.php'
req = requests.get(url)
soup = BeautifulSoup(req.text, 'html.parser')
pages = int(soup.find('span', class_="info-pages").get_text().split()[-1])

for i in range(pages):

    url = f'https://alura-site-scraping.herokuapp.com/index.php?page={(i + 1)}'
    req = requests.get(url)
    soup = BeautifulSoup(req.text, 'html.parser')

    anuncios = soup.find('div', {"id": "container-cards"}).findAll('div', class_="card")

    for anuncio in anuncios:
        card = {}

        card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

        infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')
        for info in infos:
            card[info.get('class')[0].split('-')[-1]] = info.get_text()

        items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
        items.pop()
        acessorios = []
        for item in items:
            acessorios.append(item.get_text().replace('► ', ''))
        card['items'] = acessorios

        cards.append(card)
    

dataset = pd.DataFrame(cards)
dataset