# <font color=green>1. MEU PRIMEIRO SCRAPING

# 1.1. Introdução

## *Web Scraping* é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.

# 1.2. Ambiente e bibliotecas
### Utilizaremos em nosso treinamento o navegador Google Chrome

In [None]:
import bs4
import urllib.request as urllib_request
import pandas

print("BeautifulSoup ->", bs4.__version__)
print("urllib ->", urllib_request.__version__)
print("pandas ->", pandas.__version__)

# 1.3. Meu primeiro scraping

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://alura-site-scraping.herokuapp.com/hello-world.php'

response = urlopen(url)
html = response.read()

soup = BeautifulSoup(html, "html.parser")

print(soup.find('h1', id='hello-world').get_text())
print(soup.find('p').get_text())

---
# <font color=green>2. OBTENDO E TRATANDO O CONTEÚDO DE UM HTML

# 2.1. Entendendo a web

<img src="./web/web.png" width="700">

# 2.2. Obtendo o conteúdo HTML de um site

# urllib.request
## https://docs.python.org/3/library/urllib.html

In [None]:
# para obter o html de uma página será usado o URLLIB
from urllib.request import Request, urlopen
# tratar erros
# se for usar ambos é obrigatorio colocar a tratativa do HTTPError primeiro
from urllib.error import URLError, HTTPError 

url1 = 'https://alura-site-scraping.herokuapp.com/index.php'
url2 = 'https://www.alura.com.br'

response = urlopen(url1) 
# aqui obtemos o HTML da url1 sem problemas, porém a url2 vai dar o erro => 403: Forbidden
html = response.read()
html

## https://docs.python.org/3/library/urllib.request.html#urllib.request.Request

In [None]:

# Para resolver...
# pegar user-agent do navegador
resolve403 = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'}

# tratativas de erros com o try
try:
    # Request informando User-Agent
    req = Request(url2, headers = resolve403)
    response = urlopen(req)
    print(response.read())

except HTTPError as e: # se erro de requisição ele printa
    print(e.status, e.reason)
except URLError as e: # se erro de URL ele printa getaddrinfo failed
    print(e.reason)

# 2.3. Tratamento de string

In [None]:
# para obter o html de uma página será usado o URLLIB
from urllib.request import Request, urlopen
# tratar erros
# se for usar ambos é obrigatorio colocar a tratativa do HTTPError primeiro
from urllib.error import URLError, HTTPError 

url1 = 'https://alura-site-scraping.herokuapp.com/index.php'
url2 = 'https://www.alura.com.br'

response = urlopen(url1) 
# aqui obtemos o HTML da url1 sem problemas, porém a url2 vai dar o erro => 403: Forbidden
html = response.read()
html

### Convertando o tipo bytes para string

In [None]:
type(html)

In [None]:
html = html.decode('utf-8')

In [None]:
type(html)

In [None]:
html

### Eliminando os caracteres de tabulação, quebra de linha etc.

In [None]:
html.split()

In [None]:
" ".join(html.split())

### Eliminando os espaços em branco entre as TAGS

In [None]:
" ".join(html.split()).replace('> <', '><')

### Função de tratamento de strings

In [None]:
def trata_html(input):
    return " ".join(input.split()).replace('> <','><')

In [None]:
html

In [None]:
trata_html(html)

---
# <font color=green>3. INTRODUÇÃO AO BEAUTIFULSOUP

# 3.1. HTML da nossa página

**HTML** (*HyperText Markup Language*) é uma linguagem de marcação composta por **tags** que deteminam o papel que cada parte do documento vai assumir. As **tags** são formadas pelo seu nome e atributos. Os atributos servem para configurar e também modificar as características padrões de uma **tag**.

## Estrutura básica

```html
<html>
    <head>
        <meta charset="utf-8" />
        <title>Alura Motors</title>
    </head>
    <body>
        <div id="container">
            <h1>Alura</h1>
            <h2 class="formato">Cursos de Tecnologia</h2>
            <p>Você vai estudar, praticar, discutir e aprender.</p>
            <a href="https://www.alura.com.br/">Clique aqui</a>
        </div>
    </body>
</html>
```

```<html>``` - determina o início do documento.

```<head>``` - cabeçalho. Contém informações e configurações do documento.

```<body>``` - é o corpo do documento, onde todo o conteúdo é colocado. Esta é a parte visível em um navegador.

## Tags mais comuns

```<div>``` - define uma divisão da página. Pode ser formatada de diversas maneiras.

```<h1>, <h2>, <h3>, <h4>, <h5>, <h6>``` - marcadores de títulos.

```<p>``` - marcador de parágrafo.

```<a>``` - hiperlink.

```<img>``` - exibição de imagens.

```<table>``` - definição de tabelas.

```<ul>, <li>``` - definição de listas.


# 3.2. Criando um objeto BeautifulSoup

## https://www.crummy.com/software/BeautifulSoup/

### Sobre parser ver: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parser-installation

In [None]:
from bs4 import BeautifulSoup
# criando objeto Beautifulsoup:
html = trata_html(html)
soup = BeautifulSoup(html, "html.parser")

In [None]:
print(soup.prettify())

# 3.3. Acessando tags

In [None]:
soup.body

In [None]:
soup.html

In [None]:
soup.div.div.div.div.h5

In [None]:
soup.h5

In [None]:
soup.html.head.title

In [None]:
soup.title

# 3.4. Acessando o conteúdo das tags

In [None]:
soup.html.head.title

In [None]:
soup.title

In [None]:
soup.title.get_text()

In [None]:
soup.h5.get_text()

In [None]:
soup.get_text() # pega todo texto do html

# 3.5. Acessando os atributos de uma tag

In [None]:
soup.img

In [None]:
soup.img.attrs

In [None]:
soup.img.attrs.keys()

In [None]:
soup.img.attrs.values()

In [None]:
soup.img['class']

In [None]:
soup.img.get('src')

---
# <font color=green>4. PESQUISANDO COM O BEAUTIFULSOUP

# 4.1. Os métodos *find()* e *findAll()*

- ### *find(tag, attributes, recursive, text, **kwargs)*

- ### *findAll(tag, attributes, recursive, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all

> **Observação:**
> - *findAll()* também pode ser utilizado como *find_all()*

### Método *find()*

In [None]:
soup.find('img')

In [None]:
soup.img

### Método *findAll()*

In [None]:
soup.find_all('img')

### Comando equivalente ao método *find()*

In [None]:
soup.find_all('img', limit=2)[1]

### Atalho para o método *findAll()*

In [None]:
soup('img')

### Passando listas de TAGs

In [None]:
soup.find_all(['h1','h2','h3','h4','h5','h6'])

### Utilizando o argumento *attributes*

In [None]:
soup.findAll('p', {'class': 'txt-value'})

### Buscando por conteúdo de uma TAG

In [None]:
soup.find_all('p', text = "Belo Horizonte - MG")

### Utilizando diretamente os atributos

In [None]:
soup.findAll('img', alt="Foto")

In [None]:
for item in soup.findAll('img', alt="Foto"):
    print(item.get('src'))

### Cuidado com o atributo "class"

In [None]:
soup.find_all('p', class_='txt-value')

### Obtendo todo o conteúdo de texto de uma página

In [None]:
soup.find_all(text = True)

# 4.2. Outros métodos de pesquisa

- ### *findParent(tag, attributes, text, **kwargs)*

- ### *findParents(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-parents-and-find-parent

> **Observação:**
> - *findParent()* e *findParents()* também podem ser utilizados como *find_parent()* e *find_parents()*, respectivamente.
---
- ### *findNextSibling(tag, attributes, text, **kwargs)*

- ### *findNextSiblings(tag, attributes, text, limit, **kwargs)*

- ### *findPreviousSibling(tag, attributes, text, **kwargs)*

- ### *findPreviousSiblings(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-next-siblings-and-find-next-sibling
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-previous-siblings-and-find-previous-sibling

> **Observação:**
> - *findNextSibling()*, *findNextSiblings()*, *findPreviousSibling()* e *findPreviousSiblings()* também podem ser utilizados como *find_next_sibling()*, *find_next_siblings()*, *find_previous_sibling()* e *find_previous_siblings()*, respectivamente.
---
- ### *findNext(tag, attributes, text, **kwargs)*

- ### *findAllNext(tag, attributes, text, limit, **kwargs)*

- ### *findPrevious(tag, attributes, text, **kwargs)*

- ### *findAllPrevious(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-next-and-find-next
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-previous-and-find-previous

> **Observação:**
> - *findNext()*, *findAllNext()*, *findPrevious* e *findAllPrevious* também podem ser utilizados como *find_next()*, *find_all_next()*, *find_previous()* e *find_all_previous()*, respectivamente.

## HTML de exemplo para ilustrar a utilização dos métodos de pesquisa do BeautifulSoup

<img src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/BeautifulSoup-method.png" width=80%>

---
## Resultado

<html>
    <body>
        <div id=“container-a”>
            <h1>Título A</h1>
            <h2 class="ref-a">Sub título A</h2>
            <p>Texto de conteúdo A</p>
        </div>
        <div id=“container-b”>
            <h1>Título B</h1>
            <h2 class="ref-b">Sub título B</h2>
            <p>Texto de conteúdo B</p>
        </div>
    </body>
</html>

In [None]:
html_teste = """
    <html>
        <body>
            <div id=“container-a”>
                <h1>Título A</h1>
                <h2 class="ref-a">Sub título A</h2>
                <p>Texto de conteúdo A</p>
            </div>
            <div id=“container-b”>
                <h1>Título B</h1>
                <h2 class="ref-b">Sub título B</h2>
                <p>Texto de conteúdo B</p>
            </div>
        </body>
    </html>
"""

### Tratamentos para a string HTML

In [None]:
html_teste

In [None]:
html_teste = trata_html(html_teste)
html_teste

### Criando o objeto BeautifulSoup

In [None]:
soup = BeautifulSoup(html_teste, 'html.parser')
soup

### Parents

In [None]:
soup.find('h2')

In [None]:
soup.find('h2').find_parent('div')

In [None]:
soup.find('h2').find_parents()

In [None]:
# soup.find_all('h2').find_parents('div') # da erro pq tem mais de 1 'h2'. como resolver ? olhe abaixo

In [None]:
for item in soup.find_all('h2'):
    print(item.find_parent('div'))

## Siblings

In [None]:
soup.find('h2').findNextSibling()

In [None]:
soup.find('h2').findPreviousSibling()

In [None]:
soup.find('p').findPreviousSibling()

## Next e Previous

In [None]:
soup.find('h2').findNext()

In [None]:
soup.find('h2').findPrevious()

In [None]:
soup.find('h2').findAllNext() #findAllPrevious => vai pegar todos anteriores... é meio sem sentido

# <font color=green>5. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE UM ANÚNCIO

# 5.1. Identificando e selecionando os dados no HTML

### Obtendo o HTML e criando o objeto BeautifulSoup

In [None]:
response = urlopen('https://alura-site-scraping.herokuapp.com/index.php')
html = response.read().decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')

### Criando variávels para armazenar informações

In [None]:
cards = []
card = {}

### Obtendo os dados do primeiro CARD

In [None]:
anuncio = soup.find('div', {'class': 'well card'})

# 5.2. Obtendo o VALOR do veículo anunciado

In [None]:
anuncio

In [None]:
anuncio.find('div', {'class': 'value-card'})

In [None]:
anuncio.find('p', {'class': 'txt-value'}).get_text()

In [None]:
card['value'] = anuncio.find('p', {'class': 'txt-value'}).get_text()

In [None]:
card

### <font color=red>Resumo

In [None]:
# p pegar o Valor eu só preciso disso: 
card['value'] = anuncio.find('p', {'class': 'txt-value'}).get_text()

# 5.3. Obtendo as INFORMAÇÕES sobre o veículo anunciado

In [None]:
anuncio.find('div', {'class': 'body-card'}).findAll('p')

In [None]:
infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')

In [None]:
for info in infos:
    print(info.get('class'), '-', info.get_text())

In [None]:
for info in infos:
    print(info.get('class')[0], '-', info.get_text())

In [None]:
for info in infos:
    print(info.get('class')[0].split('-'), '-', info.get_text())

In [None]:
for info in infos:
    print(info.get('class')[0].split('-')[-1], '-', info.get_text()) # [-1] = ultimo item de uma lista

In [None]:
for info in infos:
    card[info.get('class')[0].split('-')[-1]] =  info.get_text()

In [None]:
card

### <font color=red>Resumo

In [None]:
# Informações
infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')
for info in infos:
    card[info.get('class')[0].split('-')[-1]] =  info.get_text()
card

# 5.4. Obtendo os ACESSÓRIOS do veículo anunciado

In [None]:
anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')

In [None]:
items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
items

In [None]:
items.pop()

In [None]:
items

In [None]:
for item in items: 
    print(item.getText().replace('► ', ''))

In [None]:
acessorios = []
for item in items: 
    acessorios.append(item.getText().replace('► ', ''))
acessorios

In [None]:
card['items'] = acessorios

In [None]:
card

### <font color=red>Resumo

In [None]:
# Acessórios
items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
items.pop()
acessorios = []

for item in items: 
    acessorios.append(item.getText().replace('► ', ''))

card['items'] = acessorios

# 5.5 Criando um DataFrame com os dados coletados do Alura Motors

In [None]:
card

In [None]:
import pandas as pd # o Pandas faz um tratamento melhor das informações

In [None]:
dataset = pd.DataFrame(card) # criando um dataframe

In [None]:
dataset # porém a saída não está como precisamos

In [None]:
dataset = pd.DataFrame.from_dict(card, orient = "index")
dataset # agora ta do jeito que precisamos, porém está no modo coluna

In [None]:
# colocando em modo linha
dataset = pd.DataFrame.from_dict(card, orient = "index").T
dataset

In [None]:
dataset.to_csv('./output/data/x.csv', sep=';', index=False, encoding='utf-8-sig')
# to_csv(
# 'local do arquivo', 
# sep de separar colunas, 
# indexFalse tira o 0, 
# enconding para arrumar caracteres)

# 5.6. Obtendo a FOTO do anúncio

In [None]:
image = anuncio.img

In [None]:
image.get('src')

In [None]:
print(image.get('src'))

### Visualizando a FOTO no notebook (extra)

In [None]:
from IPython.display import display, HTML

display(HTML(str(anuncio.find('div', {'class': 'image-card'}).img)))

In [None]:
display(HTML("<img src = " + (anuncio.find('div', {'class': 'image-card'}).img.get('src') + ">")))

### Rotina para acessar e salvar a FOTO do anúncio

## https://docs.python.org/3/library/urllib.request.html#urllib.request.urlretrieve

In [None]:
# malandragem para nomear a foto :D
photo_name = image.get('src').split('/')[-1]

In [None]:
from urllib.request import urlretrieve # funçãozinha que faz o download 

urlretrieve(image.get('src'), './output/img/' + photo_name)

### <font color=red>Resumo

In [None]:
# importar o urlretrieve
# urlretrieve (link_da_img, 'caminho q quero salva-la')

# <font color=green>6. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE TODOS OS ANÚNCIOS DE UMA PÁGINA

# 6.1. Identificando as informações no HTML

In [None]:
len(soup.find('div', {'id': 'container-cards'}).findAll('div', class_='card')) # são 10 carros por pagina

In [None]:
anuncios = soup.find('div', {'id': 'container-cards'}).findAll('div', class_='card')

In [None]:
for anuncio in anuncios:
    print(str(anuncio) + '\n\n')

# 6.2. Criando uma rotina de scraping

In [None]:
# Importando bibliotecas
from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd

# Declarando variável cards (uma lista)
cards = []

# Obtendo o HTML
response = urlopen('https://alura-site-scraping.herokuapp.com/index.php')
html = response.read().decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')

# Obtendo as TAGs de interesse
anuncios = soup.find('div', {"id": "container-cards"}).findAll('div', class_="card")

# Coletando as informações dos CARDS
for anuncio in anuncios:
    card = {}
    
    # Valor
    card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

    # Informações
    infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')
    for info in infos:
        card[info.get('class')[0].split('-')[-1]] = info.get_text()

    # Acessórios
    items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
    items.pop()
    acessorios = []
    for item in items:
        acessorios.append(item.get_text().replace('► ', ''))
    card['items'] = acessorios
    
    # Adicionando resultado a lista cards
    cards.append(card)

    # Imagens
    image = anuncio.find('div', {'class': 'image-card'}).img
    urlretrieve(image.get('src'), './output/img/' + image.get('src').split('/')[-1])     

# Criando um DataFrame com os resultados
dataset = pd.DataFrame(cards)
dataset.to_csv('./output/data/dataset_onepage.csv', sep=';', index = False, encoding = 'utf-8-sig')
dataset

In [None]:
cards

# <font color=green>7. WEB SCRAPING DO SITE ALURA MOTORS - OBTENDO OS DADOS DE TODOS OS ANÚNCIOS DO SITE

# 7.1. Identificando as informações no HTML

In [None]:
soup.find('span', class_="info-pages")

In [None]:
soup.find('span', class_="info-pages").getText()

In [None]:
soup.find('span', class_="info-pages").getText().split()

In [None]:
soup.find('span', class_="info-pages").getText().split()[-1]

In [None]:
int(soup.find('span', class_="info-pages").getText().split()[-1])

# 7.2. Criando uma rotina de scraping

In [None]:
# Importando bibliotecas
from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd

# Declarando variável cards
cards = []

## Obtendo o HTML e o total de páginas
response = urlopen('https://alura-site-scraping.herokuapp.com/index.php')
html = response.read().decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')
pages = int(soup.find('span', class_="info-pages").get_text().split()[-1])

## Iterando por todas as páginas do site
for i in range(pages):
    ## Obtendo o HTML
    response = urlopen('https://alura-site-scraping.herokuapp.com/index.php?page='+str(i+1))
    html = response.read().decode('utf-8')
    soup = BeautifulSoup(html, 'html.parser')

    # Obtendo as TAGs de interesse
    anuncios = soup.find('div', {"id": "container-cards"}).findAll('div', class_="card")

    # Coletando as informações dos CARDS
    for anuncio in anuncios:
        card = {}

        # Valor
        card['value'] = anuncio.find('p', {'class': 'txt-value'}).getText()

        # Informações
        infos = anuncio.find('div', {'class': 'body-card'}).findAll('p')
        for info in infos:
                card[info.get('class')[0].split('-')[-1]] = info.get_text()

        # Acessórios
        items = anuncio.find('div', {'class': 'body-card'}).ul.findAll('li')
        items.pop()
        acessorios = []
        for item in items:
            acessorios.append(item.get_text().replace('► ', ''))
        card['items'] = acessorios

        # Adicionando resultado a lista cards
        cards.append(card)

        # Imagens
        image = anuncio.find('div', {'class': 'image-card'}).img
        urlretrieve(image.get('src'), './output/img/' + image.get('src').split('/')[-1])     

# Criando um DataFrame com os resultados
dataset = pd.DataFrame(cards)
dataset.to_csv('./output/data/dataset_fullsite.csv', sep=';', index = False, encoding = 'utf-8-sig')
dataset

In [None]:
cards

In [None]:
for i in range(25):
    print('https://alura-site-scraping.herokuapp.com/index.php?page=' + str(i + 1))