# Web scraping - Prática Básica
    Pegaremos algumas informações do site da Finger
    
    Nessa fase iniciante, a estrutura do processo fica assim:
    Encontre 1
    Cheque o conteúdo
    Encontre todos 
    Itere sobre eles para pegar as informações desejadas
    
## Agenda 
        1 - Lendo a página da Web em Python
        2 - Analisando o HTML usando BeautifulSoup
        3 - Obtendo Título e Descrição
        4 - Passando os dados para uma tabela e salvando em csv

In [36]:
# Seção imports

from bs4 import BeautifulSoup
import requests

# Criar a tabela em csv ou excel ou outros formatos...
import pandas as pd

### 1 - Lendo a página da Web em Python
    A primeira coisa que precisamos fazer é ler o HTML que iremos usar
    através da biblioteca de requests

In [4]:
url = 'https://finger.ind.br/diferenciais-finger/'
html = requests.get(url)

### 2 - Analisando o HTML usando Beautiful Soup
    Vamos passar o HTML para um objeto BeautifulSoup().
    Este objeto tem atributos e métodos que usaremos para pegar
    os dados da página da web.

    Em outras palavras, o BeautifulSoup está lendo o HTML e fazendo sua estrutura 
    ter sentido para nós.

In [9]:
soup = BeautifulSoup(html.text, 'lxml')

In [13]:
# .prettify() deixa o HTML mais bonitinho para nossa leitura 

print(soup.prettify()[0:500])

# print(soup) # Faz o teste para comparar

<!DOCTYPE html>
<html class="no-js" lang="pt-br">
 <head>
  <meta charset="utf-8"/>
  <link crossorigin="" href="https://fonts.gstatic.com/" rel="preconnect"/>
  <script>
   WebFontConfig={google:{families:["Montserrat:200,200i,300,300i,400,400i,500,500i,600,600i,700,700i,800,800i,900,900i","Prata"]}};if(typeof WebFont==="object"&&typeof WebFont.load==="function"){WebFont.load(WebFontConfig);}
  </script>
  <script defer="" id="litespeed-webfont-lib" src="https://finger.ind.br/wp-content/plugins


### 3 - Obtendo Título e Descrição
    Vamos supor que desta página web queremos o título do artigo e sua descrição

In [18]:
'''
    .find() procura pela tag que passamos como parâmetro, e já que também passamos
    um atributo dela (a classe), .find() buscará por essa tag=div com a classe 
    específica 'title'.
    
    .text nos mostra o conteúdo da tag.    
'''

soup.find('div', class_='title').text

'Extrem High Gloss'

In [19]:
# Agora que sabemos como encontrar 1 título, podemos aplicar o mesmo pensamento para Todos
'''
    .findAll() faz a mesma busca, porém nos retorna todos os resultados que encontrou
    enquanto .find() nos retorna apenas o primeiro que ela encontrar
'''
soup.findAll('div', class_='title')

[<div class="title">Extrem High Gloss<div class="flag"><noscript><img alt="Itália" class="img-fluid" src="https://finger.ind.br/wp-content/uploads/2019/01/diferenciais-finger-15-50x50.png"/></noscript></div></div>,
 <div class="title">Extrem Super Matte<div class="flag"><noscript><img alt="Itália" class="img-fluid" src="https://finger.ind.br/wp-content/uploads/2019/01/diferenciais-finger-15-50x50.png"/></noscript></div></div>,
 <div class="title">3D Lenz<div class="flag"><img alt="Itália" class="img-fluid" data-lazyloaded="1" data-src="http

In [20]:
# Utilizando um loop, podemos iterar e pegar todo o conteúdo dentro de findAll()
for title in soup.findAll('div', class_='title'):
    print(title.text)

Extrem High Gloss
Extrem Super Matte
3D Lenz
Provençal Berlin
Couro
Painéis Stark
Painéis Stark 3D
Berg e Ágata
Painéis Editáveis
Kurve
Puxadores
Acessórios e Divisores
Corrediças Quadro
Dobradiças Blum
A qualidade Finger está presente em tudo que faz.
Site Finger
Blog Finger
Ambientes
Onde Encontrar
Atendimento


    O mesmo pensamento e técnicas se aplicam ao procuramos pelas descrições

In [21]:
# Encontre 1
soup.find('div', class_='content clearfix')

<div class="content clearfix" style="padding: 0;"><p>A Finger tem uma história inteira de trabalho, sempre pesquisando materiais, novas tecnologias e tendências. Assim, desenvolveu uma linha de produtos altamente diferenciada no mercado. A Coleção Origens é o melhor exemplo disso: cada detalhe, cada acabamento, cada padrão são de alta qualidade, durabilidade o que proporciona economia e alto valor agregado. Aproveite ao máximo a precisão alemã e o melhor do design europeu.</p><p><a data-pin-color="red" data-pin-do="buttonBookmark" data-pin-height="128" href="//www.pinterest.com/pin/create/button/"><noscript><img src="//assets.pinterest.com/images/pidgets/pinit_fg_en_rect_red_28.png"/></noscript></a></p></div>

In [22]:
# Cheque o conteúdo
soup.find('div', class_='content clearfix').text

'A Finger tem uma história inteira de trabalho, sempre pesquisando materiais, novas tecnologias e tendências. Assim, desenvolveu uma linha de produtos altamente diferenciada no mercado. A Coleção Origens é o melhor exemplo disso: cada detalhe, cada acabamento, cada padrão são de alta qualidade, durabilidade o que proporciona economia e alto valor agregado. Aproveite ao máximo a precisão alemã e o melhor do design europeu.'

In [24]:
# Encontre todos  --->  soup.findAll('div', class_='content clearfix')

# Itere sobre eles para pegar as informações desejadas
for content in soup.findAll('div', class_='content clearfix'):
    print(content.text)
    print()

A Finger tem uma história inteira de trabalho, sempre pesquisando materiais, novas tecnologias e tendências. Assim, desenvolveu uma linha de produtos altamente diferenciada no mercado. A Coleção Origens é o melhor exemplo disso: cada detalhe, cada acabamento, cada padrão são de alta qualidade, durabilidade o que proporciona economia e alto valor agregado. Aproveite ao máximo a precisão alemã e o melhor do design europeu.

Com um brilho inigualável, o padrão Extrem High Gloss gera a percepção de ampliação dos espaços. Apresenta altíssima capacidade de reflexo quando comparado a pinturas. Produzido com Laminado de Resina Polimérica, que é um produto vindo de Milão, na Itália.

Com o Super Matte (fosco aveludado), o padrão Extrem traz uma sensação muito agradável ao tato e aquece os ambientes. Tem como característica principal não reter a gordura dos dedos e mãos sobre a superfície. Produzido com Laminado de Resina Polimérica, que é um produto vindo de Buriasco, na Itália.

O padrão tridi

### 4 - Passando os dados para uma tabela e salvando em csv
    Usamos os loops anteriores, mas ao invés de mostrar na tela,
    passamos os dados para uma lista e transformamos a lista em 
    uma tabela.

In [25]:
# Listas para guardar as informações
titles = []
descriptions = []

for title in soup.findAll('div', class_='title'):
    titles.append(title.text)
    
for content in soup.findAll('div', class_='content clearfix'):
    descriptions.append(content.text)    

    Perceba que temos mais títulos que descrições, isso porque a forma que
    o site foi codificado e o modo como pegamos os dados não estão em sincronia
    
    Dessa vez, resolverei isso manualmente (simplesmente olhando o site e apagando
    na lista, onde as informações começam a vir indesejadamente). Porém, ao se pegar 
    Muitos dados é indicado vizualizar o inicio da tabela e o final, para saber se há
    dados extras (como aconteceu aqui).

In [29]:
len(titles)

20

In [28]:
len(descriptions)

16

#### Transformando em uma 'Série' (tipo de dado do pandas) para unir na tabela
    E apagando os índices indesejáveis e outras alteraçõeszinhas 

In [68]:
titles_series = pd.DataFrame(titles, columns=['title'])

titles_series = titles_series.drop([14,15,16,17,18,19])

titles_series

Unnamed: 0,title
0,Extrem High Gloss
1,Extrem Super Matte
2,3D Lenz
3,Provençal Berlin
4,Couro
5,Painéis Stark
6,Painéis Stark 3D
7,Berg e Ágata
8,Painéis Editáveis
9,Kurve


In [126]:
descriptions_series = pd.DataFrame(descriptions, columns=['description'])

descriptions_series = descriptions_series.drop([0,15])

descriptions_series = descriptions_series.reset_index().drop(columns='index')

descriptions_series

Unnamed: 0,description
0,"Com um brilho inigualável, o padrão Extrem Hig..."
1,"Com o Super Matte (fosco aveludado), o padrão ..."
2,O padrão tridimensional Lenz confere uma sensa...
3,O romantismo e as recordações do estilo proven...
4,Um toque tão real e quente que você tem a sens...
5,A robustez da madeira maciça compõe a sensação...
6,A volumetria do Painel Stark 3D apresenta um v...
7,Os padrões Berg e Ágata permitem infinitas pos...
8,Saia do lugar comum e diferencie seus projetos...
9,As linhas sinuosas do Kurve geram uma sensação...


In [127]:
#titles_series.append(descriptions_series, )

data = titles_series.join(descriptions_series, how='left')

data

Unnamed: 0,title,description
0,Extrem High Gloss,"Com um brilho inigualável, o padrão Extrem Hig..."
1,Extrem Super Matte,"Com o Super Matte (fosco aveludado), o padrão ..."
2,3D Lenz,O padrão tridimensional Lenz confere uma sensa...
3,Provençal Berlin,O romantismo e as recordações do estilo proven...
4,Couro,Um toque tão real e quente que você tem a sens...
5,Painéis Stark,A robustez da madeira maciça compõe a sensação...
6,Painéis Stark 3D,A volumetria do Painel Stark 3D apresenta um v...
7,Berg e Ágata,Os padrões Berg e Ágata permitem infinitas pos...
8,Painéis Editáveis,Saia do lugar comum e diferencie seus projetos...
9,Kurve,As linhas sinuosas do Kurve geram uma sensação...


In [128]:
data.to_csv('finger.csv')