# Automação de Web e de Processos (Data Engineering)

In [1]:
# Importando bibliotecas
import requests
from bs4 import BeautifulSoup 
import re
import pandas as pd
import psycopg2 
from sqlalchemy import create_engine
import io

In [2]:
# Realizando a coleta das páginas em que estão os livros
paginas = []

nova_pagina = "http://books.toscrape.com/catalogue/page-1.html"
# Enquanto o código da página for 200 (páginas válidas ou existentes)
while requests.get(nova_pagina).status_code == 200:
# Coloca no vetor a url da nova pagina, inicialmente a primeira pagina    
    paginas.append(nova_pagina)
# Para atualizar a nova é separado a primeira parte da url até "-", ou seja, 
# 'http://books.toscrape.com/catalogue/page', seguido de o número atual mais 1
# seguido do ".html"
    nova_pagina = paginas[-1].split("-")[0] + "-" + str(int(paginas[-1].split("-")[1].split(".")[0]) + 1) + ".html"
    


In [3]:
# Criando os vetores para compor o banco de dados
nome_livro = []
preco_livro = []
classificacao = []
estoque = []

In [4]:
for j in paginas:
    url = requests.get(j)
    soup = BeautifulSoup(url.text, 'html.parser')
    # Coletando todas caracteristicas dos produtos
    products = soup.findAll("li", {"class": "col-xs-6 col-sm-4 col-md-3 col-lg-3"})
    for i in products:
        # Coletando nome dos livros
        nome=i.h3.a["title"]
        # Colocando no vetor nome_livro
        nome_livro.append(nome)
        
        # Coletando o preço dos livros
        preco = i.findAll("p", {"class": "price_color"})
        preco = preco[0].get_text().replace('Â', '').replace('£', '').strip()
        # Colocando no vetor preco_livro
        preco_livro.append(preco)
        
        # Coletando a classificação dos livros
        cls = i.find("p", class_ = re.compile("star-rating")).get("class")[1]
        
        # Reescrevendo a classificação
        
        if cls == "One":
            cls = '1'
        else:
            if cls == "Two":
                cls = '2'
            else:
                if cls == "Three":
                    cls = '3'
                else:
                    if cls == "Four":
                        cls = '4'
                    else:
                        cls = '5'
         # Colocando no vetor classificacao
        classificacao.append(cls)
        
        # Coletando o estoque dos produtos 
        etqe = i.findAll("p", {"class": "instock availability"})
        etqe = etqe[0].get_text().strip()
        
        # Reescrevendo o estoque dos produtos
        if etqe == "In stock":
            etqe = "Em estoque"
        else:
            etqe = "Em falta"
        
        # Colocar no vetor estoque
        estoque.append(etqe)

In [5]:
# Criando o banco de dados 
dados_coletados = pd.DataFrame({'nome_livro': nome_livro, 
                                'preco_livro': preco_livro, 
                                'avaliacao_livro': classificacao, 
                                "estoque_livro": estoque})


In [6]:
# Primeiras linhas do banco de dados 
dados_coletados.head()

Unnamed: 0,nome_livro,preco_livro,avaliacao_livro,estoque_livro
0,A Light in the Attic,51.77,3,Em estoque
1,Tipping the Velvet,53.74,1,Em estoque
2,Soumission,50.1,1,Em estoque
3,Sharp Objects,47.82,4,Em estoque
4,Sapiens: A Brief History of Humankind,54.23,5,Em estoque


In [7]:
# Criar um engine (como o SQLAlchemy se comunica do o db)

engine = create_engine('postgresql://postgres:1017@localhost/Livros')

# Criando uma tabela com os nomes das colunas no db a partir dos dados coletados 
# Caso exista, a tabela não é recriada

dados_coletados.head(0).to_sql('tabela', engine, if_exists='append',index=False) 

In [8]:
if len(dados_coletados) > 0:
    
    # lista o nome das colunas do banco de dados
    
    df_columns = list(dados_coletados)
    
    # Junta o nome das colunas, usando como separador ","
    # (nome_livro,preco_livro,avaliacao_livro,estoque_livro)
    
    columns = ",".join(df_columns)

    # Cria VALUES('%s', '%s",...) um '%s' por coluna
    
    values = "VALUES({})".format(",".join(["%s" for _ in df_columns])) 

    # Cria o comando insert em SQL
    # 'INSERT INTO tabela (nome_livro,preco_livro,avaliacao_livro,estoque_livro) VALUES(%s,%s,%s,%s)'
    
    insert = "INSERT INTO {} ({}) {}".format('tabela',columns,values)
    
    # Estabelecendo conexão com o db
    
    conn = engine.raw_connection()
    
    # Interador que permite navegar e manipular os registros do db
    
    cur = conn.cursor()
    
    # Insere os dados coletados nas linhas da tabela
    
    psycopg2.extras.execute_batch(cur, insert, dados_coletados.values)
    
    # Confirma as mudanças na tabela 
    
    conn.commit()
    
    # Fechando a conexão
    
    cur.close()