In [129]:
import tqdm
import pandas as pd
import numpy as np
import requests
from bs4 import BeautifulSoup
from selenium import webdriver

## The url to scrape

In [113]:
url = 'https://www.livrariadavila.com.br/livros/nao-ficcao/biografia?PS=2041'



## Get the response

In [114]:
response = requests.get(url)

In [115]:
response

<Response [200]>

## Get the html

In [116]:
html = response.content

## Do the soup

In [117]:
soup = BeautifulSoup(html)


## Walk through the HTML, to select all books of this "Biography" page

In [119]:
soup.find_all('b', attrs={'class':'product-name'})[0].text.strip()

'Os Últimos Melhores Dias da Minha Vida'

In [120]:
titles = [s.find_all('a')[0]['title'].strip() for s in soup.find_all('b', attrs={'class':'product-name'})]
titles

['Os Últimos Melhores Dias da Minha Vida',
 'Woody Allen - a Autobiografia',
 'De Cu Pra Lua',
 'Autobiografia Precoce',
 'Samuel Wainer - o Homem Que Estava Lá',
 'Um Paciente Chamado Brasil',
 'Onde os Sonhos Acontecem - Meus 15 Anos Como Ceo da The Walt Disney Company',
 'Sonho Sequestrado',
 'Narciso em Férias',
 'Vida Começava La, a - Uma Historia de Repercussão Corporal',
 'Escritos de Uma Vida',
 'Francisco, o Papa da Esperança',
 'Quem Matou John Lennon?',
 'Enquanto Estivermos Juntos',
 'O Violão Vadio de Baden Powell',
 'Sou a Mãe Dela',
 'Bauman - Uma Biografia',
 'Tempo Vida Poesia',
 'Mulheres de Minha Alma',
 'Nós, Mulheres']

In [70]:
soup.find_all('a', attrs={'style':'text-decoration:none;'})

[]

In [83]:
len(titles)

20

In [72]:
soup.find_all('div', attrs={'class':'product-field product_field_40 product-field-type_1'})[0].text.strip()

'Autor\r\n\nGilberto Dimenstein, Anna Penido'

In [82]:
authors = [x.text.strip().split('\n\n')[1] for x in soup.find_all('div', attrs={'class':'product-field product_field_40 product-field-type_1'})]
authors

['Gilberto Dimenstein, Anna Penido',
 'Woody Allen',
 'Nelson Motta',
 'Pagu',
 'Karla Monteiro',
 'Luiz Henrique Mandetta',
 'Robert Iger',
 'Marcondes Gadelha',
 'Caetano Veloso',
 'Fernando Barba, Renata Ferraz Torres',
 'Sueli Carneiro',
 'José Laércio de Lima',
 'Lesley -Ann Jones',
 'Jeremy Camp',
 'Dominique Dreyfus',
 'Adriana Araújo',
 'Izabela Wagner',
 'Carlos Drummond de Andrade',
 'Isabel Allende',
 'Rosa Montero']

In [81]:
'Autor\r\n\nRosa Montero'.split('\n\n')

['Autor\r', 'Rosa Montero']

In [84]:
len(authors)

20

In [87]:
soup.find_all('div', attrs={'class':'product-field product_field_43 product-field-type_1'})[0].text.strip().split('\r\n\n')[1]

'Record'

In [88]:
editoras = [x.text.strip().split('\r\n\n')[1] for x in soup.find_all('div', attrs={'class':'product-field product_field_43 product-field-type_1'})]
editoras

['Record',
 'Globo',
 'Estação Brasil',
 'Companhia das Letras',
 'Companhia das Letras',
 'Objetiva',
 'Intrínseca',
 'Matrix',
 'Companhia das Letras',
 'Stachinni',
 'Polen',
 'Gutenberg',
 'Rocco',
 'Principium',
 'Editora 34',
 'Globo',
 'Zahar',
 'Companhia das Letras',
 'Bertrand Brasil',
 'Todavia']

In [89]:
soup.find_all('span', attrs={'class':'best-price'})[0].text.strip()

'R$ 34,90'

In [158]:
prices = [x.text.strip() for x in soup.find_all('span', attrs={'class':'best-price'})]


[]

In [92]:
len(prices)

20

## Get the DataFrame of the 20 books of the page

In [96]:
pd.DataFrame({'Título':titles, 'Autor':authors , 'Editora':editoras , 'Preço':prices})

Unnamed: 0,Título,Autor,Editora,Preço
0,Os Últimos Melhores Dias da Minha Vida,"Gilberto Dimenstein, Anna Penido",Record,"R$ 34,90"
1,Woody Allen - a Autobiografia,Woody Allen,Globo,"R$ 49,90"
2,De Cu Pra Lua,Nelson Motta,Estação Brasil,"R$ 69,90"
3,Autobiografia Precoce,Pagu,Companhia das Letras,"R$ 59,90"
4,Samuel Wainer - o Homem Que Estava Lá,Karla Monteiro,Companhia das Letras,"R$ 89,90"
5,Um Paciente Chamado Brasil,Luiz Henrique Mandetta,Objetiva,"R$ 49,90"
6,Onde os Sonhos Acontecem - Meus 15 Anos Como C...,Robert Iger,Intrínseca,"R$ 49,90"
7,Sonho Sequestrado,Marcondes Gadelha,Matrix,"R$ 42,00"
8,Narciso em Férias,Caetano Veloso,Companhia das Letras,"R$ 59,90"
9,"Vida Começava La, a - Uma Historia de Repercus...","Fernando Barba, Renata Ferraz Torres",Stachinni,"R$ 50,00"


## Create a Spider, to include all books "Biography" in a DataFrame, with prices, therefore available for sale

In [151]:
url = 'https://www.livrariadavila.com.br/livros/nao-ficcao/biografia?PS=20'
df=pd.DataFrame(columns=['Título','Autor','Editora','Preço'])
for i in range(1,42):
    url=f'http://www.livrariadavila.com.br/livros/nao-ficcao/biografia?PS=20#{i}'
    chrome_path = '/Users/ivan/Desktop/chromedriver'
    driver=webdriver.Chrome(executable_path=chrome_path)
    driver.get(url)
    html=driver.page_source
    driver.close()    
    soup = BeautifulSoup(html) 
    if len(soup.find_all('span', attrs={'class':'out-of-stock'}))==0:
        titles = [s.find_all('a')[0]['title'].strip() for s in soup.find_all('b', attrs={'class':'product-name'})]
        authors = [x.text.strip().split('\n\n')[1] for x in soup.find_all('div', attrs={'class':'product-field product_field_40 product-field-type_1'})]
        editoras = [x.text.strip().split('\n\n')[1] for x in soup.find_all('div', attrs={'class':'product-field product_field_43 product-field-type_1'})]
        prices = [x.text.strip() for x in soup.find_all('span', attrs={'class':'best-price'})]
        df_temp=pd.DataFrame({'Título':titles, 'Autor':authors , 'Editora':editoras , 'Preço':prices})
        df=df.append(df_temp)
    else :
        pass

In [152]:
df

Unnamed: 0,Título,Autor,Editora,Preço
0,Os Últimos Melhores Dias da Minha Vida,"Gilberto Dimenstein, Anna Penido",Record,"R$ 34,90"
1,Woody Allen - a Autobiografia,Woody Allen,Globo,"R$ 49,90"
2,De Cu Pra Lua,Nelson Motta,Estação Brasil,"R$ 69,90"
3,Autobiografia Precoce,Pagu,Companhia das Letras,"R$ 59,90"
4,Samuel Wainer - o Homem Que Estava Lá,Karla Monteiro,Companhia das Letras,"R$ 89,90"
...,...,...,...,...
15,Dura na Queda,Marina Maggessi,Objetiva,"R$ 45,90"
16,Marilyn e Jfk,François Forestier,Objetiva,"R$ 52,90"
17,Uma Arte - as Cartas de Elizabeth Bishop,Elizabeth Bishop,Companhia das Letras,"R$ 87,90"
18,No Ar Rarefeito - Um Relato da Tragedia no Eve...,Jon Krakauer,Companhia de Bolso,"R$ 34,90"


In [155]:
len(df)

380

In [156]:
df1 = df.reset_index()

In [157]:
df1

Unnamed: 0,index,Título,Autor,Editora,Preço
0,0,Os Últimos Melhores Dias da Minha Vida,"Gilberto Dimenstein, Anna Penido",Record,"R$ 34,90"
1,1,Woody Allen - a Autobiografia,Woody Allen,Globo,"R$ 49,90"
2,2,De Cu Pra Lua,Nelson Motta,Estação Brasil,"R$ 69,90"
3,3,Autobiografia Precoce,Pagu,Companhia das Letras,"R$ 59,90"
4,4,Samuel Wainer - o Homem Que Estava Lá,Karla Monteiro,Companhia das Letras,"R$ 89,90"
...,...,...,...,...,...
375,15,Dura na Queda,Marina Maggessi,Objetiva,"R$ 45,90"
376,16,Marilyn e Jfk,François Forestier,Objetiva,"R$ 52,90"
377,17,Uma Arte - as Cartas de Elizabeth Bishop,Elizabeth Bishop,Companhia das Letras,"R$ 87,90"
378,18,No Ar Rarefeito - Um Relato da Tragedia no Eve...,Jon Krakauer,Companhia de Bolso,"R$ 34,90"


## Create a spider, now including books without prices, not available for sale

In [159]:
url = 'https://www.livrariadavila.com.br/livros/nao-ficcao/biografia?PS=20'
df=pd.DataFrame(columns=['Título','Autor','Editora','Preço'])
for i in range(1,42):
    url=f'http://www.livrariadavila.com.br/livros/nao-ficcao/biografia?PS=20#{i}'
    chrome_path = '/Users/ivan/Desktop/chromedriver'
    driver=webdriver.Chrome(executable_path=chrome_path)
    driver.get(url)
    html=driver.page_source
    driver.close()    
    soup = BeautifulSoup(html) 
    titles = [s.find_all('a')[0]['title'].strip() for s in soup.find_all('b', attrs={'class':'product-name'})]
    authors = [x.text.strip().split('\n\n')[1] for x in soup.find_all('div', attrs={'class':'product-field product_field_40 product-field-type_1'})]
    editoras = [x.text.strip().split('\n\n')[1] for x in soup.find_all('div', attrs={'class':'product-field product_field_43 product-field-type_1'})]
    prices=[]
    for item in BeautifulSoup(html).find_all('span',{'class':'box-item'}):
        try:
            prices.append(item.find_all('span', attrs={'class':'best-price'})[0].text.strip())
        except:
            prices.append(item.find_all('span', attrs={'class':'out-of-stock'})[0].text.strip())
    df_temp=pd.DataFrame({'Título':titles, 'Autor':authors , 'Editora':editoras , 'Preço':prices})
    df=df.append(df_temp)
    

In [160]:
df

Unnamed: 0,Título,Autor,Editora,Preço
0,Os Últimos Melhores Dias da Minha Vida,"Gilberto Dimenstein, Anna Penido",Record,"R$ 34,90"
1,Woody Allen - a Autobiografia,Woody Allen,Globo,"R$ 49,90"
2,De Cu Pra Lua,Nelson Motta,Estação Brasil,"R$ 69,90"
3,Autobiografia Precoce,Pagu,Companhia das Letras,"R$ 59,90"
4,Samuel Wainer - o Homem Que Estava Lá,Karla Monteiro,Companhia das Letras,"R$ 89,90"
...,...,...,...,...
14,Homens em Tempos Sombrios,Hannah Arendt,Companhia de Bolso,Produto Esgotado
15,Solo de Clarineta 2 - Memorias,Erico Verissimo,Companhia das Letras,Produto Esgotado
16,Che Guevara - a Vida em Vermelho,Jorge G. Castañeda,Companhia de Bolso,Produto Esgotado
17,"Beatles, The - a Biografia",Bob Spitz,Larousse do Brasil,Produto Esgotado


In [162]:
df1 = df.reset_index()

In [163]:
df1

Unnamed: 0,index,Título,Autor,Editora,Preço
0,0,Os Últimos Melhores Dias da Minha Vida,"Gilberto Dimenstein, Anna Penido",Record,"R$ 34,90"
1,1,Woody Allen - a Autobiografia,Woody Allen,Globo,"R$ 49,90"
2,2,De Cu Pra Lua,Nelson Motta,Estação Brasil,"R$ 69,90"
3,3,Autobiografia Precoce,Pagu,Companhia das Letras,"R$ 59,90"
4,4,Samuel Wainer - o Homem Que Estava Lá,Karla Monteiro,Companhia das Letras,"R$ 89,90"
...,...,...,...,...,...
814,14,Homens em Tempos Sombrios,Hannah Arendt,Companhia de Bolso,Produto Esgotado
815,15,Solo de Clarineta 2 - Memorias,Erico Verissimo,Companhia das Letras,Produto Esgotado
816,16,Che Guevara - a Vida em Vermelho,Jorge G. Castañeda,Companhia de Bolso,Produto Esgotado
817,17,"Beatles, The - a Biografia",Bob Spitz,Larousse do Brasil,Produto Esgotado


## Export to PG Admin - SQL


In [165]:
import sqlalchemy as db

In [166]:
db_server = 'postgresql'
user = 'postgres'
password = 'admin'
ip = 'localhost'
db_name = 'Web-scrapping'

In [167]:
engine = db.create_engine(f'{db_server}://{user}:{password}@{ip}/{db_name}')

In [168]:
conn = engine.connect()

In [169]:
df1.to_sql(name='df1', con=conn)