In [24]:
# Web scraping do site books.toscrape.com
# Objetivo: extrair informações de todos os livros do site

# Extrair titulo, preço e disponibilidade de todos os livros usando urllib e BeautifulSoup

import urllib.request
from bs4 import BeautifulSoup

# URL do site
url = 'http://books.toscrape.com/'

# Realizar a requisição

html = urllib.request.urlopen(url).read()
html[:50] # Exibir os primeiros 50 caracteres

# Parsear o HTML
soup = BeautifulSoup(html, 'html.parser') # cria um objeto BeautifulSoup

In [25]:
# Extrair os títulos dos livros

# Encontrar todos os elementos 'h3'
books_raw = soup.find_all("article", class_="product_pod")

books_data = []

for book_html in books_raw:
    title = book_html.h3.a.attrs['title'] # o título está dentro da tag 'a' dentro da tag 'h3'. Seu valor está no atributo 'title'
    price = book_html.find("p", class_="price_color").text # o preço está dentro de uma tag 'p' com a classe 'price_color'
    availability = book_html.find("p", class_="instock availability").text.strip() # a disponibilidade está dentro de uma tag 'p' com a classe 'instock availability'
    
    books_data.append((title, price, availability))

for book in books_data[:5]: # Exibir os primeiros 5 livros
    print(book)

print(len(books_data)) # Exibir o número total de livros


('A Light in the Attic', '£51.77', 'In stock')
('Tipping the Velvet', '£53.74', 'In stock')
('Soumission', '£50.10', 'In stock')
('Sharp Objects', '£47.82', 'In stock')
('Sapiens: A Brief History of Humankind', '£54.23', 'In stock')
20


In [29]:
# Extraindo o Painel da Esquerda (Categorias)

# Encontrar o painel da esquerda
categories = []
categories__raw = soup.find("ul", class_="nav nav-list").find_all("a")[1:] # a primeira tag 'a' é um link para a página inicial, por isso é ignorada e usa-se [1:]

for category in categories__raw:
    categories.append(category.text.strip())


categories[:5] # Exibir as primeiras 5 categorias

['Travel', 'Mystery', 'Historical Fiction', 'Sequential Art', 'Classics']

In [30]:
# Pegando livros de uma categoria específica. Exemplo: 'Science'

# URL da categoria 'Science'
url_science = 'http://books.toscrape.com/catalogue/category/books/science_22/index.html'

# Realizar a requisição

html_category = urllib.request.urlopen(url_science).read()
soup2 = BeautifulSoup(html_category, 'html.parser')


In [31]:
# Extrair os títulos dos livros da categoria 'Science'

# A página da categoria 'Science' é igual à página inicial, então o código é o mesmo

books_science = []

books_raw = soup2.find_all("article", class_="product_pod")
for book_html in books_raw:
    title = book_html.h3.a.attrs['title']
    books_science.append(title)


books_science[:5] # Exibir os primeiros 5 livros da categoria 'Science'

["The Most Perfect Thing: Inside (and Outside) a Bird's Egg",
 'Immunity: How Elie Metchnikoff Changed the Course of Modern Medicine',
 'Sorting the Beef from the Bull: The Science of Food Fraud Forensics',
 'Tipping Point for Planet Earth: How Close Are We to the Edge?',
 'The Fabric of the Cosmos: Space, Time, and the Texture of Reality']

In [26]:
#Percorrendo todas as páginas do site e coletar os títulos de todos os livros

base_url = 'https://books.toscrape.com/catalogue/page-{}.html'
page = 1

all_books = []

url = base_url.format(page) # substituir o {} pelo número da página, ele começa em 1

while True:
    url = base_url.format(page)
    try:
        html = urllib.request.urlopen(url).read()
        soup = BeautifulSoup(html, 'html.parser')
    except:
        break

    books_page = [book_html.h3.a.attrs['title'] for book_html in soup.find_all("article", class_="product_pod")] # extrair os títulos dos livros da página
    all_books.extend(books_page) # adicionar os títulos à lista de todos os livros, pode-se usar all_books += books_page também
    page += 1

print(len(all_books)) # Exibir o número total de livros

all_books[:5] # Exibir os primeiros 5 livros



1000


['A Light in the Attic',
 'Tipping the Velvet',
 'Soumission',
 'Sharp Objects',
 'Sapiens: A Brief History of Humankind']

In [32]:
# Vamos pegar todos os livros da categoria 'Food and Drink'

base_url = 'https://books.toscrape.com/catalogue/category/books/food-and-drink_33/page-{}.html'
page = 1

all_books_science = []

url = base_url.format(page)

while True:
    url = base_url.format(page)
    try:
        html = urllib.request.urlopen(url).read()
        soup = BeautifulSoup(html, 'html.parser')
    except:
        break

    books_page = [book_html.h3.a.attrs['title'] for book_html in soup.find_all("article", class_="product_pod")]
    all_books_science.extend(books_page)

    page += 1

#print(len(all_books_science)) # Exibir o número total de livros da categoria 'Science'

all_books_science[:5] # Exibir os primeiros 5 livros da categoria 'Science'

['Foolproof Preserving: A Guide to Small Batch Jams, Jellies, Pickles, Condiments, and More: A Foolproof Guide to Making Small Batch Jams, Jellies, Pickles, Condiments, and More',
 'The Pioneer Woman Cooks: Dinnertime: Comfort Classics, Freezer Food, 16-Minute Meals, and Other Delicious Ways to Solve Supper!',
 'My Paris Kitchen: Recipes and Stories',
 'Mama Tried: Traditional Italian Cooking for the Screwed, Crude, Vegan, and Tattooed',
 'Layered: Baking, Building, and Styling Spectacular Cakes']

In [33]:
# Modelando os Dados com Classes

class Book:
    def __init__(self, title, price, availability):
        self.title = title
        self.price = price
        self.availability = availability

    def __str__(self):
        return f'{self.title} - {self.price} - {self.availability}'
    
books = [Book(title, price, availability) for title, price, availability in books_data]

for book in books[:5]:
    print(book)

print(len(books)) # Exibir o número total de livros

A Light in the Attic - £51.77 - In stock
Tipping the Velvet - £53.74 - In stock
Soumission - £50.10 - In stock
Sharp Objects - £47.82 - In stock
Sapiens: A Brief History of Humankind - £54.23 - In stock
20


In [35]:
# Código completo ########################################
###########################################################

import urllib.request
from bs4 import BeautifulSoup


# URL do site
url = 'http://books.toscrape.com/'

# Realizar a requisição

html = urllib.request.urlopen(url).read()
html[:50] # Exibir os primeiros 50 caracteres

# Parsear o HTML
soup = BeautifulSoup(html, 'html.parser') # cria um objeto BeautifulSoup

# Extrair os títulos dos livros

# Encontrar todos os elementos 'h3'
books_raw = soup.find_all("article", class_="product_pod")

books_data = []

for book_html in books_raw:
    title = book_html.h3.a.attrs['title'] # o título está dentro da tag 'a' dentro da tag 'h3'. Seu valor está no atributo 'title'
    price = book_html.find("p", class_="price_color").text # o preço está dentro de uma tag 'p' com a classe 'price_color'
    availability = book_html.find("p", class_="instock availability").text.strip() # a disponibilidade está dentro de uma tag 'p' com a classe 'instock availability'
    
    books_data.append((title, price, availability))


# Modelando os Dados com Classes

class Book:
    def __init__(self, title, price, availability):
        self.title = title
        self.price = price
        self.availability = availability

    def __str__(self):
        return f'{self.title} - {self.price} - {self.availability}'
    
books = [Book(title, price, availability) for title, price, availability in books_data]


# Criando um Banco de Dados com SQLAlchemy

from sqlalchemy import create_engine, Column, Integer, String
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker

Base = declarative_base()

class Book(Base):
    __tablename__ = 'books'

    id = Column(Integer, primary_key=True, autoincrement=True)
    title = Column(String, unique=True)
    price = Column(String)
    availability = Column(String)


# Criar o banco de dados
engine = create_engine('sqlite:///./books_andre.db') # o banco de dados será criado no diretório atual com o nome 'books.db'
Base.metadata.create_all(engine) # cria as tabelas no banco de dados

Session = sessionmaker(bind=engine) # cria uma classe de sessão
session = Session() # cria uma sessão para interagir com o banco de dados

# vamos adicionar todos os livros de books_data ao banco de dados

for title, price, availability in books_data:
    book = Book(title=title, price=price, availability=availability)
    session.add(book)

session.commit() # confirma as inserções


# Consultar os livros no banco de dados

books_db = session.query(Book).all()



  Base = declarative_base()


In [36]:
# Exibir todos os livros do banco de dados

for book in books_db:
    print(book.title)

A Light in the Attic
Tipping the Velvet
Soumission
Sharp Objects
Sapiens: A Brief History of Humankind
The Requiem Red
The Dirty Little Secrets of Getting Your Dream Job
The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics
The Black Maria
Starving Hearts (Triangular Trade Trilogy, #1)
Shakespeare's Sonnets
Set Me Free
Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)
Rip it Up and Start Again
Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991
Olio
Mesaerion: The Best Science Fiction Stories 1800-1849
Libertarianism for Beginners
It's Only the Himalayas


In [37]:
# Consultando os dados com Pandas

import pandas as pd

df = pd.read_sql('SELECT * FROM books', con=engine) # lê os dados da tabela 'books' no banco de dados
df.head() # Exibir os primeiros 5 livros

Unnamed: 0,id,title,price,availability
0,1,A Light in the Attic,£51.77,In stock
1,2,Tipping the Velvet,£53.74,In stock
2,3,Soumission,£50.10,In stock
3,4,Sharp Objects,£47.82,In stock
4,5,Sapiens: A Brief History of Humankind,£54.23,In stock


In [8]:
# Exportando os dados para CSV e JSON

df.to_csv('books.csv', index=False) # exporta os dados para um arquivo CSV
df.to_json('books.json', orient='records', indent=4) # ident=4 para exibir o JSON de forma mais legível

In [9]:
#Criar um ranking dos livros mais caros

df['price'] = df['price'].str.replace('£', '').astype(float) # remover o símbolo de libra e converter o preço para float

sorted_df = df.sort_values('price', ascending=False) # ordenar os livros pelo preço em ordem decrescente

sorted_df.head() # Exibir os 5 livros mais caros

Unnamed: 0,id,title,price,availability
15,16,Our Band Could Be Your Life: Scenes from the A...,57.25,In stock
4,5,Sapiens: A Brief History of Humankind,54.23,In stock
1,2,Tipping the Velvet,53.74,In stock
13,14,Scott Pilgrim's Precious Little Life (Scott Pi...,52.29,In stock
9,10,The Black Maria,52.15,In stock


In [13]:
# Filtrar Apenas os Livros em Estoque

df[df['availability'] == 'In stock'].head() # Exibir os primeiros 5 livros em estoque

Unnamed: 0,id,title,price,availability
0,1,A Light in the Attic,£51.77,In stock
1,2,Tipping the Velvet,£53.74,In stock
2,3,Soumission,£50.10,In stock
3,4,Sharp Objects,£47.82,In stock
4,5,Sapiens: A Brief History of Humankind,£54.23,In stock


In [39]:
# Filtrar os livros que não estão em estoque

df[df['availability'] != 'In stock'].head() # Exibir os primeiros 5 livros que não estão em estoque

Unnamed: 0,id,title,price,availability


In [None]:
# Coletar a categoria de cada livro
# No site, cada livro pertence a uma categoria
# Extraia essa informação e adicione-a ao banco de dados


# vamos fazer somente para os 20 primeiros, a primeira página

# vamos pegar o link de cada livro, acessar a página do livro e extrair a categoria
base_url = 'https://books.toscrape.com/'
# não precisamos criar o soup novamente, pois já temos o soup da página inicial



links_dos_livros = []

for book_html in soup.find_all("article", class_="product_pod"):
    link = book_html.h3.a['href']
    links_dos_livros.append(link)

#links_dos_livros = [book_html.h3.a['href'] for book_html in soup.find_all("article", class_="product_pod")] # extrair os links dos livros


categories = []

for link in links_dos_livros:
    url = base_url + link
    print(url)
    html = urllib.request.urlopen(url).read()
    sub_soup = BeautifulSoup(html, 'html.parser')
    category = sub_soup.find("ul", class_="breadcrumb")
    cat = category.find_all("li")[2].text.strip() 
    categories.append(cat)

print(len(categories)) # Exibir o número total de categorias


    

https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html
https://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html
https://books.toscrape.com/catalogue/soumission_998/index.html
https://books.toscrape.com/catalogue/sharp-objects_997/index.html
https://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html
https://books.toscrape.com/catalogue/the-requiem-red_995/index.html
https://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html
https://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html
https://books.toscrape.com/catalogue/the-boys-in-the-boat-nine-americans-and-their-epic-quest-for-gold-at-the-1936-berlin-olympics_992/index.html
https://books.toscrape.com/catalogue/the-black-maria_991/index.html
https://books.toscrape.com/catalogue/starving-hearts-triangular-trade-trilogy-1_990/index.html
https://books.toscr

In [42]:
dados = []

for i in range(len(books_data)):
    titulo = all_books[i]
    categoria = categories[i]
    tupla = (titulo, categoria)
    dados.append(tupla)

In [44]:
df = pd.DataFrame(dados, columns=['titulo', 'categoria'])
df.head(20) # Exibir os primeiros 5 livros com suas categorias

Unnamed: 0,titulo,categoria
0,A Light in the Attic,Poetry
1,Tipping the Velvet,Historical Fiction
2,Soumission,Fiction
3,Sharp Objects,Mystery
4,Sapiens: A Brief History of Humankind,History
5,The Requiem Red,Young Adult
6,The Dirty Little Secrets of Getting Your Dream...,Business
7,The Coming Woman: A Novel Based on the Life of...,Default
8,The Boys in the Boat: Nine Americans and Their...,Default
9,The Black Maria,Poetry


In [None]:
#Deletando o banco 

import os

session.close()

if os.path.exists('books_andre.db'):
    os.remove('books_andre.db')
    print('Banco de dados deletado com sucesso!')
else:
    print('O banco não existe!')