# Como fazer WEBSCRAPING utilizando Beautiful Soup

# Importar Bibliotecas

In [None]:
# Importar Bibliotecas
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt


# Fazer Requisição na url

In [None]:
# Entrar com a url e headers
url = 'https://books.toscrape.com/' # Link da página web a ser analisada
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'}

# Fazer request
page = requests.get(url, headers)

In [None]:
# Verifica se a request foi bem sucedida, reponse 200 está ok.
page

# Utilizar BeautifulSoup

In [None]:
# Usar BSoup para poder trabalhar no HTML da página.
soup = BeautifulSoup(page.text,'html.parser')

In [None]:
soup

In [None]:
# O formato deve ser bs4.BeautifulSoup
type(soup)

# Encontrar os Títulos

In [None]:
# Ver somentes as tags '</a>' do HTML
soup.find_all('a')

In [None]:
# Chama o primeiro título encontrado da tag </a>
soup.find_all('a')[54].string

In [None]:
# A localização do primeiro título foi na tag 54
# Para mostar o nome completo se usa a função .get()
soup.find_all('a')[54].get('title') #.get('title'): chama o title da tag solicitada

In [None]:
titleSoup = soup.find_all('a')

# Lista com os títulos
# Valores da localização vão de 2 em 2 a partir do 54º posição da tag </a>
titleList = [title.get('title') for i, title in enumerate(titleSoup) if i >=54 and i %2 == 0]

# Mostrar Título
titleList


# Encontrar Preço

In [None]:
# Chamar tag do preço
soup.find_all('p', class_= "price_color")

In [None]:
# Chamar primeiro preço
soup.find_all('p', class_= "price_color")[0].string

In [None]:
# Criar variavel do preço
priceSoup = soup.find_all('p', class_="price_color")

# Buscar todos os preços
priceList = [float(i.string.replace('Â£', '')) for i in priceSoup] # Colocar formato Float e substituir caracter indevido

# Mostrar preço
priceList

# Encontrar Avaliações dos Livros

In [None]:
# Chamr todas tag </p> da classe star-rating
soup.find_all('p', class_='star-rating')

In [None]:
# Encontar a avaliação do primeiro livro
soup.find_all('p', class_='star-rating')[0].get('class')[1]

In [None]:
# Chamar todas as avaliações
starSoup = soup.find_all('p', class_='star-rating')
[i.get('class')[1] for i in starSoup]

In [None]:
# Criar variavel
starratingList = [i.get('class')[1] for i in starSoup]

starratingList

# Fazer DataFrame

In [None]:
# O tamanho das variavel devem ser sempre o mesmo
print(len(titleList))
print(len(priceList))
print(len(starratingList))

In [None]:
# Dicionario com as listas
data ={ 'title' : titleList,
        'price' : priceList ,
        'star_rating': starratingList
      }


# DataFrame
df = pd.DataFrame(data)
df

In [None]:
# Informações do df
df.info()

In [None]:
# Criar coluna para classificação numerica das avaliações
df['star_rating_numeric'] = df['star_rating'].map({'One': 1, 'Two': 2, 'Three': 3, 'Four': 4, 'Five': 5})
df.head()


# Plots

In [None]:
# Criar figure e axes
fig,ax = plt.subplots(1,2,figsize=(10,5))

# Plotar avaliações de cada Livro
plot_bar = ax[0].barh(df['title'], df['star_rating_numeric'])
ax[0].set_title('Avaliação de cada livro')
ax[0].bar_label(plot_bar, fmt='{:,.0f}')

# Plotar distribuição das avaliações
ax[1].hist(df['star_rating_numeric'])
ax[1].set_title('Distribuição das avaliações')

# Mostrar subplots
plt.show()