## 4- O método SAPE na prática

### 4.1- Problema de Negócio

<b>Coletar os seguintes dados da página: https://books.toscrape.com</b>

* Catálogo:
    * Classics
    * Science Fiction
    * Humor
    * Business
    <br><br>
* Coletar os seguintes dados de cada livro:
    * Nome do livro
    * Preço em libras
    * Avaliação dos consumidores
    * Disponível em estoque
    
<b>Entregável:</b>

* Faça um plano escrito para cada uma das perguntas de negócio, contendo:
    * Saída: A simulação da tabela e gráfico final.
    * Processo: A sequência de passos organizada pela lógica de execução
    * Entrada: O link para as fontes de dados.
        <br><br>
* Uma csv com todas as informação de todos os catálogos.

### 4.2- Saída: ( Produto final )

1. A resposta para a pergunta.
    - Coletar os dados da página book to scrape
2. Formato da entrega
    - Tabela
3. Local da entrega
    - Arquivo formato csv

### 4.3-  Processo ( Passo a Passo )

1. Passo a passso para construir o cálculo da mediana ou média
    - Gerar uma tabela com os dados de Nome do Livro, Preço, Avaliação, Disponibilidade (4 categorias)
2. Definir o formato da entrega ( Tabela )
    - Atraves de cada categoria exigida, coletar cada produto da vitrine
    - Realizar a paginacao para coletar as demais paginas
    - Tabela com as seguintes colunas: book_id | book_name | book_category | book_avaliable | book_price | book_stock | date_scrapy | Definição do schema: Colunas e seu tipo
    - Entrega do produto final
3. Decidir o local de entrega ( PowerBi, Telegram, Email, Streamlit, Intranet )
    - Arquivo formato csv

### 4.4- Entrada ( Fonte de dados )

1. Fonte de dados
    - Site da Books to Scrape: https://books.toscrape.com
2. Ferramentas
    - Python 3.8.0
    - Bibliotecas de Webscrapping ( BS4 )
    - Jupyter Notebook ( Analise e prototipagens )

In [81]:
from bs4 import BeautifulSoup
import requests
from datetime import datetime
import pandas as pd

url = 'https://books.toscrape.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}

# request na page home
page_home = requests.get( url, headers=headers)

# Object BeautifulSoup
soup_home = BeautifulSoup(page_home.text, 'html.parser')

# collect categories
list_category = [i.get('href') for i in soup_home.find_all('a') if ('books/classics' in i.get('href')) or ('books/science-fiction' in i.get('href')) or ('books/humor' in i.get('href')) or ('books/business' in i.get('href'))]

#
df_raw = pd.DataFrame()

for i in list_category:
    # request nas categorias
    url_category = url + i
    page = requests.get( url_category, headers=headers)
    soup = BeautifulSoup(page.text, 'html.parser')
    
    book_name = [i.find('img').attrs.get('alt') for i in soup.find_all('div', class_='image_container')]

    book_price = [i.find('p', class_='price_color').get_text()[2:] for i in soup.find_all('article', class_='product_pod')]

    book_avaliable = [i.find('p').attrs.get('class')[1] for i in soup.find_all('article', class_='product_pod')]

    book_stock = [" ".join(list(filter(None, i.find('p', class_='instock availability').get_text().split()))) for i in soup.find_all('article', class_='product_pod')]

    book_category = soup.find('div', class_='page-header action').get_text().split()

    # create DataFrame and collect data_scrapy
    df_books = pd.DataFrame([book_name, book_price, book_category, book_avaliable, book_stock]).T
    df_books.columns = ['book_name', 'book_price', 'book_category', 'book_avaliable', 'book_stock']
    df_books['book_data_scrapy'] = datetime.now().strftime(' %Y-%m-%d %H:%M:%S ')
    df_books = df_books.fillna(method='ffill')
    
    # all details products
    df_raw = pd.concat([df_raw,df_books], axis=0)

df_raw.reset_index(drop=True, inplace=True)
df_raw.insert(0, 'book_id', df_raw.index)
df_raw.to_csv('data_books.csv', index=False)