# Tarefa WebScrapping - Instructions
# Preencha as células do caderno com o que se pede.

## Tutorial Expandido de Web Scraping com BeautifulSoup
*Professor Dr. Rooney R. A. Coelho*

*Aluna Fabiana 🚀 Campanari*

### Introdução
Neste tutorial, vamos aprofundar nossas habilidades em web scraping, utilizando as bibliotecas Python `requests`, `BeautifulSoup` e `pandas` para extrair dados de um site de livros e armazená-los em um DataFrame do Pandas para análise posterior.

### Código Completo com Explicações

### Pré-requisito

Antes de começar, instale as bibliotecas necessárias. Se ainda não tiver, execute:

In [62]:
!pip install requests beautifulsoup4 pandas
!pip install tqdm



## 1. Importando Bibliotecas
Primeiro, importe as bibliotecas necessárias. Execute esta célula para que todas as funções estejam disponíveis ao longo do código.

In [63]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import tqdm

### 2. Definindo a URL e Fazendo a Requisição
Aqui, definimos a URL do site e fazemos uma requisição HTTP para obter o conteúdo HTML da página. Depois, utilizamos o BeautifulSoup para interpretar o HTML.

In [64]:
# Definindo a URL do site
url = 'http://books.toscrape.com/'

# Fazendo a requisição HTTP e analisando o HTML
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

> Explicação: A função requests.get() acessa o site e o BeautifulSoup ajuda a transformar o conteúdo em uma estrutura fácil de navegar.

# 3. Encontrando Todos os Livros na Página

Esta célula extrai a lista de livros presentes na página, usando a estrutura HTML para encontrar os artigos que contêm as informações sobre os livros.

In [65]:
books = []

# Encontrando todos os livros na página
for pag in tqdm.tqdm(range(1, 51)):
    response = requests.get(f"http://books.toscrape.com/catalogue/page-{pag}.html")
    soup = BeautifulSoup(response.text, "html.parser").find_all(class_ = "product_pod")
    for book in soup: 
        books.append(book)

100%|██████████| 50/50 [00:32<00:00,  1.54it/s]


> Explicação: Cada livro está contido em uma tag <article> com a classe product_pod. O método find_all() retorna uma lista de todos esses elementos.

### 4. Extraindo Informações de Cada Livro

Nesta etapa, vamos iterar sobre cada livro encontrado e extrair o título, o preço e a disponibilidade. Armazene essas informações em uma lista chamada data.

In [66]:
# Extraindo informações de cada livro
titles = []
prices = []
stocks = []
images = []
categories = []

for book in tqdm.tqdm(books):
    titles.append(book.find("h3").find("a")["title"])
    prices.append(float(book.find("div", class_="product_price").find("p").get_text().replace("£", "").replace("Â", "")))
    stocks.append(book.find("p", class_="instock availability").get_text(strip=True))
    images.append(book.find("img")["src"])
    categories.append(book.find("p", class_="star-rating")["class"][1])

100%|██████████| 1000/1000 [00:00<00:00, 7410.21it/s]


> Explicação: Usamos .find() para localizar elementos específicos dentro do book. O .text.strip() remove espaços em branco extras. A lista data é então preenchida com dicionários contendo as informações de cada livro.

### 5. Criando um DataFrame e Exibindo os Dados
Agora que temos todos os dados em uma lista, vamos criar um DataFrame do Pandas para organizar e visualizar os dados.

In [67]:
# Criando o DataFrame com todas as variáveis
library = pd.DataFrame({
    "title": titles,
    "price": prices,
    "stock": stocks,
    "image": images,
    "category": categories
})


> Explicação: O DataFrame df nos permite visualizar e manipular os dados de forma estruturada. A função head() exibe as primeiras cinco linhas do DataFrame.

Para finalizar, vamos salvar o DataFrame em um arquivo CSV chamado livros.csv, que conterá todos os dados extraídos.

In [68]:
library.to_csv("livros.csv", index = False)

In [69]:
# Salvando o DataFrame em um arquivo CSV na pasta de destino que voce esc olher
library.to_csv("/Users/fabicampanari/Desktop/WebScrapping-BeautifulSoaup/livros.csv", index=False)

> Explicação: A função to_csv() do Pandas salva o DataFrame como um arquivo CSV. Definimos index=False para não incluir o índice do DataFrame no arquivo final.

### Explicação Detalhada
1. **Importar bibliotecas:** Importamos as bibliotecas necessárias para fazer requisições HTTP (`requests`), analisar HTML (`BeautifulSoup`) e manipular dados (`pandas`).
2. **Definir a URL:** Definimos a URL do site que queremos raspar.
3. **Fazer a requisição:** Realizamos uma requisição HTTP para a URL e analisamos o conteúdo HTML da página utilizando o BeautifulSoup.
4. **Encontrar os livros:** Localizamos todos os elementos HTML que representam os livros na página, utilizando o método `find_all`.
5. **Extrair informações:** Iteramos sobre cada elemento de livro e extraímos o título, preço e disponibilidade, utilizando o método `find` para localizar elementos específicos.
6. **Criar DataFrame:** Criamos um DataFrame do Pandas para armazenar os dados extraídos em uma estrutura tabular.
7. **Exibir e salvar:** Exibimos as primeiras linhas do DataFrame para verificar os dados e salvamos o DataFrame em um arquivo CSV para análise posterior.

### Expansões e Personalizações
* **Extrair mais informações:** Você pode extrair outras informações, como a imagem do livro, a categoria, o autor, etc., localizando os elementos HTML correspondentes.
* **Limpar os dados:** Limpe os dados extraídos, removendo caracteres especiais, formatando valores numéricos e tratando valores ausentes.
* **Manipular o DataFrame:** Utilize as funcionalidades do Pandas para manipular o DataFrame, como filtrar, ordenar, agrupar e realizar cálculos.
* **Visualizar os dados:** Crie gráficos e visualizações para explorar os dados de forma mais intuitiva, utilizando bibliotecas como Matplotlib ou Seaborn.
* **Paginação:** Se o site tiver várias páginas de resultados, implemente a paginação para extrair dados de todas as páginas.
* **Lidar com erros:** Utilize blocos `try-except` para lidar com possíveis erros durante o processo de scraping, como páginas não encontradas ou elementos HTML ausentes.

### Próximos Passos
* **Explorar outros sites:** Pratique com outros sites para aprimorar suas habilidades em web scraping.
* **Aprender técnicas avançadas:** Explore técnicas mais avançadas, como XPath, CSS Selectors e bibliotecas como Scrapy.
* **Construir projetos reais:** Utilize o web scraping para coletar dados para seus próprios projetos, como análise de sentimentos, monitoramento de preços, etc.

**Lembre-se:** É importante respeitar os termos de serviço dos sites que você está raspando e evitar sobrecarregar os servidores.

Com este tutorial expandido, você possui uma base sólida para iniciar seus projetos de web scraping e explorar o vasto mundo de dados disponíveis na web.