# Tarefa WebScrapping - Instructions
# Preencha as c√©lulas do caderno com o que se pede.

## Tutorial Expandido de Web Scraping com BeautifulSoup
*Professor Dr. Rooney R. A. Coelho*

*Aluna Fabiana üöÄ Campanari*

### Introdu√ß√£o
Neste tutorial, vamos aprofundar nossas habilidades em web scraping, utilizando as bibliotecas Python `requests`, `BeautifulSoup` e `pandas` para extrair dados de um site de livros e armazen√°-los em um DataFrame do Pandas para an√°lise posterior.

### C√≥digo Completo com Explica√ß√µes

### Pr√©-requisito

Antes de come√ßar, instale as bibliotecas necess√°rias. Se ainda n√£o tiver, execute:

In [62]:
!pip install requests beautifulsoup4 pandas
!pip install tqdm



## 1. Importando Bibliotecas
Primeiro, importe as bibliotecas necess√°rias. Execute esta c√©lula para que todas as fun√ß√µes estejam dispon√≠veis ao longo do c√≥digo.

In [63]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import tqdm

### 2. Definindo a URL e Fazendo a Requisi√ß√£o
Aqui, definimos a URL do site e fazemos uma requisi√ß√£o HTTP para obter o conte√∫do HTML da p√°gina. Depois, utilizamos o BeautifulSoup para interpretar o HTML.

In [64]:
# Definindo a URL do site
url = 'http://books.toscrape.com/'

# Fazendo a requisi√ß√£o HTTP e analisando o HTML
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

> Explica√ß√£o: A fun√ß√£o requests.get() acessa o site e o BeautifulSoup ajuda a transformar o conte√∫do em uma estrutura f√°cil de navegar.

# 3. Encontrando Todos os Livros na P√°gina

Esta c√©lula extrai a lista de livros presentes na p√°gina, usando a estrutura HTML para encontrar os artigos que cont√™m as informa√ß√µes sobre os livros.

In [65]:
books = []

# Encontrando todos os livros na p√°gina
for pag in tqdm.tqdm(range(1, 51)):
    response = requests.get(f"http://books.toscrape.com/catalogue/page-{pag}.html")
    soup = BeautifulSoup(response.text, "html.parser").find_all(class_ = "product_pod")
    for book in soup: 
        books.append(book)

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 50/50 [00:32<00:00,  1.54it/s]


> Explica√ß√£o: Cada livro est√° contido em uma tag <article> com a classe product_pod. O m√©todo find_all() retorna uma lista de todos esses elementos.

### 4. Extraindo Informa√ß√µes de Cada Livro

Nesta etapa, vamos iterar sobre cada livro encontrado e extrair o t√≠tulo, o pre√ßo e a disponibilidade. Armazene essas informa√ß√µes em uma lista chamada data.

In [66]:
# Extraindo informa√ß√µes de cada livro
titles = []
prices = []
stocks = []
images = []
categories = []

for book in tqdm.tqdm(books):
    titles.append(book.find("h3").find("a")["title"])
    prices.append(float(book.find("div", class_="product_price").find("p").get_text().replace("¬£", "").replace("√Ç", "")))
    stocks.append(book.find("p", class_="instock availability").get_text(strip=True))
    images.append(book.find("img")["src"])
    categories.append(book.find("p", class_="star-rating")["class"][1])

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1000/1000 [00:00<00:00, 7410.21it/s]


> Explica√ß√£o: Usamos .find() para localizar elementos espec√≠ficos dentro do book. O .text.strip() remove espa√ßos em branco extras. A lista data √© ent√£o preenchida com dicion√°rios contendo as informa√ß√µes de cada livro.

### 5. Criando um DataFrame e Exibindo os Dados
Agora que temos todos os dados em uma lista, vamos criar um DataFrame do Pandas para organizar e visualizar os dados.

In [67]:
# Criando o DataFrame com todas as vari√°veis
library = pd.DataFrame({
    "title": titles,
    "price": prices,
    "stock": stocks,
    "image": images,
    "category": categories
})


> Explica√ß√£o: O DataFrame df nos permite visualizar e manipular os dados de forma estruturada. A fun√ß√£o head() exibe as primeiras cinco linhas do DataFrame.

Para finalizar, vamos salvar o DataFrame em um arquivo CSV chamado livros.csv, que conter√° todos os dados extra√≠dos.

In [68]:
library.to_csv("livros.csv", index = False)

In [69]:
# Salvando o DataFrame em um arquivo CSV na pasta de destino que voce esc olher
library.to_csv("/Users/fabicampanari/Desktop/WebScrapping-BeautifulSoaup/livros.csv", index=False)

> Explica√ß√£o: A fun√ß√£o to_csv() do Pandas salva o DataFrame como um arquivo CSV. Definimos index=False para n√£o incluir o √≠ndice do DataFrame no arquivo final.

### Explica√ß√£o Detalhada
1. **Importar bibliotecas:** Importamos as bibliotecas necess√°rias para fazer requisi√ß√µes HTTP (`requests`), analisar HTML (`BeautifulSoup`) e manipular dados (`pandas`).
2. **Definir a URL:** Definimos a URL do site que queremos raspar.
3. **Fazer a requisi√ß√£o:** Realizamos uma requisi√ß√£o HTTP para a URL e analisamos o conte√∫do HTML da p√°gina utilizando o BeautifulSoup.
4. **Encontrar os livros:** Localizamos todos os elementos HTML que representam os livros na p√°gina, utilizando o m√©todo `find_all`.
5. **Extrair informa√ß√µes:** Iteramos sobre cada elemento de livro e extra√≠mos o t√≠tulo, pre√ßo e disponibilidade, utilizando o m√©todo `find` para localizar elementos espec√≠ficos.
6. **Criar DataFrame:** Criamos um DataFrame do Pandas para armazenar os dados extra√≠dos em uma estrutura tabular.
7. **Exibir e salvar:** Exibimos as primeiras linhas do DataFrame para verificar os dados e salvamos o DataFrame em um arquivo CSV para an√°lise posterior.

### Expans√µes e Personaliza√ß√µes
* **Extrair mais informa√ß√µes:** Voc√™ pode extrair outras informa√ß√µes, como a imagem do livro, a categoria, o autor, etc., localizando os elementos HTML correspondentes.
* **Limpar os dados:** Limpe os dados extra√≠dos, removendo caracteres especiais, formatando valores num√©ricos e tratando valores ausentes.
* **Manipular o DataFrame:** Utilize as funcionalidades do Pandas para manipular o DataFrame, como filtrar, ordenar, agrupar e realizar c√°lculos.
* **Visualizar os dados:** Crie gr√°ficos e visualiza√ß√µes para explorar os dados de forma mais intuitiva, utilizando bibliotecas como Matplotlib ou Seaborn.
* **Pagina√ß√£o:** Se o site tiver v√°rias p√°ginas de resultados, implemente a pagina√ß√£o para extrair dados de todas as p√°ginas.
* **Lidar com erros:** Utilize blocos `try-except` para lidar com poss√≠veis erros durante o processo de scraping, como p√°ginas n√£o encontradas ou elementos HTML ausentes.

### Pr√≥ximos Passos
* **Explorar outros sites:** Pratique com outros sites para aprimorar suas habilidades em web scraping.
* **Aprender t√©cnicas avan√ßadas:** Explore t√©cnicas mais avan√ßadas, como XPath, CSS Selectors e bibliotecas como Scrapy.
* **Construir projetos reais:** Utilize o web scraping para coletar dados para seus pr√≥prios projetos, como an√°lise de sentimentos, monitoramento de pre√ßos, etc.

**Lembre-se:** √â importante respeitar os termos de servi√ßo dos sites que voc√™ est√° raspando e evitar sobrecarregar os servidores.

Com este tutorial expandido, voc√™ possui uma base s√≥lida para iniciar seus projetos de web scraping e explorar o vasto mundo de dados dispon√≠veis na web.