Projeto desenvolvido como estudo e teste de um modelo de Web Scrapper utilizando Python.
O objetivo deste projeto foi praticar conceitos de coleta de dados na web, leitura de páginas HTML, extração de informações específicas e armazenamento dos dados coletados em um arquivo CSV.
Este projeto tem foco educacional e foi criado para entender o funcionamento básico de um web scraper.
- Python
- Jupyter Notebook
- BeautifulSoup
- Requests
- Pandas
- CSV
- Acesso a páginas web usando Python
- Leitura do conteúdo HTML da página
- Extração de dados com BeautifulSoup
- Organização dos dados coletados
- Conversão dos dados para formato tabular
- Exportação dos dados para arquivo
.csv - Geração do arquivo
books.csv - Teste prático de um fluxo básico de Web Scraping
webscrapper/
├── web_scraping_bs.ipynb
├── books.csv
└── READMEEste projeto foi criado com o objetivo de estudar como funciona um web scraper simples.
Durante o desenvolvimento, foram praticados conceitos como:
- Requisições HTTP
- Leitura de HTML
- Busca de elementos dentro da página
- Extração de textos e atributos
- Organização de dados em listas e tabelas
- Exportação dos dados para CSV
- Uso de notebooks para testes e aprendizado
O fluxo principal do projeto é:
- O notebook acessa uma página web.
- O conteúdo HTML da página é carregado.
- O BeautifulSoup interpreta a estrutura HTML.
- O código procura os elementos desejados.
- Os dados encontrados são extraídos.
- As informações são organizadas em uma tabela.
- O resultado final é salvo no arquivo
books.csv.
Notebook principal do projeto.
Contém o código usado para testar e executar o web scraping.
Nele estão as etapas de:
- Importação das bibliotecas
- Requisição da página
- Leitura do HTML
- Extração dos dados
- Organização das informações
- Criação do arquivo CSV
Arquivo gerado a partir dos dados coletados pelo scraper.
Esse arquivo armazena as informações extraídas em formato tabular, podendo ser aberto em ferramentas como:
- Excel
- Google Sheets
- LibreOffice Calc
- Pandas
- VS Code
Antes de rodar o projeto, instale:
- Python 3
- pip
- Jupyter Notebook ou Jupyter Lab
Verifique se o Python está instalado:
python --versionou:
python3 --versionVerifique se o pip está instalado:
pip --versionClone o repositório:
git clone https://github.com/sixthy/webscrapper.gitEntre na pasta do projeto:
cd webscrapperCrie um ambiente virtual:
python -m venv .venvAtive o ambiente virtual no Windows:
.venv\Scripts\activateAtive o ambiente virtual no Linux/Mac:
source .venv/bin/activateInstale as dependências necessárias:
pip install requests beautifulsoup4 pandas notebookAbra o Jupyter Notebook:
jupyter notebookDepois, abra o arquivo:
web_scraping_bs.ipynbExecute as células do notebook em ordem.
Ao final da execução, o arquivo books.csv será gerado ou atualizado com os dados coletados.
import requests
from bs4 import BeautifulSoup
import pandas as pdApós executar o notebook, o projeto deve gerar um arquivo CSV com os dados extraídos.
Exemplo:
books.csvEsse arquivo pode conter informações como:
- Nome do item
- Preço
- Disponibilidade
- Avaliação
- Link ou categoria, dependendo da estrutura usada no scraping
Como este projeto foi criado para estudo, ele pode ter algumas limitações... Foi desenvolvido principalmente para entender o fluxo básico de scraping...
Projeto de um estudo inicial de Web Scraping.