# ü§ñ Scraper√âtico - Tutorial Completo

**Bem-vindo ao tutorial interativo do Scraper√âtico!** 

Esta biblioteca Python faz **web scraping √©tico** respeitando automaticamente robots.txt, rate limiting e exportando dados para CSV/JSON.

## üéØ O que voc√™ vai aprender neste tutorial:

- ‚úÖ **Como verificar** se uma URL pode ser acessada (robots.txt)
- ‚úÖ **Como fazer scraping** de forma √©tica e segura
- ‚úÖ **Como processar m√∫ltiplas URLs** em lote com paraleliza√ß√£o
- ‚úÖ **Como exportar dados** para CSV e JSON automaticamente
- ‚úÖ **Como analisar resultados** com estat√≠sticas detalhadas
- ‚úÖ **Boas pr√°ticas** para scraping √©tico

## ‚ö†Ô∏è IMPORTANTE: 
Este tutorial usa sites **de exemplo seguros** (example.com, python.org). 

Para usar em **produ√ß√£o com seus sites reais**, voc√™ precisar√° editar o arquivo:
üìÑ **`config_producao.py`** (copie de `config_producao.example.py`)

**Vamos come√ßar! üöÄ**

## üì¶ Passo 1: Instala√ß√£o e Configura√ß√£o

**Primeiro, vamos instalar as depend√™ncias e importar as bibliotecas necess√°rias.**

Execute a c√©lula abaixo para garantir que tudo esteja instalado:

üí° **Arquivo necess√°rio**: `requirements.txt` (j√° deve estar na pasta do projeto)

In [1]:
# Instalar depend√™ncias (caso n√£o estejam instaladas)
!pip3 install requests
# Opcionais: !pip3 install pandas matplotlib



In [2]:
# Importar as classes principais
import sys
sys.path.append('../src')

from scraper_etico import ScraperEtico
from analyzer import RobotsAnalyzer
from batch_processor import BatchProcessor

# Imports opcionais - comentar se n√£o tiver instalado
try:
    import pandas as pd
    import matplotlib.pyplot as plt
    PANDAS_AVAILABLE = True
except ImportError:
    print("‚ö†Ô∏è Pandas/Matplotlib n√£o instalado - algumas funcionalidades estar√£o limitadas")
    print("   Para instalar: pip3 install pandas matplotlib")
    PANDAS_AVAILABLE = False

‚ö†Ô∏è Pandas/Matplotlib n√£o instalado - algumas funcionalidades estar√£o limitadas
   Para instalar: pip3 install pandas matplotlib


## üöÄ Passo 2: Criar seu Primeiro Scraper

**Agora vamos criar uma inst√¢ncia do Scraper√âtico e configur√°-la adequadamente.**

‚ö†Ô∏è **IMPORTANTE:** Sempre configure um user-agent descritivo com suas informa√ß√µes reais!

üìÑ **Arquivos relacionados**: 
- `src/scraper_etico.py` (c√≥digo principal - n√£o edite)
- `config_producao.py` (suas configura√ß√µes - edite este para produ√ß√£o)

In [3]:
# Criar inst√¢ncia do scraper
scraper = ScraperEtico(
    user_agent="MeuBot/1.0 (exemplo.com/contato)",
    default_delay=1.0  # 1 segundo entre requests
)

print("Scraper√âtico inicializado com sucesso!")
print(f"User-Agent: {scraper.user_agent}")
print(f"Delay padr√£o: {scraper.default_delay}s")

2025-09-04 12:58:09 - ScraperEtico - INFO - ScraperEtico initialized with user-agent: MeuBot/1.0 (exemplo.com/contato)


Scraper√âtico inicializado com sucesso!
User-Agent: MeuBot/1.0 (exemplo.com/contato)
Delay padr√£o: 1.0s


In [4]:
# üß™ Passo 3: Primeiro Teste - Verificar uma URL

# Vamos testar com um site seguro e confi√°vel
url_teste = "https://example.com/"

print(f"üîç Testando: {url_teste}")
print(f"üìÑ Verificando robots.txt...")

# 1. Verificar se o site permite scraping
pode_acessar = scraper.can_fetch(url_teste)
print(f"‚úÖ Robots.txt permite acesso: {pode_acessar}")

# 2. Verificar se h√° crawl-delay espec√≠fico
delay = scraper.get_crawl_delay(url_teste)
if delay:
    print(f"‚è±Ô∏è  Site especifica crawl-delay: {delay} segundos")
else:
    print(f"‚è±Ô∏è  Usando delay padr√£o: {scraper.default_delay} segundos")

# 3. Se permitido, fazer o request
if pode_acessar:
    print(f"\nüì° Fazendo request √©tico...")
    response = scraper.get(url_teste)
    
    if response:
        print(f"‚úÖ Sucesso!")
        print(f"   Status Code: {response.status_code}")
        print(f"   Tamanho da p√°gina: {len(response.text):,} caracteres")
        print(f"   Content-Type: {response.headers.get('content-type', 'N/A')}")
        
        # Mostrar in√≠cio do conte√∫do
        preview = response.text[:200].replace('\n', ' ')
        print(f"   Preview: {preview}...")
    else:
        print("‚ùå Request falhou")
else:
    print("‚ùå Site n√£o permite scraping - respeitando robots.txt")

üîç Testando: https://example.com/
üìÑ Verificando robots.txt...


2025-09-04 12:58:10 - ScraperEtico - INFO - Successfully fetched robots.txt from https://example.com/robots.txt
2025-09-04 12:58:10 - ScraperEtico - INFO - Fetching URL: https://example.com/


‚úÖ Robots.txt permite acesso: True
‚è±Ô∏è  Usando delay padr√£o: 1.0 segundos

üì° Fazendo request √©tico...


2025-09-04 12:58:11 - ScraperEtico - INFO - Request completed: status=200, size=1256 bytes, time=0.71s


‚úÖ Sucesso!
   Status Code: 200
   Tamanho da p√°gina: 1,256 caracteres
   Content-Type: text/html
   Preview: <!doctype html> <html> <head>     <title>Example Domain</title>      <meta charset="utf-8" />     <meta http-equiv="Content-type" content="text/html; charset=utf-8" />     <meta name="viewport" conten...


## üìä An√°lise Avan√ßada de robots.txt

O RobotsAnalyzer permite fazer an√°lises detalhadas de arquivos robots.txt.

In [5]:
# Criar inst√¢ncia do analisador
analyzer = RobotsAnalyzer()

# Analisar robots.txt de um site conhecido
site_teste = "https://www.python.org"

# Primeiro, baixar o conte√∫do do robots.txt
try:
    import requests
    response = requests.get(f"{site_teste}/robots.txt", timeout=10)
    if response.status_code == 200:
        print(f"üîç An√°lise manual do robots.txt de {site_teste}")
        
        # An√°lise simples do conte√∫do
        robots_content = response.text
        lines = robots_content.split('\n')
        
        # Contar elementos
        user_agents = sum(1 for line in lines if line.lower().startswith('user-agent:'))
        disallows = sum(1 for line in lines if line.lower().startswith('disallow:'))
        allows = sum(1 for line in lines if line.lower().startswith('allow:'))
        sitemaps = sum(1 for line in lines if line.lower().startswith('sitemap:'))
        
        print(f"üìÑ Robots.txt encontrado: ‚úÖ")
        print(f"ü§ñ User-agents definidos: {user_agents}")
        print(f"üö´ Total de regras: {disallows + allows}")
        print(f"üó∫Ô∏è  Sitemaps: {sitemaps}")
        
        # Mostrar primeiras linhas
        print(f"\nüìù Primeiras 10 linhas:")
        for i, line in enumerate(lines[:10]):
            if line.strip():
                print(f"   {line}")
                
except Exception as e:
    print(f"‚ùå Erro ao analisar: {e}")

üîç An√°lise manual do robots.txt de https://www.python.org
üìÑ Robots.txt encontrado: ‚úÖ
ü§ñ User-agents definidos: 6
üö´ Total de regras: 7
üó∫Ô∏è  Sitemaps: 0

üìù Primeiras 10 linhas:
   # Directions for robots.  See this URL:
   # http://www.robotstxt.org/robotstxt.html
   # for a description of the file format.
   User-agent: HTTrack
   User-agent: puf
   User-agent: MSIECrawler
   Disallow: /
   # The Krugle web crawler (though based on Nutch) is OK.


In [6]:
# Mostrar exemplos de sitemaps encontrados (se houver)
if 'robots_content' in locals():
    print("\nüó∫Ô∏è Sitemaps encontrados:")
    for line in robots_content.split('\n'):
        if line.lower().startswith('sitemap:'):
            print(f"  - {line.split(':', 1)[1].strip()}")
    
    # Mostrar alguns user-agents
    print("\nü§ñ Alguns User-agents:")
    count = 0
    for line in robots_content.split('\n'):
        if line.lower().startswith('user-agent:') and count < 5:
            print(f"  - {line.split(':', 1)[1].strip()}")
            count += 1


üó∫Ô∏è Sitemaps encontrados:

ü§ñ Alguns User-agents:
  - HTTrack
  - puf
  - MSIECrawler
  - Krugle
  - Nutch


## üîÑ Passo 4: Processamento em Lote (M√∫ltiplas URLs)

**Agora vamos processar v√°rias URLs de uma s√≥ vez usando o BatchProcessor.**

Isso √© √∫til quando voc√™ quer monitorar m√∫ltiplos sites automaticamente.

üìÑ **Arquivos relacionados**:
- `src/batch_processor.py` (c√≥digo do processamento - n√£o edite)
- Para produ√ß√£o, edite a lista de sites em: `config_producao.py` ‚Üí `SITES_PRODUCAO`

In [7]:
# Lista de URLs para testar
urls_teste = [
    "https://httpbin.org/get",
    "https://www.python.org/about/",
    "https://docs.python.org/3/",
    "https://github.com/python",
    "https://stackoverflow.com/questions"
]

# Criar processador em lote - API correta (sem par√¢metros no construtor)
batch_processor = BatchProcessor()

# Configurar ScraperEtico com par√¢metros desejados
batch_processor.scraper = ScraperEtico(
    user_agent="Tutorial/1.0 (aprendendo-scraping-etico)",
    default_delay=1.5
)

print(f"üì¶ Processador em lote criado")
print(f"üîó URLs para processar: {len(urls_teste)}")
print(f"ü§ñ User-agent: {batch_processor.scraper.user_agent}")
print(f"‚è±Ô∏è  Delay padr√£o: {batch_processor.scraper.default_delay}s")

2025-09-04 12:58:11 - ScraperEtico - INFO - ScraperEtico initialized with user-agent: ScraperEtico/1.0 (Ethical Web Scraper)
2025-09-04 12:58:11 - BatchProcessor - INFO - BatchProcessor initialized with state dir: batch_states
2025-09-04 12:58:11 - ScraperEtico - INFO - ScraperEtico initialized with user-agent: Tutorial/1.0 (aprendendo-scraping-etico)


üì¶ Processador em lote criado
üîó URLs para processar: 5
ü§ñ User-agent: Tutorial/1.0 (aprendendo-scraping-etico)
‚è±Ô∏è  Delay padr√£o: 1.5s


In [8]:
# Executar processamento em lote
print("üöÄ Iniciando processamento em lote...\n")

# Usar o m√©todo process_batch (n√£o processar_lote) com max_workers como par√¢metro
job_state = batch_processor.process_batch(
    urls_teste,
    max_workers=2,  # max_workers vai aqui no m√©todo, n√£o no construtor
    show_progress=True
)

print(f"\n‚ú® Processamento conclu√≠do!")
print(f"üìä Estat√≠sticas:")
print(f"   Total: {job_state.total_urls} URLs")
print(f"   Processadas: {job_state.processed_count}")
print(f"   Sucesso: {len(job_state.completed_urls)}")
print(f"   Falhas: {len(job_state.failed_urls)}")
print(f"   Taxa de sucesso: {job_state.completion_percentage:.1f}%")

2025-09-04 12:58:11 - BatchProcessor - INFO - Starting batch job 'batch_20250904_125811' with 5 URLs, 2 workers, analyze_robots=True
2025-09-04 12:58:11 - ScraperEtico - INFO - Successfully fetched robots.txt from https://www.python.org/robots.txt
2025-09-04 12:58:11 - ScraperEtico - INFO - Fetching URL: https://www.python.org/about/


üöÄ Iniciando processamento em lote...



2025-09-04 12:58:11 - ScraperEtico - INFO - Request completed: status=200, size=43804 bytes, time=0.09s
2025-09-04 12:58:11 - BatchProcessor - INFO - Successfully processed: https://www.python.org/about/ (status: 200, size: 43804 bytes, time: 0.09s)
2025-09-04 12:58:11 - RobotsAnalyzer - INFO - Fetching robots.txt from: https://www.python.org/robots.txt
2025-09-04 12:58:11 - RobotsAnalyzer - INFO - Successfully fetched robots.txt (537 chars)
2025-09-04 12:58:11 - RobotsAnalyzer - INFO - Parsed robots.txt: 6 user-agents, 0 sitemaps, 0 errors
2025-09-04 12:58:11 - ScraperEtico - INFO - Successfully fetched robots.txt from https://docs.python.org/robots.txt
2025-09-04 12:58:11 - ScraperEtico - INFO - Fetching URL: https://docs.python.org/3/
2025-09-04 12:58:11 - ScraperEtico - INFO - Request completed: status=200, size=17874 bytes, time=0.09s
2025-09-04 12:58:11 - BatchProcessor - INFO - Successfully processed: https://docs.python.org/3/ (status: 200, size: 17874 bytes, time: 0.09s)
2025-


‚ú® Processamento conclu√≠do!
üìä Estat√≠sticas:
   Total: 5 URLs
   Processadas: 5
   Sucesso: 5
   Falhas: 0
   Taxa de sucesso: 100.0%


## üìà An√°lise de Resultados

Vamos analisar os resultados do processamento em lote.

In [9]:
# An√°lise dos resultados
if PANDAS_AVAILABLE:
    # Converter para DataFrame para an√°lise
    df = pd.DataFrame([
        {
            'url': resultado.url,
            'domain': resultado.domain,
            'success': resultado.success,
            'robots_allowed': resultado.robots_allowed,
            'crawl_delay': resultado.crawl_delay,
            'status_code': resultado.status_code,
            'response_size': resultado.response_size,
            'error_type': resultado.error_type
        }
        for resultado in job_state.results
    ])
    
    print("üìä Resumo dos resultados:")
    print(f"‚úÖ URLs com sucesso: {df['success'].sum()}")
    print(f"‚ùå URLs com falha: {(~df['success']).sum()}")
    print(f"ü§ñ URLs permitidas por robots.txt: {df['robots_allowed'].sum() if df['robots_allowed'].notna().any() else 'N/A'}")
    
    # Mostrar tabela
    print("\nüìã Detalhes:")
    print(df[['url', 'success', 'robots_allowed', 'status_code']].head())
else:
    # An√°lise sem pandas
    print("üìä Resumo dos resultados:")
    success_count = sum(1 for r in job_state.results if r.success)
    total_count = len(job_state.results)
    robots_allowed_count = sum(1 for r in job_state.results if r.robots_allowed)
    
    print(f"‚úÖ URLs com sucesso: {success_count}")
    print(f"‚ùå URLs com falha: {total_count - success_count}")
    print(f"ü§ñ URLs permitidas por robots.txt: {robots_allowed_count}")
    
    print("\nüìã Detalhes:")
    for resultado in job_state.results[:5]:  # Mostrar primeiros 5
        status = "‚úÖ" if resultado.success else "‚ùå"
        robots_status = "ü§ñ" if resultado.robots_allowed else "üö´"
        print(f"{status}{robots_status} {resultado.url[:50]}... - Status: {resultado.status_code}")

üìä Resumo dos resultados:
‚úÖ URLs com sucesso: 5
‚ùå URLs com falha: 0
ü§ñ URLs permitidas por robots.txt: 5

üìã Detalhes:
‚úÖü§ñ https://www.python.org/about/... - Status: 200
‚úÖü§ñ https://docs.python.org/3/... - Status: 200
‚úÖü§ñ https://github.com/python... - Status: 200
‚úÖü§ñ https://stackoverflow.com/questions... - Status: 200
‚úÖü§ñ https://httpbin.org/get... - Status: 200


In [10]:
# Criar visualiza√ß√£o (se pandas/matplotlib dispon√≠vel)
if PANDAS_AVAILABLE:
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))
    
    # Gr√°fico 1: Permitido vs Bloqueado
    permitidos = df['allowed'].value_counts()
    if len(permitidos) == 2:
        labels = ['Bloqueado', 'Permitido'] if False in permitidos.index else ['Permitido']
    else:
        labels = ['Permitido' if permitidos.index[0] else 'Bloqueado']
    
    ax1.pie(permitidos.values, labels=labels, autopct='%1.1f%%', 
            colors=['#ff6b6b', '#4ecdc4'] if len(permitidos) == 2 else ['#4ecdc4'])
    ax1.set_title('URLs: Permitidas vs Bloqueadas')
    
    # Gr√°fico 2: Sites com/sem robots.txt
    robots = df['robots_found'].value_counts()
    if len(robots) == 2:
        labels = ['Sem robots.txt', 'Com robots.txt'] if False in robots.index else ['Com robots.txt']
    else:
        labels = ['Com robots.txt' if robots.index[0] else 'Sem robots.txt']
        
    ax2.pie(robots.values, labels=labels, autopct='%1.1f%%',
            colors=['#ffa726', '#66bb6a'] if len(robots) == 2 else ['#66bb6a'])
    ax2.set_title('Sites com robots.txt')
    
    plt.tight_layout()
    plt.show()
else:
    print("üìä Visualiza√ß√µes n√£o dispon√≠veis - instale pandas e matplotlib")

üìä Visualiza√ß√µes n√£o dispon√≠veis - instale pandas e matplotlib


## üìä Passo 5: Exportar Resultados para CSV e JSON

**Agora vamos exportar os dados para formatos que voc√™ pode usar no Excel, Python, ou outras ferramentas.**

üìÑ **Arquivos gerados**:
- `resultados_scraping_YYYYMMDD_HHMMSS.csv` (Excel/Google Sheets)
- `resultados_scraping_YYYYMMDD_HHMMSS.json` (an√°lise program√°tica)

üìÅ **Pasta de destino**: Arquivos ser√£o salvos na pasta atual do notebook

In [11]:
# Exportar resultados
from datetime import datetime

# Nome do arquivo com timestamp
nome_arquivo = f"resultados_scraping_{datetime.now().strftime('%Y%m%d_%H%M%S')}"

if PANDAS_AVAILABLE:
    # Exportar com pandas
    df.to_csv(f"{nome_arquivo}.csv", index=False)
    print(f"üìÑ Resultados salvos em: {nome_arquivo}.csv")
else:
    # Exportar usando os m√©todos do BatchProcessor
    batch_processor.export_to_csv(job_state, f"{nome_arquivo}.csv")
    print(f"üìÑ Resultados salvos em: {nome_arquivo}.csv")

# Exportar para JSON usando BatchProcessor
batch_processor.export_to_json(job_state, f"{nome_arquivo}.json")
print(f"üìÑ Resultados salvos em: {nome_arquivo}.json")

2025-09-04 12:58:29 - BatchProcessor - INFO - Exported 5 results to CSV: resultados_scraping_20250904_125829.csv
2025-09-04 12:58:29 - BatchProcessor - INFO - Exported 5 results to JSON: resultados_scraping_20250904_125829.json


üìÑ Resultados salvos em: resultados_scraping_20250904_125829.csv
üìÑ Resultados salvos em: resultados_scraping_20250904_125829.json


## üõ°Ô∏è Passo 6: Princ√≠pios √âticos - O que Voc√™ DEVE Saber

### ‚úÖ **O Scraper√âtico SEMPRE faz automaticamente:**

- üîç **Verifica robots.txt** antes de cada acesso
- ‚è±Ô∏è **Aplica delays** entre requests (nunca sobrecarrega)
- ü§ñ **Identifica o bot** com user-agent claro
- üìù **Gera logs completos** para auditoria
- üö® **Para se bloqueado** (erro 429, robots.txt)

### ‚ùå **O Scraper√âtico NUNCA faz:**

- ‚ùå Ignora robots.txt ou termos de uso
- ‚ùå Faz requests sem delay
- ‚ùå Usa user-agents falsos de navegadores
- ‚ùå Esconde a identidade do bot
- ‚ùå Continua tentando quando bloqueado

### üö® **Suas responsabilidades como usu√°rio:**

1. **Configure user-agent** com SEU site e SEU email reais
2. **Use delays adequados** (m√≠nimo 1s, recomendado 3-5s para sites gov)
3. **Monitore logs** regularmente
4. **Respeite termos de uso** dos sites
5. **Tenha prop√≥sito leg√≠timo** para o scraping

### üìû **Exemplo de User-Agent √âtico:**

```python
# ‚úÖ BOM - Identifica claramente quem voc√™ √©
user_agent = "MeuProjeto/1.0 (+https://github.com/usuario/projeto; contato@email.com)"
user_agent = "PesquisaTCC/1.0 (+https://universidade.br/tcc; aluno@univ.br)"  
user_agent = "AnalisePublica/1.0 (+https://empresa.com/pesquisa; pesquisa@empresa.com)"

# ‚ùå RUIM - Gen√©rico demais
user_agent = "MeuBot/1.0"
user_agent = "Python-requests/2.28"  # Padr√£o do requests
```

### üìÑ **IMPORTANTE: Configure no arquivo `config_producao.py`**
Para produ√ß√£o, copie `config_producao.example.py` ‚Üí `config_producao.py` e edite:
- `USER_AGENT` - Com seus dados reais
- `SITES_PRODUCAO` - Com seus sites para monitorar  
- `DEFAULT_DELAY` - Conforme tipo de sites (gov = 5s+)

## üîß Configura√ß√µes Avan√ßadas

In [12]:
# Exemplo de configura√ß√£o personalizada
import logging

scraper_personalizado = ScraperEtico(
    user_agent="MeuProjeto/2.0 (+http://meusite.com/sobre-bot)",
    default_delay=2.0,  # Delay mais conservador
    timeout=10.0,       # Timeout menor
    log_level=logging.DEBUG  # Logs mais detalhados
)

# Acessar a sess√£o de requests para configurar headers
import requests
session = requests.Session()
session.headers.update({
    'User-Agent': scraper_personalizado.user_agent,
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'pt-BR,pt;q=0.9,en;q=0.8',
    'From': 'contato@meusite.com'  # Email para contato
})

# Usar a sess√£o customizada
scraper_personalizado.session = session

print("üîß Scraper personalizado configurado!")

2025-09-04 12:58:29 - ScraperEtico - INFO - ScraperEtico initialized with user-agent: MeuProjeto/2.0 (+http://meusite.com/sobre-bot)


üîß Scraper personalizado configurado!


## üéØ Casos de Uso Pr√°ticos

### 1. Verifica√ß√£o de Lista de Sites

In [13]:
# Lista de sites de not√≠cias para verificar
sites_noticias = [
    "https://g1.globo.com/rss",
    "https://folha.uol.com.br/rss",
    "https://estadao.com.br/rss",
]

print("üì∞ Verificando sites de not√≠cias...")
for site in sites_noticias:
    try:
        # API correta: can_fetch ao inv√©s de verificar_robots
        resultado = scraper.can_fetch(site)
        status = "‚úÖ Permitido" if resultado else "‚ùå Bloqueado"
        print(f"{status} - {site}")
        
        # Verificar crawl-delay tamb√©m
        delay = scraper.get_crawl_delay(site)
        if delay:
            print(f"   ‚è±Ô∏è  Crawl-delay: {delay}s")
    except Exception as e:
        print(f"‚ùó Erro - {site}: {str(e)}")

2025-09-04 12:58:29 - ScraperEtico - DEBUG - Fetching robots.txt from: https://g1.globo.com/robots.txt


üì∞ Verificando sites de not√≠cias...


2025-09-04 12:58:29 - ScraperEtico - INFO - Successfully fetched robots.txt from https://g1.globo.com/robots.txt
2025-09-04 12:58:29 - ScraperEtico - DEBUG - Robots.txt check for https://g1.globo.com/rss: allowed
2025-09-04 12:58:29 - ScraperEtico - DEBUG - Fetching robots.txt from: https://folha.uol.com.br/robots.txt


‚úÖ Permitido - https://g1.globo.com/rss


2025-09-04 12:58:30 - ScraperEtico - INFO - Successfully fetched robots.txt from https://folha.uol.com.br/robots.txt
2025-09-04 12:58:30 - ScraperEtico - DEBUG - Robots.txt check for https://folha.uol.com.br/rss: allowed
2025-09-04 12:58:30 - ScraperEtico - DEBUG - Fetching robots.txt from: https://estadao.com.br/robots.txt


‚úÖ Permitido - https://folha.uol.com.br/rss


2025-09-04 12:58:30 - ScraperEtico - INFO - Successfully fetched robots.txt from https://estadao.com.br/robots.txt
2025-09-04 12:58:30 - ScraperEtico - DEBUG - Robots.txt check for https://estadao.com.br/rss: allowed


‚úÖ Permitido - https://estadao.com.br/rss


### 2. An√°lise de Diferentes User-Agents

In [14]:
# Testar diferentes user-agents no mesmo site
site_teste = "https://example.com"
user_agents = [
    "*",  # Todos os bots
    "Googlebot",
    "Bingbot", 
    "MeuBot/1.0"
]

print(f"ü§ñ Testando diferentes user-agents em {site_teste}")
for ua in user_agents:
    scraper_temp = ScraperEtico(user_agent=ua)
    resultado = scraper_temp.can_fetch(site_teste)
    status = "‚úÖ" if resultado else "‚ùå"
    print(f"{status} {ua}: {'Permitido' if resultado else 'Bloqueado'}")

2025-09-04 12:58:30 - ScraperEtico - INFO - ScraperEtico initialized with user-agent: *


ü§ñ Testando diferentes user-agents em https://example.com


2025-09-04 12:58:31 - ScraperEtico - INFO - Successfully fetched robots.txt from https://example.com/robots.txt
2025-09-04 12:58:31 - ScraperEtico - INFO - ScraperEtico initialized with user-agent: Googlebot


‚úÖ *: Permitido


2025-09-04 12:58:32 - ScraperEtico - INFO - Successfully fetched robots.txt from https://example.com/robots.txt
2025-09-04 12:58:32 - ScraperEtico - INFO - ScraperEtico initialized with user-agent: Bingbot


‚úÖ Googlebot: Permitido


2025-09-04 12:58:33 - ScraperEtico - INFO - Successfully fetched robots.txt from https://example.com/robots.txt
2025-09-04 12:58:33 - ScraperEtico - INFO - ScraperEtico initialized with user-agent: MeuBot/1.0


‚úÖ Bingbot: Permitido


2025-09-04 12:58:33 - ScraperEtico - INFO - Successfully fetched robots.txt from https://example.com/robots.txt


‚úÖ MeuBot/1.0: Permitido


## üéì Parab√©ns! Voc√™ completou o tutorial

### üéâ **O que voc√™ aprendeu:**

- ‚úÖ Como fazer **scraping √©tico** respeitando robots.txt
- ‚úÖ Como processar **m√∫ltiplos sites** em lote  
- ‚úÖ Como **exportar dados** para CSV e JSON automaticamente
- ‚úÖ Como configurar **delays e user-agents** adequados
- ‚úÖ **Princ√≠pios √©ticos** fundamentais para web scraping

### üöÄ **Pr√≥ximos passos para produ√ß√£o:**

1. **üìÑ Configure suas credenciais reais no arquivo `config_producao.py`:**
   ```bash
   cp config_producao.example.py config_producao.py
   nano config_producao.py  # OU use seu editor preferido
   ```

2. **üß™ Teste seus sites espec√≠ficos editando `teste_meus_sites.py`:**
   ```bash
   python3 teste_meus_sites.py
   ```

3. **üöÄ Execute scraping em produ√ß√£o com `rodar_producao.py`:**
   ```bash
   python3 rodar_producao.py
   ```

4. **üìä Monitore e analise resultados com `analisar_resultados.py`:**
   ```bash
   python3 analisar_resultados.py
   open dados_producao/monitoramento_*.csv
   ```

### üìö **Arquivos importantes do projeto:**

- **üìñ `README.md`** - Documenta√ß√£o completa
- **üß™ `teste_producao.py`** - Testes antes de produ√ß√£o  
- **üìä `analisar_resultados.py`** - An√°lise autom√°tica
- **üîß `config_producao.py`** - Suas configura√ß√µes personalizadas
- **üìù `config_producao.example.py`** - Template de configura√ß√£o
- **üéØ `teste_meus_sites.py`** - Teste com seus sites espec√≠ficos
- **‚ö° `rodar_producao.py`** - Script principal de produ√ß√£o
- **üìã `checklist_producao.txt`** - Checklist antes de produ√ß√£o

### üõ°Ô∏è **Lembre-se sempre:**

> *"Com grandes poderes v√™m grandes responsabilidades"*

- **Sempre respeite robots.txt** (nunca tente contornar)
- **Use delays adequados** (m√≠nimo 3s para sites gov)  
- **Identifique seu bot claramente** (user-agent com seus dados reais)
- **Tenha prop√≥sito leg√≠timo** (pesquisa, monitoramento p√∫blico)
- **Monitore logs regularmente** (pasta `logs/`)

### üÜò **Precisa de ajuda?**

- üìñ **Leia `README.md`** - Documenta√ß√£o completa com exemplos
- üêõ **Problemas?** Abra uma issue no GitHub
- üí¨ **D√∫vidas?** Use as GitHub Discussions

**Agora voc√™ est√° pronto para fazer web scraping √©tico! ü§ñ‚ú®**

### üí° **Dica final**: 
Sempre comece testando com **poucos sites** (3-5) antes de escalar para centenas. O Scraper√âtico √© robusto, mas ser conservador √© sempre melhor!