# 📡 Notebook 1: Requisição e Extração de Conteúdo

**Objetivo**: Aprender como fazer requisições HTTP e capturar conteúdo web básico

**O que vamos fazer:**
1. 🔧 Configurar bibliotecas necessárias
2. 🌐 Fazer requisição HTTP para o G1 RSS
3. 📊 Analisar o conteúdo capturado
4. 👀 Visualizar primeiras impressões dos dados

---

## 🔧 1. Importação de Bibliotecas

Vamos começar importando a biblioteca `requests` que usaremos para fazer as requisições HTTP.

In [1]:
# Importar bibliotecas necessárias
import requests
from datetime import datetime

print("✅ Bibliotecas importadas com sucesso!")
print(f"📦 Versão do requests: {requests.__version__}")
print(f"🕐 Executado em: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

✅ Bibliotecas importadas com sucesso!
📦 Versão do requests: 2.32.4
🕐 Executado em: 2025-08-08 17:27:52


## 🌐 2. Configuração da Requisição

Vamos definir a URL do G1 RSS e configurar os headers para nossa requisição.

In [2]:
# Configuração da URL e headers
url = "https://g1.globo.com/rss/g1/brasil/"

# Headers para simular um navegador real
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'pt-BR,pt;q=0.9,en;q=0.8',
    'Accept-Encoding': 'gzip, deflate, br',
    'Connection': 'keep-alive'
}

print(f"🎯 URL alvo: {url}")
print(f"📋 Headers configurados: {len(headers)} itens")
print("\n📝 Headers utilizados:")
for key, value in headers.items():
    print(f"   {key}: {value[:50]}..." if len(value) > 50 else f"   {key}: {value}")

🎯 URL alvo: https://g1.globo.com/rss/g1/brasil/
📋 Headers configurados: 5 itens

📝 Headers utilizados:
   User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb...
   Accept: text/html,application/xhtml+xml,application/xml;q=...
   Accept-Language: pt-BR,pt;q=0.9,en;q=0.8
   Accept-Encoding: gzip, deflate, br
   Connection: keep-alive


## 🚀 3. Fazendo a Requisição HTTP

Agora vamos fazer a requisição propriamente dita e capturar o conteúdo da página.

In [3]:
def fazer_requisicao(url, headers):
    """
    Faz uma requisição HTTP para a URL especificada
    
    Args:
        url (str): URL para fazer a requisição
        headers (dict): Headers HTTP para a requisição
        
    Returns:
        tuple: (sucesso, conteudo, info_requisicao)
    """
    try:
        print(f"🔄 Fazendo requisição para: {url}")
        
        # Fazer a requisição com timeout
        response = requests.get(url, headers=headers, timeout=10)
        
        # Verificar se a requisição foi bem-sucedida
        response.raise_for_status()
        
        # Informações da requisição
        info = {
            'status_code': response.status_code,
            'tamanho_conteudo': len(response.text),
            'encoding': response.encoding,
            'content_type': response.headers.get('content-type', 'N/A'),
            'tempo_resposta': response.elapsed.total_seconds()
        }
        
        return True, response.text, info
        
    except requests.exceptions.RequestException as e:
        print(f"❌ Erro na requisição: {e}")
        return False, None, None

# Executar a requisição
sucesso, conteudo, info_requisicao = fazer_requisicao(url, headers)

🔄 Fazendo requisição para: https://g1.globo.com/rss/g1/brasil/


## 📊 4. Análise dos Resultados da Requisição

Vamos analisar se a requisição foi bem-sucedida e examinar as informações retornadas.

In [4]:
if sucesso and conteudo:
    print("🎉 REQUISIÇÃO BEM-SUCEDIDA!")
    print("=" * 40)
    
    # Exibir informações da requisição
    print(f"📊 Status Code: {info_requisicao['status_code']}")
    print(f"📏 Tamanho do conteúdo: {info_requisicao['tamanho_conteudo']:,} caracteres")
    print(f"🔤 Encoding: {info_requisicao['encoding']}")
    print(f"📋 Content-Type: {info_requisicao['content_type']}")
    print(f"⏱️ Tempo de resposta: {info_requisicao['tempo_resposta']:.2f} segundos")
    
    # Estatísticas básicas do conteúdo
    linhas = conteudo.splitlines()
    print(f"\n📈 ESTATÍSTICAS DO CONTEÚDO:")
    print(f"   Número de linhas: {len(linhas):,}")
    print(f"   Tamanho em KB: {len(conteudo.encode('utf-8')) / 1024:.2f} KB")
    
else:
    print("❌ FALHA NA REQUISIÇÃO!")
    print("Verifique sua conexão com a internet e tente novamente.")

🎉 REQUISIÇÃO BEM-SUCEDIDA!
📊 Status Code: 200
📏 Tamanho do conteúdo: 303,196 caracteres
🔤 Encoding: UTF-8
📋 Content-Type: application/xml; charset=UTF-8
⏱️ Tempo de resposta: 0.23 segundos

📈 ESTATÍSTICAS DO CONTEÚDO:
   Número de linhas: 1,463
   Tamanho em KB: 303.04 KB


## 👀 5. Primeiro Olhar no Conteúdo Capturado

Vamos dar uma primeira olhada no conteúdo que capturamos para entender com o que estamos trabalhando.

In [5]:
if conteudo:
    print("🔍 PRIMEIROS 500 CARACTERES DO CONTEÚDO:")
    print("=" * 50)
    print(conteudo[:500])
    print("...")
    
    print("\n🔍 ÚLTIMOS 300 CARACTERES DO CONTEÚDO:")
    print("=" * 50)
    print("...")
    print(conteudo[-300:])

🔍 PRIMEIROS 500 CARACTERES DO CONTEÚDO:
<?xml version='1.0' encoding='UTF-8'?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" xmlns:media="http://search.yahoo.com/mrss/" version="2.0">  <channel> <title>g1</title> <link>http://g1.globo.com</link> <description>RSS do g1</description> <language>pt-BR</language> <copyright>© Copyright Globo Comunicação e Participações S.A.</copyright> <atom:link href="https://g1.globo.com/rss/g1/brasil/" rel="self" type="application/rss+xml"/> <image> <url>https://s2-g1.glbimg.com/9yYCBhtSsy23W0pNwYgEil7i
...

🔍 ÚLTIMOS 300 CARACTERES DO CONTEÚDO:
...
l="https://s2-g1.glbimg.com/KlvXMStC81CxaesUQarWSFtw8s8=/i.s3.glbimg.com/v1/AUTH_59edd422c0c84a879bd37670ae4f538a/internal_photos/bs/2018/f/h/JKCcR1SLm5z66ZwDZ4EA/dsc-0174.jpg" medium="image"/>    <category>G1</category> <pubDate>Sat, 21 Jul 2018 23:55:36 -0000</pubDate>  </item>  </channel>  </rss>


## 🔍 6. Análise Preliminar da Estrutura

Vamos fazer uma análise básica para identificar que tipo de conteúdo capturamos.

In [6]:
if conteudo:
    print("🧐 ANÁLISE PRELIMINAR DA ESTRUTURA:")
    print("=" * 45)
    
    # Verificar se é XML/RSS
    if '<?xml' in conteudo[:100]:
        print("✅ Formato identificado: XML/RSS")
    elif '<html' in conteudo[:200].lower():
        print("✅ Formato identificado: HTML")
    else:
        print("❓ Formato não identificado claramente")
    
    # Contar elementos importantes para RSS
    elementos_rss = {
        '<channel>': conteudo.count('<channel>'),
        '<item>': conteudo.count('<item>'),
        '<title>': conteudo.count('<title>'),
        '<link>': conteudo.count('<link>'),
        '<description>': conteudo.count('<description>'),
        '<pubDate>': conteudo.count('<pubDate>')
    }
    
    print("\n📊 CONTAGEM DE ELEMENTOS RSS:")
    for elemento, quantidade in elementos_rss.items():
        print(f"   {elemento}: {quantidade} ocorrências")
    
    # Tentar encontrar quantas notícias temos
    num_noticias = elementos_rss['<item>']
    print(f"\n🗞️ ESTIMATIVA: ~{num_noticias} notícias encontradas")

🧐 ANÁLISE PRELIMINAR DA ESTRUTURA:
✅ Formato identificado: XML/RSS

📊 CONTAGEM DE ELEMENTOS RSS:
   <channel>: 1 ocorrências
   <item>: 100 ocorrências
   <title>: 102 ocorrências
   <link>: 102 ocorrências
   <description>: 101 ocorrências
   <pubDate>: 100 ocorrências

🗞️ ESTIMATIVA: ~100 notícias encontradas


## 📝 7. Salvando uma Amostra do Conteúdo

Vamos salvar uma pequena amostra do conteúdo para análise posterior.

In [None]:
if conteudo:
    # Salvar amostra dos primeiros 2000 caracteres
    amostra = conteudo[:2000]
    
    nome_arquivo = f"amostra_conteudo_{datetime.now().strftime('%Y%m%d_%H%M%S')}.txt"
    
    try:
        with open(nome_arquivo, 'w', encoding='utf-8') as arquivo:
            arquivo.write("=== AMOSTRA DO CONTEÚDO CAPTURADO ===\n")
            arquivo.write(f"URL: {url}\n")
            arquivo.write(f"Data/Hora: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
            arquivo.write(f"Tamanho total: {len(conteudo)} caracteres\n")
            arquivo.write("=" * 50 + "\n\n")
            arquivo.write(amostra)
            arquivo.write("\n\n... (conteúdo truncado)")
        
        print(f"💾 Amostra salva em: {nome_arquivo}")
        print(f"📏 Tamanho da amostra: {len(amostra)} caracteres")
        
    except Exception as e:
        print(f"❌ Erro ao salvar amostra: {e}")

## 🎯 8. Resumo e Próximos Passos

Vamos fazer um resumo do que aprendemos neste primeiro notebook.

In [7]:
print("🎉 RESUMO DO NOTEBOOK 1 - REQUISIÇÃO E EXTRAÇÃO")
print("=" * 55)

if sucesso:
    print("✅ Status: SUCESSO!")
    print(f"📊 Dados capturados: {info_requisicao['tamanho_conteudo']:,} caracteres")
    print(f"🗞️ Notícias estimadas: ~{conteudo.count('<item>')}")
    print(f"⏱️ Tempo de resposta: {info_requisicao['tempo_resposta']:.2f}s")
else:
    print("❌ Status: FALHA na requisição")

print("\n📚 O QUE APRENDEMOS:")
print("   🔧 Como fazer requisições HTTP com Python")
print("   📋 Como configurar headers para simular um navegador")
print("   📊 Como analisar informações básicas de uma resposta HTTP")
print("   🔍 Como fazer análise preliminar de conteúdo web")
print("   💾 Como salvar dados capturados")

print("\n🎯 PRÓXIMOS PASSOS:")
print("   📓 Notebook 2: Apresentar e analisar o HTML capturado")
print("   🔍 Notebook 3: Parsear tags XML e extrair informações")
print("   📊 Notebook 4: Criar CSV com dados estruturados")

print("\n" + "=" * 55)
print("🚀 Pronto para o próximo notebook!")

🎉 RESUMO DO NOTEBOOK 1 - REQUISIÇÃO E EXTRAÇÃO
✅ Status: SUCESSO!
📊 Dados capturados: 303,196 caracteres
🗞️ Notícias estimadas: ~100
⏱️ Tempo de resposta: 0.23s

📚 O QUE APRENDEMOS:
   🔧 Como fazer requisições HTTP com Python
   📋 Como configurar headers para simular um navegador
   📊 Como analisar informações básicas de uma resposta HTTP
   🔍 Como fazer análise preliminar de conteúdo web
   💾 Como salvar dados capturados

🎯 PRÓXIMOS PASSOS:
   📓 Notebook 2: Apresentar e analisar o HTML capturado
   🔍 Notebook 3: Parsear tags XML e extrair informações
   📊 Notebook 4: Criar CSV com dados estruturados

🚀 Pronto para o próximo notebook!
