# 🌐 Scraping Estático de Páginas Web com Requests e BeautifulSoup

Este notebook tem como objetivo demonstrar a **extração de conteúdo estático de páginas web** utilizando as bibliotecas `requests` e `BeautifulSoup`. O processo envolve a obtenção do HTML da página e a análise do seu conteúdo.

1. **Scrape Estático com Requests**: Utilização da biblioteca `requests` para fazer uma requisição HTTP à página e obter o conteúdo HTML.
   
2. **Scrape Estático com BeautifulSoup**: Utilização da biblioteca `BeautifulSoup` para analisar o HTML da página e extrair informações estruturadas (como cabeçalhos).

3. **Extração de Cabeçalhos**: Extração dos elementos de cabeçalho (`h1`, `h2`, `h3`) para visualização e análise do conteúdo textual dessas seções.

🚀 **Objetivo final**: Obter e organizar dados estruturados de páginas web para análise ou processamento posterior.


In [1]:
!python -m pip install requests
!python -m pip install beautifulsoup4

Collecting requests
  Downloading requests-2.32.3-py3-none-any.whl.metadata (4.6 kB)
Collecting charset-normalizer<4,>=2 (from requests)
  Downloading charset_normalizer-3.4.1-cp312-cp312-win_amd64.whl.metadata (36 kB)
Collecting idna<4,>=2.5 (from requests)
  Downloading idna-3.10-py3-none-any.whl.metadata (10 kB)
Collecting urllib3<3,>=1.21.1 (from requests)
  Downloading urllib3-2.4.0-py3-none-any.whl.metadata (6.5 kB)
Collecting certifi>=2017.4.17 (from requests)
  Downloading certifi-2025.1.31-py3-none-any.whl.metadata (2.5 kB)
Downloading requests-2.32.3-py3-none-any.whl (64 kB)
Downloading certifi-2025.1.31-py3-none-any.whl (166 kB)
Downloading charset_normalizer-3.4.1-cp312-cp312-win_amd64.whl (102 kB)
Downloading idna-3.10-py3-none-any.whl (70 kB)
Downloading urllib3-2.4.0-py3-none-any.whl (128 kB)
Installing collected packages: urllib3, idna, charset-normalizer, certifi, requests
Successfully installed certifi-2025.1.31 charset-normalizer-3.4.1 idna-3.10 requests-2.32.3 urlli

## Scrape estatico com requests

In [2]:
import requests

In [3]:
URL = "https://www.investing.com/"
page = requests.get(URL)

print(page.text)

<!DOCTYPE html><html lang="en" dir="ltr" class="html"><head><script>window.isCCPA=true;window.isConsentCCPA=true;window.OptanonWrapper=function(){};window.OneTrust={};</script><script src="https://cookie-cdn.cookiepro.com/scripttemplates/otSDKStub.js" data-domain-script="265d5ac2-7d0c-4675-bf4d-421a61fb482e" amp="true"></script><script src="//cdn.cookielaw.org/opt-out/otCCPAiab.js" ccpa-opt-out-ids="C0004" ccpa-opt-out-geo="all" ccpa-opt-out-lspa="false"></script><script src="//securepubads.g.doubleclick.net/tag/js/gpt.js" async=""></script><meta charSet="utf-8" data-next-head=""/><meta name="viewport" content="initial-scale=1.0, width=device-width" data-next-head=""/><link rel="canonical" href="https://www.investing.com" data-next-head=""/><link rel="alternate" hrefLang="x-default" href="https://www.investing.com/" data-next-head=""/><link rel="alternate" hrefLang="he-il" href="https://il.investing.com/" data-next-head=""/><link rel="alternate" hrefLang="ar" href="https://sa.investing

## Scrape estatico com BeautifulSoup

In [4]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

In [5]:
html = urlopen("https://www.tensorflow.org/tutorials/images/transfer_learning?hl=pt-br")
bs = BeautifulSoup(html, 'html.parser')

print(bs.prettify())

<!DOCTYPE html>
<html dir="ltr" lang="pt-BR-x-mtfrom-en">
 <head>
  <meta content="157101835696-ooapojlodmuabs2do2vuhhnf90bccmoi.apps.googleusercontent.com" name="google-signin-client-id"/>
  <meta content="profile email https://www.googleapis.com/auth/developerprofiles https://www.googleapis.com/auth/developerprofiles.award" name="google-signin-scope"/>
  <meta content="TensorFlow" property="og:site_name"/>
  <meta content="website" property="og:type"/>
  <meta content="noindex" name="robots"/>
  <meta content="#ff6f00" name="theme-color"/>
  <meta charset="utf-8"/>
  <meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <link crossorigin="use-credentials" href="/_pwa/tensorflow/manifest.json" rel="manifest"/>
  <link crossorigin="" href="//www.gstatic.com" rel="preconnect"/>
  <link crossorigin="" href="//fonts.gstatic.com" rel="preconnect"/>
  <link crossorigin="" href="//fonts.googleapis.com" rel="preconnect

In [6]:
linhas = bs.find_all('h1') + bs.find_all('h2') + bs.find_all('h3')
print(linhas)

[<h1 class="devsite-page-title" tabindex="-1">
      Transferência de aprendizado e ajuste fino
      
    </h1>, <h2 data-text=" Pré-processamento de dados" id="data_preprocessing"> Pré-processamento de dados</h2>, <h2 data-text=" Crie o modelo base a partir dos convnets pré-treinados" id="create_the_base_model_from_the_pre-trained_convnets"> Crie o modelo base a partir dos convnets pré-treinados</h2>, <h2 data-text=" Extração de recursos" id="feature_extraction"> Extração de recursos</h2>, <h2 data-text=" Afinação" id="fine_tuning"> Afinação</h2>, <h2 data-text=" Resumo" id="summary"> Resumo</h2>, <h3 data-text=" Download de dados" id="data_download"> Download de dados</h3>, <h3 data-text=" Configurar o conjunto de dados para desempenho" id="configure_the_dataset_for_performance"> Configurar o conjunto de dados para desempenho</h3>, <h3 data-text=" Usar o aumento de dados" id="use_data_augmentation"> Usar o aumento de dados</h3>, <h3 data-text=" Redimensionar valores de pixel" id="re

In [7]:
for linha in linhas:
    print(f"{linha.name} - {linha.text}")

h1 - 
      Transferência de aprendizado e ajuste fino
      
    
h2 -  Pré-processamento de dados
h2 -  Crie o modelo base a partir dos convnets pré-treinados
h2 -  Extração de recursos
h2 -  Afinação
h2 -  Resumo
h3 -  Download de dados
h3 -  Configurar o conjunto de dados para desempenho
h3 -  Usar o aumento de dados
h3 -  Redimensionar valores de pixel
h3 -  Congele a base convolucional
h3 -  Nota importante sobre camadas de BatchNormalization
h3 -  Adicionar um cabeçalho de classificação
h3 -  Compilar o modelo
h3 -  Treine o modelo
h3 -  Curvas de aprendizado
h3 -  Descongele as camadas superiores do modelo
h3 -  Compilar o modelo
h3 -  Continue treinando o modelo
h3 -  Avaliação e previsão
h3 - Stay connected
h3 - Suporte
