# Web-Scraping

**Web scraping** ou raspagem de dados é um método para extrair e armazenar dados de websites de forma **automatizada** e **estruturada**.
<div>
<img src=attachment:8737231f-fb30-4b8c-b2fa-bd729783b9f1.png width="850"/>
</div>

O processo de web scraping funciona da seguinte maneira:

- **Envio de Solicitação:** Um script ou programa envia uma requisição HTTP (como GET) ao servidor web para acessar uma página específica.

- **Recebimento do HTML:** O servidor retorna o HTML da página solicitada, que contém todo o conteúdo da página, incluindo texto, imagens, links e outros elementos.

- **Parsing do HTML:** O script analisa o HTML recebido, utilizando bibliotecas como BeautifulSoup (em Python), para identificar e extrair os dados desejados, como textos dentro de tags específicas, tabelas, ou links.

- **Armazenamento:** Os dados extraídos são organizados e armazenados em um formato estruturado, como CSV, JSON, ou diretamente em um banco de dados.



### HTML - HyperText Markup Language
**HTML** é a linguagem padrão usada para criar e estruturar conteúdo na web, definindo a estrutura e apresentação de texto, imagens, links e outros elementos em websites.

#### Elemento HTML
- Geralmente contém três componentes
    - Tag de abertura;
    - Conteúdo;
    - Tag de fechamento
    
<div>
<img src=attachment:image-3.png width="400"/>
</div>

#### Estrutura básica de um documento HTML

<div>
<img src=attachment:image-4.png width="400"/>
</div>

#### Principais Tags HTML
- $<html>...</html>$: Conteúdo HTML
- $<head>...</head>$: Cabeçalho do documento
- $<title>...</title>$: Título da página HTML
- $<body>...</body>$: Corpo do documento (página)
- $<h1>...</h1>$: Cabeçalho de nível 1
- $<p>...</p>$: Parágrafo
- $<div>...</div>$: Conteúdo Gerérico

### Protocolo HTTP - Hypertext Transfer Protocol
**HTTP** é um protocolo para transmissão de informação que define como os sites são acessados

<div>
<img src=attachment:image-6.png width="400"/>
</div>


#### Métodos de requisição e resposta
- **GET:** Solicita um recurso para o servidor (website)
- **POST:** Envia uma informação para o servidor

<div>
<img src=attachment:1831d731-5738-4402-9d64-335b48ffbe0d.png width="200"/>
</div>

# Atenção - Evite práticas ilegais e antiéticas
#### Respeite as regras contidas do documento **Robots.txt**. 
O scraper deve seguir as regras estabelecidas no arquivo robots.txt do site e respeitar os termos de uso para evitar práticas ilegais ou antiéticas.


# Mão na massa

### Exemplo 1: Obtendo informações de uma página web

#### Passo 1: instalar bibliotecas

In [1]:
!pip install requests

Defaulting to user installation because normal site-packages is not writeable


#### Passo 2: Importar bibliotecas

In [2]:
import requests

#### Passo 3: Requisitar informações de um website

In [3]:
response = requests.get('https://www.cps.sp.gov.br')

#### Passo 4: Visualizar elementos HMTL

In [4]:
print('Codigo de Status: ', response.status_code)

Codigo de Status:  200


### Interpretando o Código de status
Os códigos de status são divididos em categorias:
- 2xx para sucesso
- 3xx para redirecionamentos
-  4xx para erros do cliente
-  5xx para erros do servidor.
  
Saber interpretar esses códigos é essencial para implementar lógicas de tratamento de erro e sucesso em suas aplicações.

In [5]:
print('Cabeçalho ', response.headers)

Cabeçalho  {'Content-Type': 'text/html; charset=UTF-8', 'Date': 'Thu, 14 Aug 2025 01:03:13 GMT', 'Server': 'nginx/1.28.0', 'Content-Encoding': 'gzip', 'Last-Modified': 'Wed, 13 Aug 2025 21:49:11 GMT', 'Set-Cookie': 'ARRAffinity=208b37cfd64fb168f8b5784fdfca4634f3a1aeb2143a212ee9acfe04a1928752;Path=/;HttpOnly;Secure;Domain=www.cps.sp.gov.br, ARRAffinitySameSite=208b37cfd64fb168f8b5784fdfca4634f3a1aeb2143a212ee9acfe04a1928752;Path=/;HttpOnly;SameSite=None;Secure;Domain=www.cps.sp.gov.br', 'Transfer-Encoding': 'chunked', 'X-Powered-By': 'PHP/8.2.29'}


In [6]:
print('Conteudo ', response.content)

Conteudo  b'\n<!DOCTYPE html>\n<html lang="pt-BR" >\n<head>\n    <meta charset="UTF-8">\n    <meta name="viewport" content="width=device-width, initial-scale=1">\n    <link id="dynamicCSS" rel="stylesheet" type="text/css" href="#">\n    <meta http-equiv="x-dns-prefetch-control" content="on"><meta name=\'robots\' content=\'index, follow, max-image-preview:large, max-snippet:-1, max-video-preview:-1\' />\n\t<style>img:is([sizes="auto" i], [sizes^="auto," i]) { contain-intrinsic-size: 3000px 1500px }</style>\n\t\n\t<!-- This site is optimized with the Yoast SEO plugin v25.7 - https://yoast.com/wordpress/plugins/seo/ -->\n\t<title>Centro Paula Souza | Compet\xc3\xaancia em Educa\xc3\xa7\xc3\xa3o P\xc3\xbablica Profissional</title>\n\t<meta name="description" content="Confira as \xc3\xbaltimas not\xc3\xadcias do Centro Paula Souza: projetos criados pelos alunos, vestibular, datas de eventos, premia\xc3\xa7\xc3\xb5es e muito mais." />\n\t<link rel="canonical" href="https://www.cps.sp.gov.br/

### Exemplo 2: Conhecendo o BeautifulSoup

#### Passo 1: instalar bibliotecas

In [7]:
!pip install beautifulsoup4

Defaulting to user installation because normal site-packages is not writeable


#### Passo 2: Importar bibliotecas

In [8]:
from bs4 import BeautifulSoup

#### Passo 3: Requisitar informações de um website

In [9]:
response = requests.get('https://www.cps.sp.gov.br')

#### Passo 4: Conectar o site com a biblioteca BeautifulSoup

In [10]:
soup = BeautifulSoup(response.content ,'html.parser')

#### Passo 5: Visualizar HTML

In [11]:
print(soup)


<!DOCTYPE html>

<html lang="pt-BR">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="#" id="dynamicCSS" rel="stylesheet" type="text/css"/>
<meta content="on" http-equiv="x-dns-prefetch-control"/><meta content="index, follow, max-image-preview:large, max-snippet:-1, max-video-preview:-1" name="robots">
<style>img:is([sizes="auto" i], [sizes^="auto," i]) { contain-intrinsic-size: 3000px 1500px }</style>
<!-- This site is optimized with the Yoast SEO plugin v25.7 - https://yoast.com/wordpress/plugins/seo/ -->
<title>Centro Paula Souza | Competência em Educação Pública Profissional</title>
<meta content="Confira as últimas notícias do Centro Paula Souza: projetos criados pelos alunos, vestibular, datas de eventos, premiações e muito mais." name="description">
<link href="https://www.cps.sp.gov.br/" rel="canonical">
<meta content="summary_large_image" name="twitter:card">
<meta content="Centro Paula Souza | Competência em Edu

#### Passo 6: Visualizar elementos específicos

In [12]:
print(soup.title)

<title>Centro Paula Souza | Competência em Educação Pública Profissional</title>


In [13]:
print(soup.find('title'))

<title>Centro Paula Souza | Competência em Educação Pública Profissional</title>


In [14]:
print(soup.find('p'))

<p class="govsp-social" style="min-height:auto;">/governosp</p>


#### Passo 7: Filtrar atributos

In [15]:
barra_nav = soup.find('nav', attrs = {'class': 'main-menu-container menu-mobile-inativo'})
print(barra_nav)

<nav class="main-menu-container menu-mobile-inativo" role="navigation">
<i class="fas fa-times" id="fecha-menu"></i>
<ul class="menu" id="menu-menu-principal"><li class="has-mega-menu mega-menu-institucional menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-80542" id="menu-item-80542"><a>Institucional</a><ul class="sub-menu"><li class="destaque-mega-menu coluna-mega-menu menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-80543" id="menu-item-80543"><a>Centro Paula Souza</a><ul class="sub-menu"><li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-116316" id="menu-item-116316"><a href="https://www.cps.sp.gov.br/institucional/sobre-o-centro-paula-souza/">Funções e Competências</a></li><li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-116323" id="menu-item-116323"><a href="https://www.cps.sp.gov.br/institucional/organograma/">Organograma</a></li><li class="menu-

In [16]:
menu = barra_nav.find('ul', attrs = {'class': 'menu'})
#print(menu)

In [17]:
pos = menu.find('li', attrs = {'id': 'menu-item-80637'})
#print(pos)

#### Passo 8: Listar links

In [18]:
links = pos.find_all("a")
links

[<a>Pós-Graduação</a>,
 <a>Stricto Sensu</a>,
 <a href="http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-tecnologia-em-sistemas-produtivos" target="_blank">Mestrado Profissional em Gestão e Tecnologia em Sistemas Produtivos</a>,
 <a href="http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-desenvolvimento-da-educacao-profissional" target="_blank">Mestrado Profissional em Gestão e Desenvolvimento da Educação Profissional</a>,
 <a>Lato Sensu</a>,
 <a href="http://www.pos.cps.sp.gov.br/lato-sensu/mba-em-gestao-de-projetos-e-processos-organizacionais-mgp" target="_blank">MBA em Gestão de Projetos e Processos Organizacionais (MGP)</a>,
 <a href="http://www.pos.cps.sp.gov.br/lato-sensu/mba-em-engenharia-e-negocios-mbe" target="_blank">MBA em Engenharia e Negócios (MBE)</a>,
 <a href="http://www.pos.cps.sp.gov.br/lato-sensu/mba-em-tecnologia-e-inovacao-mbt" target="_blank">MBA em Tecnologia e Inovação (MBT)</a>,
 <a href="http://www.pos.cps

In [19]:
len(links)

9

In [20]:
print(links[2].text)

Mestrado Profissional em Gestão e Tecnologia em Sistemas Produtivos


In [21]:
print(links[2].attrs)

{'target': '_blank', 'href': 'http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-tecnologia-em-sistemas-produtivos'}


#### Passo 10: Visualizar atributos

#### Passo 11: Extrair atributos específicos

In [22]:
print(links[2]['href'])

http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-tecnologia-em-sistemas-produtivos


#### Passo 12: Extrair uma lista de atributos
Neste exemplo, iremos extrarir todos os links da barra de navegação

In [23]:
for i in links:
    try:
        print(i['href'])
    except:
        print(i.text)

Pós-Graduação
Stricto Sensu
http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-tecnologia-em-sistemas-produtivos
http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-desenvolvimento-da-educacao-profissional
Lato Sensu
http://www.pos.cps.sp.gov.br/lato-sensu/mba-em-gestao-de-projetos-e-processos-organizacionais-mgp
http://www.pos.cps.sp.gov.br/lato-sensu/mba-em-engenharia-e-negocios-mbe
http://www.pos.cps.sp.gov.br/lato-sensu/mba-em-tecnologia-e-inovacao-mbt
http://www.pos.cps.sp.gov.br/lato-sensu/mba-em-gestao-de-design-mbd


### Exemplo 3: Regras para encontrar elemento no BeautifulSoup
Neste exemplo, vamos aproveitar os passos do exercício anterior
- Passo 1: Instalar bibliotecas
- Passo 2: Importar bibliotecas
- Passo 3: Requisitar informação de um website
- Passo 4: Conectar o site com a biblioteca BeautifulSoup

E vamos explorar outras regras para encontrar elementos (.find)
- por classe
- por id
- por atributos
- por textos
- por pedaços de texto

#### Passo 5: Encontrar elemento por atributo
*.find*(nome do atributo = dados do atributo)

In [24]:
barra_nav2 = soup.find(class_ = 'main-menu-container menu-mobile-inativo')
print(barra_nav2)

<nav class="main-menu-container menu-mobile-inativo" role="navigation">
<i class="fas fa-times" id="fecha-menu"></i>
<ul class="menu" id="menu-menu-principal"><li class="has-mega-menu mega-menu-institucional menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-80542" id="menu-item-80542"><a>Institucional</a><ul class="sub-menu"><li class="destaque-mega-menu coluna-mega-menu menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-80543" id="menu-item-80543"><a>Centro Paula Souza</a><ul class="sub-menu"><li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-116316" id="menu-item-116316"><a href="https://www.cps.sp.gov.br/institucional/sobre-o-centro-paula-souza/">Funções e Competências</a></li><li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-116323" id="menu-item-116323"><a href="https://www.cps.sp.gov.br/institucional/organograma/">Organograma</a></li><li class="menu-

In [26]:
pos2 = soup.find(id = 'menu-item-80637')
print(pos2)

<li class="has-mega-menu mega-menu-institucional menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-80637" id="menu-item-80637"><a>Pós-Graduação</a><ul class="sub-menu"><li class="destaque-mega-menu coluna-mega-menu menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-80638" id="menu-item-80638"><a>Stricto Sensu</a><ul class="sub-menu"><li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-80640" id="menu-item-80640"><a href="http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-tecnologia-em-sistemas-produtivos" target="_blank">Mestrado Profissional em Gestão e Tecnologia em Sistemas Produtivos</a></li><li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-80641" id="menu-item-80641"><a href="http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-desenvolvimento-da-educacao-profissional" target="_blank">Mestrado Profissional

In [28]:
atr = soup.find('img')
print(atr)

<img alt="Governo do Estado de São Paulo" class="logo" height="38" src="https://www.cps.sp.gov.br/wp-content/themes/tema-cps/images/sao-paulo/logo-governo-do-estado-sp.png" width="206"/>


In [32]:
# Encontrar por texto
texto_exato = soup.find(string = 'Mestrado Profissional em Gestão e Tecnologia em Sistemas Produtivos')

In [33]:
import re

parte_do_texto = soup.find_all(string = re.compile('Mestrado'))
print(parte_do_texto)

['Mestrado Profissional em Gestão e Tecnologia em Sistemas Produtivos', 'Mestrado Profissional em Gestão e Desenvolvimento da Educação Profissional']


#### Passo 6 Encontrar elemento que contém o texto da busca
Neste passo iremos usar as funções **parent** e **contents**

In [35]:
parent_texto = texto_exato.parent
print(parent_texto)

<a href="http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-tecnologia-em-sistemas-produtivos" target="_blank">Mestrado Profissional em Gestão e Tecnologia em Sistemas Produtivos</a>


In [36]:
print(parent_texto.contents)

['Mestrado Profissional em Gestão e Tecnologia em Sistemas Produtivos']


## Exercício 
- Repita esses passos utilizando outro website;
- Explore os elementos HTML com a ferramenta inspecionar do navegador;
- Escolha uma barra de navegação e extraia todos os links.