# Web-Scraping

**Web scraping** ou raspagem de dados é um método para extrair e armazenar dados de websites de forma **automatizada** e **estruturada**.
<div>
<img src=attachment:8737231f-fb30-4b8c-b2fa-bd729783b9f1.png width="850"/>
</div>

O processo de web scraping funciona da seguinte maneira:

- **Envio de Solicitação:** Um script ou programa envia uma requisição HTTP (como GET) ao servidor web para acessar uma página específica.

- **Recebimento do HTML:** O servidor retorna o HTML da página solicitada, que contém todo o conteúdo da página, incluindo texto, imagens, links e outros elementos.

- **Parsing do HTML:** O script analisa o HTML recebido, utilizando bibliotecas como BeautifulSoup (em Python), para identificar e extrair os dados desejados, como textos dentro de tags específicas, tabelas, ou links.

- **Armazenamento:** Os dados extraídos são organizados e armazenados em um formato estruturado, como CSV, JSON, ou diretamente em um banco de dados.



### HTML - HyperText Markup Language
**HTML** é a linguagem padrão usada para criar e estruturar conteúdo na web, definindo a estrutura e apresentação de texto, imagens, links e outros elementos em websites.

#### Elemento HTML
- Geralmente contém três componentes
    - Tag de abertura;
    - Conteúdo;
    - Tag de fechamento
    
<div>
<img src=attachment:image-3.png width="400"/>
</div>

#### Estrutura básica de um documento HTML

<div>
<img src=attachment:image-4.png width="400"/>
</div>

#### Principais Tags HTML
- $<html>...</html>$: Conteúdo HTML
- $<head>...</head>$: Cabeçalho do documento
- $<title>...</title>$: Título da página HTML
- $<body>...</body>$: Corpo do documento (página)
- $<h1>...</h1>$: Cabeçalho de nível 1
- $<p>...</p>$: Parágrafo
- $<div>...</div>$: Conteúdo Gerérico

### Protocolo HTTP - Hypertext Transfer Protocol
**HTTP** é um protocolo para transmissão de informação que define como os sites são acessados

<div>
<img src=attachment:image-6.png width="400"/>
</div>


#### Métodos de requisição e resposta
- **GET:** Solicita um recurso para o servidor (website)
- **POST:** Envia uma informação para o servidor

### Exemplo 1: Obtendo informações de uma página web

#### Passo 1: instalar bibliotecas

In [107]:
# Remova o comentário(#) da linha abaixo caso esteja executando este script pela primeira vez
#!pip install requests

#### Passo 2: Importar bibliotecas

In [2]:
import requests

#### Passo 3: Requisitar informações de um website

In [3]:
response = requests.get('https://www.cps.sp.gov.br/')

#### Passo 4: Visualizar elementos HMTL

In [4]:
print('Código de status:', response.status_code) # O código de status 200 OK significa que a solicitação foi bem-sucedida

Código de status: 200


In [5]:
print('Cabeçalho:', response.headers)

Cabeçalho: {'Content-Type': 'text/html; charset=utf-8', 'Date': 'Tue, 03 Sep 2024 06:11:28 GMT', 'Server': 'nginx/1.26.1', 'Content-Encoding': 'gzip', 'Last-Modified': 'Mon, 02 Sep 2024 20:37:58 GMT', 'Set-Cookie': 'ARRAffinity=1db02a6cd1d07d3e48961f285c04ff4500eea5babb4480ef2babf5accf323699;Path=/;HttpOnly;Domain=www.cps.sp.gov.br, ARRAffinity=b58142385c3f836110863b26dfcfc622310cee88ec1149e645507fef89774a6e;Path=/;HttpOnly;Secure;Domain=www.cps.sp.gov.br, ARRAffinitySameSite=b58142385c3f836110863b26dfcfc622310cee88ec1149e645507fef89774a6e;Path=/;HttpOnly;SameSite=None;Secure;Domain=www.cps.sp.gov.br', 'Transfer-Encoding': 'chunked', 'X-Powered-By': 'PHP/8.2.21'}


In [6]:
print('Conteúdo:', response.content)

Conteúdo: b'\n<!DOCTYPE html>\n<html lang="pt-BR" >\n<head>\n    <meta charset="UTF-8">\n    <meta name="viewport" content="width=device-width, initial-scale=1">\n    <link id="dynamicCSS" rel=\'stylesheet\' type=\'text/css\' href="#">\n    <meta http-equiv="x-dns-prefetch-control" content="on"><meta name=\'robots\' content=\'index, follow, max-image-preview:large, max-snippet:-1, max-video-preview:-1\' />\n\n\t<!-- This site is optimized with the Yoast SEO plugin v23.3 - https://yoast.com/wordpress/plugins/seo/ -->\n\t<title>Centro Paula Souza | Compet\xc3\xaancia em Educa\xc3\xa7\xc3\xa3o P\xc3\xbablica Profissional</title>\n\t<meta name="description" content="Confira as \xc3\xbaltimas not\xc3\xadcias do Centro Paula Souza: projetos criados pelos alunos, vestibular, datas de eventos, premia\xc3\xa7\xc3\xb5es e muito mais." />\n\t<link rel="canonical" href="https://www.cps.sp.gov.br/" />\n\t<meta name="twitter:card" content="summary_large_image" />\n\t<meta name="twitter:title" conten

### Exemplo 2: Conhecendo o BeautifulSoup

#### Passo 1: instalar bibliotecas

In [113]:
# Remova o comentário(#) da linha abaixo caso esteja executando este script pela primeira vez
#!pip install beautifulsoup4

#### Passo 2: Importar bibliotecas

In [114]:
from bs4 import BeautifulSoup

#### Passo 3: Requisitar informações de um website

In [115]:
response = requests.get('https://www.cps.sp.gov.br/')

#### Passo 4: Conectar o site com a biblioteca BeautifulSoup

In [116]:
site = BeautifulSoup(response.content, 'html.parser') # html.parser serve para ler o arquivo HTML que será visualizado em BeautifulSoup

#### Passo 5: Visualizar HTML

In [16]:
#print(site)
#print(site.prettify())

#### Passo 6: Visualizar elementos específicos

In [17]:
#print(site.title)
#print(site.title.text)

In [18]:
#print(site.find('title'))
#print(site.find('title').text)

In [19]:
#print(site.find('p'))
#print(site.find('p').text)

#### Passo 7: Filtrar atributos

In [23]:
# Dica: use o comando inspecionar página (function+F12)
barra_nav = site.find('nav', attrs={'class': 'main-menu-container menu-mobile-inativo'})
#print(barra_nav)

In [24]:
menu = barra_nav.find('ul', attrs={'class': 'menu'})
#print(menu)

In [25]:
pos = menu.find('li', attrs={'id': 'menu-item-80637'})
#print(pos)

#### Passo 8: Listar links

In [26]:
# O método .find extrai somente o primeiro item
link = pos.find('a')
#print(link)

In [27]:
# O método .find_all extrai todos os itens
links = pos.find_all('a')
#print(links)

In [120]:
# Contar quantos links foram listados
#len(links)

In [121]:
# Podemos visualizar os links pelo índice de armazenamento
#print(links[2].text)

#### Passo 10: Visualizar atributos

In [122]:
#print(links[2].attrs)

#### Passo 11: Extrair atributos específicos

In [31]:
#print(links[2]['href'])

http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-tecnologia-em-sistemas-produtivos


#### Passo 12: Extrair uma lista de atributos
Neste exemplo, iremos extrarir todos os links da barra de navegação

In [32]:
for i in links:
    try:
        print(i['href'])
    except:
        print(i.text)

Pós-Graduação
Stricto Sensu
http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-tecnologia-em-sistemas-produtivos
http://www.pos.cps.sp.gov.br/stricto-sensu/mestrado-profissional-em-gestao-e-desenvolvimento-da-educacao-profissional
Lato Sensu
http://www.pos.cps.sp.gov.br/lato-sensu/mba-em-gestao-de-projetos-e-processos-organizacionais-mgp
http://www.pos.cps.sp.gov.br/lato-sensu/mba-em-engenharia-e-negocios-mbe
http://www.pos.cps.sp.gov.br/lato-sensu/mba-em-tecnologia-e-inovacao-mbt
http://www.pos.cps.sp.gov.br/lato-sensu/mba-em-gestao-de-design-mbd


### Exemplo 3: Regras para encontrar elemento no BeautifulSoup
Neste exemplo, vamos aproveitar os passos do exercício anterior
- Passo 1: Instalar bibliotecas
- Passo 2: Importar bibliotecas
- Passo 3: Requisitar informação de um website
- Passo 4: Conectar o site com a biblioteca BeautifulSoup

E vamos explorar outras regras para encontrar elementos (.find)
- por classe
- por id
- por atributos
- por textos
- por pedaços de texto

#### Passo 5: Encontrar elemento por atributo
*.find*(nome do atributo = dados do atributo)

In [36]:
# Encontrar por classe
# Atenção ao atributo class, pois é uma palavra reservado do Python. Neste caso usa-se class_ (com underline)
barra_nav2 = site.find(class_ = 'main-menu-container menu-mobile-inativo')
#print(barra_nav2)

In [123]:
# Encontrar por id
pos2 = site.find(id = 'menu-item-80637')
#print(pos2)

In [124]:
# Encontrar por atributos
atr = site.find('img')
#print(atr)

In [125]:
# Encontrar por texto 
texto_exato = site.find(string = 'Mestrado Profissional em Gestão e Tecnologia em Sistemas Produtivos')
#print(texto_exato)

In [127]:
# Encontrar por partes de texto
import re # regular expressions

parte_do_texto = site.find_all(string = re.compile('Mestrado'))
#print(parte_do_texto)

#### Passo 6 Encontrar elemento que contém o texto da busca
Neste passo iremos usar as funções **parent** e **contents**

In [128]:
# Repita o comando .parent até esgotar a identação da página
parent_texto = texto_exato.parent
#print(parent_texto)

In [129]:
# O conceito do comando contents é analogo ao parent, mas navega na direção contrária
#print(parent_texto.contents)

## Exercício 
- Repita esses passos utilizando outro website;
- Explore os elementos HTML com a ferramenta inspecionar do navegador;
- Escolha uma barra de navegação e extraia todos os links.