# Guia de Web Scraping

Muito bem! Vamos começar a explorar o básico da raspagem na web em Python. Antes de começarmos, é importante observar algumas regras importantes:

1. **Seja sempre respeitoso**: Tente obter permissão para fazer a raspagem de dados. Não faça muitas solicitações de raspagem a um site em um curto período, pois seu endereço IP pode ser bloqueado.
2. **Conscientize-se de que os sites mudam**: Os sites frequentemente sofrem alterações, o que significa que seu código pode funcionar um dia e ficar totalmente quebrado no dia seguinte.
3. **Cada projeto de raspagem é único**: A maioria dos projetos de raspagem de dados interessantes é personalizada, portanto, tente generalizar as habilidades aprendidas aqui.

Agora, vamos começar com o básico!

## Componentes Básicos de um Site

### HTML
HTML significa **Hypertext Markup Language** (Linguagem de Marcação de Hipertexto), e todos os sites da Internet o utilizam para exibir informações. Até mesmo o sistema Jupyter Notebook utiliza HTML para exibir informações em seu navegador. Se você clicar com o botão direito em um site e selecionar "Exibir Código da Página", poderá ver o HTML bruto de uma página da web. É esse código que o Python vai analisar para obter informações. Vamos dar uma olhada no HTML de uma página da web simples:

```html
<!DOCTYPE html>  
<html>  
    <head>
        <title>Título na Aba do Navegador</title>
    </head>
    <body>
        <h1> Cabeçalho do Site </h1>
        <p> Algum Parágrafo </p>
    <body>
</html>
```

HTML é a base de todas as páginas da web e é usado para estruturar o conteúdo que é exibido em um navegador. Cada elemento HTML é marcado com tags, como `<head>`, `<title>`, `<body>`, `<h1>`, `<p>`, etc. Essas tags descrevem a estrutura da página, como o título, o cabeçalho e os parágrafos.

Vamos explorar a estrutura de uma página da web e aprender como podemos usar o Python para raspar dados dela! 🌐🕸️🐍

Vamos detalhar esses componentes.

Cada `<tag>` indica um tipo de bloco específico na página da web:

1. `<DOCTYPE html>`: Documentos HTML sempre começam com essa declaração de tipo, informando ao navegador que se trata de um arquivo HTML.
2. Os blocos de componentes do documento HTML são colocados entre `<html>` e `</html>`.
3. Metadados e conexões de script (como um link para um arquivo CSS ou um arquivo JS) são frequentemente colocados no bloco `<head>`.
4. O bloco da tag `<title>` define o título da página da web (é o que aparece na aba do site que você está visitando).
5. Entre as tags `<body>` e `</body>` estão os blocos que serão visíveis para o visitante do site.
6. Os cabeçalhos são definidos pelas tags `<h1>` a `<h6>`, onde o número representa o tamanho do cabeçalho.
7. Parágrafos são definidos pela tag `<p>`, que é essencialmente apenas texto normal na página.

Existem muitas outras tags além destas, como `<a>` para hiperlinks, `<table>` para tabelas, `<tr>` para linhas de tabela, `<td>` para colunas de tabela e muito mais! 🌐🕸️📑

### CSS

CSS significa Cascading Style Sheets, é o que dá "estilo" a um site, incluindo cores, fontes e até algumas animações! O CSS usa tags como **id** ou **class** para conectar um elemento HTML a um recurso CSS, como uma cor específica. **id** é um identificador único para uma tag HTML e deve ser exclusivo no documento HTML, ou seja, uma conexão de uso único. **class** define um estilo geral que pode ser vinculado a várias tags HTML. Basicamente, se você deseja que apenas uma tag HTML seja vermelha, você usaria uma tag de id; se você quisesse que várias tags/blocos HTML fossem vermelhos, criaria uma classe em seu documento CSS e a vincularia ao restante desses blocos. 🎨💻🎉

### Scraping Guidelines

Lembre-se de que você sempre deve ter permissão para o site que está raspando! Verifique os termos e condições de um site para obter mais informações. Além disso, tenha em mente que um computador pode enviar solicitações a um site muito rapidamente, e um site pode bloquear o endereço IP do seu computador se você enviar muitas solicitações muito rapidamente. Por fim, os sites mudam o tempo todo! Provavelmente, você precisará atualizar seu código com frequência para trabalhos de raspagem de longo prazo. 🚀🕵️

## Web Scraping with Python
Utilize o **pip install** para instalar as bibliotecas de scrapping:

```shell
pip install requests
pip install lxml
pip install bs4
```

Agora vamos ver o que podemos fazer com essas bibliotecas. 📚🐍🔍

In [1]:
!pip install requests
!pip install lxml
!pip install bs4




[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip





[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip





[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


### Example Task 0 - Pegar o título da página

Vamos começar de forma bem simples: vamos pegar o título de uma página. Lembre-se de que este é o bloco HTML com a tag **title**. Para esta tarefa, usaremos o site **www.example.com**, que é um site feito especificamente como um domínio de exemplo. Vamos passar pelas etapas principais:

In [2]:
import requests


In [3]:
# Step 1: Use the requests library to grab the page
# Note, this may fail if you have a firewall blocking Python/Jupyter
# Note sometimes you need to run this twice if it fails the first time
res = requests.get("http://www.example.com")

This object is a requests.models.Response object and it actually contains the information from the website, for example:

In [4]:
type(res)

requests.models.Response

In [5]:
res.text

'<!doctype html>\n<html>\n<head>\n    <title>Example Domain</title>\n\n    <meta charset="utf-8" />\n    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />\n    <meta name="viewport" content="width=device-width, initial-scale=1" />\n    <style type="text/css">\n    body {\n        background-color: #f0f0f2;\n        margin: 0;\n        padding: 0;\n        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;\n        \n    }\n    div {\n        width: 600px;\n        margin: 5em auto;\n        padding: 2em;\n        background-color: #fdfdff;\n        border-radius: 0.5em;\n        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);\n    }\n    a:link, a:visited {\n        color: #38488f;\n        text-decoration: none;\n    }\n    @media (max-width: 700px) {\n        div {\n            margin: 0 auto;\n            width: auto;\n        }\n    }\n    </style>    \n</head>\n\n<body>\n<div>\n    <

Agora, usamos o BeautifulSoup para analisar a página extraída. Tecnicamente, poderíamos usar nosso próprio script personalizado para procurar itens na string de **res.text**, mas a biblioteca BeautifulSoup já possui muitas ferramentas e métodos integrados para extrair informações de uma string desse tipo (basicamente um arquivo HTML). Usando o BeautifulSoup, podemos criar um objeto "soup" que contém todos os "ingredientes" da página da web.

In [6]:
import bs4

In [7]:
soup = bs4.BeautifulSoup(res.text,"lxml")

In [8]:
soup

<!DOCTYPE html>
<html>
<head>
<title>Example Domain</title>
<meta charset="utf-8"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>
</head>
<body>
<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples

Agora vamos usar o método .select() para pegar elementos. Estamos procurando a tag 'title', então passaremos 'title' como argumento. 👍👇

In [9]:
soup.select('title')

[<title>Example Domain</title>]

Observe o que é retornado aqui, na verdade é uma lista contendo todos os elementos de título (junto com suas tags). Você pode usar a indexação ou até mesmo fazer um loop para pegar os elementos da lista. Como este objeto ainda é uma tag especializada, podemos usar chamadas de método para pegar apenas o texto. 📃🔍

In [10]:
title_tag = soup.select('title')

In [11]:
title_tag[0]

<title>Example Domain</title>

In [12]:
type(title_tag[0])

bs4.element.Tag

In [13]:
title_tag[0].getText()

'Example Domain'

### Exemplo Tarefa 1 - Obtendo todos os elementos de uma classe

Vamos tentar pegar todos os títulos de seção do artigo da Wikipedia sobre Grace Hopper a partir deste URL: https://en.wikipedia.org/wiki/Grace_Hopper 📃🔍

Para fazer isso, siga os passos semelhantes ao exemplo anterior. Comece fazendo uma solicitação HTTP para o URL da Wikipedia, em seguida, analise o HTML resultante com o BeautifulSoup para que você possa encontrar e extrair os elementos desejados.

In [14]:
# Faça o request da página
res = requests.get('https://pt.wikipedia.org/wiki/Grace_Hopper')

In [15]:
# Criar soup a partir do request
soup = bs4.BeautifulSoup(res.text,"lxml")

Agora é hora de descobrir o que estamos realmente procurando. Inspeccione o elemento na página para ver que os cabeçalhos de seção têm a classe "mw-headline". Como esta é uma classe e não uma tag direta, precisamos aderir a alguma sintaxe para CSS. Neste caso, podemos usar `.mw-headline` para selecionar todos os elementos com essa classe. Vamos usar o método `.select()` do BeautifulSoup com essa classe para encontrar todos os títulos de seção na página da Wikipedia sobre Grace Hopper. 📃🔍

Aqui estão alguns exemplos da sintaxe que você pode passar para o método `.select()` do BeautifulSoup e os resultados correspondentes:

- `soup.select('div')`: Retorna todos os elementos com a tag `<div>`.

- `soup.select('#some_id')`: Retorna o elemento HTML que contém o atributo `id` igual a `some_id`.

- `soup.select('.notice')`: Retorna todos os elementos HTML com a classe CSS chamada `notice`.

- `soup.select('div span')`: Retorna todos os elementos `<span>` que estão dentro de um elemento `<div>`.

- `soup.select('div > span')`: Retorna todos os elementos `<span>` que estão diretamente dentro de um elemento `<div>`, sem nenhum outro elemento entre eles.

Esses exemplos demonstram como você pode usar a sintaxe CSS para selecionar elementos específicos de uma página da web usando o BeautifulSoup. 😊📃🕵️‍♂️

In [16]:
# Dependendo do seu endereço IP, a classe utilizada no exemplo
# anterior pode ser chamada de forma diferente.
soup.select(".mw-headline")

[<span class="mw-headline" id="Biografia">Biografia</span>,
 <span class="mw-headline" id="Infância_e_Educação">Infância e Educação</span>,
 <span class="mw-headline" id="Carreira">Carreira</span>,
 <span class="mw-headline" id="Segunda_Guerra_Mundial">Segunda Guerra Mundial</span>,
 <span class="mw-headline" id="UNIVAC">UNIVAC</span>,
 <span class="mw-headline" id="COBOL">COBOL</span>,
 <span class="mw-headline" id="Padrões">Padrões</span>,
 <span class="mw-headline" id="Aposentadoria">Aposentadoria</span>,
 <span class="mw-headline" id="Ver_também">Ver também</span>,
 <span class="mw-headline" id="Referências">Referências</span>]

In [17]:
for item in soup.select(".mw-headline"):
    print(item.text)

Biografia
Infância e Educação
Carreira
Segunda Guerra Mundial
UNIVAC
COBOL
Padrões
Aposentadoria
Ver também
Referências


### Exemplo Tarefa 2 -Pegando imagem de um Website

Vamos tentar pegar a imagem do computador Deep Blue deste artigo da Wikipédia: [https://pt.wikipedia.org/wiki/Deep_Blue](https://pt.wikipedia.org/wiki/Deep_Blue) 🌐🖼️

In [18]:
res = requests.get("https://pt.wikipedia.org/wiki/Deep_Blue")

In [19]:
soup = bs4.BeautifulSoup(res.text,'lxml')

In [20]:
image_info = soup.select('.mw-file-element')

In [21]:
image_info

[<img class="mw-file-element" data-file-height="200" data-file-width="260" decoding="async" height="15" src="//upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Disambig_grey.svg/20px-Disambig_grey.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Disambig_grey.svg/30px-Disambig_grey.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Disambig_grey.svg/40px-Disambig_grey.svg.png 2x" width="20"/>,
 <img class="mw-file-element" data-file-height="601" data-file-width="400" decoding="async" height="301" src="//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/200px-Deep_Blue.jpg" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/300px-Deep_Blue.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/b/be/Deep_Blue.jpg 2x" width="200"/>,
 <img alt="Ícone de esboço" class="mw-file-element" data-file-height="32" data-file-width="32" decoding="async" height="30" src="//upload.wikimedia.org/wikipedia/commons/thumb/c/c1/Farm-Fresh

In [22]:
len(image_info)

7

In [23]:
computer = image_info[1]

In [24]:
type(computer)

bs4.element.Tag

Você pode fazer chamadas semelhantes a dicionário para partes da Tag. Neste caso, estamos interessados no **src**, ou "fonte" da imagem, que deve ser seu próprio link .jpg ou .png. 🖼️🔗

In [25]:
computer['src']

'//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/200px-Deep_Blue.jpg'

Podemos exibí-lo com uma célula markdown com o seguinte código:

    <img src='//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/200px-Deep_Blue.jpg'
>

<img src='//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/200px-Deep_Blue.jpg'>

Agora que você tem o link src real, você pode obter a imagem com o `requests` e acessar o atributo `.content`. Observe como tivemos que adicionar "https://" antes do link; se você não fizer isso, o `requests` emitirá um erro (mas ele fornece um código de erro bastante descritivo). 📷🌐🐍

In [26]:
image_link = requests.get('https://upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/220px-Deep_Blue.jpg')

In [27]:
# O conteúdo bruto (é um arquivo binário, o que significa que precisaremos usar métodos de leitura/escrita binários para salvá-lo)
image_link.content

b'\xff\xd8\xff\xe1\x00\x80Exif\x00\x00MM\x00*\x00\x00\x00\x08\x00\x05\x01\x1a\x00\x05\x00\x00\x00\x01\x00\x00\x00J\x01\x1b\x00\x05\x00\x00\x00\x01\x00\x00\x00R\x01(\x00\x03\x00\x00\x00\x01\x00\x02\x00\x00\x01;\x00\x02\x00\x00\x00\x1e\x00\x00\x00Z\x02\x13\x00\x03\x00\x00\x00\x01\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00H\x00\x00\x00\x01\x00\x00\x00H\x00\x00\x00\x01Jim Gardner - thejimmyjob.com\x00\xff\xe2\x02@ICC_PROFILE\x00\x01\x01\x00\x00\x020ADBE\x02\x10\x00\x00mntrRGB XYZ \x07\xcf\x00\x06\x00\x03\x00\x00\x00\x00\x00\x00acspAPPL\x00\x00\x00\x00none\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\xf6\xd6\x00\x01\x00\x00\x00\x00\xd3-ADBE\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\ncprt\x00\x00\x00\xfc\x00\x00\x002desc\x00\x00\x010\x00\x00\x00kwtpt\x00\x00\x01\x9c\x00\x00\x00\x14bkpt\x00\x00\x01\xb0\x00\x00\x00\x14rTRC

**Vamos escrever isso em um arquivo, não se esqueça da chamada 'wb' para denotar uma gravação binária do arquivo.**

In [28]:
f = open('minha_foto_ibm.jpg','wb')

In [29]:
f.write(image_link.content)

18448

In [30]:
f.close()

Agora você pode exibir este arquivo aqui mesmo no notebook como markdown usando:

```markdown
<img src="minha_foto_ibm.jpg.jpg">
```

Basta escrever a linha acima em uma nova célula de markdown e ela exibirá a imagem que acabamos de baixar! 🖼️📄

<img src="'minha_foto_ibm.jpg'>

**Excelente! Agora você deve ter as ferramentas necessárias para fazer a raspagem de qualquer site que lhe interesse! Lembre-se de que, quanto mais complexo for o site, mais difícil será raspá-lo. Sempre peça permissão!** 👍🌐🕵️‍♂️