# Guia de Web Scraping

Muito bem! Vamos come√ßar a explorar o b√°sico da raspagem na web em Python. Antes de come√ßarmos, √© importante observar algumas regras importantes:

1. **Seja sempre respeitoso**: Tente obter permiss√£o para fazer a raspagem de dados. N√£o fa√ßa muitas solicita√ß√µes de raspagem a um site em um curto per√≠odo, pois seu endere√ßo IP pode ser bloqueado.
2. **Conscientize-se de que os sites mudam**: Os sites frequentemente sofrem altera√ß√µes, o que significa que seu c√≥digo pode funcionar um dia e ficar totalmente quebrado no dia seguinte.
3. **Cada projeto de raspagem √© √∫nico**: A maioria dos projetos de raspagem de dados interessantes √© personalizada, portanto, tente generalizar as habilidades aprendidas aqui.

Agora, vamos come√ßar com o b√°sico!

## Componentes B√°sicos de um Site

### HTML
HTML significa **Hypertext Markup Language** (Linguagem de Marca√ß√£o de Hipertexto), e todos os sites da Internet o utilizam para exibir informa√ß√µes. At√© mesmo o sistema Jupyter Notebook utiliza HTML para exibir informa√ß√µes em seu navegador. Se voc√™ clicar com o bot√£o direito em um site e selecionar "Exibir C√≥digo da P√°gina", poder√° ver o HTML bruto de uma p√°gina da web. √â esse c√≥digo que o Python vai analisar para obter informa√ß√µes. Vamos dar uma olhada no HTML de uma p√°gina da web simples:

```html
<!DOCTYPE html>  
<html>  
    <head>
        <title>T√≠tulo na Aba do Navegador</title>
    </head>
    <body>
        <h1> Cabe√ßalho do Site </h1>
        <p> Algum Par√°grafo </p>
    <body>
</html>
```

HTML √© a base de todas as p√°ginas da web e √© usado para estruturar o conte√∫do que √© exibido em um navegador. Cada elemento HTML √© marcado com tags, como `<head>`, `<title>`, `<body>`, `<h1>`, `<p>`, etc. Essas tags descrevem a estrutura da p√°gina, como o t√≠tulo, o cabe√ßalho e os par√°grafos.

Vamos explorar a estrutura de uma p√°gina da web e aprender como podemos usar o Python para raspar dados dela! üåêüï∏Ô∏èüêç

Vamos detalhar esses componentes.

Cada `<tag>` indica um tipo de bloco espec√≠fico na p√°gina da web:

1. `<DOCTYPE html>`: Documentos HTML sempre come√ßam com essa declara√ß√£o de tipo, informando ao navegador que se trata de um arquivo HTML.
2. Os blocos de componentes do documento HTML s√£o colocados entre `<html>` e `</html>`.
3. Metadados e conex√µes de script (como um link para um arquivo CSS ou um arquivo JS) s√£o frequentemente colocados no bloco `<head>`.
4. O bloco da tag `<title>` define o t√≠tulo da p√°gina da web (√© o que aparece na aba do site que voc√™ est√° visitando).
5. Entre as tags `<body>` e `</body>` est√£o os blocos que ser√£o vis√≠veis para o visitante do site.
6. Os cabe√ßalhos s√£o definidos pelas tags `<h1>` a `<h6>`, onde o n√∫mero representa o tamanho do cabe√ßalho.
7. Par√°grafos s√£o definidos pela tag `<p>`, que √© essencialmente apenas texto normal na p√°gina.

Existem muitas outras tags al√©m destas, como `<a>` para hiperlinks, `<table>` para tabelas, `<tr>` para linhas de tabela, `<td>` para colunas de tabela e muito mais! üåêüï∏Ô∏èüìë

### CSS

CSS significa Cascading Style Sheets, √© o que d√° "estilo" a um site, incluindo cores, fontes e at√© algumas anima√ß√µes! O CSS usa tags como **id** ou **class** para conectar um elemento HTML a um recurso CSS, como uma cor espec√≠fica. **id** √© um identificador √∫nico para uma tag HTML e deve ser exclusivo no documento HTML, ou seja, uma conex√£o de uso √∫nico. **class** define um estilo geral que pode ser vinculado a v√°rias tags HTML. Basicamente, se voc√™ deseja que apenas uma tag HTML seja vermelha, voc√™ usaria uma tag de id; se voc√™ quisesse que v√°rias tags/blocos HTML fossem vermelhos, criaria uma classe em seu documento CSS e a vincularia ao restante desses blocos. üé®üíªüéâ

### Scraping Guidelines

Lembre-se de que voc√™ sempre deve ter permiss√£o para o site que est√° raspando! Verifique os termos e condi√ß√µes de um site para obter mais informa√ß√µes. Al√©m disso, tenha em mente que um computador pode enviar solicita√ß√µes a um site muito rapidamente, e um site pode bloquear o endere√ßo IP do seu computador se voc√™ enviar muitas solicita√ß√µes muito rapidamente. Por fim, os sites mudam o tempo todo! Provavelmente, voc√™ precisar√° atualizar seu c√≥digo com frequ√™ncia para trabalhos de raspagem de longo prazo. üöÄüïµÔ∏è

## Web Scraping with Python
Utilize o **pip install** para instalar as bibliotecas de scrapping:

```shell
pip install requests
pip install lxml
pip install bs4
```

Agora vamos ver o que podemos fazer com essas bibliotecas. üìöüêçüîç

In [1]:
!pip install requests
!pip install lxml
!pip install bs4




[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip





[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip





[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


### Example Task 0 - Pegar o t√≠tulo da p√°gina

Vamos come√ßar de forma bem simples: vamos pegar o t√≠tulo de uma p√°gina. Lembre-se de que este √© o bloco HTML com a tag **title**. Para esta tarefa, usaremos o site **www.example.com**, que √© um site feito especificamente como um dom√≠nio de exemplo. Vamos passar pelas etapas principais:

In [2]:
import requests


In [3]:
# Step 1: Use the requests library to grab the page
# Note, this may fail if you have a firewall blocking Python/Jupyter
# Note sometimes you need to run this twice if it fails the first time
res = requests.get("http://www.example.com")

This object is a requests.models.Response object and it actually contains the information from the website, for example:

In [4]:
type(res)

requests.models.Response

In [5]:
res.text

'<!doctype html>\n<html>\n<head>\n    <title>Example Domain</title>\n\n    <meta charset="utf-8" />\n    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />\n    <meta name="viewport" content="width=device-width, initial-scale=1" />\n    <style type="text/css">\n    body {\n        background-color: #f0f0f2;\n        margin: 0;\n        padding: 0;\n        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;\n        \n    }\n    div {\n        width: 600px;\n        margin: 5em auto;\n        padding: 2em;\n        background-color: #fdfdff;\n        border-radius: 0.5em;\n        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);\n    }\n    a:link, a:visited {\n        color: #38488f;\n        text-decoration: none;\n    }\n    @media (max-width: 700px) {\n        div {\n            margin: 0 auto;\n            width: auto;\n        }\n    }\n    </style>    \n</head>\n\n<body>\n<div>\n    <

Agora, usamos o BeautifulSoup para analisar a p√°gina extra√≠da. Tecnicamente, poder√≠amos usar nosso pr√≥prio script personalizado para procurar itens na string de **res.text**, mas a biblioteca BeautifulSoup j√° possui muitas ferramentas e m√©todos integrados para extrair informa√ß√µes de uma string desse tipo (basicamente um arquivo HTML). Usando o BeautifulSoup, podemos criar um objeto "soup" que cont√©m todos os "ingredientes" da p√°gina da web.

In [6]:
import bs4

In [7]:
soup = bs4.BeautifulSoup(res.text,"lxml")

In [8]:
soup

<!DOCTYPE html>
<html>
<head>
<title>Example Domain</title>
<meta charset="utf-8"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>
</head>
<body>
<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples

Agora vamos usar o m√©todo .select() para pegar elementos. Estamos procurando a tag 'title', ent√£o passaremos 'title' como argumento. üëçüëá

In [9]:
soup.select('title')

[<title>Example Domain</title>]

Observe o que √© retornado aqui, na verdade √© uma lista contendo todos os elementos de t√≠tulo (junto com suas tags). Voc√™ pode usar a indexa√ß√£o ou at√© mesmo fazer um loop para pegar os elementos da lista. Como este objeto ainda √© uma tag especializada, podemos usar chamadas de m√©todo para pegar apenas o texto. üìÉüîç

In [10]:
title_tag = soup.select('title')

In [11]:
title_tag[0]

<title>Example Domain</title>

In [12]:
type(title_tag[0])

bs4.element.Tag

In [13]:
title_tag[0].getText()

'Example Domain'

### Exemplo Tarefa 1 - Obtendo todos os elementos de uma classe

Vamos tentar pegar todos os t√≠tulos de se√ß√£o do artigo da Wikipedia sobre Grace Hopper a partir deste URL: https://en.wikipedia.org/wiki/Grace_Hopper üìÉüîç

Para fazer isso, siga os passos semelhantes ao exemplo anterior. Comece fazendo uma solicita√ß√£o HTTP para o URL da Wikipedia, em seguida, analise o HTML resultante com o BeautifulSoup para que voc√™ possa encontrar e extrair os elementos desejados.

In [14]:
# Fa√ßa o request da p√°gina
res = requests.get('https://pt.wikipedia.org/wiki/Grace_Hopper')

In [15]:
# Criar soup a partir do request
soup = bs4.BeautifulSoup(res.text,"lxml")

Agora √© hora de descobrir o que estamos realmente procurando. Inspeccione o elemento na p√°gina para ver que os cabe√ßalhos de se√ß√£o t√™m a classe "mw-headline". Como esta √© uma classe e n√£o uma tag direta, precisamos aderir a alguma sintaxe para CSS. Neste caso, podemos usar `.mw-headline` para selecionar todos os elementos com essa classe. Vamos usar o m√©todo `.select()` do BeautifulSoup com essa classe para encontrar todos os t√≠tulos de se√ß√£o na p√°gina da Wikipedia sobre Grace Hopper. üìÉüîç

Aqui est√£o alguns exemplos da sintaxe que voc√™ pode passar para o m√©todo `.select()` do BeautifulSoup e os resultados correspondentes:

- `soup.select('div')`: Retorna todos os elementos com a tag `<div>`.

- `soup.select('#some_id')`: Retorna o elemento HTML que cont√©m o atributo `id` igual a `some_id`.

- `soup.select('.notice')`: Retorna todos os elementos HTML com a classe CSS chamada `notice`.

- `soup.select('div span')`: Retorna todos os elementos `<span>` que est√£o dentro de um elemento `<div>`.

- `soup.select('div > span')`: Retorna todos os elementos `<span>` que est√£o diretamente dentro de um elemento `<div>`, sem nenhum outro elemento entre eles.

Esses exemplos demonstram como voc√™ pode usar a sintaxe CSS para selecionar elementos espec√≠ficos de uma p√°gina da web usando o BeautifulSoup. üòäüìÉüïµÔ∏è‚Äç‚ôÇÔ∏è

In [16]:
# Dependendo do seu endere√ßo IP, a classe utilizada no exemplo
# anterior pode ser chamada de forma diferente.
soup.select(".mw-headline")

[<span class="mw-headline" id="Biografia">Biografia</span>,
 <span class="mw-headline" id="Inf√¢ncia_e_Educa√ß√£o">Inf√¢ncia e Educa√ß√£o</span>,
 <span class="mw-headline" id="Carreira">Carreira</span>,
 <span class="mw-headline" id="Segunda_Guerra_Mundial">Segunda Guerra Mundial</span>,
 <span class="mw-headline" id="UNIVAC">UNIVAC</span>,
 <span class="mw-headline" id="COBOL">COBOL</span>,
 <span class="mw-headline" id="Padr√µes">Padr√µes</span>,
 <span class="mw-headline" id="Aposentadoria">Aposentadoria</span>,
 <span class="mw-headline" id="Ver_tamb√©m">Ver tamb√©m</span>,
 <span class="mw-headline" id="Refer√™ncias">Refer√™ncias</span>]

In [17]:
for item in soup.select(".mw-headline"):
    print(item.text)

Biografia
Inf√¢ncia e Educa√ß√£o
Carreira
Segunda Guerra Mundial
UNIVAC
COBOL
Padr√µes
Aposentadoria
Ver tamb√©m
Refer√™ncias


### Exemplo Tarefa 2 -Pegando imagem de um Website

Vamos tentar pegar a imagem do computador Deep Blue deste artigo da Wikip√©dia: [https://pt.wikipedia.org/wiki/Deep_Blue](https://pt.wikipedia.org/wiki/Deep_Blue) üåêüñºÔ∏è

In [18]:
res = requests.get("https://pt.wikipedia.org/wiki/Deep_Blue")

In [19]:
soup = bs4.BeautifulSoup(res.text,'lxml')

In [20]:
image_info = soup.select('.mw-file-element')

In [21]:
image_info

[<img class="mw-file-element" data-file-height="200" data-file-width="260" decoding="async" height="15" src="//upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Disambig_grey.svg/20px-Disambig_grey.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Disambig_grey.svg/30px-Disambig_grey.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Disambig_grey.svg/40px-Disambig_grey.svg.png 2x" width="20"/>,
 <img class="mw-file-element" data-file-height="601" data-file-width="400" decoding="async" height="301" src="//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/200px-Deep_Blue.jpg" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/300px-Deep_Blue.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/b/be/Deep_Blue.jpg 2x" width="200"/>,
 <img alt="√çcone de esbo√ßo" class="mw-file-element" data-file-height="32" data-file-width="32" decoding="async" height="30" src="//upload.wikimedia.org/wikipedia/commons/thumb/c/c1/Farm-Fre

In [22]:
len(image_info)

7

In [23]:
computer = image_info[1]

In [24]:
type(computer)

bs4.element.Tag

Voc√™ pode fazer chamadas semelhantes a dicion√°rio para partes da Tag. Neste caso, estamos interessados no **src**, ou "fonte" da imagem, que deve ser seu pr√≥prio link .jpg ou .png. üñºÔ∏èüîó

In [25]:
computer['src']

'//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/200px-Deep_Blue.jpg'

Podemos exib√≠-lo com uma c√©lula markdown com o seguinte c√≥digo:

    <img src='//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/200px-Deep_Blue.jpg'
>

<img src='//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/200px-Deep_Blue.jpg'>

Agora que voc√™ tem o link src real, voc√™ pode obter a imagem com o `requests` e acessar o atributo `.content`. Observe como tivemos que adicionar "https://" antes do link; se voc√™ n√£o fizer isso, o `requests` emitir√° um erro (mas ele fornece um c√≥digo de erro bastante descritivo). üì∑üåêüêç

In [26]:
image_link = requests.get('https://upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/220px-Deep_Blue.jpg')

In [27]:
# O conte√∫do bruto (√© um arquivo bin√°rio, o que significa que precisaremos usar m√©todos de leitura/escrita bin√°rios para salv√°-lo)
image_link.content

b'\xff\xd8\xff\xe1\x00\x80Exif\x00\x00MM\x00*\x00\x00\x00\x08\x00\x05\x01\x1a\x00\x05\x00\x00\x00\x01\x00\x00\x00J\x01\x1b\x00\x05\x00\x00\x00\x01\x00\x00\x00R\x01(\x00\x03\x00\x00\x00\x01\x00\x02\x00\x00\x01;\x00\x02\x00\x00\x00\x1e\x00\x00\x00Z\x02\x13\x00\x03\x00\x00\x00\x01\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00H\x00\x00\x00\x01\x00\x00\x00H\x00\x00\x00\x01Jim Gardner - thejimmyjob.com\x00\xff\xe2\x02@ICC_PROFILE\x00\x01\x01\x00\x00\x020ADBE\x02\x10\x00\x00mntrRGB XYZ \x07\xcf\x00\x06\x00\x03\x00\x00\x00\x00\x00\x00acspAPPL\x00\x00\x00\x00none\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\xf6\xd6\x00\x01\x00\x00\x00\x00\xd3-ADBE\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\ncprt\x00\x00\x00\xfc\x00\x00\x002desc\x00\x00\x010\x00\x00\x00kwtpt\x00\x00\x01\x9c\x00\x00\x00\x14bkpt\x00\x00\x01\xb0\x00\x00\x00\x14rTRC

**Vamos escrever isso em um arquivo, n√£o se esque√ßa da chamada 'wb' para denotar uma grava√ß√£o bin√°ria do arquivo.**

In [28]:
f = open('minha_foto_ibm.jpg','wb')

In [29]:
f.write(image_link.content)

18448

In [30]:
f.close()

Agora voc√™ pode exibir este arquivo aqui mesmo no notebook como markdown usando:

```markdown
<img src="minha_foto_ibm.jpg.jpg">
```

Basta escrever a linha acima em uma nova c√©lula de markdown e ela exibir√° a imagem que acabamos de baixar! üñºÔ∏èüìÑ

<img src="'minha_foto_ibm.jpg'>

**Excelente! Agora voc√™ deve ter as ferramentas necess√°rias para fazer a raspagem de qualquer site que lhe interesse! Lembre-se de que, quanto mais complexo for o site, mais dif√≠cil ser√° rasp√°-lo. Sempre pe√ßa permiss√£o!** üëçüåêüïµÔ∏è‚Äç‚ôÇÔ∏è