# Guia de Web Scraping

Muito bem! Vamos come√ßar a explorar o b√°sico da raspagem na web em Python. Antes de come√ßarmos, √© importante observar algumas regras importantes:

1. **Seja sempre respeitoso**: Tente obter permiss√£o para fazer a raspagem de dados. N√£o fa√ßa muitas solicita√ß√µes de raspagem a um site em um curto per√≠odo, pois seu endere√ßo IP pode ser bloqueado.
2. **Conscientize-se de que os sites mudam**: Os sites frequentemente sofrem altera√ß√µes, o que significa que seu c√≥digo pode funcionar um dia e ficar totalmente quebrado no dia seguinte.
3. **Cada projeto de raspagem √© √∫nico**: A maioria dos projetos de raspagem de dados interessantes √© personalizada, portanto, tente generalizar as habilidades aprendidas aqui.

Agora, vamos come√ßar com o b√°sico!

## Componentes B√°sicos de um Site

### HTML
HTML significa **Hypertext Markup Language** (Linguagem de Marca√ß√£o de Hipertexto), e todos os sites da Internet o utilizam para exibir informa√ß√µes. At√© mesmo o sistema Jupyter Notebook utiliza HTML para exibir informa√ß√µes em seu navegador. Se voc√™ clicar com o bot√£o direito em um site e selecionar "Exibir C√≥digo da P√°gina", poder√° ver o HTML bruto de uma p√°gina da web. √â esse c√≥digo que o Python vai analisar para obter informa√ß√µes. Vamos dar uma olhada no HTML de uma p√°gina da web simples:

```html
<!DOCTYPE html>  
<html>  
    <head>
        <title>T√≠tulo na Aba do Navegador</title>
    </head>
    <body>
        <h1> Cabe√ßalho do Site </h1>
        <p> Algum Par√°grafo </p>
    <body>
</html>
```

HTML √© a base de todas as p√°ginas da web e √© usado para estruturar o conte√∫do que √© exibido em um navegador. Cada elemento HTML √© marcado com tags, como `<head>`, `<title>`, `<body>`, `<h1>`, `<p>`, etc. Essas tags descrevem a estrutura da p√°gina, como o t√≠tulo, o cabe√ßalho e os par√°grafos.

Vamos explorar a estrutura de uma p√°gina da web e aprender como podemos usar o Python para raspar dados dela! üåêüï∏Ô∏èüêç

Vamos detalhar esses componentes.

Cada `<tag>` indica um tipo de bloco espec√≠fico na p√°gina da web:

1. `<DOCTYPE html>`: Documentos HTML sempre come√ßam com essa declara√ß√£o de tipo, informando ao navegador que se trata de um arquivo HTML.
2. Os blocos de componentes do documento HTML s√£o colocados entre `<html>` e `</html>`.
3. Metadados e conex√µes de script (como um link para um arquivo CSS ou um arquivo JS) s√£o frequentemente colocados no bloco `<head>`.
4. O bloco da tag `<title>` define o t√≠tulo da p√°gina da web (√© o que aparece na aba do site que voc√™ est√° visitando).
5. Entre as tags `<body>` e `</body>` est√£o os blocos que ser√£o vis√≠veis para o visitante do site.
6. Os cabe√ßalhos s√£o definidos pelas tags `<h1>` a `<h6>`, onde o n√∫mero representa o tamanho do cabe√ßalho.
7. Par√°grafos s√£o definidos pela tag `<p>`, que √© essencialmente apenas texto normal na p√°gina.

Existem muitas outras tags al√©m destas, como `<a>` para hiperlinks, `<table>` para tabelas, `<tr>` para linhas de tabela, `<td>` para colunas de tabela e muito mais! üåêüï∏Ô∏èüìë

### CSS

CSS significa Cascading Style Sheets, √© o que d√° "estilo" a um site, incluindo cores, fontes e at√© algumas anima√ß√µes! O CSS usa tags como **id** ou **class** para conectar um elemento HTML a um recurso CSS, como uma cor espec√≠fica. **id** √© um identificador √∫nico para uma tag HTML e deve ser exclusivo no documento HTML, ou seja, uma conex√£o de uso √∫nico. **class** define um estilo geral que pode ser vinculado a v√°rias tags HTML. Basicamente, se voc√™ deseja que apenas uma tag HTML seja vermelha, voc√™ usaria uma tag de id; se voc√™ quisesse que v√°rias tags/blocos HTML fossem vermelhos, criaria uma classe em seu documento CSS e a vincularia ao restante desses blocos. üé®üíªüéâ

### Scraping Guidelines

Lembre-se de que voc√™ sempre deve ter permiss√£o para o site que est√° raspando! Verifique os termos e condi√ß√µes de um site para obter mais informa√ß√µes. Al√©m disso, tenha em mente que um computador pode enviar solicita√ß√µes a um site muito rapidamente, e um site pode bloquear o endere√ßo IP do seu computador se voc√™ enviar muitas solicita√ß√µes muito rapidamente. Por fim, os sites mudam o tempo todo! Provavelmente, voc√™ precisar√° atualizar seu c√≥digo com frequ√™ncia para trabalhos de raspagem de longo prazo. üöÄüïµÔ∏è

## Web Scraping with Python
Utilize o **pip install** para instalar as bibliotecas de scrapping:

```shell
pip install requests
pip install lxml
pip install bs4
```

Agora vamos ver o que podemos fazer com essas bibliotecas. üìöüêçüîç



### 1. `requests`

A biblioteca `requests` √© usada para fazer requisi√ß√µes HTTP em Python. Ela permite que voc√™ envie requisi√ß√µes HTTP/1.1 com m√©todos como `GET` e `POST`, al√©m de gerenciar cookies, sess√µes e cabe√ßalhos HTTP de forma simples e eficiente.

### 2. `lxml`

A biblioteca `lxml` √© uma ferramenta poderosa para processar e manipular documentos XML e HTML. Ela oferece suporte a XPath e XSLT, permitindo a sele√ß√£o e transforma√ß√£o de dados de documentos de maneira eficiente.


### 3. `bs4` (Beautiful Soup)

A biblioteca `bs4`, conhecida como Beautiful Soup, √© usada para extrair dados de arquivos HTML e XML. Ela simplifica a navega√ß√£o, a busca e a modifica√ß√£o de elementos dentro do documento.


In [None]:
!pip install requests
!pip install lxml
!pip install bs4

### Example Task 0 - Pegar o t√≠tulo da p√°gina

Vamos come√ßar de forma bem simples: vamos pegar o t√≠tulo de uma p√°gina. Lembre-se de que este √© o bloco HTML com a tag **title**. Para esta tarefa, usaremos o site **www.example.com**, que √© um site feito especificamente como um dom√≠nio de exemplo. Vamos passar pelas etapas principais:

In [None]:
import requests

In [None]:
# Step 1: Use the requests library to grab the page
# Note, this may fail if you have a firewall blocking Python/Jupyter
# Note sometimes you need to run this twice if it fails the first time
res = requests.get("http://www.example.com")

This object is a requests.models.Response object and it actually contains the information from the website, for example:

In [None]:
type(res)

In [None]:
res.text

Agora, usamos o BeautifulSoup para analisar a p√°gina extra√≠da. Tecnicamente, poder√≠amos usar nosso pr√≥prio script personalizado para procurar itens na string de **res.text**, mas a biblioteca BeautifulSoup j√° possui muitas ferramentas e m√©todos integrados para extrair informa√ß√µes de uma string desse tipo (basicamente um arquivo HTML). Usando o BeautifulSoup, podemos criar um objeto "soup" que cont√©m todos os "ingredientes" da p√°gina da web.

In [None]:
import bs4

In [None]:
soup = bs4.BeautifulSoup(res.text,"lxml")

In [None]:
soup

Agora vamos usar o m√©todo .select() para pegar elementos. Estamos procurando a tag 'title', ent√£o passaremos 'title' como argumento. üëçüëá

In [None]:
soup.select('title')

Observe o que √© retornado aqui, na verdade √© uma lista contendo todos os elementos de t√≠tulo (junto com suas tags). Voc√™ pode usar a indexa√ß√£o ou at√© mesmo fazer um loop para pegar os elementos da lista. Como este objeto ainda √© uma tag especializada, podemos usar chamadas de m√©todo para pegar apenas o texto. üìÉüîç

In [None]:
title_tag = soup.select('title')

In [None]:
title_tag[0]

In [None]:
type(title_tag[0])

In [None]:
title_tag[0].getText()

### Exemplo Tarefa 1 - Obtendo todos os elementos de uma classe

Vamos tentar pegar todos os t√≠tulos de se√ß√£o do artigo da Wikipedia sobre Grace Hopper a partir deste URL: https://en.wikipedia.org/wiki/Grace_Hopper üìÉüîç

Para fazer isso, siga os passos semelhantes ao exemplo anterior. Comece fazendo uma solicita√ß√£o HTTP para o URL da Wikipedia, em seguida, analise o HTML resultante com o BeautifulSoup para que voc√™ possa encontrar e extrair os elementos desejados.

In [None]:
# Fa√ßa o request da p√°gina
res = requests.get('https://pt.wikipedia.org/wiki/Grace_Hopper')

In [None]:
# Criar soup a partir do request
soup = bs4.BeautifulSoup(res.text,"lxml")

Agora √© hora de descobrir o que estamos realmente procurando. Inspeccione o elemento na p√°gina para ver que os cabe√ßalhos de se√ß√£o t√™m a classe "mw-headline". Como esta √© uma classe e n√£o uma tag direta, precisamos aderir a alguma sintaxe para CSS. Neste caso, podemos usar `.mw-headline` para selecionar todos os elementos com essa classe. Vamos usar o m√©todo `.select()` do BeautifulSoup com essa classe para encontrar todos os t√≠tulos de se√ß√£o na p√°gina da Wikipedia sobre Grace Hopper. üìÉüîç

Aqui est√£o alguns exemplos da sintaxe que voc√™ pode passar para o m√©todo `.select()` do BeautifulSoup e os resultados correspondentes:

- `soup.select('div')`: Retorna todos os elementos com a tag `<div>`.

- `soup.select('#some_id')`: Retorna o elemento HTML que cont√©m o atributo `id` igual a `some_id`.

- `soup.select('.notice')`: Retorna todos os elementos HTML com a classe CSS chamada `notice`.

- `soup.select('div span')`: Retorna todos os elementos `<span>` que est√£o dentro de um elemento `<div>`.

- `soup.select('div > span')`: Retorna todos os elementos `<span>` que est√£o diretamente dentro de um elemento `<div>`, sem nenhum outro elemento entre eles.

Esses exemplos demonstram como voc√™ pode usar a sintaxe CSS para selecionar elementos espec√≠ficos de uma p√°gina da web usando o BeautifulSoup. üòäüìÉüïµÔ∏è‚Äç‚ôÇÔ∏è

In [None]:
soup

In [None]:
# Dependendo do seu endere√ßo IP, a classe utilizada no exemplo
# anterior pode ser chamada de forma diferente.
soup.select(".mw-headline")

In [None]:
for item in soup.select(".mw-headline"):
    print(item.text)

### Exemplo Tarefa 2 -Pegando imagem de um Website

Vamos tentar pegar a imagem do computador Deep Blue deste artigo da Wikip√©dia: [https://pt.wikipedia.org/wiki/Deep_Blue](https://pt.wikipedia.org/wiki/Deep_Blue) üåêüñºÔ∏è

In [None]:
res = requests.get("https://pt.wikipedia.org/wiki/Deep_Blue")

In [None]:
soup = bs4.BeautifulSoup(res.text,'lxml')

In [None]:
image_info = soup.select('.mw-file-element')

In [None]:
image_info

In [None]:
len(image_info)

In [None]:
computer = image_info[1]

In [None]:
type(computer)

Voc√™ pode fazer chamadas semelhantes a dicion√°rio para partes da Tag. Neste caso, estamos interessados no **src**, ou "fonte" da imagem, que deve ser seu pr√≥prio link .jpg ou .png. üñºÔ∏èüîó

In [None]:
computer['src']

Podemos exib√≠-lo com uma c√©lula markdown com o seguinte c√≥digo:

    <img src='//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/200px-Deep_Blue.jpg'
>

<img src='//upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/200px-Deep_Blue.jpg'>

<img src='//upload.wikimedia.org/wikipedia/commons/thumb/c/c1/Farm-Fresh_chess_horse.png/30px-Farm-Fresh_chess_horse.png'>


Agora que voc√™ tem o link src real, voc√™ pode obter a imagem com o `requests` e acessar o atributo `.content`. Observe como tivemos que adicionar "https://" antes do link; se voc√™ n√£o fizer isso, o `requests` emitir√° um erro (mas ele fornece um c√≥digo de erro bastante descritivo). üì∑üåêüêç

In [None]:
image_link = requests.get('https://upload.wikimedia.org/wikipedia/commons/thumb/b/be/Deep_Blue.jpg/220px-Deep_Blue.jpg')

In [None]:
# O conte√∫do bruto (√© um arquivo bin√°rio, o que significa que precisaremos usar m√©todos de leitura/escrita bin√°rios para salv√°-lo)
image_link.content

**Vamos escrever isso em um arquivo, n√£o se esque√ßa da chamada 'wb' para denotar uma grava√ß√£o bin√°ria do arquivo.**

In [None]:
f = open('minha_foto_ibm.jpg','wb')

In [None]:
f.write(image_link.content)

In [None]:
f.close()

Agora voc√™ pode exibir este arquivo aqui mesmo no notebook como markdown usando:

```markdown
<img src="minha_foto_ibm.jpg.jpg">
```

Basta escrever a linha acima em uma nova c√©lula de markdown e ela exibir√° a imagem que acabamos de baixar! üñºÔ∏èüìÑ

<img src="'minha_foto_ibm.jpg'>

**Excelente! Agora voc√™ deve ter as ferramentas necess√°rias para fazer a raspagem de qualquer site que lhe interesse! Lembre-se de que, quanto mais complexo for o site, mais dif√≠cil ser√° rasp√°-lo. Sempre pe√ßa permiss√£o!** üëçüåêüïµÔ∏è‚Äç‚ôÇÔ∏è