# Aula 08 - Web Scraping

# <font color="blue"> MBA em Ciência de Dados</font>
# <font color="blue">Técnicas Avançadas para Captura e Tratamento de Dados</font>

## <font color="blue"> Web Scraping </font>

**Material Produzido por Luis Gustavo Nonato**<br>
**Cemeai - ICMC/USP São Carlos**

---

### Conteúdo
- APIs
    - JSON
    - HTML
- Request
- Parsing HTML
    - BeautifulSoup

## <font color='blue'>API (Application Programming Interface)</font>

Uma **API** (Application Programming Interface) é uma maneira organizada de fazer diferentes programas se comunicarem.
Um tipo particular de API são os **REST APIs** (Representational State Transfer), que definem um conjunto de regras que devem ser respeitadas na construção de um serviço Web.

As REST APIs possuem um conjunto de métodos de comunicação, por exemplo GET, PUT, PATCH, DELETE, dentre outros. O método GET, por exemplo, é utilizado para extrair informações de uma página Web, enquanto o método PUT é empregado para enviar informações para a página.

Quando acessamos uma página Web utilizando um navegado, que chamaremos de _browser_, uma comunicação é estabelecida com a API do serviço Web de onde a página está armazenada. A API envia informações para o browser, que interpreta e processa tais informações a fim de apresentá-las na janela principal do browser. Ou seja, toda vez que navegamos na Web estamos nos comunicando com as APIs dos servidores onde o conteúdo que estamos buscando está armazendo.

$$
\fbox{Browser}
\begin{matrix}
\xleftarrow[\text{API}]{} 
\xrightarrow{\text{API}}\\ 
\end{matrix}
\fbox{Conteúdo}
$$

A comunicação com APIs de serviços Web pode também ser feita sem o uso de um browser, necessitando para isso ferramentas capazes de realizar requisições a um serviço Web.

O Python possui alguns pacotes, como o <font color='blue'>request</font>, que implementam métodos de comunicação seguindo o protocolo **REST**.

Antes de estudarmos os protocólos de comunicação, vamos entender formatos básicos de conteúdo disponibilizados em páginas Web, como HTML e JSON.  

### HTML
HTML é a linguagem básica empregada na construção de páginas Web. 
A idéia do HTML é marcar o conteúdo que será apresentado na página para que cada parte do conteúdo tenha "propriedades" específicas e siga uma estrutura bem definida. O browser interpreta as marcações e apresenta o conteúdo seguindo as marcações.

Por exemplo, o código HTML abaixo

```html
<!DOCTYPE html>
<html>
    <body>

        <h1 class="titulo" id=>Título aqui</h1>
        
        <p class="paragrafo1">Isso é um parágrafo</p>
        <p class="paragrafo2">Isso é outro parágrafo</p>
        
        
        <!-- Aqui em baixo temos uma lista (e isso é um comentário) -->
        <ul>
            <li>Elemento 1</li>
            <li>Elemento 2</li>
            <li>Elemento 3</li>
        </ul>
            
        
        <a href="https://icmc.usp.br">Link</a>

    </body>
</html>
```
resulta na seguinte visualização:

---
## Título aqui
Isso é um parágrafo

Isso é outro parágrafo

    - Elemento 1
    - Elemento 2
    - Elemento 3

[Link](https://icmc.usp.br)

---
Cada trecho do código é marcado para que seja interpretado e renderizado pelo browser quando a página é acessada. Em outras palavras, quando acessamos uma página Web, o browser realiza um "GET" no servidor, o qual retorna o arquivo HTML que é então renderizado pelo browser no seu dispositivo.  

O importante no nosso contexto é entender que todas as partes do HTLM são marcadas por rótulos que indicam o início e fim de alguma informação. 

### JSON
JSON (JavaScript Object Notation) é um formato muito empregado para estruturar e descrever conteúdos. 
Muitas Web APIs retornam conteúdos no formato JSON. 

De forma simplificada, um arquivo no formato JSON estrutura a informação como um dicionário, cujos valores pondem ser `string`, `int`, `float`, `boolean`, uma lista ou outro dicionário. Por exemplo:
```JSON
{
  'Name': 'Gustavo',
  'login': 4,
  'GroupLeader': true,
  'GroupMember': [112, 37],
  'GroupProperty': [
    {
      'Name': 'DATA',
      'Type': 'Data Science'
    }
  ]
}
```

Python consegue interpretar um arquivo JSON convertendo-o para um dicionário.

##  <font color='blue'>Request</font>
Quando utilizamos um browser para acessar uma página Web, o browser se encarrega da comunição com a API. Porém, a comunicação com uma  página Web também pode ser feita utilizando um pacote dedicado a esta tarefa. Existem alguns pacotes disponíveis no Python para este fim, sendo o <font color='blue'>requests</font> um dos mais utilizados.

O pacote <font color='blue'>requests</font> permite enviar requisições HTTP/1.1 a um serviço Web.<br> 
Detalhes sobre requisições HTTP/1.1 podem ser encontradas [aqui](https://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html) e [aqui](https://requests.readthedocs.io/en/master/)

Especificamente, o pacote <font color='blue'>requests</font> disponibiliza um conjunto de métodos para enviar requisições, como por exemplo: 

- <font color='blue'>get</font>
- <font color='blue'>post</font>
- <font color='blue'>put</font>
- <font color='blue'>head</font>


<font color='blue'>get</font>:
- recupera informação disponível na página endereçada. O conteúdo pode ser:
    - HTML
    - JSON
    - dados "crus"
    - ...

<font color='blue'>post</font>:
- envia uma menssagem a uma página para que seja publicada, addicionando a mensagem enviada ao conteúdo já existente na página.

<font color='blue'>put</font>:
- envia um conteúdo a um serviço Web para que seja armazenado
- a diferença fundamental entre <font color='blue'>post</font> e <font color='blue'>put</font> é que este último substitui um conteúdo existente pelo novo que está sendo enviado, enquanto que o  <font color='blue'>post</font> addiciona o conteúdo enviado ao já existente.

<font color='blue'>head</font>
- utilizado para obter informação sobre o conteúdo de uma página, sem que o conteúdo seja transferido.

In [1]:
import requests as rq

In [2]:
# utilizando 'head' para obter informações sobre a página
h = rq.head('https://pt.wikipedia.org/wiki/COVID-19')
print(h.headers)

{'date': 'Sat, 03 Jun 2023 06:57:16 GMT', 'server': 'mw1496.eqiad.wmnet', 'x-content-type-options': 'nosniff', 'content-language': 'pt', 'vary': 'Accept-Encoding,Cookie,Authorization', 'last-modified': 'Sat, 27 May 2023 03:27:22 GMT', 'content-type': 'text/html; charset=UTF-8', 'content-encoding': 'gzip', 'age': '53217', 'x-cache': 'cp1081 hit, cp1085 hit/10', 'x-cache-status': 'hit-front', 'server-timing': 'cache;desc="hit-front", host;desc="cp1085"', 'strict-transport-security': 'max-age=106384710; includeSubDomains; preload', 'report-to': '{ "group": "wm_nel", "max_age": 604800, "endpoints": [{ "url": "https://intake-logging.wikimedia.org/v1/events?stream=w3c.reportingapi.network_error&schema_uri=/w3c/reportingapi/network_error/1.0.0" }] }', 'nel': '{ "report_to": "wm_nel", "max_age": 604800, "failure_fraction": 0.05, "success_fraction": 0.0}', 'set-cookie': 'WMF-Last-Access=03-Jun-2023;Path=/;HttpOnly;secure;Expires=Wed, 05 Jul 2023 12:00:00 GMT, WMF-Last-Access-Global=03-Jun-2023;

O atributo <font color='blue'>headers</font> do objeto retornado pelo <font color='blue'>rq.head</font> é um dicionário. As chaves do dicionário são rótulos que identificam informações da página. Por exemplo: 'Date' (data de criação da página), 'Content-Type' (tipo de conteúdo retornado pela página, como HTML, JSON, etc.) e 'Content-language' (língua do conteúdo da página).

In [3]:
# note que o conteúdo do atributo 'headers' é um dicionário, assim,
# podemos acessar o conteúdo associado a cada uma das chaves.
print('O tipo de conteúdo da página é: ',h.headers['Content-Type'])
print('Página atualizada em:',h.headers['Last-Modified'])

O tipo de conteúdo da página é:  text/html; charset=UTF-8
Página atualizada em: Sat, 27 May 2023 03:27:22 GMT


O exemplo abaixo utiliza o método <font color='blue'>get</font> para obter o conteúdo de uma página. O método <font color='blue'>get</font> retorna um objeto que possui diversos atributos. Dois atributos de particular importância são:

- _status\_code_: contém um código que indica se a requisição foi bem sucedida ou não
- _text_: string contendo o conteúdo da página. A string pode ser um conteúdo HTML, JSON, dentre outros.

Vejamos abaixo exemplos do uso do <font color='blue'>requests</font>.

In [4]:
# utilizando o 'get' para pegar o conteúdo da página
c = rq.get('https://pt.wikipedia.org/wiki/COVID-19')

In [5]:
# o método 'get' retorna um objeto que contém muitas informações sobre 
# o processo de requisição e o conteúdo retornado

# status permite saber se a requisição foi bem sucedida
# o código 200 indica que a requisição foi bem sucedida
# o código 404 indica que a requisição falhou
# outros códigos são utilizados para outros fins
if c.status_code == 200:
    print(c.status_code,' Success!')
elif c.status_code == 404:
    print(c.status_code,' Not Found')

200  Success!


In [6]:
# para acessar o conteúdo como uma string utiliza-se o atributo 'text'
print(type(c.text))  # o tipo da variável é 'string'
print(c.text)        # conteúdo da página. É evidente a estrutura de HTML

<class 'str'>
<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-enabled vector-feature-main-menu-pinned-disabled vector-feature-limited-width-enabled vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled" lang="pt" dir="ltr">
<head>
<meta charset="UTF-8">
<title>COVID-19 – Wikipédia, a enciclopédia livre</title>
<script>document.documentElement.className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-enabled vector-feature-main-menu-pinned-disabled vector-feature-limited-width-enabled vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled";(function(){var cookie=document.cookie.mat

In [7]:
# fazendo um request no repositório do github

# utilizaremos o head para descobrirmos o tipo de conteúdo retornado pelo API do github
hgit = rq.head('https://api.github.com/search/repositories')

# O conteúdo retornado pelo API do servidor github é do tipo JSON
print('Tipo do conteudo: ',hgit.headers['content-type'])

Tipo do conteudo:  application/json; charset=utf-8


In [8]:
# Obtendo o conteúdo 
cgit = rq.get('https://api.github.com/search/repositories')

print('Status do request: ',cgit.status_code)
# o codigo 422 significa que a requisição não foi feita corretamente
# o problema é que a API do github espera que uma busca por informacoes
# específicas seja feita

Status do request:  422


In [9]:
# para realizar um request corretamente no github, precisamos enviar 
# parâmtros indiciando o que gostariamos de buscar

# o parâmetro {'q': 'language:python'} corresponde a um dicionário
# 'q' significa que estamos fazendo uma 'query'
# 'language:python' significa que estamos buscando páginas
# com conteúdo na linguagem python
cgit = rq.get('https://api.github.com/search/repositories',
                params={'q': 'requests+language:python'})

print('Status do request: ',cgit.status_code) # busca bem sucedida

Status do request:  200


In [10]:
# sabemos que o conteúdo retornado pela API do github são arquivos JSON

print(cgit.text)

{"total_count":20722,"incomplete_results":false,"items":[{"id":4290214,"node_id":"MDEwOlJlcG9zaXRvcnk0MjkwMjE0","name":"grequests","full_name":"spyoungtech/grequests","private":false,"owner":{"login":"spyoungtech","id":15212758,"node_id":"MDQ6VXNlcjE1MjEyNzU4","avatar_url":"https://avatars.githubusercontent.com/u/15212758?v=4","gravatar_id":"","url":"https://api.github.com/users/spyoungtech","html_url":"https://github.com/spyoungtech","followers_url":"https://api.github.com/users/spyoungtech/followers","following_url":"https://api.github.com/users/spyoungtech/following{/other_user}","gists_url":"https://api.github.com/users/spyoungtech/gists{/gist_id}","starred_url":"https://api.github.com/users/spyoungtech/starred{/owner}{/repo}","subscriptions_url":"https://api.github.com/users/spyoungtech/subscriptions","organizations_url":"https://api.github.com/users/spyoungtech/orgs","repos_url":"https://api.github.com/users/spyoungtech/repos","events_url":"https://api.github.com/users/spyoungtec

In [11]:
# request possui um método para transformar o 
# conteúdo textual (a string armazenda no atributo 'text') em um dicionário

dic_git = cgit.json()  # transforma o contúdo armazenado em cgit.text em um dicionário
print(dic_git.keys())  # note que o dicionário possui 3 chaves

# o valor da chave 'total_count' diz quantas páginas no github armazenam 
# conteúdo relacionado à linguagem Python
print('Numero de páginas com conteúdo relacionado com python',dic_git['total_count'])

dict_keys(['total_count', 'incomplete_results', 'items'])
Numero de páginas com conteúdo relacionado com python 20722


In [12]:
print(type(dic_git['items'])) # é uma lista

print(type(dic_git['items'][0])) # os elementos da lista são dicionários

print(dic_git['items'][0].keys()) # note que o dicionário correspondente ao primeiro elemento
                                  # da lista contém informações sobre um repositorio especifico


<class 'list'>
<class 'dict'>
dict_keys(['id', 'node_id', 'name', 'full_name', 'private', 'owner', 'html_url', 'description', 'fork', 'url', 'forks_url', 'keys_url', 'collaborators_url', 'teams_url', 'hooks_url', 'issue_events_url', 'events_url', 'assignees_url', 'branches_url', 'tags_url', 'blobs_url', 'git_tags_url', 'git_refs_url', 'trees_url', 'statuses_url', 'languages_url', 'stargazers_url', 'contributors_url', 'subscribers_url', 'subscription_url', 'commits_url', 'git_commits_url', 'comments_url', 'issue_comment_url', 'contents_url', 'compare_url', 'merges_url', 'archive_url', 'downloads_url', 'issues_url', 'pulls_url', 'milestones_url', 'notifications_url', 'labels_url', 'releases_url', 'deployments_url', 'created_at', 'updated_at', 'pushed_at', 'git_url', 'ssh_url', 'clone_url', 'svn_url', 'homepage', 'size', 'stargazers_count', 'watchers_count', 'language', 'has_issues', 'has_projects', 'has_downloads', 'has_wiki', 'has_pages', 'has_discussions', 'forks_count', 'mirror_url', 

In [13]:
# obtendo informações do repositório correspondente a primeira entrada da lista    
pag0 = dic_git['items'][0]

print(pag0['full_name'])
print(pag0['html_url'])
print(pag0['private'])

spyoungtech/grequests
https://github.com/spyoungtech/grequests
False


## <font color='blue'>Parsing HTML</font>
Enquanto extrair informações de um arquivo JSON torna-se bastante fácil após a conversão para um dicionário do Python, o mesmo não é verdade para arquivos HTML, que precisam ser interpretados por um _parser_ a fim de que informações possam ser extraídas de forma limpa e organizada.

O _parsing_ de uma página HTML consiste em separar os componentes da página de acordo com as marcações empregadas pelo HTML, facilitando a extração do conteúdo compreendido entre marcações. O pacote Python mais utilizado para realizar o _parsing_ de arquivos HTML é o <font color='blue'>BeautifulSoup</font>.

### BeautifulSoup
O pacote <font color='blue'>BeautifulSoup</font> possui um conjunto de métodos para encontrar conteúdo com base nas marcações de documentos HTML. Por exemplo:

- <font color='blue'>find</font>: encontra a primeira ocorrência de uma dada marcação
- <font color='blue'>find_all</font>: encontra todas as ocorrências de uma dada marcação

Existem ainda mecanismos para buscar por atributos específicos no documento HTML. Os exemplos a seguir ilustram algumas das funcionalidades do <font color='blue'>BeautifulSoup</font>. Mais detalhes podem ser encontrados [aqui](http://www.compjour.org/warmups/govt-text-releases/intro-to-bs4-lxml-parsing-wh-press-briefings/)

Uma questão importante é como saber que marcações procurar. Infelizmente, não existe uma solução geral para esta questão. Uma alternativa, quando a especificação HTML de uma página não é conhecida, é acessar a página de interesse com um browser e visualizar o código "fonte" da página, o que possibilita identificar marcadores e atributos.

Vejamos utilizar como exemplo a página de eventos do ICMC 

[https://icmc.usp.br/eventos](https://icmc.usp.br/eventos)


In [14]:
import requests
from bs4 import BeautifulSoup

In [15]:
# Acessando a página de eventos  
eventos = requests.get("https://icmc.usp.br/eventos")
print(eventos.text)

<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pt-br" lang="pt-br" >
    <head>
        <meta charset="utf-8">
        <meta http-equiv="X-UA-Compatible" content="IE=edge">
   
        <!-- no cache -->
        <meta http-equiv="cache-control" content="max-age=0" />
        <meta http-equiv="cache-control" content="no-cache" />
        <meta http-equiv="expires" content="0" />
        <meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
        <meta http-equiv="pragma" content="no-cache" />
  
        <meta name="viewport" content="width=device-width, initial-scale=1">
        <meta name="description" content="ICMC - Instituto de Ciências Matemáticas e de Computação. Ensino, Graduação, Pós-Graduação, Pesquisa, Cultura e Extensão. Eventos">
        <meta name="author" content="Instituto de Ciências Matemáticas e de Computação">
        <meta property="og:image" content="http://www.icmc.usp.br/imprensa/_thumb1/icone-noticia.jpg" />        <link rel=

In [16]:

soup = BeautifulSoup(eventos.text, 'html.parser') # converte a string retornada para um formato HTML

Inspecionando manualmente o fonte da página de eventos do ICMC, identificamos que cada evento está entre marcadores 'h4'. Utiliando o método <font color='blue'>find_all</font> com o marcador 'h4', recuperamos a descrição do evento.

In [17]:
h4=soup.find_all('h4')

for h in h4:
    print(h)
    print(5*'--')

<h4>
                        Veja também                        <div class="icon-veja-tambem pull-right">
<input id="icone-do-menu-lateral" type="hidden" value="0"/>
<span class="caret"></span>
</div>
</h4>
----------
<h4>SEMCOMP Beta</h4>
----------
<h4>Programa Reitoria no Campus de São Carlos</h4>
----------
<h4>Apresentação - Quarteto Brasileiro de Cordas</h4>
----------
<h4>Olimpíada Brasileira de Robótica 2023</h4>
----------
<h4>Prêmio Gutierrez</h4>
----------
<h4>Workshop de Topologia Algébrica e Aplicações</h4>
----------
<h4>Sobre álgebra homológica: dimensão projetiva, Ext e Tor.</h4>
----------
<h4>Prática Docente no contexto da Educação Especial e Inclusiva</h4>
----------
<h4>Práticas com Smartphones - Módulo Avançado</h4>
----------
<h4>Introdução ao Uso de Ferramentas de Inteligência Artificial para Automatização de Tarefas em Microbiologia</h4>
----------
<h4>Meninas Programadoras Python: Introdução à Programação</h4>
----------
<h4>Latin-American Symposium on Dependa

Na verdade, os marcadores 'h4' que de fato interessam, ou seja, aqueles marcando os eventos que ocorrem no ICMC, estão dentro do marcador ``div class="noticia-home-titulo"``. Desta forma, podemos buscar por marcadores 'h4' que estão dentro deste outro marcador.

In [18]:
for evento in soup('div', {'class': 'noticia-home-titulo'}):
    titulo = evento.find('h4').text
    data = evento.find('p').text
    print(f'{titulo} ==> {data}')
    print(5*'--')

SEMCOMP Beta ==> De 02/06/2023 à 04/06/2023
----------
Programa Reitoria no Campus de São Carlos ==> 05/06/2023
----------
Apresentação - Quarteto Brasileiro de Cordas ==> 05/06/2023
----------
Olimpíada Brasileira de Robótica 2023 ==> De 24/06/2023 à 25/06/2023
----------
Prêmio Gutierrez ==> 25/09/2023
----------
Workshop de Topologia Algébrica e Aplicações ==> De 08/11/2023 à 10/11/2023
----------
Sobre álgebra homológica: dimensão projetiva, Ext e Tor. ==> 05/06/2023
----------
Prática Docente no contexto da Educação Especial e Inclusiva ==> 13/06/2023
----------
Práticas com Smartphones - Módulo Avançado ==> De 15/03/2023 à 28/06/2023
----------
Introdução ao Uso de Ferramentas de Inteligência Artificial para Automatização de Tarefas em Microbiologia ==> De 06/05/2023 à 10/06/2023
----------
Meninas Programadoras Python: Introdução à Programação ==> De 29/07/2023 à 21/10/2023
----------
Latin-American Symposium on Dependable and Secure Computing ==> De 02/05/2023 à 20/10/2023
----

Podemos ainda recuperar outras informações contidas em outros marcadores. Veja exemplos abaixo.

In [19]:
for evento in soup('div', {'class': "col-xs-12 col-sm-6 col-lg-3 quadro"}):
    titulo = evento.find('h4').text
    data = evento.find('p').text
    url = evento.find('a').get('href')
    img = evento.find('img').get('src')
    print(img)
    print(url)
    print(f'{titulo} ==> {data}')
    print(5*'--')

/imprensa/_thumb1/icone-banca.jpg
/eventos/6119-semcomp-beta-3
SEMCOMP Beta ==> De 02/06/2023 à 04/06/2023
----------
/imprensa/6081/_thumb1/reitoria-no-campus.jpg
/eventos/6081-programa-reitoria-no-campus-de-sao-carlos
Programa Reitoria no Campus de São Carlos ==> 05/06/2023
----------
/imprensa/6159/_thumb1/quarteto-brasileiro-de-cordas-destaque.jpg
/eventos/6159-apresentacao-quarteto-brasileiro-de-cordas
Apresentação - Quarteto Brasileiro de Cordas ==> 05/06/2023
----------
/imprensa/_thumb1/icone-banca.jpg
/eventos/6139-olimpiada-brasileira-de-robotica-2023
Olimpíada Brasileira de Robótica 2023 ==> De 24/06/2023 à 25/06/2023
----------
/imprensa/_thumb1/icone-banca.jpg
/eventos/6118-premio-gutierrez
Prêmio Gutierrez ==> 25/09/2023
----------
/imprensa/_thumb1/icone-banca.jpg
/eventos/6135-workshop-de-topologia-algebrica-e-aplicacoes
Workshop de Topologia Algébrica e Aplicações ==> De 08/11/2023 à 10/11/2023
----------
/imprensa/_thumb1/icone-banca.jpg
/eventos/6152-sobre-algebra-ho