# <span style="color:blue"> MBA em Ciência de Dados</span>
# <span style="color:blue">Técnicas Avançadas para Captura e Tratamento de Dados</span>

## <span style="color:blue"> Web Scraping </span>

**Material Produzido por Luis Gustavo Nonato**<br>
**Cemeai - ICMC/USP São Carlos**

---

### Conteúdo
- APIs
    - JSON
    - HTML
- Request
- Parsing HTML
    - BeautifulSoup

## <font color='blue'>API (Application Programming Interface)</font>

Uma **API** (Application Programming Interface) é uma maneira organizada de fazer com que diferentes programas se comunicarem.
Um tipo particular de API são os **REST APIs** (Representational State Transfer), que definem um conjunto de regras que devem ser respeitadas na construção de um serviço Web.

As REST APIs possuem um conjunto de métodos de comunicação, por exemplo GET, PUT, PATCH, DELETE, dentre outros. O método GET, por exemplo, é utilizado para extrai informações de uma página, enquanto o método PUT é empregado para enviar informações.

Quando acessamos uma página Web utilizando um navegado, que chamaremos de _browser_, uma comunicação é estabelecida com a API do serviço Web de onde a página está armazenada. A API envia informações para o browser, que interpreta e processa tais informações a fim de apresentá-las na janela principal do browser. Ou seja, toda vez que navegamos na Web estamos nos comunicando com as APIs dos servidores onde o conteúdo que estamos buscando está armazendo.

$$
\fbox{Browser}
\begin{matrix}
\xleftarrow[\text{API}]{} 
\xrightarrow{\text{API}}\\ 
\end{matrix}
\fbox{Conteúdo}
$$

A comunicação com APIs de serviços Web pode também ser feita sem o uso de um browser, necessitando para isso ferramentas capazes de realizar requisições a um serviço Wev.

O Python possui alguns pacotes, como o <font color='blue'>request</font>, que implementam métodos de comunicação seguindo o protocolo **REST**.

Antes de estudarmos os protocólos de comunicação, vamos entender conceitos formatos básicos de conteúdo disponibilizados em páginas Web, como HTML e JSON.  

### HTML
HTML é a linguagem básica empregada na construção de páginas Web. 
A idéia do HTML é marcar o conteúdo que será apresentado na página para que cada parte do conteúdo tenha "propriedades" específicas e siga uma estrutura bem definida. O browser interpreta as marcações e apresenta o conteúdo de acordo com as marcações.

Por exemplo, o código HTML abaixo

```html
<!DOCTYPE html>
<html>
    <body>

        <h1 class="titulo" id=>Título aqui</h1>
        
        <p class="paragrafo1">Isso é um parágrafo</p>
        <p class="paragrafo2">Isso é outro parágrafo</p>
        
        
        <!-- Aqui em baixo temos uma lista (e isso é um comentário) -->
        <ul>
            <li>Elemento 1</li>
            <li>Elemento 2</li>
            <li>Elemento 3</li>
        </ul>
            
        
        <a href="https://icmc.usp.br">Link</a>

    </body>
</html>
```
resulta na seguinte visualização:

---
## Título aqui
Isso é um parágrafo

Isso é outro parágrafo

    - Elemento 1
    - Elemento 2
    - Elemento 3

[Link](Link)

---
Cada trecho do código é marcado para que seja interpretado e renderizado pelo browser quando a página é acessada. Em outras palavras, quando realiza o acesso a uma página Web, o browser realiza um "GET" no servidor, o qual retorna o arquivo HTML que é então renderizado pelo browser no seu dispositivo.  

O importante no nosso contexto é entender que todas as partes do HTLM são marcadas por rótulos que indicam o início e fim de alguma informação. 

### JSON
JSON (JavaScript Object Notation) é um formato muito empregado para estruturar e descrever conteúdos. 
Muitas Web APIs retornam conteúdos no formato JSON. 

De forma simplificada, um arquivo no formato JSON estrutura a informação como um dicionário, cujos valores pondem ser `string`, `int`, `float`, `boolean`, uma lista ou outro dicionário. Por exemplo:
```JSON
{
  'Name': 'Gustavo',
  'login': 4,
  'GroupLeader': true,
  'GroupMember': [112, 37],
  'GroupProperty': [
    {
      'Name': 'DATA',
      'Type': 'Data Science'
    }
  ]
}
```

Python consegue interpretar um arquivo JSON convertendo-o para um dicionário.

##  <font color='blue'>Request</font>
Quando utilizamos um browser para acessar uma página Web, o browser se encarrega da comunição com a API. Porém, a comunicação com uma  página Web também pode ser feita utilizando um pacote dedicado a tal tarefa. Existem alguns pacotes disponíveis no Python para este fim, sendo o <font color='blue'>requests</font> um dos mais utilizados.

O pacote <font color='blue'>requests</font> permite enviar requisições HTTP/1.1 a um serviço Web.<br> 
Detalhes sobre requisições HTTP/1.1 podem ser encontradas [aqui](https://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html) e [aqui](https://requests.readthedocs.io/en/master/)

Especificamente, o pacote <font color='blue'>requests</font> disponibiliza um conjunto de métodos para enviar requisições, como por exemplo: 

- <font color='blue'>get</font>
- <font color='blue'>post</font>
- <font color='blue'>put</font>
- <font color='blue'>head</font>

<font color='blue'>get</font>:
- recupera informação disponível na página endereçada
    - pode ser um HTML
    - JSON
    - dados "crus"
    - ...

<font color='blue'>post</font>:
- envia uma menssagem a uma página para que seja publicado, addicionando a mensagem enviada ao conteúdo já existente na página

<font color='blue'>put</font>:
- envia um conteúdo a um serviço Web para que seja armazenado
- a diferença fundamental entre <font color='blue'>post</font> e <font color='blue'>put</font> é este último substitui um conteúdo existente pelo novo que está sendo enviado, enquanto que o  <font color='blue'>post</font> addiciona o conteúdo enviado ao já existente

<font color='blue'>head</font>
- utilizado para obter informação sobre o conteúdo de uma página, sem que o conteúdo seja transferido.

In [1]:
import requests as rq

In [3]:
# utilizando 'head' para obter informações sobre a página
h = rq.head('https://pt.wikipedia.org/wiki/COVID-19')
print(h.headers)

{'Date': 'Fri, 17 Apr 2020 14:09:22 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Server': 'mw1271.eqiad.wmnet', 'X-Content-Type-Options': 'nosniff', 'P3P': 'CP="See https://pt.wikipedia.org/wiki/Special:CentralAutoLogin/P3P for more info."', 'Content-language': 'pt', 'Vary': 'Accept-Encoding,Cookie,Authorization', 'Last-Modified': 'Fri, 17 Apr 2020 10:59:06 GMT', 'Content-Length': '464128', 'Age': '3633', 'X-Cache': 'cp1081 hit, cp1083 pass', 'X-Cache-Status': 'hit-local', 'Server-Timing': 'cache;desc="hit-local"', 'Strict-Transport-Security': 'max-age=106384710; includeSubDomains; preload', 'Set-Cookie': 'WMF-Last-Access=17-Apr-2020;Path=/;HttpOnly;secure;Expires=Tue, 19 May 2020 12:00:00 GMT, WMF-Last-Access-Global=17-Apr-2020;Path=/;Domain=.wikipedia.org;HttpOnly;secure;Expires=Tue, 19 May 2020 12:00:00 GMT, GeoIP=BR:SP:Sao_Jose_do_Rio_Preto:-20.77:-49.35:v4; Path=/; secure; Domain=.wikipedia.org', 'X-Client-IP': '177.45.103.254', 'Cache-Control': 'private, s-maxage=0, max-age

In [6]:
# note que o conteúdo do atributo 'headers' é um dicionário, assim,
# podemos acessar o conteúdo associado a cada uma das chaves.
print('O tipo de conteúdo da página é: ',h.headers['Content-Type'])
print('Página atualizada em:',h.headers['Last-Modified'])

O tipo de conteúdo da página é:  text/html; charset=UTF-8
Página atualizada em: Fri, 17 Apr 2020 10:59:06 GMT


In [None]:
# utilizando o 'get' para pegar o conteúdo da página
c = rq.get('https://pt.wikipedia.org/wiki/COVID-19')

In [10]:
# o método 'get' retorna um objeto que contém muitas informações sobre 
# o processo de requisição e o conteúdo retornado

# status permite saber se a requisição foi bem sucedida
# o código 200 indica que a requisição foi bem sucedida
# o código 404 indica que a requisição falhou
# outros códigos são utilizados para outros fins
if c.status_code == 200:
    print(c.status_code,' Success!')
elif c.status_code == 404:
    print(c.status_code,' Not Found')

200  Success!


In [14]:
# para acessar o conteúdo como uma string utiliza-se o atributo 'text'
print(type(c.text))  # o tipo da variável é 'string'
print(c.text)        # torna-se evidente a estrutura do HTML

<class 'str'>

<!DOCTYPE html>
<html class="client-nojs" lang="pt" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>COVID-19 – Wikipédia, a enciclopédia livre</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janeiro","fevereiro","março","abril","maio","junho","julho","agosto","setembro","outubro","novembro","dezembro"],"wgRequestId":"e28f1679-f734-4481-8754-6ffcd507bac6","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"COVID-19","wgTitle":"COVID-19","wgCurRevisionId":58051391,"wgRevisionId":58051391,"wgArticleId":6191332,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["!CS1 inglês-fontes em língua (en)","!CS1 manut: Língua não reconhecida","!Páginas com citações usando parâmetros sem suporte","!CS1 italia

In [18]:
# fazendo um request no github
hgit = rq.head('https://api.github.com/search/repositories')

# O conteúdo retornado pelo API do servidor github é do tipo JSON
print('Tipo do conteudo: ',hgit.headers['content-type'])

Tipo do conteudo:  application/json; charset=utf-8


In [23]:
# Obtendo o conteúdo 
cgit = rq.get('https://api.github.com/search/repositories')

print('Status do request: ',cgit.status_code)
# o codigo 422 significa que a requisição não foi feita corretamente
# o problema é que a API do github espera que uma busca por informacoes
# específicas seja feita

Status do request:  422


In [31]:
# para realizar um request corretamente no github, precisamos enviar 
# parâmtros indiciando o que gostariamos de buscar

# o parâmetro {'q': 'language:python'} corresponde a um dicionário
# 'q' significa que estamos fazendo uma 'query'
# 'language:python' significa que estamos buscando páginas
# com conteúdo na linguagem python
cgit = rq.get('https://api.github.com/search/repositories',
                params={'q': 'requests+language:python'})

print('Status do request: ',cgit.status_code) # busca bem sucedida

Status do request:  200


In [33]:
# sabemos que o conteúdo retornado pela API do github são arquivos JSON

print(cgit.text)

{"total_count":9882,"incomplete_results":false,"items":[{"id":4290214,"node_id":"MDEwOlJlcG9zaXRvcnk0MjkwMjE0","name":"grequests","full_name":"spyoungtech/grequests","private":false,"owner":{"login":"spyoungtech","id":15212758,"node_id":"MDQ6VXNlcjE1MjEyNzU4","avatar_url":"https://avatars2.githubusercontent.com/u/15212758?v=4","gravatar_id":"","url":"https://api.github.com/users/spyoungtech","html_url":"https://github.com/spyoungtech","followers_url":"https://api.github.com/users/spyoungtech/followers","following_url":"https://api.github.com/users/spyoungtech/following{/other_user}","gists_url":"https://api.github.com/users/spyoungtech/gists{/gist_id}","starred_url":"https://api.github.com/users/spyoungtech/starred{/owner}{/repo}","subscriptions_url":"https://api.github.com/users/spyoungtech/subscriptions","organizations_url":"https://api.github.com/users/spyoungtech/orgs","repos_url":"https://api.github.com/users/spyoungtech/repos","events_url":"https://api.github.com/users/spyoungtec

In [35]:
# request possui um método para transformar o conteúdo em um dicionário

dic_git = cgit.json()
print(dic_git.keys())

print('Numero de páginas com conteúdo relacionado com python',dic_git['total_count'])

dict_keys(['total_count', 'incomplete_results', 'items'])
Numero de páginas com conteúdo relacionado com python 9882


In [43]:
print(type(dic_git['items'])) # é uma lista

print(type(dic_git['items'][0])) # os elementos da lista são dicionários

print(dic_git['items'][0].keys()) # note que o dicionário corresponde
                                  # a um repositorio especifico


<class 'list'>
<class 'dict'>
dict_keys(['id', 'node_id', 'name', 'full_name', 'private', 'owner', 'html_url', 'description', 'fork', 'url', 'forks_url', 'keys_url', 'collaborators_url', 'teams_url', 'hooks_url', 'issue_events_url', 'events_url', 'assignees_url', 'branches_url', 'tags_url', 'blobs_url', 'git_tags_url', 'git_refs_url', 'trees_url', 'statuses_url', 'languages_url', 'stargazers_url', 'contributors_url', 'subscribers_url', 'subscription_url', 'commits_url', 'git_commits_url', 'comments_url', 'issue_comment_url', 'contents_url', 'compare_url', 'merges_url', 'archive_url', 'downloads_url', 'issues_url', 'pulls_url', 'milestones_url', 'notifications_url', 'labels_url', 'releases_url', 'deployments_url', 'created_at', 'updated_at', 'pushed_at', 'git_url', 'ssh_url', 'clone_url', 'svn_url', 'homepage', 'size', 'stargazers_count', 'watchers_count', 'language', 'has_issues', 'has_projects', 'has_downloads', 'has_wiki', 'has_pages', 'forks_count', 'mirror_url', 'archived', 'disabl

In [54]:
# obtendo informações da primeira pagina da lista    
pag0 = dic_git['items'][0]

print(pag0['full_name'])
print(pag0['html_url'])
print(pag0['private'])

spyoungtech/grequests
https://github.com/spyoungtech/grequests
False


## <font color='blue'>Parsing HTML</font>
Enquanto extrair informações de um arquivo JSON torna-se bastante fácil após a conversão para um dicionário do Python, o mesmo não é verdade para arquivos HTML, que precisam ser interpretados por um _parser_ a fim de que informações possam ser extraídas de forma limpa e organizada.

O _parsing_ de uma página HTML consiste em separar os componentes da página de acordo com as marcações empregadas pelo HTML, facilitando a extração do conteúdo compreendido entre marcações. O pacote Python mais utilizado para realizar o _parsing_ de arquivos HTML é o <font color='blue'>BeautifulSoup</font>.

### BeautifulSoup
O pacote <font color='blue'>BeautifulSoup</font> possui um conjunto de métodos para encontrar conteúdo com base nas marcações de documentos HTML. Por exemplo:

- <font color='blue'>find</font>: encontrar a primeira ocorrência de uma dada marcação
- <font color='blue'>find_all</font>: encontrar todas as ocorrências de uma dada marcação

Existem ainda mecanismos para buscar por atributos específicos no documento HTML. Os exemplos a seguir ilustram algumas das funcionalidades do <font color='blue'>BeautifulSoup</font>. Mais detalhes podem ser encontrados [aqui](http://www.compjour.org/warmups/govt-text-releases/intro-to-bs4-lxml-parsing-wh-press-briefings/)

Uma questão importante é como saber que marcações procurar. Infelizmente não existe um solução geral para esta questão. Uma alternativa, quando a especificação HTML de uma página não é conhecida, é acessar a página de interesse com um browser e visualizar a "fonte" da página, o que possibilita identificar marcadores e atributos.

Vejamos utilizar como exemplo a página de eventos do ICMC 

[https://icmc.usp.br/eventos](https://icmc.usp.br/eventos)


In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
# Acessando a página de eventos  
eventos = requests.get("https://icmc.usp.br/eventos")
print(eventos.text)

<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pt-br" lang="pt-br" >
    <head>
        <meta charset="utf-8">
        <meta http-equiv="X-UA-Compatible" content="IE=edge">
   
        <!-- no cache -->
        <meta http-equiv="cache-control" content="max-age=0" />
        <meta http-equiv="cache-control" content="no-cache" />
        <meta http-equiv="expires" content="0" />
        <meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
        <meta http-equiv="pragma" content="no-cache" />
  
        <meta name="viewport" content="width=device-width, initial-scale=1">
        <meta name="description" content="ICMC - Instituto de Ciências Matemáticas e de Computação. Ensino, Graduação, Pós-Graduação, Pesquisa, Cultura e Extensão. Eventos">
        <meta name="author" content="Instituto de Ciências Matemáticas e de Computação">
        <meta property="og:image" content="http://www.icmc.usp.br/imprensa/_thumb1/icone-noticia.jpg" />        <link rel=

In [72]:

soup = BeautifulSoup(eventos.text, 'html.parser')

Inspecionando os elementos do site conseguimos buscar conteúdos desejados

In [77]:
h4=soup.find_all('h4')

for h in h4:
    print(h)
    print(5*'--')

<h4>
                        Veja também                        <div class="icon-veja-tambem pull-right">
<input id="icone-do-menu-lateral" type="hidden" value="0"/>
<span class="caret"></span>
</div>
</h4>
----------
<h4>Apresentação da USP Filarmônica</h4>
----------
<h4>CIMPA School 2020 - Singularities and Applications</h4>
----------
<h4>16th International Workshop on Real and Complex Singularities</h4>
----------
<h4>Apresentação da USP Filarmônica</h4>
----------
<h4>Feira USP e as Profissões - Capital</h4>
----------
<h4>IV Semana da Engenharia de Computação</h4>
----------
<h4>Apresentação da USP Filarmônica</h4>
----------
<h4>Apresentação da USP Filarmônica</h4>
----------
<h4>Apresentação da USP Filarmônica</h4>
----------


In [108]:
for evento in soup('div', {'class': 'noticia-home-titulo'}):
    titulo = evento.find('h4').text
    data = evento.find('p').text
    print(f'{titulo} ==> {data}')
    print(5*'--')

Apresentação da USP Filarmônica ==> 17/06/2020
----------
CIMPA School 2020 - Singularities and Applications ==> De 13/07/2020 à 24/07/2020
----------
16th International Workshop on Real and Complex Singularities ==> De 26/07/2020 à 01/08/2020
----------
Apresentação da USP Filarmônica ==> 26/08/2020
----------
Feira USP e as Profissões - Capital ==> De 03/09/2020 à 05/09/2020
----------
IV Semana da Engenharia de Computação ==> De 28/09/2020 à 02/10/2020
----------
Apresentação da USP Filarmônica ==> 30/09/2020
----------
Apresentação da USP Filarmônica ==> 23/10/2020
----------
Apresentação da USP Filarmônica ==> 25/11/2020
----------


In [122]:
for evento in soup('div', {'class': "col-xs-12 col-sm-6 col-lg-3 quadro"}):
    titulo = evento.find('h4').text
    data = evento.find('p').text
    url = evento.find('a').get('href')
    img = evento.find('img').get('src')
    print(img)
    print(url)
    print(f'{titulo} ==> {data}')
    print(5*'--')

/imprensa/4861/_thumb1/usp-filarmonica.jpg
/eventos/4861-apresentacao-da-usp-filarmonica-4
Apresentação da USP Filarmônica ==> 17/06/2020
----------
/imprensa/4775/_thumb1/cimpa.png
https://cimpa.icmc.usp.br/
CIMPA School 2020 - Singularities and Applications ==> De 13/07/2020 à 24/07/2020
----------
/imprensa/4776/_thumb1/sing2020.png
http://www.worksing.icmc.usp.br/main_site/2020/
16th International Workshop on Real and Complex Singularities ==> De 26/07/2020 à 01/08/2020
----------
/imprensa/4862/_thumb1/usp-filarmonica.jpg
/eventos/4862-apresentacao-da-usp-filarmonica-5
Apresentação da USP Filarmônica ==> 26/08/2020
----------
/imprensa/4878/_thumb1/fepuspsp.jpg
https://prceu.usp.br/uspprofissoes/feiras-de-profissoes/
Feira USP e as Profissões - Capital ==> De 03/09/2020 à 05/09/2020
----------
/imprensa/4879/_thumb1/senc2020.jpg
https://senc.icmc.usp.br/
IV Semana da Engenharia de Computação ==> De 28/09/2020 à 02/10/2020
----------
/imprensa/4863/_thumb1/usp-filarmonica.jpg
/even