<span class="notebook-slide-start"/>

# Crawling

Este notebook apresenta os seguintes tópicos:

- [Crawling](#Crawling) - Crawling
- [Exercicio 5](#Exercicio-5) - Exercício 5


Nesta seção, faremos requisições da página inicial de um repositório no GitHub e tentaremos extrair informações dela.

Lembrar de iniciar o servidor de proxy:

```bash
python proxy.py
```

A página usada é a mesma que usamos para mostrar requisição com requests. Ou seja, podemos usar o mesmo código para fazer a requisição. <span class="notebook-slide-extra" data-count="1"/>

In [1]:
import requests
SITE = "http://localhost:5000/" # Se não usar o proxy, alterar para https://github.com/

response = requests.get(SITE + "gems-uff/sapos")
response.status_code

200

O conteúdo do HTML pode ser obtido pelo atributo `response.text`. <span class="notebook-slide-extra" data-count="1"/>

In [2]:
response.text[:100]

'\n\n\n\n\n\n<!DOCTYPE html>\n<html lang="en">\n  <head>\n    <meta charset="utf-8">\n  <link rel="dns-prefetch'

Para extrair informações do HTML, podemos usar a biblioteca `BeautifulSoup`. <span class="notebook-slide-extra" data-count="1"/>

In [3]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

Essa célula parseou HTML para o objeto `soup`, que nos permite invocar métodos para buscar elementos do DOM <span class="notebook-slide-scroll" data-position="-1"/>

Para descobrirmos o que buscar, podemos usar a função de "Inspecionar elemento" do navegador e observar `id`, `class` e elementos que queremos.

![Inspect do Navegador mostrando o elemento que queremos obter](images/inspectmarked.png)

Usando o elemento e a classe, podemos usar um seletor do BeautifulSoup para obter o número de estrelas. <span class="notebook-slide-extra" data-count="1"/>

In [4]:
soup.select("a.social-count")

[<a aria-label="6 users are watching this repository" class="social-count" href="/gems-uff/sapos/watchers">
       6
     </a>,
 <a aria-label="18 users starred this repository" class="social-count js-social-count" href="/gems-uff/sapos/stargazers">
       18
     </a>,
 <a aria-label="11 users forked this repository" class="social-count" href="/gems-uff/sapos/network/members">
       11
     </a>]

O seletor usado trouxe mais elementos do que gostaríamos. Precisamos filtrar ainda mais. Nesse caso, podemos filtrar pela classe `.js-social-count` ou pelo `href`. <span class="notebook-slide-scroll" data-position="-1"/>

Pela classe: <span class="notebook-slide-extra" data-count="2"/>

In [5]:
soup.select("a.social-count.js-social-count")

[<a aria-label="18 users starred this repository" class="social-count js-social-count" href="/gems-uff/sapos/stargazers">
       18
     </a>]

In [6]:
_[0].text.strip() + " estrelas"

'18 estrelas'

Pelo href terminado em `stargazers`: <span class="notebook-slide-extra" data-count="2"/>

In [7]:
soup.select('a.social-count[href$="stargazers"]')

[<a aria-label="18 users starred this repository" class="social-count js-social-count" href="/gems-uff/sapos/stargazers">
       18
     </a>]

In [8]:
_[0].text.strip() + " estrelas"

'18 estrelas'

Usando `href`, também podemos obter watchers e forks: <span class="notebook-slide-extra" data-count="2"/>

In [9]:
soup.select('a.social-count[href$="watchers"]')[0].text.strip() + " watchers"

'6 watchers'

In [10]:
soup.select('a.social-count[href$="members"]')[0].text.strip() + " forks"

'11 forks'

## Exercicio 5

Obtenha a lista de arquivos e diretórios da raiz do repositório com seus respectivos commits. <span class="notebook-slide-extra" data-count="1"/>

In [None]:
...

Continua: [6.API.v3.pdf](6.API.v3.pdf)