# Semana 7 e 8 - Python

Web Scraping com Python e BeautifulSoup

***

## O que é Web Scraping?

> “Scraping, to state this quite formally, is a prominent technique for the automated collection of online data. (...) Scrapers, to say it more informally, are bits of software code that makes it possible to automatically download data from the Web, and to capture some of the large quantities of data about social life that are available on online platforms like Google, Twitter and Wikipedia.” (Marres & Weltevrede, 2013, p. 313)

A raspagem de dados na Web é uma técnica de coleta de informação estruturada. 

>[três fases] 1) website analysis, 2) website crawling, and 3) data organization. Each phase requires one to understand several Web technologies and at least one popular programming language, such as R or Python. (Krotov et al., 2020, p. 540)

Entretanto, não deve ser entendida apenas como uma técnica, mas também como uma maneira particular de lidar com informação e conhecimento: “também é uma prática de análise” (Marres & Weltevrede, 2013, p. 317). 

## Quando usar:

* Quando precisamos coletar um volume grande de dados da internet
## Quando não usar:

* Quando temos uma forma mais simples de obter os dados (API, base de dados, etc.)
* Quando os termos de uso do site não nos permitem fazer isso
* Quando o robots.txt do site não nos permite fazer isso
* Quando houver risco de derrubar ou comprometer a estabilidade do site
* Quando as informações do site não são públicas


## 1. Identificar os elementos dos site

O que vc pretende raspar e como vai fazer isso? 

Como vai lidar com a página a ser raspada?

Qual estrutura da página? 

### Você sabe o que é um documento HTML?

* ver slides 19 a 24 [aqui](/home/ebn/Documentos/Github/development/ppgcs012-python/sem_7-8/Workshop__Web_Scraping_em_R.pdf)

### Vamos inspecionar o site em nosso navegador

1. Acesse a página [https://pythonscraping.com/pages/page1.html](https://pythonscraping.com/pages/page1.html) 
2. Aperte o seguitne comando: `Ctrl + Shift + i`

O que acontece?

![ex01](img/w_s_ex1.png)

![ex02](img/w_s_ex2.png)

Exemplo de html:

```{html}
<html>
<head>
    <title>PPGCS012 - Python</title>
</head>
<body>
    <h1>Aula de Web Scraping com Python</h1>
    <p>Na aula de hoje vamos aprender o básico sobre HTML.</p>
    <p style="color: red;">Vamos começar!</p>
</body>
</html>
```

### Que tal colocarmos uma página online para raspar?

1. escrever um arquivo de texto com o conteúdo da página e salvar em uma pasta com o nome do site como `index.html`
2. acessar [https://app.netlify.com/drop](https://app.netlify.com/drop).
3. arrastar a pasta pra lá.

Pronto! Nossa página está no online.

***

## Urllib e Urlopen

_urllib_ é uma biblioteca padrão do Python para requisitar dados da web.

O módulo `request` da biblioteca `urllib` é responsável por fazer requisições HTTP.

A função `urlopen` da biblioteca `urllib` é responsável por abrir uma página da web.

In [None]:
from urllib.request import urlopen

In [None]:
# criar uma variável com o endereço da página
url = 'https://pythonscraping.com/pages/page1.html'

In [None]:
# abrir a página com a função urlopen
html = urlopen(url)
# ler a página com o método .read()
page_html = html.read()

In [None]:
print(page_html)

A função urlopen abriu a url e com o método read() retornou o conteúdo da página.

Entretando para lidarmos de forma complexa com a página, precisamos de recursos que nos permitam analisar seu conteúdo.

Aí que entra a biblioteca BeautifulSoup.

In [None]:
# instalar a biblioteca beautifulsoup4
!pip3 install beautifulsoup4

In [None]:
# importar bibliotecas
from bs4 import BeautifulSoup

In [None]:
# instalar a biblioteca lxml 
# essa tem vantagens em relação ao html.parser (que é incluído por padrão):
# melhor para páginas mais complexas e com html confuso, mais rápido
!pip3 install lxml

In [None]:
# precisamos criar um objeto BeautifulSoup
# passamos à função BeautifulSouop o conteúdo da página e o tipo de parser
bs = BeautifulSoup(html.read(), 'lxml')  # lxml é o parser que vai ler o html

In [None]:
# imprimir a página
print(bs)

In [None]:
# para imprimir uma tag específica do html acrescentamos . e o nome da tag
# ex: para imprimir o título bs.h1
print(bs.h1)

## find e find_all

In [None]:
url = 'https://pythonscraping.com/pages/warandpeace.html'
html = urlopen(url)
bs = BeautifulSoup(html, 'lxml')


In [None]:
# preciso encontrar todos os elementos com o nome 'span' e class 'green'
# para isso, uso o método find_all()
name_list = bs.find_all('span', {'class': 'green'})


In [None]:
print(len(name_list))

In [None]:
# imprimir o texto de cada elemento encontrado
for name in name_list:
    print(name.text)


In [None]:
quotes_list = bs.find_all('span', {'class': 'red'})
for quote in quotes_list:
    print(quote.text+'\n')

## Exemplo Anpuh

In [None]:
url_anpuh = "https://anpuh.org.br/index.php/documentos/anais"
html_anpuh = urlopen(url_anpuh)
bs_anpuh = BeautifulSoup(html_anpuh, 'lxml')


In [None]:
# encontrar o box de conteúdo
box_conteudo = bs_anpuh.find(id='cobalt-section-1')


In [None]:
# encontrar todos os boxes dos Eventos
eventos = box_conteudo. find_all(class_='span3 category-box')
print(len(eventos))


In [None]:
# encontrar h4 em cada envento
for evento in eventos:
    title = evento.find('h4')
    link = title.find('a')['href']
    print(link+'\n')

In [None]:
# encontrar h4 em cada envento
for evento in eventos:
    try:
        title = evento.find('h4')
        link = title.find('a')['href']
        print(link+'\n')
    # caso não encontre o h4, pula para o próximo evento
    except:
        print('erro')
        pass

In [None]:
# encontrar h4 em cada envento
for evento in eventos:
    try:
        title = evento.find('h4')
        link = title.find('a')['href']
        full_link = 'https://anpuh.org.br'+link
        print(full_link+'\n')
    # caso não encontre o h4, pula para o próximo evento
    except:
        print('erro')
        pass