# Exercício: Criando um *web scraper*

Esta atividade tem por objetivo ajudar a prática da sintaxe do Python a partir da criação de um *web scraper*.

- [Repositório com códigos](https://github.com/oAGoulart/workshops)
- [Documentação do Python](https://docs.python.org/3/)

## Objetivos

- [ ] Utilizar o módulo 'requests' para solicitar páginas *web*
- [ ] Utilizar o módulo 'beautifulsoup' para iterar sobre o conteúdo da página

## Módulo 'requests'

O módulo `requests` é utilizado para fazer solicitações para uma URL específica (*e.g.* HTTP, FTP). Esse módulo também fornece funcionalidades para gerenciar a "resposta" da solicitação.

### Fazendo uma solicitação

O módulo 'requests' possui vários métodos para fazer solicitações solicitações GET, POST, PUT, PATCH ou HEAD. Esse módulo é usado para recuperar informações de um determinado servidor usando um determinado URL. O método GET envia as informações codificadas do usuário anexadas à solicitação de página.

Aqui estaremos usando a requisição GET.

In [7]:
import requests
 
# Fazendo uma solicitação GET
# O método 'get' retorna um objeto contendo vários valores sobre a solicitação
r = requests.get('https://sites.unipampa.edu.br/eventos/')
 
# Podemos verificar o "status code" imprimindo o objeto retornado
print('Status: ', r)
 
# Ou, podemos imprimir os valores contidos no objeto
# Aqui imprimimos o conteúdo retornado pela solicitação
# Nesse caso será uma string com o texto HTML da página
# Obs.: remova o "[:100]" para ver o conteúdo completo
print('Content: ', r.content[:100])

Status:  <Response [200]>
Content:  b'\t\t\n\t\t\t<aside id="unipampa_wp_cookies_cookie_info_bar" class="unipampa-wp-cookies-align-center unipam'


### Objeto de resposta

Quando fazemos uma solicitação a um URL, um objeto de resposta é retornado.
Em Python, esse objeto é retornado por `requests.method()`, onde o `method` pode ser:
- `get`
- `post`
- `put`
- entre outros.

Esse objeto contém muitas funções e atributos que definem todos os valores que precisamos em nosso código. Por exemplo, se assumirmos que `r` é um objeto de resposta, então podemos usar `r.status_code` para verificar o "status code" dos próprios cabeçalhos de resposta.

In [8]:
import requests

r = requests.get('https://sites.unipampa.edu.br/eventos/')
 
# O atributo 'url' pode ser usado para ler o URL utilizado na solicitação
print('URL: ', r.url)
   
# Bem como, 'status_code' pode ser usado para verificar se a solicitação foi bem-sucedida (200)
print('Status: ', r.status_code)

URL:  https://sites.unipampa.edu.br/eventos/
200


## Módulo 'beautifulsoup'

A biblioteca, ou módulo, BeautifulSoup é usada para extrair informações de arquivos HTML ou XML.
Com isso é possível utilizar uma árvore de análise para navegar, pesquisar ou modificar o conteúdo da resposta.

Caso seja necessário instalar essa biblioteca, utilize o comando abaixo:

```bash
pip install beautifulsoup4
```

### Fazendo *parse* no conteúdo HTML

Depois de obter o HTML da página, precisamos fazer *parse* desse código para algumas informações úteis.
Em primeiro lugar, vamos criar um objeto BeautifulSoup especificando o analisador que queremos usar.

In [9]:
import requests
from bs4 import BeautifulSoup

r = requests.get('https://sites.unipampa.edu.br/eventos/')

# Aqui estamos iniciando o 'parser' do conteúdo armazenado em 'r.content'
# O segundo atributo, 'html.parser', é o analisador que queremos usar
c = BeautifulSoup(r.content, 'html.parser')

# Agora  o objeto 'c' contém todos os elementos da página em uma árvore hierarquica
# Sendo assim, podemos interagir com cada elemento, por exemplo:

# Obtendo a tag HTML 'title'
print(c.title)

# Obtendo o nome da tag HTML 'title'
print(c.title.name)

# Obtendo o nome da tag HTML parente de 'title'
print(c.title.parent.name)

<title>Portal de Eventos - Unipampa</title>
title
meta


### Encontrando elementos

Se observarmos o código da [página de eventos](https://sites.unipampa.edu.br/eventos/) é possível verificar que temos uma lista de itens que podemos tentar extrair.

In [12]:
import requests
from bs4 import BeautifulSoup

r = requests.get('https://sites.unipampa.edu.br/eventos/')
c = BeautifulSoup(r.content, 'html.parser')

# Aqui estamos procurando pelos elementos 'article' que possuem a classe 'eventos'
# O método 'find_all' retorna uma lista com todos os elementos encontrados
s = c.find_all('article', class_='eventos')

# Podemos continuar procurando por elementos se iterarmos sobre essa lista
for e in s:
  # Nesse caso iremos utilizar a função 'find' que retorna o primeiro elemento encontrado
  # Queremos procurar o primeiro elemento 'h2'
  content = e.find('h2')
  print(content)

<h2 class="entry-title"><a href="https://sites.unipampa.edu.br/eventos/eventos/curso-de-extensao-aprendizagens-interculturais-producao-de-sentidos-na-educacao-v-edicao/" rel="bookmark">Curso de extensão “Aprendizagens interculturais: produção de sentidos na educação- V Edição”</a></h2>
<h2 class="entry-title"><a href="https://sites.unipampa.edu.br/eventos/eventos/ofit-2022/" rel="bookmark">OFIT 2022</a></h2>
<h2 class="entry-title"><a href="https://sites.unipampa.edu.br/eventos/eventos/ciclo-de-palestras-acorianidade-no-sul-do-rs/" rel="bookmark">Ciclo de Palestras – Açorianidade no Sul do RS</a></h2>
<h2 class="entry-title"><a href="https://sites.unipampa.edu.br/eventos/eventos/colacao-de-grau-virtual-geografia-uab/" rel="bookmark">Colação de Grau Virtual – Geografia UAB</a></h2>
<h2 class="entry-title"><a href="https://sites.unipampa.edu.br/eventos/eventos/colacao-de-grau-virtual-geografia-uab-2/" rel="bookmark">Colação de Grau Virtual – Geografia UAB</a></h2>
<h2 class="entry-title"

### Extraindo texto e links

Nos exemplos acima é possível ver que ao buscar os dados, as tags também são mostradas, mas e se quisermos apenas o texto sem nenhuma tag?
Para isso usaremos a propriedade `text`.
Essa permite imprimir apenas o texto da tag.
Algo similar pode ser usado para extrair atributos das tags.
O método `get()` permite ler um atributo de um elemento.

In [13]:
import requests
from bs4 import BeautifulSoup

r = requests.get('https://sites.unipampa.edu.br/eventos/')
c = BeautifulSoup(r.content, 'html.parser')

s = c.find_all('article', class_='eventos')
for e in s:
  content = e.find('h2')
  link = content.find('a')
  
  # Aqui estamos imprimindo o atributo 'text' do elemento 'a'
  print('Texto: ', link.text)
  # Aqui o método 'get' é usado para extrair o atributo 'href' do elemento 'a'
  print('URL: ', link.get('href'))

Texto:  Curso de extensão “Aprendizagens interculturais: produção de sentidos na educação- V Edição”
URL:  https://sites.unipampa.edu.br/eventos/eventos/curso-de-extensao-aprendizagens-interculturais-producao-de-sentidos-na-educacao-v-edicao/
Texto:  OFIT 2022
URL:  https://sites.unipampa.edu.br/eventos/eventos/ofit-2022/
Texto:  Ciclo de Palestras – Açorianidade no Sul do RS
URL:  https://sites.unipampa.edu.br/eventos/eventos/ciclo-de-palestras-acorianidade-no-sul-do-rs/
Texto:  Colação de Grau Virtual – Geografia UAB
URL:  https://sites.unipampa.edu.br/eventos/eventos/colacao-de-grau-virtual-geografia-uab/
Texto:  Colação de Grau Virtual – Geografia UAB
URL:  https://sites.unipampa.edu.br/eventos/eventos/colacao-de-grau-virtual-geografia-uab-2/
Texto:  Exposição de imagens e textos – História da colonização e resistência palestina através do cinema
URL:  https://sites.unipampa.edu.br/eventos/eventos/exposicao-de-imagens-e-textos-historia-da-colonizacao-e-resistencia-palestina-atraves

## Mini-atividade:

Utilize os conhecimentos obtidos até agora para adaptar o código abaixo para extrair o título dos itens na página de eventos da Unipampa e escrever esses em um arquivo CSV.

In [14]:
import requests
import csv
# Dica: importe o módulo aqui

def main():
  titles = []

  s = [] # Dica: use o código das seções anteriores para extrair os elementos

  count = 1
  for e in s:
    d = {}
    d['Title Number'] = f'Title {count}'
    d['Title Name'] = 'text' # Dica: use o atributo 'text' para obter o título
    count += 1
    titles.append(d)

  with open('titles.csv', 'w', newline='') as f:
    # Aqui estamos usando o módulo 'csv' para facilitar essa etapa
    # O método 'DictWriter' permite criar um gerenciador para escrever um arquivo CSV
    w = csv.DictWriter(f,['Title Number','Title Name'])
    # O objeto 'w' contém vários métodos para criar a estrutura do arquivo
    # Aqui estamos chamando 'writeheader' para escrever o cabeçario do CSV
    w.writeheader()

    # O método 'writerows' aceita uma lista com todos os dados que queremos escrever
    w.writerows(titles)

if __name__ == '__main__':
  main()