# Web scraping 
Web scraping, processo de extração de dados de uma página da Internet.

### 1. Módulo requests para obter uma página da Internet

In [None]:
pip install requests

In [None]:
# vamos descarregar a página de TFCs do site do departamento de informática

url = 'https://informatica.ulusofona.pt/defesas/trabalhos-finais-de-curso/'

In [43]:
import requests

# descarregamento do conteúdo do URL ocm pedido get
response = requests.get(url)

# conteúdo do ficheiro HTML descarregado (só primeiros 500 carateres)
response.content[:500]

b'<!DOCTYPE html>\n<html lang="pt-PT">\n    <head>\n        <meta charset="UTF-8">\n        <meta http-equiv="X-UA-Compatible" content="IE=edge">\n        <meta name="viewport" content="width=device-width, initial-scale=1">\n        <link rel="shortcut icon" href="/wp-content/uploads/sites/57/2015/03/favicon-551a81b7v1_site_icon.png">\n        <link rel="apple-touch-icon" href="/wp-content/uploads/sites/57/2015/03/favicon-551a81b7v1_site_icon.png">\n                <title>Trabalhos Finais de Curso &#8211;'

### 2. Modulo bs4 (BeautifulSoup) para processar conteúdo HTML

In [None]:
pip install bs4

In [45]:
from bs4 import BeautifulSoup

# conversão, com um analisador de HTML (parser), que permite navegar pelos elementos do ficheiro HTML como DOM 
soup = BeautifulSoup(response.content, 'html.parser')

In [48]:
soup.title # as etiquetas HTML são atributos. Neste caso, retorna o elemento 'title'

<title>Trabalhos Finais de Curso – DEISI INFORMÁTICA</title>

In [47]:
soup.title.text # retorna o texto do elemento 'title'

'Trabalhos Finais de Curso – DEISI INFORMÁTICA'

In [55]:
table = soup.table # retorna primeiro elemento 'table' existente

In [56]:
table.tr  # primeiro elemento 'tr' de 'table'

<tr>
<th>Aluno(s)</th>
<th>Titulo</th>
<th>Orientador</th>
<th>Entidade</th>
</tr>

In [57]:
trs = table.find_all('tr') # lista de todos os elementos 'tr' da tabela

trs[:3] # mostra apenas os 3 primeiros. São muitos!!!

[<tr>
 <th>Aluno(s)</th>
 <th>Titulo</th>
 <th>Orientador</th>
 <th>Entidade</th>
 </tr>,
 <tr>
 <td>Paulo Pinto</td>
 <td><b><a href="http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI258.pdf" rel="noopener" target="_blank">Modelamento multi-agente de interações em grupos sociais.</a></b> <a href="https://www.youtube.com/watch?v=Kxuzy2PXCTc" rel="noopener" target="_blank">🎬</a></td>
 <td>Manuel Marques Pita</td>
 <td></td>
 </tr>,
 <tr>
 <td>Eduardo Miranda</td>
 <td><b><a href="http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI217.pdf" rel="noopener" target="_blank">Site DEISI</a></b> <a href="https://www.youtube.com/1EctmhZAYg8" rel="noopener" target="_blank">🎬</a></td>
 <td>Pedro Alves</td>
 <td></td>
 </tr>]

In [39]:
lista_tfcs = []

for row in table.find_all('tr')[1:]:
    data = row.find_all('td')
    
    nome = data[0].text
    titulo = data[1].text
    orientador = data[2].text
    pdf = data[1].a['href']   # obtém o valor do atributo 'href' do elemento 'a'
    
    lista_tfcs.append(
        {
            'nome': nome,
            'titulo': titulo,
            'orientador': orientador,
            'pdf': pdf,
        }
    )   

In [53]:
lista_tfcs[:3]

[{'nome': 'Paulo Pinto',
  'titulo': 'Modelamento multi-agente de interações em grupos sociais. 🎬',
  'orientador': 'Manuel Marques Pita',
  'pdf': 'http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI258.pdf'},
 {'nome': 'Eduardo Miranda',
  'titulo': 'Site DEISI 🎬',
  'orientador': 'Pedro Alves',
  'pdf': 'http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI217.pdf'},
 {'nome': 'Nuno Rasteiro',
  'titulo': 'Aplicação Web para transformação digital do protocolo MentHA 🎬',
  'orientador': 'Lúcio Studer',
  'pdf': 'http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI233.pdf'}]