# Web scraping 
Web scraping, processo de extração de dados de uma página da Internet.

### 1. Módulo requests para obter uma página da Internet

In [None]:
pip install requests

In [None]:
url = 'https://informatica.ulusofona.pt/defesas/trabalhos-finais-de-curso/'

In [10]:
import requests

response = requests.get(url)

response.content

b'<!DOCTYPE html>\n<html lang="pt-PT">\n    <head>\n        <meta charset="UTF-8">\n        <meta http-equiv="X-UA-Compatible" content="IE=edge">\n        <meta name="viewport" content="width=device-width, initial-scale=1">\n        <link rel="shortcut icon" href="/wp-content/uploads/sites/57/2015/03/favicon-551a81b7v1_site_icon.png">\n        <link rel="apple-touch-icon" href="/wp-content/uploads/sites/57/2015/03/favicon-551a81b7v1_site_icon.png">\n                <title>Trabalhos Finais de Curso &#8211; DEISI INFORM\xc3\x81TICA</title>\n<meta name=\'robots\' content=\'max-image-preview:large\' />\n<link rel=\'dns-prefetch\' href=\'//stats.wp.com\' />\n<link rel="alternate" type="application/rss+xml" title="DEISI INFORM\xc3\x81TICA &raquo; Feed" href="https://informatica.ulusofona.pt/feed/" />\n<link rel="alternate" type="application/rss+xml" title="DEISI INFORM\xc3\x81TICA &raquo; Feed de coment\xc3\xa1rios" href="https://informatica.ulusofona.pt/comments/feed/" />\n<script type="tex

### 2. Modulo bs4 (BeautifulSoup) para processar conteúdo HTML

In [None]:
pip install bs4

In [12]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(response.content, 'html.parser')

In [36]:
soup.title # retorna o title

<title>Trabalhos Finais de Curso – DEISI INFORMÁTICA</title>

In [37]:
soup.title.text

'Trabalhos Finais de Curso – DEISI INFORMÁTICA'

In [38]:
 table = soup.table # retorna primeiro elemento "table" existente
    
table

<table class="uk-table uk-table-divider uk-table-small">
<thead>
<tr>
<th>Aluno(s)</th>
<th>Titulo</th>
<th>Orientador</th>
<th>Entidade</th>
</tr>
</thead>
<tbody>
<tr>
<td>Paulo Pinto</td>
<td><b><a href="http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI258.pdf" rel="noopener" target="_blank">Modelamento multi-agente de interações em grupos sociais.</a></b> <a href="https://www.youtube.com/watch?v=Kxuzy2PXCTc" rel="noopener" target="_blank">🎬</a></td>
<td>Manuel Marques Pita</td>
<td></td>
</tr>
<tr>
<td>Eduardo Miranda</td>
<td><b><a href="http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI217.pdf" rel="noopener" target="_blank">Site DEISI</a></b> <a href="https://www.youtube.com/1EctmhZAYg8" rel="noopener" target="_blank">🎬</a></td>
<td>Pedro Alves</td>
<td></td>
</tr>
<tr>
<td>Nuno Rasteiro</td>
<td><b><a href="http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI233.pdf" rel="noopener" target="

In [20]:
table.tr

<tr>
<th>Aluno(s)</th>
<th>Titulo</th>
<th>Orientador</th>
<th>Entidade</th>
</tr>

In [25]:
table.find_all('tr') # lista todos os elementos tr da tabela

[<tr>
 <th>Aluno(s)</th>
 <th>Titulo</th>
 <th>Orientador</th>
 <th>Entidade</th>
 </tr>,
 <tr>
 <td>Paulo Pinto</td>
 <td><b><a href="http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI258.pdf" rel="noopener" target="_blank">Modelamento multi-agente de interações em grupos sociais.</a></b> <a href="https://www.youtube.com/watch?v=Kxuzy2PXCTc" rel="noopener" target="_blank">🎬</a></td>
 <td>Manuel Marques Pita</td>
 <td></td>
 </tr>,
 <tr>
 <td>Eduardo Miranda</td>
 <td><b><a href="http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI217.pdf" rel="noopener" target="_blank">Site DEISI</a></b> <a href="https://www.youtube.com/1EctmhZAYg8" rel="noopener" target="_blank">🎬</a></td>
 <td>Pedro Alves</td>
 <td></td>
 </tr>,
 <tr>
 <td>Nuno Rasteiro</td>
 <td><b><a href="http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI233.pdf" rel="noopener" target="_blank">Aplicação Web para transformação digital do protoc

In [39]:
lista_tfcs = []

for row in table.find_all('tr')[1:]:
    data = row.find_all('td')
    
    nome = data[0].text
    titulo = data[1].text
    orientador = data[2].text
    pdf = data[1].a['href']   # obtém o valor do atributo 'href' do elemento 'a'
    
    lista_tfcs.append(
        {
            'nome': nome,
            'titulo': titulo,
            'orientador': orientador,
            'pdf': pdf,
        }
    )   

In [35]:
lista_tfcs

[{'nome': 'Paulo Pinto',
  'titulo': 'Modelamento multi-agente de interações em grupos sociais. 🎬',
  'orientador': 'Manuel Marques Pita',
  'pdf': 'http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI258.pdf'},
 {'nome': 'Eduardo Miranda',
  'titulo': 'Site DEISI 🎬',
  'orientador': 'Pedro Alves',
  'pdf': 'http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI217.pdf'},
 {'nome': 'Nuno Rasteiro',
  'titulo': 'Aplicação Web para transformação digital do protocolo MentHA 🎬',
  'orientador': 'Lúcio Studer',
  'pdf': 'http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI233.pdf'},
 {'nome': 'Tiago Pereira\nTomás Maia',
  'titulo': 'Acompanhamento de processos judiciais 🎬',
  'orientador': 'Pedro Alves',
  'pdf': 'http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI221.pdf'},
 {'nome': 'Edith Cardoso\nDiogo Carrilho',
  'titulo': 'PMO, Gestão de Portfólio de Projetos e Releases 🎬',

In [34]:
lista_tfcs[0]

{'nome': 'Paulo Pinto',
 'titulo': 'Modelamento multi-agente de interações em grupos sociais. 🎬',
 'orientador': 'Manuel Marques Pita',
 'pdf': 'http://informatica.ulusofona.pt/wp-content/uploads/sites/57/2022/10/TFC_22_DEISI258.pdf'}