### Disciplina de Análise de Dados    
### Curso de Gestão de Dados
### Universidade Federal do Piauí
##### Prof. Arlino Magalhães
arlino@ufpi.edu.br | @arlino.magalhaes


# Extraindo Dados da _Internet_

Referência: Grus, Joel. Data Science do Zero. Capítulo 9. Disponível em: Minha Biblioteca, Editora Alta Books, 2021. 
| Link da Minha Biblioteca: https://integrada.minhabiblioteca.com.br/books/9788550816463

## Exemplo: Monitorando o Congresso Americano

O vice-presidente de Políticas da DataSciencester está apreensivo diante da possível regulamentação do setor 
de data science e solicitou a quantificação dos debates sobre o assunto no Congresso. Especialmente, 
você deve identificar todos os parlamentares cujos *press releases* (comunicados de imprensa) mencionam a palavra “data” [dados].

Neste momento, há uma página com *links* para todos os *sites* dos parlamentares em 
https://www.house.gov/representatives. Nessa página, esses *links* aparecem da seguinte forma:
        
    <td>
        <a href=“https://jayapal.house.gov”>Jayapal, Pramila</a>
    </td>

O código abaixo coleta todos os URLs com *links* na página:

In [1]:
from bs4 import BeautifulSoup
import requests

url = "https://www.house.gov/representatives" 
text = requests.get(url).text
soup = BeautifulSoup(text, "html5lib")

all_urls = [a['href'] for a in soup('a') if a.has_attr('href')]
print("Quantidade de URLs = ",len(all_urls))

Quantidade de URLs =  967


In [2]:
all_urls

['#main-content',
 '/',
 '/',
 '/representatives',
 '/leadership',
 '/committees',
 '/legislative-activity',
 '/the-house-explained',
 '/visitors',
 '/educators-and-students',
 '/media',
 '/doing-business-with-the-house',
 '/employment',
 '/representatives',
 '/leadership',
 '/committees',
 '/legislative-activity',
 '/the-house-explained',
 '/visitors',
 '/educators-and-students',
 '/media',
 '/doing-business-with-the-house',
 '/employment',
 '/the-house-explained',
 'https://www.aoc.gov/explore-capitol-campus/buildings-grounds/house-office-buildings/cannon',
 'https://www.aoc.gov/explore-capitol-campus/buildings-grounds/house-office-buildings/longworth',
 'https://www.aoc.gov/explore-capitol-campus/buildings-grounds/house-office-buildings/rayburn',
 'https://www.visitthecapitol.gov/visit/maps-and-brochures/us-capitol-map',
 '#room-numbers',
 '#by-state',
 '#by-name',
 '#state-alabama',
 '#state-california',
 '#state-delaware',
 '#state-florida',
 '#state-georgia',
 '#state-hawaii',
 '

O código acima retorna muitas URLs. Porém as que queremos começam com *http:\/\/* ou 
*https:\/\/*, têm um nome e terminam com *.house.gov ou .house.gov\/.

Assim, o código abaixo cria uma expressão regular que filtra as urls cujos textos 
começam com *http:\/\/* ou *https:\/\/* e terminam *.house.gov* ou *.house.gov\/*.

In [5]:
import re

regex = r"^https?://.*\.house\.gov/?$"

# Faz alguns testes!
assert re.match(regex, "http://joel.house.gov") 
assert re.match(regex, "https://joel.house.gov") 
assert re.match(regex, "http://joel.house.gov/") 
assert re.match(regex, "https://joel.house.gov/") 
assert not re.match(regex, "joel.house.gov")
assert not re.match(regex, "http://joel.house.com")
assert not re.match(regex, "https://joel.house.gov/biography")

In [4]:
# Agora, vamos coletar as URLs desejadas

good_urls = [url for url in all_urls if re.match(regex, url)]
print(len(good_urls))

878


In [6]:
good_urls

['https://carl.house.gov',
 'https://barrymoore.house.gov',
 'https://mikerogers.house.gov/',
 'https://aderholt.house.gov/',
 'https://strong.house.gov',
 'https://palmer.house.gov/',
 'https://sewell.house.gov/',
 'https://peltola.house.gov',
 'https://radewagen.house.gov',
 'https://schweikert.house.gov/',
 'https://crane.house.gov',
 'https://rubengallego.house.gov/',
 'https://stanton.house.gov/',
 'https://biggs.house.gov',
 'https://ciscomani.house.gov',
 'https://grijalva.house.gov/',
 'https://lesko.house.gov',
 'https://gosar.house.gov/',
 'https://crawford.house.gov/',
 'https://hill.house.gov/',
 'https://womack.house.gov/',
 'https://westerman.house.gov/',
 'https://lamalfa.house.gov',
 'https://huffman.house.gov',
 'https://kiley.house.gov',
 'https://mikethompson.house.gov/',
 'https://mcclintock.house.gov/',
 'https://bera.house.gov',
 'https://matsui.house.gov',
 'https://garamendi.house.gov/',
 'https://harder.house.gov/',
 'https://desaulnier.house.gov/',
 'https://p

A lista acima contém muitas duplicatas, pois existem apenas 435 parlamentares. 

O código abaixo o set (conjunto) para valores repetidos na lista.

In [7]:
good_urls = list(set(good_urls))
print(len(good_urls))

439


In [8]:
good_urls

['https://morgangriffith.house.gov/',
 'https://steil.house.gov',
 'https://davis.house.gov',
 'https://bost.house.gov/',
 'https://tonko.house.gov/',
 'https://scottpeters.house.gov',
 'https://luna.house.gov',
 'https://escobar.house.gov',
 'https://laurellee.house.gov',
 'https://mills.house.gov',
 'https://zinke.house.gov',
 'https://sarbanes.house.gov/',
 'https://higgins.house.gov',
 'https://hunt.house.gov',
 'https://benniethompson.house.gov/',
 'https://ocasio-cortez.house.gov/',
 'https://good.house.gov',
 'https://malliotakis.house.gov',
 'https://webster.house.gov/',
 'https://gaetz.house.gov',
 'https://lucas.house.gov',
 'https://buck.house.gov/',
 'https://balint.house.gov',
 'https://correa.house.gov',
 'https://quigley.house.gov/',
 'https://trone.house.gov',
 'https://delbene.house.gov',
 'https://bean.house.gov',
 'https://gomez.house.gov/',
 'https://molinaro.house.gov',
 'https://vargas.house.gov',
 'https://kelly.house.gov',
 'https://chavez-deremer.house.gov',
 '

A maioria dos *sites* contém um *link* para os *press releases*. 
Por exemplo, o código abaixo recuperar os *links* no *site* https://meeks.house.gov.

In [11]:
html = requests.get('https://meeks.house.gov').text 
soup = BeautifulSoup(html, 'html5lib')

# Usamos um conjunto pois os links podem ser encontrados várias vezes.
links = {a['href'] for a in soup('a') if 'press releases' in a.text.lower()}
print(links) # {‘/media/press-releases’}

{'https://democrats-foreignaffairs.house.gov/press-releases', '/media/press-releases'}


O código acima pode retornar um *link* relativo. Assim, temos que lembrar do *site* 
de origem desse *link* relativo para formar o *link* completo. Porém antes de fazer isso, 
vamos estrair todos os *links* de "*press releases*" de todos os *sites* dos 
congressistas.

O código abaixo extrai, em cada um dos *sites*, os *links* que possuem o texto
"*press releases*".

In [None]:
from typing import Dict, Set

press_releases: Dict[str, Set[str]] = {}

for house_url in good_urls:
    html = requests.get(house_url).text 
    soup = BeautifulSoup(html, 'html5lib')
    pr_links = {a['href'] for a in soup('a') if 'press releases' in a.text.lower()}
    press_releases[house_url] = pr_links
    print(f"{house_url}: {pr_links}") 

Agora vamos fazer um função que encontre um determinado texto nas *tags p* da página
de um *link*. Assim podemos encontrar as páginas que mencionam a palavra “*data*”.

In [None]:
# Retorna True se uma tag <p> em {text} mencionar {keyword} 
def paragraph_mentions(text: str, keyword: str) -> bool: 
    soup = BeautifulSoup(text, 'html5lib')
    paragraphs = [p.get_text() for p in soup('p')] 
    return any(keyword.lower() in paragraph.lower() for paragraph in paragraphs)

# Um pequeno teste na função
text = "<body><h1>Facebook</h1><p>Twitter</p>"
assert paragraph_mentions(text, "twitter") # está em um <p>
assert not paragraph_mentions(text, "facebook") # não está em um <p>

Agora, estamos prontos para encontrar os parlamentares certos e informar seus
nomes ao vice-presidente.

O código verifica se foi mencionada a palavra *data* em cada um dos *links* de 
*press release* dos *sites* dos congressitas.

In [None]:
for house_url, pr_links in press_releases.items(): 
    for pr_link in pr_links:
        url = f"{house_url}/{pr_link}" 
        text = requests.get(url).text
        if paragraph_mentions(text, 'data'): 
            print(f"{house_url}")
            break # fim da atividade em house_url