## Projeto Final

#### **Problema gerador**

Você trabalha em um projeto de análise de dados e precisa adquirir informações de uma página da Wikipedia sobre um tema específico para sua análise.

No entanto, a Wikipedia não fornece uma API direta para acessar os dados, então você decide criar um script Python para automatizar o processo de aquisição de dados.

Você planeja usar Selenium para navegar até a página da Wikipedia relacionada ao seu tema de interesse, salvar o conteúdo HTML da página, extrair a tabela relevante utilizando BeautifulSoup e, finalmente, processar os dados da tabela com Pandas para análise posterior

In [11]:
import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By

options = webdriver.ChromeOptions() # Opções do navegador
options.add_argument("--start-maximized") # Inicia o navegador maximizado na tela

url = "https://pt.wikipedia.org/wiki/Wikip%C3%A9dia:P%C3%A1gina_principal" # URL da página

tema = "Twenty One Pilots" # Tema da pesquisa

driver = webdriver.Chrome(options=options) # Inicializa o navegador

driver.get(url) # Acessa a página
pesquisa = driver.find_element(By.NAME, "search") # Encontra o campo de pesquisa

pesquisa.send_keys(tema) # Insere o tema da pesquisa no campo de pesquisa
pesquisa.submit() # Envia a pesquisa

# Verifica se a página é de desambiguação, pesquisa avançada ou página Wiki e clica no link correto
if driver.find_elements(By.XPATH, '//*[@id="disambig"]/table/tbody/tr/td[1]/span/a/img'):
    print("Página de desambiguação")
    driver.find_element(By.XPATH, '//*[@id="mw-content-text"]/div[1]/ul/li[1]/a').click()
elif driver.find_elements(By.XPATH, '//*[@id="firstHeading"]'):
    if driver.find_elements(By.XPATH, '//*[@id="firstHeading"]')[0].text == 'Resultado da pesquisa':
        print("Pequisa avançada")
        driver.find_element(By.XPATH, '//*[@id="mw-content-text"]/div[3]/div[4]/ul/li[1]/div[2]/div[2]/div[1]/a').click()
    else:
        print('Página Wiki')


html = driver.page_source # Pega o código fonte da página
driver.quit() # Fecha o navegador

Página Wiki


In [14]:
html_parsed = BeautifulSoup(html, 'html.parser') # Faz o parse do código fonte
html_parsed

<html class="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-enabled vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-disabled skin-theme-clientpref-day vector-toc-available vector-animations-ready ve-available" dir="ltr" lang="pt"><head>
<meta charset="utf-8"/>
<title>Twenty One Pilots – Wikipédia, a enciclopédia livre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-featur

In [21]:
tabelas = html_parsed.find_all('table') # Encontra todas as tabelas da página

for tabela in tabelas:
    df = pd.read_html(str(tabela))[0] # Lê as tabelas
    print(df.head())

                            Twenty One Pilots  \
0  Twenty One Pilots se apresentando em 2019.   
1                            Informação geral   
2                                      Origem   
3                                        País   
4                                   Gênero(s)   

                                 Twenty One Pilots.1  
0         Twenty One Pilots se apresentando em 2019.  
1                                   Informação geral  
2                     Columbus, Ohio, Estados Unidos  
3                                     Estados Unidos  
4  Hip hop alternativo hip hop electropop indie p...  
    Ano                       Premiação             Prêmio  \
0  2013           MTV Video Music Award  Artista Revelação   
1  2013          MTV Europe Music Award      Best Push Act   
2  2014  Alternative Press Music Awards     Best Live Band   
3  2014  Alternative Press Music Awards  Album of the Year   
4  2014  Alternative Press Music Awards  Breakthrough Band   

  