# Projeto Web Scraping

### Lendo uma tabela

In [6]:
import pandas as pd  # Importa a biblioteca pandas para manipulação de dados
import urllib3  # Importa a biblioteca urllib3 para fazer solicitações HTTP
from bs4 import BeautifulSoup  # Importa BeautifulSoup para analisar HTML

In [7]:
# Função responsável por fazer uma solicitação HTTP GET, utilizando a biblioteca urllib3
def faz_requisicao(site):
    urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning) # Desativa avisos de certificado não confiável
    manager = urllib3.PoolManager()  # Cria um gerenciador de pool HTTP
    return  manager.request("GET", site, headers={"User-Agent":"Mozilla/5.0"}) # Faz uma solicitação GET

# Faz a requisição HTTP para o 'site' e retorna um objeto BeautifulSoup para análise.
def le_site(site):
    response = faz_requisicao(site)  # Faz a requisição HTTP
    return BeautifulSoup(response.data, "html.parser") # Retorna um objeto BeautifulSoup

In [8]:
# Define a URL
url = "https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_riqueza_total"

In [9]:
# Define uma função para coletar dados de países e riqueza total
def func_le_paises():
    bs = le_site(url)  # Chama a função le_site para acessar o site
    table = bs.find("table", style="text-align: right")  # Procura por uma tabela com o estilo "text-align: right"
    if table is None:
        raise Exception("Tabela não encontrada")

    corpo = table.find("tbody")  # Encontra o corpo da tabela
    if corpo is None:
        raise Exception("Corpo não encontrado")
    
    itens = corpo.find_all("tr")  # Encontra todas as linhas da tabela

    paises = []  # Inicializa uma lista para armazenar os dados dos países
    for item in itens:
        dados = item.find_all("td")  # Encontra todas as células de dados da linha
        item_pais = []
        for dado in dados:
            item_pais.append(dado.text.replace('\xa0',''))  # Remove espaços em branco e adiciona os dados à lista

        if len(item_pais) > 0:
            paises.append(item_pais)  # Adiciona os dados do país à lista de países
    return paises

func_le_paises()   # Chama a função para coletar os dados dos países

[['—', 'Mundo', '317.084\n'],
 ['—', 'América do Norte', '106.513\n'],
 ['—', 'Ásia', '105.946\n'],
 ['1', 'Estados Unidos', '98.154\n'],
 ['—', 'Europa', '85.402\n'],
 ['2', 'China', '51.874\n'],
 ['3', 'Japão', '23.884\n'],
 ['4', 'Alemanha', '14.499\n'],
 ['5', 'Reino Unido', '14.209\n'],
 ['6', 'França', '13.883\n'],
 ['7', 'Itália', '10.569\n'],
 ['—', 'Oceania', '8.615\n'],
 ['8', 'Canadá', '8.319\n'],
 ['—', 'América Latina', '8.055\n'],
 ['9', 'Austrália', '7.577\n'],
 ['10', ' Espanha', '7.152\n'],
 ['11', ' Coreia do Sul', '7.107\n'],
 ['12', 'Índia', '5.972\n'],
 ['13', ' Taiwan[4]', '4.065\n'],
 ['14', ' Suíça', '3.611\n'],
 ['15', 'Países Baixos', '3.357\n'],
 ['16', 'Bélgica', '2.776\n'],
 ['—', 'África', '2.553\n'],
 ['17', 'Brasil', '2.464\n'],
 ['18', 'Rússia', '2.240\n'],
 ['19', 'Suécia', '1.920\n'],
 ['20', 'México', '1.729\n'],
 ['21', 'Áustria', '1.637\n'],
 ['22', 'Hong Kong[5]', '1.523\n'],
 ['23', ' Indonésia', '1.518\n'],
 ['24', ' Singapura', '1.289\n'],
 ['2

In [10]:
# Formatando a saída de dados em uma tabela com pandas.
data = pd.DataFrame(func_le_paises(), columns=["Posição", "País", "Riqueza Total por Bilhões (USD)"])
data.set_index("Posição") # Define a coluna "Posição" como índice da tabela

Unnamed: 0_level_0,País,Riqueza Total por Bilhões (USD)
Posição,Unnamed: 1_level_1,Unnamed: 2_level_1
—,Mundo,317.084\n
—,América do Norte,106.513\n
—,Ásia,105.946\n
1,Estados Unidos,98.154\n
—,Europa,85.402\n
...,...,...
96,Nepal,35\n
97,Ilhas Maurícias,34\n
98,Costa do Marfim,34\n
99,Camboja,33\n
