### Objectives

* **Extract data** from websites using web scraping techniques.
* **Load and process** tabular data into Pandas DataFrames.
* **Manipulate data** within DataFrames using NumPy.
* **Save your processed data** to a CSV file.


In [1]:
import numpy as np
import pandas as pd

def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn
warnings.filterwarnings('ignore')

In [2]:
#Required URL
URL = "https://web.archive.org/web/20230902185326/https://en.wikipedia.org/wiki/List_of_countries_by_GDP_%28nominal%29"

In [4]:
tables = pd.read_html(URL)

In [None]:
# Seleciona a quarta tabela da lista de tabelas extraídas.
# Assume-se que 'tables' é uma lista (ou objeto similar) contendo DataFrames ou elementos de tabela,
# e que a tabela de interesse está na posição de índice 3 (a quarta tabela, já que a contagem começa do 0).
df = tables[3]

# Substitui os nomes das colunas existentes por números sequenciais (0, 1, 2, ...).
# Isso é feito para padronizar os cabeçalhos e facilitar a seleção de colunas,
# especialmente útil quando os nomes originais são confusos ou inexistentes.
df.columns = range(df.shape[1])

# Mantém apenas as colunas de índice 0 e 2, descartando as demais.
# Com base na estrutura da tabela original, estas são as colunas que contêm
# os dados de 'País' e 'PIB', respectivamente, após a renomeação numérica.
df = df[[0, 2]]

# Seleciona as linhas da segunda à décima primeira (índices 1 a 10).
# O `.iloc` é usado para seleção baseada na posição numérica.
# Este passo filtra registros específicos, como os 10 primeiros países de interesse.
df = df.iloc[1:11,:]

# Renomeia as colunas selecionadas para nomes mais descritivos.
# 'Country' (País) é atribuído à antiga coluna 0, e 'GDP (Million USD)' (PIB em Milhões de USD)
# é atribuído à antiga coluna 2, tornando os dados semanticamente claros.
df.columns = ['Country', 'GDP (Million USD)']

In [None]:
# Converte a coluna 'GDP (Million USD)' para o tipo inteiro.
# Isso garante que os valores sejam tratados como números inteiros, removendo quaisquer decimais residuais
# e preparando-os para cálculos numéricos precisos.
df['GDP (Million USD)'] = df['GDP (Million USD)'].astype(int)

# Converte os valores de PIB de Milhões de USD para Bilhões de USD.
# Para fazer essa conversão, dividimos cada valor por 1000, pois 1 Bilhão = 1000 Milhões.
# Isso padroniza a escala da métrica de PIB para uma unidade mais comum em relatórios econômicos.
df[['GDP (Million USD)']] = df[['GDP (Million USD)']]/1000

# Arredonda os valores de PIB para duas casas decimais.
# Isso melhora a legibilidade e a apresentação dos dados, evitando números muito longos e com muitas casas decimais,
# o que é comum ao lidar com valores monetários.
df[['GDP (Million USD)']] = np.round(df[['GDP (Million USD)']], 2)

# Renomeia a coluna 'GDP (Million USD)' para 'GDP (Billion USD)'.
# Isso reflete a mudança de escala realizada no passo anterior, garantindo que o nome da coluna
# represente corretamente a unidade dos dados agora contidos nela.
df.rename(columns = {'GDP (Million USD)' : 'GDP (Billion USD)'})

Unnamed: 0,Country,GDP (Billion USD)
1,United States,26854.6
2,China,19373.59
3,Japan,4409.74
4,Germany,4308.85
5,India,3736.88
6,United Kingdom,3158.94
7,France,2923.49
8,Italy,2169.74
9,Canada,2089.67
10,Brazil,2081.24


In [11]:
df.to_csv('./Largest_economies.csv')