In [1]:
# Import das bibliotecas instaladas

# Import da biblioteca necessária para acessar, análisar e manipular
# dados
import pandas as pd

# import da biblioteca que possibilita manipular arrays
import numpy as np

# import da biblioteca que irá possibilitar a criação de
# gráficos interativos
import plotly.graph_objects as go

# A biblioteca plotly.subplots import make_subplots é uma ferramenta poderosa dentro do Python, especialmente quando se trabalha com visualização de dados utilizando a biblioteca Plotly. Ela permite criar subplots, ou seja, múltiplos gráficos em uma única figura, o que é muito útil para comparar diferentes conjuntos de dados ou visualizar diversas dimensões de um mesmo conjunto de dados.

# Subplots são, basicamente, gráficos menores que residem dentro de um gráfico maior, permitindo que você organize visualizações distintas lado a lado, em cima e embaixo, ou em qualquer configuração de grade 1  que desejar.

from plotly.subplots import make_subplots


# biblioteca que irá acessar a pagina web através de requisições http.
# Permite simular um navegador, enviando requisições GET, POST e outros tipos para obter o conteúdo HTML de uma página.
import requests

# Irá extrair os dados da página html. Transforma o conteúdo HTML em um objeto Python que pode ser facilmente navegado e manipulado. Permite buscar elementos por tags, classes, IDs e outros atributos.
from bs4 import BeautifulSoup

# Biblioteca que permite manipular a exibição de avisos.
# Observação: Os avisos não são mensagens de erros, são
# avisos que não interrompem a execução de um programa
# com o objetivo de alertar o usuário sobre algum possivel
# problema no código ou uma sintaxe que entrará em desuso.
import warnings

# Vamos filtrar os warnings para evitar que eles apareçam
warnings.filterwarnings('ignore')

# link do projeto: https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_PIB_nominal








Acessando o site usando o pandas

In [2]:
url = 'https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_PIB_nominal'

tabelas_web = pd.read_html(url)

Verificando a quantidade de tabelas/objetos encontradas usando a função len

In [3]:
len(tabelas_web)

9

Acessando os objetos encontrados

In [4]:
# Agora que ja acessamos o sistema, teremoe acesso a todos os objetos e 
# tabelas encontradas no site html. Para acessar uma tabela especifica,
# basta inidcar o indice que você quer utilizar, por exemplo.

tabelas_web[2].head()

Unnamed: 0_level_0,País/Território,Região ONU,FMI[26][27],FMI[26][27],Banco Mundial[28],Banco Mundial[28],Nações Unidas[29],Nações Unidas[29]
Unnamed: 0_level_1,País/Território,Região ONU,Estimativa,Ano,Estimativa,Ano,Estimativa,Ano
Unnamed: 0_level_2,Mundo,—,"101,560,901",2024,"96,100,091",2021,"85,328,323",2020
0,Estados Unidos,América,28781083,2024,23320000,2021,21060000,2020
1,China,Ásia,18532633,[n 1]2024,17820000,[n 2]2021,14690000,[n 1]2020
2,Alemanha,Europa,4591100,2024,4280000,2021,3890000,2020
3,Japão,Ásia,4110452,2024,5030000,2021,5060000,2020
4,Índia,Ásia,3937011,2024,3150000,2021,2670000,2020


Vamos atribuir a uma variável, a tabela que iremos utilizar na construção da análise

In [5]:
tabela_pib = tabelas_web[2]

Verificando a quantidade de linhas e colunas da tabela

In [6]:
tabela_pib.shape

# A tabela possui 216 linhas e 8 colunas

(216, 8)

Verificando quais linhas possuem valores nulos usando a funçaõ isnull()

In [7]:
# O método isnull retorna valores booleanos onde verdadeiro representa
# a existência de valores nulos, e falso representa a ausencia de valores
# nulos.

tabela_pib.isnull()

Unnamed: 0_level_0,País/Território,Região ONU,FMI[26][27],FMI[26][27],Banco Mundial[28],Banco Mundial[28],Nações Unidas[29],Nações Unidas[29]
Unnamed: 0_level_1,País/Território,Região ONU,Estimativa,Ano,Estimativa,Ano,Estimativa,Ano
Unnamed: 0_level_2,Mundo,—,"101,560,901",2024,"96,100,091",2021,"85,328,323",2020
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
211,False,False,False,False,False,False,False,False
212,False,False,False,False,False,False,False,False
213,False,False,False,False,False,False,False,False
214,False,False,False,False,False,False,False,False


Verificando o total de valores nulos da tabela usando a função sum()

In [27]:
tabela_pib.isnull().sum()

# Ira retornar a quantidade de valores nulos em cada coluna da tabela.

País/Território    País/Território  Mundo          0
Região ONU         Região ONU       —              0
FMI[26][27]        Estimativa       101,560,901    0
                   Ano              2024           0
Banco Mundial[28]  Estimativa       96,100,091     0
                   Ano              2021           0
Nações Unidas[29]  Estimativa       85,328,323     0
                   Ano              2020           0
dtype: int64

Verificando o tipo de dado de cada tabela

In [7]:
tabela_pib.dtypes

País/Território    País/Território  Mundo          object
Região ONU         Região ONU       —              object
FMI[26][27]        Estimativa       101,560,901    object
                   Ano              2024           object
Banco Mundial[28]  Estimativa       96,100,091     object
                   Ano              2021           object
Nações Unidas[29]  Estimativa       85,328,323     object
                   Ano              2020           object
dtype: object

Como vimos acima, será necessário realizar algumas conversões de tipos

In [9]:
# Vamos usar o info para verificar como as colunas estão organizadas
tabela_pib.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 216 entries, 0 to 215
Data columns (total 8 columns):
 #   Column                                       Non-Null Count  Dtype 
---  ------                                       --------------  ----- 
 0   (País/Território, País/Território, Mundo)    216 non-null    object
 1   (Região ONU, Região ONU, —)                  216 non-null    object
 2   (FMI[26][27], Estimativa, 101,560,901)       216 non-null    object
 3   (FMI[26][27], Ano, 2024)                     216 non-null    object
 4   (Banco Mundial[28], Estimativa, 96,100,091)  216 non-null    object
 5   (Banco Mundial[28], Ano, 2021)               216 non-null    object
 6   (Nações Unidas[29], Estimativa, 85,328,323)  216 non-null    object
 7   (Nações Unidas[29], Ano, 2020)               216 non-null    object
dtypes: object(8)
memory usage: 13.6+ KB


Convertendo as colunas necessárias  para o tipo numérico (Colunas de estimativas)

In [8]:

# Para realizar a conversão para um tipo numérico, vamos usar o uma função
# da biblioteca pandas, o to_numeric que ira receber como argumento a
# coluna que será convertida e o errors de valor coerce, que irá transformar
# em nulo, todos os valores que não podem ser convertidos para um tipo numérico

tabela_pib['FMI[26][27]','Estimativa','101,560,901'] = pd.to_numeric(tabela_pib['FMI[26][27]','Estimativa','101,560,901'], errors='coerce')

tabela_pib['Banco Mundial[28]', 'Estimativa','96,100,091'] = pd.to_numeric(tabela_pib['Banco Mundial[28]', 'Estimativa','96,100,091'], errors='coerce')

tabela_pib['Nações Unidas[29]', 'Estimativa','85,328,323'] = pd.to_numeric(tabela_pib['Nações Unidas[29]', 'Estimativa','85,328,323'], errors='coerce')

Verificando se as conversões de estimativas foram realizadas com sucesso foram realizadas com sucesso

In [9]:
tabela_pib.dtypes

País/Território    País/Território  Mundo           object
Região ONU         Região ONU       —               object
FMI[26][27]        Estimativa       101,560,901    float64
                   Ano              2024            object
Banco Mundial[28]  Estimativa       96,100,091     float64
                   Ano              2021            object
Nações Unidas[29]  Estimativa       85,328,323     float64
                   Ano              2020            object
dtype: object

Verificando novamente a quantidade de valores nulos. Vamos verificar novamente por que o coerce transforma os valores não convertidos em
valores nulos

In [10]:
tabela_pib.isnull().sum()

País/Território    País/Território  Mundo           0
Região ONU         Região ONU       —               0
FMI[26][27]        Estimativa       101,560,901    21
                   Ano              2024            0
Banco Mundial[28]  Estimativa       96,100,091      7
                   Ano              2021            0
Nações Unidas[29]  Estimativa       85,328,323      3
                   Ano              2020            0
dtype: int64

Localizando as linhas que possuem valores nulos

In [11]:
# Para localizar os valores vamos usar o método loc que recebe como parametro
# uma condição que irá guiar a busca das linhas
tabela_pib.loc[tabela_pib['Banco Mundial[28]','Estimativa','96,100,091'].isnull()]

Unnamed: 0_level_0,País/Território,Região ONU,FMI[26][27],FMI[26][27],Banco Mundial[28],Banco Mundial[28],Nações Unidas[29],Nações Unidas[29]
Unnamed: 0_level_1,País/Território,Região ONU,Estimativa,Ano,Estimativa,Ano,Estimativa,Ano
Unnamed: 0_level_2,Mundo,—,"101,560,901",2024,"96,100,091",2021,"85,328,323",2020
19,Taiwan,Ásia,828659.0,[n 3]2022,,—,669324.0,[30] 2020
134,Coreia do Norte,Ásia,,—,,—,15847.0,2020
188,Zanzibar,Africa,,—,,—,1724.0,2020
193,Ilhas Virgens Britânicas,América,,—,,—,1492.0,2020
208,Ilhas Cook,Oceania,,—,,—,283.0,2020
210,Anguila,América,,—,,—,258.0,2020
214,Montserrat,América,,—,,—,68.0,2020


Agora que já descobrimos, vamos substituir os valores nulos por 0, acredito
que nesse caso em especifico, seja melhor do que excluir a coluna

In [12]:
# Para realizar a substituição, vamos usar a função fillna que ira
# receber como parametro o valor que ira substituir os valores nulos
# das colunas.
tabela_pib['FMI[26][27]','Estimativa','101,560,901'] = tabela_pib['FMI[26][27]','Estimativa','101,560,901'].fillna(0)

tabela_pib['Banco Mundial[28]','Estimativa','96,100,091'] = tabela_pib['Banco Mundial[28]','Estimativa','96,100,091'].fillna(0)

tabela_pib['Nações Unidas[29]','Estimativa','85,328,323'] = tabela_pib['Nações Unidas[29]','Estimativa','85,328,323'].fillna(0)

Verificando se a substituição nas colunas de estimativas foram realizadas com sucesso.

In [13]:
tabela_pib.isnull().sum()

País/Território    País/Território  Mundo          0
Região ONU         Região ONU       —              0
FMI[26][27]        Estimativa       101,560,901    0
                   Ano              2024           0
Banco Mundial[28]  Estimativa       96,100,091     0
                   Ano              2021           0
Nações Unidas[29]  Estimativa       85,328,323     0
                   Ano              2020           0
dtype: int64