# **Indicadores da Economia Global**

<a href="https://www.kaggle.com/datasets/prasad22/global-economy-indicators">Source link</a>

#### **Informações sobre o conjunto de dados:**

The dataset is compiled from the National Accounts Main Aggregates Database that presents a series of analytical national accounts tables from 1970 onwards for more than 200 countries and areas of the world. It is the product of a global cooperation effort between the Economic Statistics Branch of the United Nations Statistics Division, international statistical agencies, and the national statistical services of these countries and is developed in accordance with the recommendation of the Statistical Commission at its first session in 1947 that the Statistics Division should publish regularly the most recent available data on national accounts for as many countries and areas as possible.

This dataset can be used to perform clustering, regression, and time series tasks.

O conjunto de dados foi compilado a partir do "National Accounts Main Aggregates Database" que apresenta uma série de tabelas analíticas de contas nacionais a partir de 1970 para mais de 200 países e áreas do mundo. É o produto de um esforço de cooperação global entre o Departamento de Estatísticas Económicas da Divisão de Estatística das Nações Unidas, agências internacionais de estatística e os serviços nacionais de estatística destes países e é desenvolvido de acordo com a recomendação da Comissão de Estatística na sua primeira sessão em 1947.

#### Tags:

- Negócios;
- análise de dados exploratórios;
- economia;
- limpeza de dados;
- análise de série temporal;
- regressão.


# Desafio:

Criar gráficos de acordo com os indicadores da planilha "Global Economy Indicators" em relação aos anos informados (indicadores x anos).

### Passo a passo:

1. Instalar e importar as bibliotecas/módulos necessários para a tarefa;
2. importar a planilha e visualizá-la;
3. tratar os dados da planilha;
4. analisar os dados da planilha;
5. criar um gráfico exemplo;
6. criar uma função que permita a criação automática de gráficos.


#### 1. Instalar e importar as bibliotecas/módulos necessários para a tarefa.

As bibliotecas/módulos necessários serão:

- Pandas: ferramenta de análise e manipulação de dados. Importado com o apelido de "pd".

- Plotly.express: módulo ultilizado para criar figuras gráficas. Importado com o apelido de "px".

- Para instalar:

        pip install pandas plotly.express


In [2]:
# importando a biblioteca e o módulo:

import pandas as pd
import plotly.express as px

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


#### 2. Importar a planilha e visualizá-la.

> Usando a biblioteca pandas, podemos importar a planilha (em .csv) e visualizá-la usando o módulo "display" (módulo fornecido pela extensão Jupyter Notebook).

> Com o _.info()_ podemos verificar as informações das linhas e colunas.

obs: não é utilizado o *.dropna()* para limpar valores nulos devido a perda de países da planilha.

In [3]:
# importando a planilha para a leitura pelo python
sheet = pd.read_csv('Global_Economy_Indicators.csv')

sheet.info()

display(sheet)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10512 entries, 0 to 10511
Data columns (total 26 columns):
 #   Column                                                                                      Non-Null Count  Dtype  
---  ------                                                                                      --------------  -----  
 0    CountryID                                                                                  10512 non-null  int64  
 1    Country                                                                                    10512 non-null  object 
 2    Year                                                                                       10512 non-null  int64  
 3    AMA exchange rate                                                                          10512 non-null  float64
 4    IMF based exchange rate                                                                    10512 non-null  float64
 5    Population                            

Unnamed: 0,CountryID,Country,Year,AMA exchange rate,IMF based exchange rate,Population,Currency,Per capita GNI,"Agriculture, hunting, forestry, fishing (ISIC A-B)",Changes in inventories,...,Household consumption expenditure (including Non-profit institutions serving households),Imports of goods and services,Manufacturing (ISIC D),"Mining, Manufacturing, Utilities (ISIC C-E)",Other Activities (ISIC J-P),Total Value Added,"Transport, storage and communication (ISIC I)","Wholesale, retail trade, restaurants and hotels (ISIC G-H)",Gross National Income(GNI) in USD,Gross Domestic Product (GDP)
0,4,Afghanistan,1970,0.044998,0.044998,10752971,Afghani,164,8.699174e+08,,...,1.551094e+09,1.952772e+08,3.701468e+08,3.766908e+08,1.277478e+08,1.731454e+09,8.391720e+07,2.263871e+08,1.766528e+09,1.731436e+09
1,4,Afghanistan,1971,0.044998,0.044998,11015857,Afghani,168,9.108281e+08,,...,1.675426e+09,2.762965e+08,3.875495e+08,3.944012e+08,1.337541e+08,1.812857e+09,8.786038e+07,2.370192e+08,1.850122e+09,1.812838e+09
2,4,Afghanistan,1972,0.044998,0.044998,11286753,Afghani,149,8.279453e+08,,...,1.498812e+09,2.903704e+08,3.522847e+08,3.585129e+08,1.215827e+08,1.647918e+09,7.986452e+07,2.154773e+08,1.683948e+09,1.647900e+09
3,4,Afghanistan,1973,0.044998,0.044998,11575305,Afghani,150,8.554869e+08,,...,1.508024e+09,2.629629e+08,3.640103e+08,3.704458e+08,1.256302e+08,1.702735e+09,8.252888e+07,2.226243e+08,1.739998e+09,1.702716e+09
4,4,Afghanistan,1974,0.044998,0.044998,11869879,Afghani,177,1.035913e+09,,...,1.778819e+09,3.056792e+08,4.407604e+08,4.485528e+08,1.521192e+08,2.061752e+09,9.991860e+07,2.695259e+08,2.106420e+09,2.061729e+09
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10507,894,Zambia,2017,9.519501,9.519501,17298054,Kwacha,1448,1.041005e+09,567729313.0,...,1.215309e+10,9.465895e+09,2.102369e+09,7.194153e+09,6.187124e+09,2.416662e+10,1.965026e+09,5.323590e+09,2.505604e+10,2.586816e+10
10508,894,Zambia,2018,10.458143,10.458143,17835893,Kwacha,1451,8.791160e+08,929063411.0,...,1.183200e+10,9.717269e+09,1.801783e+09,6.556884e+09,5.791375e+09,2.422570e+10,2.490720e+09,5.990720e+09,2.588455e+10,2.631198e+10
10509,894,Zambia,2019,12.889418,12.889418,18380477,Kwacha,1246,6.668385e+08,817104395.0,...,9.848112e+09,7.961415e+09,1.582484e+09,5.584425e+09,5.231062e+09,2.153971e+10,2.537646e+09,4.959277e+09,2.291011e+10,2.331036e+10
10510,894,Zambia,2020,18.344093,18.344093,18927715,Kwacha,928,5.391694e+08,439295787.0,...,6.969267e+09,5.892353e+09,1.397303e+09,4.269405e+09,4.217431e+09,1.718020e+10,2.258715e+09,3.234123e+09,1.756233e+10,1.811064e+10


#### 3. Tratar os dados da planilha.

> Verificados os erros nos dados, agora deve-se tratá-los.

- As colunas possuem dois espaços (início e final), dificultando a digitação na hora de buscar os títulos da coluna, devendo-se usar o método _.slipt()_;

- as linhas de "Country" também possuem dois espaços (início e final), deve-se usar o método _.slipt()_;

- a biblioteca _pandas_ cria um _index_ automático, porém, neste caso, a planilha já possui seu próprio _index: CountryID_;

- com o método _.set_index()_ pode-se configurar o _index_ padrão.


In [4]:
for column in sheet.columns: # loop for para retirar os espaços dos títulos
    sheet.rename(columns={column: ''.join(column.split())}, inplace=True)

for line in sheet['Country']: # loop for para retirar os espaços dos nomes dos países
    sheet['Country'].replace({line: ''.join(line.split())}, inplace=True)

sheet = sheet.set_index('CountryID') # configurando o novo index da planilha

display(sheet)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  sheet['Country'].replace({line: ''.join(line.split())}, inplace=True)


Unnamed: 0_level_0,Country,Year,AMAexchangerate,IMFbasedexchangerate,Population,Currency,PercapitaGNI,"Agriculture,hunting,forestry,fishing(ISICA-B)",Changesininventories,Construction(ISICF),...,Householdconsumptionexpenditure(includingNon-profitinstitutionsservinghouseholds),Importsofgoodsandservices,Manufacturing(ISICD),"Mining,Manufacturing,Utilities(ISICC-E)",OtherActivities(ISICJ-P),TotalValueAdded,"Transport,storageandcommunication(ISICI)","Wholesale,retailtrade,restaurantsandhotels(ISICG-H)",GrossNationalIncome(GNI)inUSD,GrossDomesticProduct(GDP)
CountryID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
4,Afghanistan,1970,0.044998,0.044998,10752971,Afghani,164,8.699174e+08,,4.679390e+07,...,1.551094e+09,1.952772e+08,3.701468e+08,3.766908e+08,1.277478e+08,1.731454e+09,8.391720e+07,2.263871e+08,1.766528e+09,1.731436e+09
4,Afghanistan,1971,0.044998,0.044998,11015857,Afghani,168,9.108281e+08,,4.899411e+07,...,1.675426e+09,2.762965e+08,3.875495e+08,3.944012e+08,1.337541e+08,1.812857e+09,8.786038e+07,2.370192e+08,1.850122e+09,1.812838e+09
4,Afghanistan,1972,0.044998,0.044998,11286753,Afghani,149,8.279453e+08,,4.453522e+07,...,1.498812e+09,2.903704e+08,3.522847e+08,3.585129e+08,1.215827e+08,1.647918e+09,7.986452e+07,2.154773e+08,1.683948e+09,1.647900e+09
4,Afghanistan,1973,0.044998,0.044998,11575305,Afghani,150,8.554869e+08,,4.601854e+07,...,1.508024e+09,2.629629e+08,3.640103e+08,3.704458e+08,1.256302e+08,1.702735e+09,8.252888e+07,2.226243e+08,1.739998e+09,1.702716e+09
4,Afghanistan,1974,0.044998,0.044998,11869879,Afghani,177,1.035913e+09,,5.572166e+07,...,1.778819e+09,3.056792e+08,4.407604e+08,4.485528e+08,1.521192e+08,2.061752e+09,9.991860e+07,2.695259e+08,2.106420e+09,2.061729e+09
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
894,Zambia,2017,9.519501,9.519501,17298054,Kwacha,1448,1.041005e+09,567729313.0,2.455717e+09,...,1.215309e+10,9.465895e+09,2.102369e+09,7.194153e+09,6.187124e+09,2.416662e+10,1.965026e+09,5.323590e+09,2.505604e+10,2.586816e+10
894,Zambia,2018,10.458143,10.458143,17835893,Kwacha,1451,8.791160e+08,929063411.0,2.516889e+09,...,1.183200e+10,9.717269e+09,1.801783e+09,6.556884e+09,5.791375e+09,2.422570e+10,2.490720e+09,5.990720e+09,2.588455e+10,2.631198e+10
894,Zambia,2019,12.889418,12.889418,18380477,Kwacha,1246,6.668385e+08,817104395.0,2.560457e+09,...,9.848112e+09,7.961415e+09,1.582484e+09,5.584425e+09,5.231062e+09,2.153971e+10,2.537646e+09,4.959277e+09,2.291011e+10,2.331036e+10
894,Zambia,2020,18.344093,18.344093,18927715,Kwacha,928,5.391694e+08,439295787.0,2.661361e+09,...,6.969267e+09,5.892353e+09,1.397303e+09,4.269405e+09,4.217431e+09,1.718020e+10,2.258715e+09,3.234123e+09,1.756233e+10,1.811064e+10


#### 4. Analisar os dados da planilha.

> Acima vimos a tabela completa, agora veremos os países individualmente.

> Criando um _set()_ é possível listar os países sem repetí-los.

> Com o método _len()_ é possível contar a quantidade de países que estamos trabalhando.


In [5]:
set_country = set()

for i in sheet['Country']:
    set_country.add(i)

print(len(set_country), 'países') # output: 220 países
display(set_country)

220 países


{'Afghanistan',
 'Albania',
 'Algeria',
 'Andorra',
 'Angola',
 'Anguilla',
 'AntiguaandBarbuda',
 'Argentina',
 'Armenia',
 'Aruba',
 'Australia',
 'Austria',
 'Azerbaijan',
 'Bahamas',
 'Bahrain',
 'Bangladesh',
 'Barbados',
 'Belarus',
 'Belgium',
 'Belize',
 'Benin',
 'Bermuda',
 'Bhutan',
 'Bolivia(PlurinationalStateof)',
 'BosniaandHerzegovina',
 'Botswana',
 'Brazil',
 'BritishVirginIslands',
 'BruneiDarussalam',
 'Bulgaria',
 'BurkinaFaso',
 'Burundi',
 'CaboVerde',
 'Cambodia',
 'Cameroon',
 'Canada',
 'CaymanIslands',
 'CentralAfricanRepublic',
 'Chad',
 'Chile',
 'China',
 'China,HongKongSAR',
 'China,MacaoSAR',
 'Colombia',
 'Comoros',
 'Congo',
 'CookIslands',
 'CostaRica',
 'Croatia',
 'Cuba',
 'Curaçao',
 'Cyprus',
 'Czechia',
 'Czechoslovakia(Former)',
 "Côted'Ivoire",
 'D.P.R.ofKorea',
 'D.R.oftheCongo',
 'Denmark',
 'Djibouti',
 'Dominica',
 'DominicanRepublic',
 'Ecuador',
 'Egypt',
 'ElSalvador',
 'EquatorialGuinea',
 'Eritrea',
 'Estonia',
 'Eswatini',
 'Ethiopia',

#### 5. Criar um gráfico exemplo.

> Para testar se a planilha está em conformidade com o que precisamos, vamos criar um gráfico da população mundial desde o ano de 1970.

> Assim como uma tabela de países e suas respectivas populações em anos definidos.

> Posteriormente podemos criar um gráfico com um país especificamente, desta forma podemos analisar os dados apresentados e confirmar se estão condizentes com a planilha.


In [6]:
fig_pop_yr = px.bar(sheet, x='Year', y='Population', title='População mundial')
fig_pop_yr.show()  # gráfico população mundial

display(sheet[['Country', 'Population', 'Year']])  # tabela países/população/ano

               Country  Population  Year
CountryID                               
4          Afghanistan    10752971  1970
4          Afghanistan    11015857  1971
4          Afghanistan    11286753  1972
4          Afghanistan    11575305  1973
4          Afghanistan    11869879  1974
...                ...         ...   ...
894             Zambia    17298054  2017
894             Zambia    17835893  2018
894             Zambia    18380477  2019
894             Zambia    18927715  2020
894             Zambia    19473125  2021

[10512 rows x 3 columns]


In [11]:
afghanistan = sheet[sheet['Country'] == 'Afghanistan']

afghanistan_fig_pop_yr = px.bar(
    afghanistan, x='Year', y='Population', title='Afghanistan', template="gridon")
afghanistan_fig_pop_yr.show()  # gráfico Afeganistão

#### 6.1. Criar uma função que permita a criação automática de gráficos.

> A partir deste momento podemos começar a trabalhar com os gráficos.

> Inicialmente vamos criar uma lista de países, quase todos os países da América do Sul.

> Posteriormente podemos criar uma função que crie os gráficos correspondentes a cada país da lista.


In [8]:
south_america = ['Argentina', 'Bolivia(PlurinationalStateof)', 'Brazil', 'Chile', 'Colombia',
                 'Ecuador', 'Guyana', 'Paraguay', 'Peru', 'Suriname', 'Uruguay', 'Venezuela(BolivarianRepublicof)']


# função padrão para criar o gráfico população x ano de qualquer país ou lista de países
def create_fig_pop_yr(country):  # a função recebe o nome de um país
    # variável que filtra o país especificado
    name_country = sheet[sheet['Country'] == country]
    # variável que cria a figura do gráfico
    country_fig = px.bar(name_country, x='Year', y='Population', title=country, template="seaborn")
    country_fig.show()  # comando que exibe o gráfico


for country in south_america:  # "for loop" que envia um país por vez para a função de criação de gráficos
    create_fig_pop_yr(country)

#### 6.2. Aperfeiçoando a função.

Mas e se quisermos uma função para criar outros tipos de gráficos?

> A função "create_fig_pop_yr" cria especificamente o gráfico Ano x População dos países especificados, mas podemos criar uma função completa, que aceita outros parâmetros dos eixos x e y.


In [9]:
# função para criar gráficos de acordo com os parâmetros, default: população x ano do Brasil
def create_fig(axis_x='Year', axis_y='Population', country='Brazil'):
    name_country = sheet[sheet['Country'] == country]
    fig = px.bar(name_country, x=axis_x, y=axis_y, title=country, template='plotly_dark')
    fig.show()


create_fig()  # função sendo chamada com os valores 'default'
# função sendo chamada com valores especificados
create_fig('Year', 'GrossDomesticProduct(GDP)', 'UnitedStates')
# função sendo chamada com valores especificados
create_fig('Year', 'PercapitaGNI', 'UnitedStates')