In [90]:
#importação de bibliotecas
import pandas as pd
from pandas_datareader import wb
import numpy as np
import math

In [2]:
# Definição dos dados (BancoMundial)
codigos = ["NE.EXP.GNFS.CD", "NE.IMP.GNFS.CD", "NV.AGR.TOTL.CD", "NY.GDP.MKTP.CD", "NE.RSB.GNFS.CD"]

Informação sobre cada dado:


> NE.EXP.GNFS.CD: Exportação de bens e serviços (em dólar).

> NE.IMP.GNFS.CD: Importação de bens e serviços (em dólar).

> NV.AGR.TOTL.CD: Valor agregado de agricultura, silvicultura e pesca.

> NY.GDP.MKTP.CD: PIB.

> NE.RSB.GNFS.CD: Resultado líquido dos serviços comerciais.











In [46]:
# Download dos dados e criação de um dataframe
data = wb.download(country = "all", indicator = codigos, start = 2019, end = 2019).reset_index()

In [47]:
data.head()

Unnamed: 0,country,year,NE.EXP.GNFS.CD,NE.IMP.GNFS.CD,NV.AGR.TOTL.CD,NY.GDP.MKTP.CD,NE.RSB.GNFS.CD
0,Africa Eastern and Southern,2019,239105600000.0,270233400000.0,126945300000.0,1000834000000.0,
1,Africa Western and Central,2019,176270800000.0,211992800000.0,171153900000.0,822538400000.0,
2,Arab World,2019,1248196000000.0,1093191000000.0,139928500000.0,2868891000000.0,
3,Caribbean small states,2019,,,3129407000.0,77282800000.0,
4,Central Europe and the Baltics,2019,1041857000000.0,1000260000000.0,46099540000.0,1674114000000.0,


In [48]:
# Obtém a lista de paises presentes
paises = wb.get_countries()

In [49]:
#retirando agregações e selecionando apenas os nomes:
paises = paises[paises["region"] != "Aggregates"]
paises_nomes= paises['name']

In [50]:
paises_nomes.head()

0          Aruba
2    Afghanistan
5         Angola
6        Albania
7        Andorra
Name: name, dtype: object

In [51]:
#deixando apenas informações nos dados onde há o nome de um país:
df = data[data["country"].isin(paises_nomes)].dropna()

In [52]:
df.head()

Unnamed: 0,country,year,NE.EXP.GNFS.CD,NE.IMP.GNFS.CD,NV.AGR.TOTL.CD,NY.GDP.MKTP.CD,NE.RSB.GNFS.CD
50,Albania,2019,4821429000.0,6926960000.0,2832293000.0,15401830000.0,-2105530000.0
51,Algeria,2019,39014330000.0,49973960000.0,21189600000.0,171760300000.0,-10959640000.0
54,Angola,2019,28271710000.0,11809430000.0,5463377000.0,69309110000.0,16462280000.0
55,Antigua and Barbuda,2019,1196203000.0,1156390000.0,29251850.0,1675404000.0,39813370.0
56,Argentina,2019,80259480000.0,65845630000.0,23814080000.0,447754700000.0,14413860000.0


In [54]:
#separando os nomes dos países e seus indicadores
x = df.drop(['year','country'],axis=1)
y = df['country']

In [67]:
#normalização dos dados, separando todos os indicadores em um array, e referenciando o mesmo por uma chave
#chave essa sendo o nome do país!

dict_countries = {}
for i in range(len(df)):
  dict_countries[y.iloc[i]] = np.array(x.iloc[i])

In [71]:
dict_countries['Brazil']

array([ 2.64562973e+11,  2.76634807e+11,  7.87720311e+10,  1.87328816e+12,
       -1.20718340e+10])

In [91]:
#no caso queremos analisar o desempenho do Brasil em relação aos outros países, para isso iremos
#inicialmente utilizar o método da distância euclideana!

new_dict = {}
for country in dict_countries:
    if country == 'Brazil':
      pass
    else:
      euclidean_distance = math.dist(dict_countries['Brazil'],dict_countries[country])
      cosine_similarity = np.dot(dict_countries['Brazil'],dict_countries[country])/(np.linalg.norm(dict_countries['Brazil'])*np.linalg.norm(dict_countries[country]))
      new_dict[country] = [euclidean_distance,cosine_similarity]

In [92]:
#Transformando o dicionário resultante em um Dataframe (para facilitar visiualização)

df_new = pd.DataFrame(new_dict)
df_new = df_new.T
df_new.set_axis(['euclidean_distance_BR', 'cosine_similarity_BR'], axis='columns', inplace=True)
df_new.head()

  df_new.set_axis(['euclidean_distance_BR', 'cosine_similarity_BR'], axis='columns', inplace=True)


Unnamed: 0,euclidean_distance_BR,cosine_similarity_BR
Albania,1896791000000.0,0.942001
Algeria,1732271000000.0,0.984082
Angola,1840243000000.0,0.946549
Antigua and Barbuda,1911683000000.0,0.835655
Argentina,1454052000000.0,0.998565


In [93]:
# Ordenar o DataFrame por idade em ordem decrescente (um leva em conta a distância euclideana o outro a similaridade de cossenos)
df_ordenado_ED = df_new.sort_values(by='euclidean_distance_BR', ascending=False)
df_ordenado_CS = df_new.sort_values(by='cosine_similarity_BR', ascending=False)

#Visualização Final: TOP 5 países mais similares a economia brasileira em 2019!

In [94]:
df_ordenado_ED.head()

Unnamed: 0,euclidean_distance_BR,cosine_similarity_BR
United States,19852470000000.0,0.999012
China,12858820000000.0,0.998332
Japan,3365125000000.0,0.998604
Germany,2873396000000.0,0.935519
Kiribati,1913451000000.0,0.688861


In [95]:
df_ordenado_CS.head()

Unnamed: 0,euclidean_distance_BR,cosine_similarity_BR
United States,19852470000000.0,0.999012
Cuba,1808944000000.0,0.998754
Japan,3365125000000.0,0.998604
Argentina,1454052000000.0,0.998565
China,12858820000000.0,0.998332


#Visualização final: TOP 5 países menos similares a economia brasileira em 2019!

In [96]:
df_ordenado_ED.tail()

Unnamed: 0,euclidean_distance_BR,cosine_similarity_BR
"Korea, Rep.",555781400000.0,0.957158
Italy,499917700000.0,0.978997
Australia,491727200000.0,0.99287
Canada,455136200000.0,0.971913
Russian Federation,324856600000.0,0.986538


In [97]:
df_ordenado_CS.tail()

Unnamed: 0,euclidean_distance_BR,cosine_similarity_BR
Malta,1891305000000.0,0.579599
Djibouti,1909243000000.0,0.576395
Singapore,1579082000000.0,0.569907
"Hong Kong SAR, China",1601100000000.0,0.549017
Luxembourg,1816264000000.0,0.524871
