## Descrição

## Importando bibliotecas

In [1]:
import pandas as pd
import unidecode

## Funções usadas para facilitar

In [2]:
def limpa_string(string: str) -> str:
    
    string_limpa = unidecode.unidecode(string).replace(' ','').lower()
    return string_limpa

## Acessando e formatando fontes externas

### Informação de continente
Arquivo gerado com o auxilio do ChatGPT:
- https://chat.openai.com/share/03e30b53-c1cb-41d9-8521-98c130cba817

In [3]:
arquivo = '../dados/external/pais_e_continente_2.txt'
df_continente = pd.read_csv(arquivo, delimiter='|')
df_continente.columns = ['pais', 'continente', 'country_code']
df_continente['pais_code'] = df_continente['pais'].apply(limpa_string)
df_continente.head()

Unnamed: 0,pais,continente,country_code,pais_code
0,Afeganistão,Ásia,AFG,afeganistao
1,África do Sul,África,ZAF,africadosul
2,Albânia,Europa,ALB,albania
3,Alemanha,Europa,DEU,alemanha
4,Andorra,Europa,AND,andorra


In [4]:
df_continente[df_continente['pais'].str.startswith('Fin')]

Unnamed: 0,pais,continente,country_code,pais_code
72,Finlândia,Europa,FIN,finlandia


In [5]:
df_continente[df_continente['country_code'] == 'AFG']

Unnamed: 0,pais,continente,country_code,pais_code
0,Afeganistão,Ásia,AFG,afeganistao


***

### Informação de inflação
- https://www.worldbank.org/en/research/brief/inflation-database
- type: Headline Consumer Price Inflation
- "Note: For those countries where annual data are not yet availalbe for 2022, annual averages of monthly or quarterly inflation in 2022 with available data or the projections by the IMF World Economic Outlook (October 2022) are included instead."

In [6]:
df_inflacao = pd.read_excel('../dados/external/Inflation-data.xlsx',
                           sheet_name='hcpi_a').fillna(0)

columns_filter = list(df_inflacao.columns[5:-2])
columns_filter.insert(0, 'Country Code')
df_inflacao = df_inflacao[columns_filter]
df_inflacao.head()

Unnamed: 0,Country Code,1970,1971,1972,1973,1974,1975,1976,1977,1978,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,ABW,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,-2.37,0.42,0.48,-0.89,-0.474,3.58,4.257,1.222,0.744,5.52
1,AFG,25.51,25.51,-12.52,-10.68,10.23,11.85,0.6,7.65,5.0,...,7.39,4.67,-0.66,4.38,4.976,0.63,2.302,5.443,5.062,0.0
2,AGO,7.97,5.78,15.8,15.67,27.42,29.0,80.699997,69.010002,48.459999,...,8.782,7.298,9.159,32.377731,29.844,19.63,17.079,21.024,23.846111,23.826819
3,ALB,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,1.934749,1.621947,1.910179,1.291234,1.987,2.03,1.411,1.620887,2.041472,6.725203
4,ARE,21.984699,21.984699,21.984699,21.984699,21.984699,21.984699,21.984699,21.9697,13.0435,...,1.094026,2.344322,4.067132,1.619795,1.967,3.06,-1.931,-2.079403,0.18,4.827889


In [7]:
df_inflacao_melted = df_inflacao.melt(id_vars=['Country Code'], value_vars=df_inflacao.columns[1:])
df_inflacao_melted.columns = ['country_code', 'ano', 'inflacao']
df_inflacao_melted = df_inflacao_melted.round(1)
df_inflacao_melted.head()

Unnamed: 0,country_code,ano,inflacao
0,ABW,1970,0.0
1,AFG,1970,25.5
2,AGO,1970,8.0
3,ALB,1970,0.0
4,ARE,1970,22.0


In [18]:
df_inflacao_melted[df_inflacao_melted['country_code'] == 'BRA']

Unnamed: 0,country_code,ano,inflacao
23,BRA,1970,22.3
228,BRA,1971,20.1
433,BRA,1972,16.5
638,BRA,1973,12.6
843,BRA,1974,27.6
1048,BRA,1975,28.9
1253,BRA,1976,42.0
1458,BRA,1977,43.7
1663,BRA,1978,38.7
1868,BRA,1979,53.9


***

## Juntando informações

Lendo dados formatados de exportações

In [8]:
df_exportacoes = pd.read_csv('../dados/formatted/df_exportacao_2.csv', delimiter='|')
df_exportacoes['pais_code'] = df_exportacoes['pais_destino'].apply(limpa_string)
df_exportacoes.head()

Unnamed: 0,ano,pais_origem,pais_destino,tipo,quantidade,valor,pais_code
0,1970,Brasil,Afeganistão,Vinho de mesa,0,0,afeganistao
1,1970,Brasil,África do Sul,Vinho de mesa,0,0,africadosul
2,1970,Brasil,"Alemanha, República Democrática",Vinho de mesa,0,0,"alemanha,republicademocratica"
3,1970,Brasil,Angola,Vinho de mesa,0,0,angola
4,1970,Brasil,Anguilla,Vinho de mesa,0,0,anguilla


In [9]:
df_exportacoes[df_exportacoes['pais_destino'].str.startswith('Ru')].pais_destino.value_counts()

Russia                   52
Russia,  Federação da    52
Name: pais_destino, dtype: int64

### Juntando com informação de continente e country code

In [10]:
df_com_continente = pd.merge(df_exportacoes, df_continente,
        left_on='pais_code', right_on='pais_code',
        how='left')

In [11]:
df_com_continente[df_com_continente['continente'].isna()].pais_destino.unique()

array(['Outros(1)', 'Provisão de Navios e Aeronaves'], dtype=object)

##### Valores nulos

In [12]:
df_com_continente[(df_com_continente['continente'].isna()) 
                  & (df_com_continente['ano'] > 2006)].pais_destino.value_counts()

Outros(1)                         15
Provisão de Navios e Aeronaves    15
Name: pais_destino, dtype: int64

### Juntando informações com inflação

In [13]:
df_com_inflacao = pd.merge(df_com_continente, df_inflacao_melted,
        left_on=['country_code', 'ano'], right_on=['country_code', 'ano'],
        how='left')

##### Valores nulos

In [14]:
df_com_inflacao[df_com_inflacao['inflacao'].isna()].pais_destino.value_counts().sort_values()

Outros(1)                              52
Alemanha, República Democrática da     52
Provisão de Navios e Aeronaves         52
Taiwan                                 52
Jérsei                                 52
Guadalupe                              52
Faroé, Ilhas                           52
Falkland (Ilhas Malvinas)              52
Coreia do Norte                        52
Anguilla                               52
Falkland (Malvinas)                    52
Iugoslâvia                             52
Taiwan (FORMOSA)                      104
Bermudas                              104
Mônaco                                104
Alemanha, República Democrática       104
Ilhas Virgens                         104
Ilha de Man                           156
Guiana Francesa                       156
Cuba                                  156
Antilhas Holandesas                   156
Gibraltar                             208
Taiwan (Formosa)                      208
Name: pais_destino, dtype: int64

## Escrevendo dado "enriquecido"

In [15]:
df_com_inflacao[['ano', 'pais_origem', 'pais_destino', 'tipo', 'quantidade',
                'valor', 'continente', 'country_code', 'inflacao']].head()

Unnamed: 0,ano,pais_origem,pais_destino,tipo,quantidade,valor,continente,country_code,inflacao
0,1970,Brasil,Afeganistão,Vinho de mesa,0,0,Ásia,AFG,25.5
1,1970,Brasil,África do Sul,Vinho de mesa,0,0,África,ZAF,4.1
2,1970,Brasil,"Alemanha, República Democrática",Vinho de mesa,0,0,Europa,DDR,
3,1970,Brasil,Angola,Vinho de mesa,0,0,África,AGO,8.0
4,1970,Brasil,Anguilla,Vinho de mesa,0,0,Américas,AIA,


In [16]:
# df_com_inflacao[['ano', 'pais_origem', 'pais_destino', 'tipo', 'quantidade',
#                 'valor', 'continente', 'country_code', 'inflacao']].to_csv('../dados/formatted/df_exportacao_3.csv', sep='|', encoding='utf-8', index=False)