# Tratamento dos Dados

In [75]:
# Importando as bibliotecas
import pandas as pd
import numpy as np

**O tratamento de cada tabela (espumantes, vinho de mesa, uvas e suco de uvas) será basicamente o mesmo. No final iremos juntar os quadros arquivos tratados em um único arquivo Excel que será utilizado para análise**

## 1 - Trabalhando com a tabela de espumantes

In [76]:
# Importando o csv de espumantes
espumantes = pd.read_csv('dados_embrapa/ExpEspumante.csv', sep = ';', encoding='utf-8')
espumantes.head()

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2018,2018.1,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1
0,1,Alemanha,0,0,0,0,0,0,0,0,...,4092,21373,1003,5466,2388,14767,142,265,1164,6560
1,2,Angola,0,0,0,0,0,0,0,0,...,63,280,1007,3615,24,38,0,0,26383,141588
2,3,Antigua e Barbuda,0,0,0,0,0,0,0,0,...,0,0,7,34,32,328,10,82,65,146
3,4,Antilhas Holandesas,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,5,Argentina,0,0,0,0,0,0,0,0,...,4342,17243,0,0,315,894,0,0,0,0


In [77]:
# Verificando a quantidade de linhas e colunas do dataframe
linhas, colunas = espumantes.shape
print(f'Quantidade Linhas: {linhas}')
print(f'Quantidade Colunas: {colunas}')

Quantidade Linhas: 101
Quantidade Colunas: 108


In [78]:
# Verificando a quantidade de países do dataframe
len(espumantes['País'].unique())

101

In [79]:
# Padronizando nomes de países
# Verificamos que o mesmo país estava com escrito com acento e sem acento e outros erros de digitação.
# Foi criado esse dicionário para padronizar os nomes
# Padronizando os nomes dos países
mapeamento = {
                    'Alemanha, República Democrática': 'Alemanha', # destruição do muro de Berlim foi em 1989
                    'Alemanha, República Democrática da': 'Alemanha',
                    'África do Sul': 'Africa do Sul',
                    'Antígua e Barbuda': 'Antigua e Barbuda',
                    'Arábia Saudita': 'Arabia Saudita',
                    'Austrália': 'Australia',
                    'Áustria': 'Austria',
                    'Barein': 'Bahrein',
                    'Belice': 'Belize',
                    'Bélgica': 'Belgica',
                    'Birmânia': 'Myanmar', # trocou de nome em 1989
                    'Bósnia-Herzegovina': 'Bosnia',
                    'Bulgária': 'Bulgaria',
                    'Burquina Faso': 'Burkina Faso',
                    'Canadá': 'Canada',
                    'Cingapura': 'Singapura',
                    'Cocos (Keeling)': 'Ilhas Cocos',
                    'Colômbia': 'Colombia',
                    'Coreia do Sul, Republica da': 'Coreia do Sul',
                    'Coréia do Sul': 'Coreia do Sul',
                    'Coreia, Republica Sul': 'Coreia do Sul',
                    # Coveite não está errado, mas Kuwait nome mais popular segundo google trends
                    'Coveite': 'Kuwait',
                    'Djibuti': 'Djibouti',
                    'Dominica, Ilha de': "Dominica", # padronizar?
                    'Emirados Árabes Unidos': 'Emirados Arabes Unidos',
                    'Eslovaca, Republica': 'Eslovaquia',
                    'Eslovênia': 'Eslovenia',
                    'Estados Unidos': 'Estados Unidos da América', # nome completo, permite usar a sigla EUA
                    'Estônia': 'Estonia',
                    'Falkland (Ilhas Malvinas)': 'Ilhas Malvinas', # padronizar?
                    'Falkland (Malvinas)': 'Ilhas Malvinas', # padronizar?
                    'Filânldia': 'Finlandia',
                    'Finlândia': 'Finlandia',
                    'Geórgia': 'Georgia',
                    'Grêcia': 'Grecia',
                    'Grécia': 'Grecia',
                    'Guiné Bissau': 'Guine-Bissau', 
                    'Guine Bissau': 'Guine-Bissau',
                    'Guiné-Bissau': 'Guine-Bissau',
                    'Guiné Equatorial': 'Guine Equatorial',
                    'Índia': 'India',
                    'Indonêsia': 'Indonesia',
                    'Man, Ilha': 'Ilha de Man', # padronizar?
                    'Virgens, Ilhas': 'Ilhas Virgens', # padronizar?
                    'Islândia': 'Islandia',
                    'Indonésia': 'Indonesia',
                    'Itália': 'Italia',
                    'Iugoslâvia': 'Iugoslavia', # se dissolveu entre 1991 e 1992
                    'Jérsei': 'Jersey', # nome mais popular (comparar google trends)
                    'Letônia': 'Letonia',
                    'Libêria': 'Liberia',
                    'Libéria': 'Liberia',
                    'Lituânia': 'Lituania',
                    'Malásia': 'Malasia',
                    'Maldivas, Ilhas': 'Maldivas', # padronizar?
                    'Maurício, Ilhas': 'Mauricio', # padronizar?
                    'México': 'Mexico',
                    'Nova Zelândia': 'Nova Zelandia',
                    'Paises Baixos (Holanda)': 'Holanda', 
                    'Países Baixos': 'Holanda',
                    'Panamá': 'Panama',
                    'Polônia': 'Polonia',
                    'Namíbia': 'Namibia',
                    'Nicarágua': 'Nicaragua',
                    'Quênia': 'Quenia',
                    'Dominicana, República': 'Republica Dominicana', # padronizar?
                    'República Dominicana': 'Republica Dominicana',
                    'Tcheca, República': 'Republica Tcheca', # padronizar?
                    'Centro-Africana, República': 'República Centro Africana', # padronizar?
                    'República Federativa da Rússia': 'Russia',
                    'Russia,  Federação da': 'Russia',
                    'Rússia': 'Russia',
                    'Suécia': 'Suecia',
                    'Suiça': 'Suica',
                    'Suíça': 'Suica',
                    'São Tomé e Príncipe': 'Sao Tome e Principe',
                    'São Tomé e Principe': 'Sao Tome e Principe',
                    'Tailândia': 'Tailandia',
                    'Taiwan (FORMOSA)': 'Taiwan', 
                    'Taiwan (Formosa)': 'Taiwan',
                    'Tcheca, República': 'Republica Tcheca',
                    'Trinidade Tobago': 'Trindade e Tobago', 
                    'Trinidade e Tobago': 'Trindade e Tobago',
                    'Turcas e Caicos, ilhas': 'Ilhas Turcas e Caicos',
                    'Suazilândia': 'Essuatini', # mudou de nome em 2018
                    'Outros(1)': 'Outros',
                    'Provisão de Navios e Aeronaves': 'Provisao de Navios e Aeronaves'
        }

In [80]:
# Aplicando a padronização dos dados aos países
espumantes["País"] = espumantes["País"].replace(mapeamento)

In [81]:
# Verificando se ficou algum erro ainda nos nomes dos países
espumantes["País"].unique()

array(['Alemanha', 'Angola', 'Antigua e Barbuda', 'Antilhas Holandesas',
       'Argentina', 'Aruba', 'Australia', 'Bahamas', 'Bangladesh',
       'Barbados', 'Belgica', 'Benin', 'Bermudas', 'Bolívia', 'Bosnia',
       'Bulgaria', 'Cabo Verde', 'Camarões', 'Canada', 'Catar',
       'Cayman, Ilhas', 'Chile', 'China', 'Chipre', 'Singapura',
       'Colombia', 'Coreia do Sul', 'Costa Rica', 'Cuba', 'Curaçao',
       'Dinamarca', 'Dominica', 'El Salvador', 'Emirados Arabes Unidos',
       'Equador', 'Espanha', 'Estados Unidos da América', 'Estonia',
       'Ilhas Malvinas', 'Filipinas', 'Finlandia', 'França', 'Gana',
       'Gibraltar', 'Granada', 'Grecia', 'Guatemala', 'Guiana',
       'Guine Equatorial', 'Guine-Bissau', 'Haiti', 'Honduras',
       'Hong Kong', 'Hungria', 'Ilha de Man', 'India', 'Iraque',
       'Irlanda', 'Islandia', 'Italia', 'Japão', 'Jordânia', 'Letonia',
       'Líbano', 'Liberia', 'Luxemburgo', 'Maldivas', 'Malta',
       'Marshall, Ilhas', 'Montenegro', 'Mexico', '

In [82]:
# Transformação das colunas em linhas utilizando a função melt() do pandas (tabela pivô)
tabela_melted = pd.melt(espumantes, id_vars = ['Id', 'País'], var_name = 'Ano', value_name='Valor')
tabela_melted

Unnamed: 0,Id,País,Ano,Valor
0,1,Alemanha,1970,0
1,2,Angola,1970,0
2,3,Antigua e Barbuda,1970,0
3,4,Antilhas Holandesas,1970,0
4,5,Argentina,1970,0
...,...,...,...,...
10701,97,Uruguai,2022.1,87895
10702,98,Vanuatu,2022.1,0
10703,99,Venezuela,2022.1,0
10704,100,Vietnã,2022.1,19


Quando realizamos o "melt" dessa base de dados, a coluna "Ano" apresentou um seguinte padrão: o ano que continha um ".1" era o valor em dolar que o país destino pagou para importar o vinho brasileiro. Já o ano em os caracteres ".1" eram os valores em litros importados. Dessa maneiro extrairemos duas tabelas da tabela melted e depois realizaremos o junção da duas

## 1.1 - Trabalhando com a tabela de dolares

In [83]:
# Filtrando a tabela dos valores em dolar para depois unir com a tabela com valores em quantidade litros (kg)
# As linhas com anos que tem '.' são referentes aos valores em dolar

# Separa uma tabela com valores que contenham apenas as linhas com os ano que estão com '.'
tabela_dolar = tabela_melted[tabela_melted.Ano.str.contains(".", regex=False)]

# Renomeia a coluna valor para "Valor_Dolar"
tabela_dolar = tabela_dolar.rename(columns = {'Valor':'Valor_Dolar'})

In [84]:
# Verificando se possui apenas anos com "." na coluna "Ano"
tabela_dolar['Ano'].unique()

array(['1970.1', '1971.1', '1972.1', '1973.1', '1974.1', '1975.1',
       '1976.1', '1977.1', '1978.1', '1979.1', '1980.1', '1981.1',
       '1982.1', '1983.1', '1984.1', '1985.1', '1986.1', '1987.1',
       '1988.1', '1989.1', '1990.1', '1991.1', '1992.1', '1993.1',
       '1994.1', '1995.1', '1996.1', '1997.1', '1998.1', '1999.1',
       '2000.1', '2001.1', '2002.1', '2003.1', '2004.1', '2005.1',
       '2006.1', '2007.1', '2008.1', '2009.1', '2010.1', '2011.1',
       '2012.1', '2013.1', '2014.1', '2015.1', '2016.1', '2017.1',
       '2018.1', '2019.1', '2020.1', '2021.1', '2022.1'], dtype=object)

In [85]:
# Remove os dois últimos caracteres da coluna 'Ano' (".1")
tabela_dolar['Ano'] = [x[:-2] for x in tabela_dolar['Ano']]

# Verificando os valores unicos da coluna
tabela_dolar['Ano'].unique()

# Verificando tabela dolar
tabela_dolar.head()

Unnamed: 0,Id,País,Ano,Valor_Dolar
101,1,Alemanha,1970,0
102,2,Angola,1970,0
103,3,Antigua e Barbuda,1970,0
104,4,Antilhas Holandesas,1970,0
105,5,Argentina,1970,0


In [86]:
# Criando uma coluna 'ID' para conseguir fazer o merge das duas bases
tabela_dolar['ID'] = tabela_dolar['País'] + '-' + tabela_dolar['Ano']
tabela_dolar

Unnamed: 0,Id,País,Ano,Valor_Dolar,ID
101,1,Alemanha,1970,0,Alemanha-1970
102,2,Angola,1970,0,Angola-1970
103,3,Antigua e Barbuda,1970,0,Antigua e Barbuda-1970
104,4,Antilhas Holandesas,1970,0,Antilhas Holandesas-1970
105,5,Argentina,1970,0,Argentina-1970
...,...,...,...,...,...
10701,97,Uruguai,2022,87895,Uruguai-2022
10702,98,Vanuatu,2022,0,Vanuatu-2022
10703,99,Venezuela,2022,0,Venezuela-2022
10704,100,Vietnã,2022,19,Vietnã-2022


In [87]:
# Removendo a coluna 'Id' gerada pelo pandas
tabela_dolar.drop(columns=['Id'], inplace = True)
tabela_dolar

Unnamed: 0,País,Ano,Valor_Dolar,ID
101,Alemanha,1970,0,Alemanha-1970
102,Angola,1970,0,Angola-1970
103,Antigua e Barbuda,1970,0,Antigua e Barbuda-1970
104,Antilhas Holandesas,1970,0,Antilhas Holandesas-1970
105,Argentina,1970,0,Argentina-1970
...,...,...,...,...
10701,Uruguai,2022,87895,Uruguai-2022
10702,Vanuatu,2022,0,Vanuatu-2022
10703,Venezuela,2022,0,Venezuela-2022
10704,Vietnã,2022,19,Vietnã-2022


## 1.2 - Trabalhando com a tabela de litros (kg) de espumantes

In [88]:
# Removendo as linhas da coluna 'Ano' que não contem '.1' -> referente aos valores de litros
substring = '.1'
tabela_quantidade_kg = tabela_melted[tabela_melted['Ano'].str.contains(substring, regex=False) == False]
tabela_quantidade_kg

Unnamed: 0,Id,País,Ano,Valor
0,1,Alemanha,1970,0
1,2,Angola,1970,0
2,3,Antigua e Barbuda,1970,0
3,4,Antilhas Holandesas,1970,0
4,5,Argentina,1970,0
...,...,...,...,...
10600,97,Uruguai,2022,10200
10601,98,Vanuatu,2022,0
10602,99,Venezuela,2022,0
10603,100,Vietnã,2022,16


In [89]:
# Verificando a tabela gerada
tabela_quantidade_kg.Ano.unique()

array(['1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985',
       '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993',
       '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001',
       '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009',
       '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017',
       '2018', '2019', '2020', '2021', '2022'], dtype=object)

In [90]:
# Renomenado a coluna 'Valor' do dataframe
tabela_quantidade_kg = tabela_quantidade_kg.rename(columns={'Valor':'Valor_Quantidade_Kg'})

# Ordenando o dataframe
tabela_quantidade_kg.sort_values(by=['País', 'Ano'])
tabela_quantidade_kg

Unnamed: 0,Id,País,Ano,Valor_Quantidade_Kg
0,1,Alemanha,1970,0
1,2,Angola,1970,0
2,3,Antigua e Barbuda,1970,0
3,4,Antilhas Holandesas,1970,0
4,5,Argentina,1970,0
...,...,...,...,...
10600,97,Uruguai,2022,10200
10601,98,Vanuatu,2022,0
10602,99,Venezuela,2022,0
10603,100,Vietnã,2022,16


In [91]:
# Criando uma coluna 'ID' para conseguir fazer o merge das duas bases (valor dolar + quantidade kg)
# Para termos uma única base de espumantes
# Para isso juntamos o nome do pais + "-" + ano
tabela_quantidade_kg['ID'] = tabela_quantidade_kg['País'] + '-' + tabela_quantidade_kg['Ano']
tabela_quantidade_kg.head()

Unnamed: 0,Id,País,Ano,Valor_Quantidade_Kg,ID
0,1,Alemanha,1970,0,Alemanha-1970
1,2,Angola,1970,0,Angola-1970
2,3,Antigua e Barbuda,1970,0,Antigua e Barbuda-1970
3,4,Antilhas Holandesas,1970,0,Antilhas Holandesas-1970
4,5,Argentina,1970,0,Argentina-1970


In [92]:
# Removendo a coluna 'Id' gerada pelo pandas
tabela_quantidade_kg.drop(columns=['Id'], inplace = True)
tabela_quantidade_kg

Unnamed: 0,País,Ano,Valor_Quantidade_Kg,ID
0,Alemanha,1970,0,Alemanha-1970
1,Angola,1970,0,Angola-1970
2,Antigua e Barbuda,1970,0,Antigua e Barbuda-1970
3,Antilhas Holandesas,1970,0,Antilhas Holandesas-1970
4,Argentina,1970,0,Argentina-1970
...,...,...,...,...
10600,Uruguai,2022,10200,Uruguai-2022
10601,Vanuatu,2022,0,Vanuatu-2022
10602,Venezuela,2022,0,Venezuela-2022
10603,Vietnã,2022,16,Vietnã-2022


## 1.3 Juntando as duas bases de dados

In [93]:
# Realizando a junção das duas bases de espumantes através da função merge() e usando a coluna "ID" para juntar
tabela_final = pd.merge(tabela_quantidade_kg, tabela_dolar, on = 'ID')
tabela_final

Unnamed: 0,País_x,Ano_x,Valor_Quantidade_Kg,ID,País_y,Ano_y,Valor_Dolar
0,Alemanha,1970,0,Alemanha-1970,Alemanha,1970,0
1,Angola,1970,0,Angola-1970,Angola,1970,0
2,Antigua e Barbuda,1970,0,Antigua e Barbuda-1970,Antigua e Barbuda,1970,0
3,Antilhas Holandesas,1970,0,Antilhas Holandesas-1970,Antilhas Holandesas,1970,0
4,Argentina,1970,0,Argentina-1970,Argentina,1970,0
...,...,...,...,...,...,...,...
5454,Uruguai,2022,10200,Uruguai-2022,Uruguai,2022,87895
5455,Vanuatu,2022,0,Vanuatu-2022,Vanuatu,2022,0
5456,Venezuela,2022,0,Venezuela-2022,Venezuela,2022,0
5457,Vietnã,2022,16,Vietnã-2022,Vietnã,2022,19


In [94]:
# Removendo colunas duplicadas da tabela final
tabela_final.drop(columns=['País_x', 'Ano_x', 'ID'], inplace=True)

# Renomeando as colunas que ficaram no dataframe
tabela_final.rename(columns={'País_y': 'Pais', 'Ano_y':'Ano', 'Valor_Quantidade_Kg': 'Valor_KG'}, inplace=True)

# Visualizando o resultado
tabela_final.head()

Unnamed: 0,Valor_KG,Pais,Ano,Valor_Dolar
0,0,Alemanha,1970,0
1,0,Angola,1970,0
2,0,Antigua e Barbuda,1970,0
3,0,Antilhas Holandesas,1970,0
4,0,Argentina,1970,0


In [95]:
# Criando a coluna "Tipo" e especificando que essa base é refente aos valores de "Espumantes"
tabela_final['Tipo'] = 'Espumante'

# Copiando o dataframe para a variável espumante
tabela_espumante = tabela_final.copy()

# Ordenando os valores
tabela_espumante.sort_values(by=['Pais', 'Ano'])

Unnamed: 0,Valor_KG,Pais,Ano,Valor_Dolar,Tipo
0,0,Alemanha,1970,0,Espumante
103,0,Alemanha,1971,0,Espumante
206,0,Alemanha,1972,0,Espumante
309,0,Alemanha,1973,0,Espumante
412,0,Alemanha,1974,0,Espumante
...,...,...,...,...,...
5045,0,Vietnã,2018,0,Espumante
5148,0,Vietnã,2019,0,Espumante
5251,0,Vietnã,2020,0,Espumante
5354,144,Vietnã,2021,374,Espumante


In [96]:
# Reordenando as colunas para facilitar a visualização
tabela_espumante = tabela_espumante[['Pais', 'Ano', 'Tipo', 'Valor_KG', 'Valor_Dolar']]
tabela_espumante

Unnamed: 0,Pais,Ano,Tipo,Valor_KG,Valor_Dolar
0,Alemanha,1970,Espumante,0,0
1,Angola,1970,Espumante,0,0
2,Antigua e Barbuda,1970,Espumante,0,0
3,Antilhas Holandesas,1970,Espumante,0,0
4,Argentina,1970,Espumante,0,0
...,...,...,...,...,...
5454,Uruguai,2022,Espumante,10200,87895
5455,Vanuatu,2022,Espumante,0,0
5456,Venezuela,2022,Espumante,0,0
5457,Vietnã,2022,Espumante,16,19


In [97]:
# Exportando o dataframe para Excel
tabela_espumante.to_excel('outputs/Exportacao_Espumante_Tratado.xlsx')

# 2 - Trabalhando com as tabelas de vinhos de mesa

In [98]:
# Importando o csv de vinhos de mesa
vinhos_mesa = pd.read_csv('dados_embrapa/ExpVinho.csv', sep = ';', encoding='utf-8')
vinhos_mesa.head()

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2018,2018.1,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1
0,1,Afeganistão,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,11,46,0,0
1,2,África do Sul,0,0,0,0,0,0,0,0,...,0,0,26,95,4,21,0,0,0,0
2,3,"Alemanha, República Democrática",0,0,0,0,4168,2630,12000,8250,...,10794,45382,3660,25467,6261,32605,2698,6741,7630,45367
3,4,Angola,0,0,0,0,0,0,0,0,...,477,709,345,1065,0,0,0,0,4068,4761
4,5,Anguilla,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [99]:
# Verificando a quantidade de linhas e colunas do dataframe
linhas_2, colunas_2 = vinhos_mesa.shape
print(f'Quantidade Linhas: {linhas_2}')
print(f'Quantidade Colunas: {colunas_2}')

Quantidade Linhas: 128
Quantidade Colunas: 108


In [100]:
# Verificando a quantidade de países do dataframe
len(vinhos_mesa['País'].unique())

128

In [101]:
# Aplicando a padronização dos dados aos países
vinhos_mesa["País"] = vinhos_mesa["País"].replace(mapeamento)

In [102]:
# Verificando se ficou algum erro ainda nos nomes dos países
vinhos_mesa['País'].unique()

array(['Afeganistão', 'Africa do Sul', 'Alemanha', 'Angola', 'Anguilla',
       'Antigua e Barbuda', 'Antilhas Holandesas', 'Argentina', 'Aruba',
       'Australia', 'Austria', 'Bahamas', 'Bangladesh', 'Barbados',
       'Bahrein', 'Belgica', 'Belize', 'Benin', 'Bolívia', 'Bosnia',
       'Brasil', 'Bulgaria', 'Cabo Verde', 'Camarões', 'Canada', 'Catar',
       'Cayman, Ilhas', 'Chile', 'China', 'Chipre', 'Singapura',
       'Cocos (Keeling), Ilhas', 'Colombia', 'Comores', 'Congo',
       'Coreia do Sul', 'Costa do Marfim', 'Costa Rica', 'Croácia',
       'Cuba', 'Curaçao', 'Dinamarca', 'Dominica', 'El Salvador',
       'Emirados Arabes Unidos', 'Equador', 'Eslovaquia', 'Espanha',
       'Estados Unidos da América', 'Estonia', 'Filipinas', 'Finlandia',
       'França', 'Gana', 'Gibraltar', 'Granada', 'Grecia', 'Guatemala',
       'Guiana', 'Guiana Francesa', 'Guine-Bissau', 'Guine Equatorial',
       'Haiti', 'Honduras', 'Hong Kong', 'Hungria', 'Ilha de Man',
       'Ilhas Virgens', 'I

In [103]:
# Transformação das colunas em linhas utilizando a função melt() do pandas (tabela pivô)
tabela_melted_vinhos = pd.melt(vinhos_mesa, id_vars = ['Id', 'País'], var_name = 'Ano', value_name='Valor')
tabela_melted_vinhos.sort_values(by=['País', 'Ano'])

Unnamed: 0,Id,País,Ano,Valor
0,1,Afeganistão,1970,0
128,1,Afeganistão,1970.1,0
256,1,Afeganistão,1971,0
384,1,Afeganistão,1971.1,0
512,1,Afeganistão,1972,0
...,...,...,...,...
13055,128,Vietnã,2020.1,584
13183,128,Vietnã,2021,0
13311,128,Vietnã,2021.1,0
13439,128,Vietnã,2022,130


Quando realizamos o "melt" dessa base de dados, a coluna "Ano" apresentou um seguinte padrão: o ano que continha um ".1" era o valor em dolar que o país destino pagou para importar o vinho brasileiro. Já o ano em os caracteres ".1" eram os valores em litros importados. Dessa maneiro extrairemos duas tabelas da tabela melted e depois realizaremos o junção da duas

## 2.1 - Trabalhando com a tabela de dolares

In [104]:
# Filtrando a tabela dos valores em dolar para depois unir com a tabela com valores em quantidade litros (kg)
# As linhas com anos que tem '.' são referentes aos valores em dolar

# Separa uma tabela com valores que contenham apenas as linhas com os ano que estão com '.'
tabela_dolar_vinhos = tabela_melted_vinhos[tabela_melted_vinhos.Ano.str.contains(".", regex=False)]
tabela_dolar_vinhos

Unnamed: 0,Id,País,Ano,Valor
128,1,Afeganistão,1970.1,0
129,2,Africa do Sul,1970.1,0
130,3,Alemanha,1970.1,0
131,4,Angola,1970.1,0
132,5,Anguilla,1970.1,0
...,...,...,...,...
13563,124,Tuvalu,2022.1,0
13564,125,Uruguai,2022.1,997367
13565,126,Vanuatu,2022.1,0
13566,127,Venezuela,2022.1,32351


In [105]:
# Remove os dois últimos caracteres da coluna 'Ano' para remover o caracter '.1'
tabela_dolar_vinhos['Ano'] = [x[:-2] for x in tabela_dolar_vinhos['Ano']]

# Verificando os valores unicos da coluna
tabela_dolar_vinhos['Ano'].unique()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tabela_dolar_vinhos['Ano'] = [x[:-2] for x in tabela_dolar_vinhos['Ano']]


array(['1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985',
       '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993',
       '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001',
       '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009',
       '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017',
       '2018', '2019', '2020', '2021', '2022'], dtype=object)

In [106]:
tabela_dolar_vinhos

Unnamed: 0,Id,País,Ano,Valor
128,1,Afeganistão,1970,0
129,2,Africa do Sul,1970,0
130,3,Alemanha,1970,0
131,4,Angola,1970,0
132,5,Anguilla,1970,0
...,...,...,...,...
13563,124,Tuvalu,2022,0
13564,125,Uruguai,2022,997367
13565,126,Vanuatu,2022,0
13566,127,Venezuela,2022,32351


In [107]:
# Renomeando as colunas e depois ordenando
tabela_dolar_vinhos = tabela_dolar_vinhos.rename(columns={'Valor':'Valor_Dolar', 'País': 'Pais'})
tabela_dolar_vinhos.sort_values(by=['Pais', 'Ano'])

Unnamed: 0,Id,Pais,Ano,Valor_Dolar
128,1,Afeganistão,1970,0
384,1,Afeganistão,1971,0
640,1,Afeganistão,1972,0
896,1,Afeganistão,1973,0
1152,1,Afeganistão,1974,0
...,...,...,...,...
12543,128,Vietnã,2018,0
12799,128,Vietnã,2019,32
13055,128,Vietnã,2020,584
13311,128,Vietnã,2021,0


In [108]:
# Criando uma coluna 'ID' para conseguir fazer o merge das duas tabelas
tabela_dolar_vinhos['ID'] = tabela_dolar_vinhos['Pais'] + '-' + tabela_dolar_vinhos['Ano']
tabela_dolar_vinhos

Unnamed: 0,Id,Pais,Ano,Valor_Dolar,ID
128,1,Afeganistão,1970,0,Afeganistão-1970
129,2,Africa do Sul,1970,0,Africa do Sul-1970
130,3,Alemanha,1970,0,Alemanha-1970
131,4,Angola,1970,0,Angola-1970
132,5,Anguilla,1970,0,Anguilla-1970
...,...,...,...,...,...
13563,124,Tuvalu,2022,0,Tuvalu-2022
13564,125,Uruguai,2022,997367,Uruguai-2022
13565,126,Vanuatu,2022,0,Vanuatu-2022
13566,127,Venezuela,2022,32351,Venezuela-2022


In [109]:
# Remover a coluna "Id" que não será utilizada
tabela_dolar_vinhos.drop(columns=['Id'], inplace = True)
tabela_dolar_vinhos

Unnamed: 0,Pais,Ano,Valor_Dolar,ID
128,Afeganistão,1970,0,Afeganistão-1970
129,Africa do Sul,1970,0,Africa do Sul-1970
130,Alemanha,1970,0,Alemanha-1970
131,Angola,1970,0,Angola-1970
132,Anguilla,1970,0,Anguilla-1970
...,...,...,...,...
13563,Tuvalu,2022,0,Tuvalu-2022
13564,Uruguai,2022,997367,Uruguai-2022
13565,Vanuatu,2022,0,Vanuatu-2022
13566,Venezuela,2022,32351,Venezuela-2022


## 2.2 - Trabalhando com a tabela de litros (kg) de espumantes

In [110]:
# Trabalhando com a tabela de valor kg dos dados de vinho de mesa
# Removendo as linhas da coluna 'Ano' que não contem '.1'

substring = '.1'
tabela_quantidade_kg_vinhos_mesa = tabela_melted_vinhos[tabela_melted_vinhos['Ano'].str.contains(substring, regex=False) == False]
tabela_quantidade_kg_vinhos_mesa

Unnamed: 0,Id,País,Ano,Valor
0,1,Afeganistão,1970,0
1,2,Africa do Sul,1970,0
2,3,Alemanha,1970,0
3,4,Angola,1970,0
4,5,Anguilla,1970,0
...,...,...,...,...
13435,124,Tuvalu,2022,0
13436,125,Uruguai,2022,637117
13437,126,Vanuatu,2022,0
13438,127,Venezuela,2022,23220


In [111]:
# Renomenado algumas colunas
tabela_dolar_vinhos = tabela_dolar_vinhos.rename(columns={'Valor':'Valor_Dolar', 'País': 'Pais'})
tabela_dolar_vinhos.sort_values(by=['Pais', 'Ano'])

Unnamed: 0,Pais,Ano,Valor_Dolar,ID
128,Afeganistão,1970,0,Afeganistão-1970
384,Afeganistão,1971,0,Afeganistão-1971
640,Afeganistão,1972,0,Afeganistão-1972
896,Afeganistão,1973,0,Afeganistão-1973
1152,Afeganistão,1974,0,Afeganistão-1974
...,...,...,...,...
12543,Vietnã,2018,0,Vietnã-2018
12799,Vietnã,2019,32,Vietnã-2019
13055,Vietnã,2020,584,Vietnã-2020
13311,Vietnã,2021,0,Vietnã-2021


In [112]:
# Criando uma coluna 'ID' para conseguir fazer o merge das duas bases
tabela_quantidade_kg_vinhos_mesa['ID'] = tabela_quantidade_kg_vinhos_mesa['País'] + '-' + tabela_quantidade_kg_vinhos_mesa['Ano']
tabela_quantidade_kg_vinhos_mesa

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tabela_quantidade_kg_vinhos_mesa['ID'] = tabela_quantidade_kg_vinhos_mesa['País'] + '-' + tabela_quantidade_kg_vinhos_mesa['Ano']


Unnamed: 0,Id,País,Ano,Valor,ID
0,1,Afeganistão,1970,0,Afeganistão-1970
1,2,Africa do Sul,1970,0,Africa do Sul-1970
2,3,Alemanha,1970,0,Alemanha-1970
3,4,Angola,1970,0,Angola-1970
4,5,Anguilla,1970,0,Anguilla-1970
...,...,...,...,...,...
13435,124,Tuvalu,2022,0,Tuvalu-2022
13436,125,Uruguai,2022,637117,Uruguai-2022
13437,126,Vanuatu,2022,0,Vanuatu-2022
13438,127,Venezuela,2022,23220,Venezuela-2022


In [113]:
# Remover a coluna "Id" que não será utilizada
tabela_quantidade_kg_vinhos_mesa.drop(columns=['Id'], inplace = True)
tabela_quantidade_kg_vinhos_mesa

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tabela_quantidade_kg_vinhos_mesa.drop(columns=['Id'], inplace = True)


Unnamed: 0,País,Ano,Valor,ID
0,Afeganistão,1970,0,Afeganistão-1970
1,Africa do Sul,1970,0,Africa do Sul-1970
2,Alemanha,1970,0,Alemanha-1970
3,Angola,1970,0,Angola-1970
4,Anguilla,1970,0,Anguilla-1970
...,...,...,...,...
13435,Tuvalu,2022,0,Tuvalu-2022
13436,Uruguai,2022,637117,Uruguai-2022
13437,Vanuatu,2022,0,Vanuatu-2022
13438,Venezuela,2022,23220,Venezuela-2022


## 2.3 Juntando as duas bases de dados

In [114]:
# Realizando a junção das duas bases de espumantes através da função merge() e usando a coluna "ID" para juntar
tabela_final_vinhos_mesa = pd.merge(tabela_quantidade_kg_vinhos_mesa, tabela_dolar_vinhos, on = 'ID')
tabela_final_vinhos_mesa

Unnamed: 0,País,Ano_x,Valor,ID,Pais,Ano_y,Valor_Dolar
0,Afeganistão,1970,0,Afeganistão-1970,Afeganistão,1970,0
1,Africa do Sul,1970,0,Africa do Sul-1970,Africa do Sul,1970,0
2,Alemanha,1970,0,Alemanha-1970,Alemanha,1970,0
3,Angola,1970,0,Angola-1970,Angola,1970,0
4,Anguilla,1970,0,Anguilla-1970,Anguilla,1970,0
...,...,...,...,...,...,...,...
6885,Tuvalu,2022,0,Tuvalu-2022,Tuvalu,2022,0
6886,Uruguai,2022,637117,Uruguai-2022,Uruguai,2022,997367
6887,Vanuatu,2022,0,Vanuatu-2022,Vanuatu,2022,0
6888,Venezuela,2022,23220,Venezuela-2022,Venezuela,2022,32351


In [115]:
# Removendo colunas duplicadas da tabela final
tabela_final_vinhos_mesa.drop(columns=['País', 'Ano_x', 'ID'], inplace = True)

# Renomeando a coluna "Valor" referente ao valor em litros (kg) de vinho
tabela_final_vinhos_mesa.rename(columns={'Ano_y':'Ano', 'Valor': 'Valor_KG'}, inplace=True)

# Visualizando o resultado
tabela_final_vinhos_mesa.head()

Unnamed: 0,Valor_KG,Pais,Ano,Valor_Dolar
0,0,Afeganistão,1970,0
1,0,Africa do Sul,1970,0
2,0,Alemanha,1970,0
3,0,Angola,1970,0
4,0,Anguilla,1970,0


In [116]:
# Criando a coluna "Tipo" e especificando que essa base é refente aos valores de "Vinho Mesa"
tabela_final_vinhos_mesa['Tipo'] = 'Vinho Mesa'
tabela_final_vinhos_mesa.head()

Unnamed: 0,Valor_KG,Pais,Ano,Valor_Dolar,Tipo
0,0,Afeganistão,1970,0,Vinho Mesa
1,0,Africa do Sul,1970,0,Vinho Mesa
2,0,Alemanha,1970,0,Vinho Mesa
3,0,Angola,1970,0,Vinho Mesa
4,0,Anguilla,1970,0,Vinho Mesa


In [117]:
# Reordenando as colunas para facilitar a visualização
tabela_final_vinhos_mesa = tabela_final_vinhos_mesa[['Pais', 'Ano', 'Tipo', 'Valor_KG', 'Valor_Dolar']]
tabela_final_vinhos_mesa

Unnamed: 0,Pais,Ano,Tipo,Valor_KG,Valor_Dolar
0,Afeganistão,1970,Vinho Mesa,0,0
1,Africa do Sul,1970,Vinho Mesa,0,0
2,Alemanha,1970,Vinho Mesa,0,0
3,Angola,1970,Vinho Mesa,0,0
4,Anguilla,1970,Vinho Mesa,0,0
...,...,...,...,...,...
6885,Tuvalu,2022,Vinho Mesa,0,0
6886,Uruguai,2022,Vinho Mesa,637117,997367
6887,Vanuatu,2022,Vinho Mesa,0,0
6888,Venezuela,2022,Vinho Mesa,23220,32351


In [118]:
# Exportando o dataframe para um arquivo Excel
tabela_final_vinhos_mesa.to_excel('outputs/Exportacao_Vinho_Tratado.xlsx')

# 3 - Trabalhando com as tabelas de uvas frescas

In [119]:
uvas_frescas = pd.read_csv('dados_embrapa/ExpUva.csv', sep = ';')
uvas_frescas.head()

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2018,2018.1,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1
0,1,Africa do Sul,0,0,0,0,0,0,0,0,...,0,0,8,30,44,152,0,0,0,0
1,2,"Alemanha, República Democrática",0,0,135,103,0,0,0,0,...,2870420,5833592,1863097,3480290,1371694,2791556,1461590,2569452,559012,1213303
2,3,Angola,0,0,0,0,0,0,0,0,...,15,33,75,145,0,0,0,0,0,0
3,4,Antígua e Barbuda,0,0,0,0,0,0,0,0,...,65,164,190,580,304,1013,437,1349,253,999
4,5,Arabia Saudita,0,0,0,0,0,0,0,0,...,14725,28615,167731,271231,32325,95999,2818,14671,12224,53675


In [120]:
# Verificando as dimensões do dataset
linhas_uva, colunas_uva = uvas_frescas.shape
print(f'Número de linhas: {linhas_uva}')
print(f'Número de colunas: {colunas_uva}')

Número de linhas: 127
Número de colunas: 108


In [121]:
# Aplicando a padronização dos dados aos países
uvas_frescas["País"] = uvas_frescas["País"].replace(mapeamento)

In [122]:
# Verificando se ficou algum erro ainda nos nomes dos países
uvas_frescas["País"].unique()

array(['Africa do Sul', 'Alemanha', 'Angola', 'Antigua e Barbuda',
       'Arabia Saudita', 'Argélia', 'Argentina', 'Austria', 'Bahamas',
       'Bahrein', 'Bangladesh', 'Barbados', 'Belgica', 'Belize',
       'Bermudas', 'Bolívia', 'Bosnia', 'Brasil', 'Bulgaria',
       'Burkina Faso', 'Cabo Verde', 'Camarões', 'Camores', 'Canada',
       'Catar', 'Cayman, Ilhas', 'Chile', 'China', 'Chipre', 'Singapura',
       'Cocos (Keeling), Ilhas', 'Colombia', 'Congo', 'Coreia do Norte',
       'Coreia do Sul', 'Costa do Marfim', 'Kuwait', 'Croácia', 'Curaçao',
       'Dinamarca', 'Djibouti', 'Egito', 'Emirados Arabes Unidos',
       'Eslovenia', 'Espanha', 'Estados Unidos da América',
       'Ilhas Malvinas', 'Faroé, Ilhas', 'Filipinas', 'Finlandia',
       'França', 'Gabão', 'Gana', 'Georgia', 'Gibraltar', 'Grecia',
       'Guadalupe', 'Guiana', 'Guiana Francesa', 'Guine Equatorial',
       'Honduras', 'Hong Kong', 'Ilha de Man', 'Ilhas Virgens', 'India',
       'Indonesia', 'Irã', 'Irlanda', '

In [123]:
# Transformação das colunas em linhas utilizando a função melt() do pandas (tabela pivô)
tabela_melted_uvas = pd.melt(uvas_frescas, id_vars = ['Id', 'País'], var_name = 'Ano', value_name='Valor')
teste = tabela_melted_uvas.sort_values(by=['País', 'Ano'])
teste.head()

Unnamed: 0,Id,País,Ano,Valor
0,1,Africa do Sul,1970.0,0
127,1,Africa do Sul,1970.1,0
254,1,Africa do Sul,1971.0,0
381,1,Africa do Sul,1971.1,0
508,1,Africa do Sul,1972.0,0


## 3.1 - Trabalhando com a tabela de dolares de uvas

In [124]:
# Filtrando a tabela dos valores em dolar para depois unir com a tabela com valores em quantidade kg
# As linhas com anos que tem '.' são referentes aos valores em dolar

# Separa uma tabela com valores que contenham apenas as linhas com os ano que estão com '.'
tabela_dolar_uvas = tabela_melted_uvas[tabela_melted_uvas.Ano.str.contains(".", regex=False)]
tabela_dolar_uvas

Unnamed: 0,Id,País,Ano,Valor
127,1,Africa do Sul,1970.1,0
128,2,Alemanha,1970.1,0
129,3,Angola,1970.1,0
130,4,Antigua e Barbuda,1970.1,0
131,5,Arabia Saudita,1970.1,0
...,...,...,...,...
13457,123,Uruguai,2022.1,336671
13458,124,Vanuatu,2022.1,244
13459,125,Venezuela,2022.1,0
13460,126,Vietnã,2022.1,260


In [125]:
# Removendo os dois últimos caracteres da coluna 'Ano' para remover o caracter '.1'
tabela_dolar_uvas['Ano'] = [x[:-2] for x in tabela_dolar_uvas['Ano']]

# Verificando os valores únicos da coluna
tabela_dolar_uvas['Ano'].unique()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tabela_dolar_uvas['Ano'] = [x[:-2] for x in tabela_dolar_uvas['Ano']]


array(['1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985',
       '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993',
       '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001',
       '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009',
       '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017',
       '2018', '2019', '2020', '2021', '2022'], dtype=object)

In [126]:
# Renomeando as colunas da tabela de dolares
tabela_dolar_uvas = tabela_dolar_uvas.rename(columns={'Valor': 'Valor_Dolar', 'País': 'Pais'})

# Criando uma coluna 'ID' para conseguir fazer o join das duas tabelas
tabela_dolar_uvas['ID'] = tabela_dolar_uvas['Pais'] + "-" + tabela_dolar_uvas['Ano']

# Verificando a tabela resultante
tabela_dolar_uvas

Unnamed: 0,Id,Pais,Ano,Valor_Dolar,ID
127,1,Africa do Sul,1970,0,Africa do Sul-1970
128,2,Alemanha,1970,0,Alemanha-1970
129,3,Angola,1970,0,Angola-1970
130,4,Antigua e Barbuda,1970,0,Antigua e Barbuda-1970
131,5,Arabia Saudita,1970,0,Arabia Saudita-1970
...,...,...,...,...,...
13457,123,Uruguai,2022,336671,Uruguai-2022
13458,124,Vanuatu,2022,244,Vanuatu-2022
13459,125,Venezuela,2022,0,Venezuela-2022
13460,126,Vietnã,2022,260,Vietnã-2022


## 3.2 - Trabalhando com a tabela de quilos de uvas

In [127]:
# Trabalhando com a tabela de valor de kg com dados de uvas frescas
# Removendo as linhas da coluna 'Ano' que contêm '.1'
substring = '.1'
tabela_quantidade_kg_uva = tabela_melted_uvas[tabela_melted_uvas['Ano'].str.contains(substring, regex = False) == False]
tabela_quantidade_kg_uva

Unnamed: 0,Id,País,Ano,Valor
0,1,Africa do Sul,1970,0
1,2,Alemanha,1970,0
2,3,Angola,1970,0
3,4,Antigua e Barbuda,1970,0
4,5,Arabia Saudita,1970,0
...,...,...,...,...
13330,123,Uruguai,2022,194634
13331,124,Vanuatu,2022,80
13332,125,Venezuela,2022,0
13333,126,Vietnã,2022,60


In [128]:
# Renomeando as colunas da tabela de quilos
tabela_quantidade_kg_uva = tabela_quantidade_kg_uva.rename(columns={'Valor': 'Valor_KG', 'País':'Pais'})

# Criando uma coluna 'ID' para conseguir fazer o join das duas tabelas
tabela_quantidade_kg_uva['ID'] = tabela_quantidade_kg_uva['Pais'] + "-" + tabela_quantidade_kg_uva['Ano']

# Visualizando o resultado
tabela_quantidade_kg_uva

Unnamed: 0,Id,Pais,Ano,Valor_KG,ID
0,1,Africa do Sul,1970,0,Africa do Sul-1970
1,2,Alemanha,1970,0,Alemanha-1970
2,3,Angola,1970,0,Angola-1970
3,4,Antigua e Barbuda,1970,0,Antigua e Barbuda-1970
4,5,Arabia Saudita,1970,0,Arabia Saudita-1970
...,...,...,...,...,...
13330,123,Uruguai,2022,194634,Uruguai-2022
13331,124,Vanuatu,2022,80,Vanuatu-2022
13332,125,Venezuela,2022,0,Venezuela-2022
13333,126,Vietnã,2022,60,Vietnã-2022


## 3.3 Juntando as duas bases de dados

In [129]:
# Realizando o merge (união) das duas tabelas e visualizando o resultado
tabela_final_uvas = pd.merge(tabela_quantidade_kg_uva, tabela_dolar_uvas, on = 'ID')
tabela_final_uvas

Unnamed: 0,Id_x,Pais_x,Ano_x,Valor_KG,ID,Id_y,Pais_y,Ano_y,Valor_Dolar
0,1,Africa do Sul,1970,0,Africa do Sul-1970,1,Africa do Sul,1970,0
1,2,Alemanha,1970,0,Alemanha-1970,2,Alemanha,1970,0
2,3,Angola,1970,0,Angola-1970,3,Angola,1970,0
3,4,Antigua e Barbuda,1970,0,Antigua e Barbuda-1970,4,Antigua e Barbuda,1970,0
4,5,Arabia Saudita,1970,0,Arabia Saudita-1970,5,Arabia Saudita,1970,0
...,...,...,...,...,...,...,...,...,...
6938,123,Uruguai,2022,194634,Uruguai-2022,123,Uruguai,2022,336671
6939,124,Vanuatu,2022,80,Vanuatu-2022,124,Vanuatu,2022,244
6940,125,Venezuela,2022,0,Venezuela-2022,125,Venezuela,2022,0
6941,126,Vietnã,2022,60,Vietnã-2022,126,Vietnã,2022,260


In [130]:
# Removendo as colunas duplicadas
tabela_final_uvas.drop(columns=['Id_x', 'Pais_x', 'Ano_x', 'ID', 'Id_y'], inplace = True)

# Renomeando as colunas do dataset
tabela_final_uvas = tabela_final_uvas.rename(columns={'Pais_y': 'Pais', 'Ano_y': 'Ano'})

# Visualizando o dataset
tabela_final_uvas.head()

Unnamed: 0,Valor_KG,Pais,Ano,Valor_Dolar
0,0,Africa do Sul,1970,0
1,0,Alemanha,1970,0
2,0,Angola,1970,0
3,0,Antigua e Barbuda,1970,0
4,0,Arabia Saudita,1970,0


In [131]:
# Criando uma coluna informando que os dados são para o tipo 'Uvas Frescas'
tabela_final_uvas['Tipo'] = 'Uvas Frescas'

In [132]:
# Ordenando as colunas e visualizando o resultado
tabela_final_uvas = tabela_final_uvas[['Pais', 'Ano', 'Tipo', 'Valor_KG', 'Valor_Dolar']]
tabela_final_uvas

Unnamed: 0,Pais,Ano,Tipo,Valor_KG,Valor_Dolar
0,Africa do Sul,1970,Uvas Frescas,0,0
1,Alemanha,1970,Uvas Frescas,0,0
2,Angola,1970,Uvas Frescas,0,0
3,Antigua e Barbuda,1970,Uvas Frescas,0,0
4,Arabia Saudita,1970,Uvas Frescas,0,0
...,...,...,...,...,...
6938,Uruguai,2022,Uvas Frescas,194634,336671
6939,Vanuatu,2022,Uvas Frescas,80,244
6940,Venezuela,2022,Uvas Frescas,0,0
6941,Vietnã,2022,Uvas Frescas,60,260


In [133]:
# Exportando a base de dados tratada para Excel
tabela_final_uvas.to_excel('outputs/Exportacao_UvasFrescas_Tratado.xlsx')

# 4 - Trabalhando com as tabelas de suco de uva

In [134]:
# Importando o csv de suco de uva
suco_uva = pd.read_csv('dados_embrapa/ExpSuco.csv', sep = ';', encoding='utf-8')
suco_uva.head()

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2018,2018.1,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1
0,1,África do Sul,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,34344,49753
1,2,"Alemanha, República Democrática da",0,0,0,0,9962,6514,238418,160979,...,96,91,12,24,86,44,13,4,5,24
2,3,Angola,0,0,0,0,0,0,0,0,...,1895,1553,0,0,17766,21627,6073,5915,86536,91839
3,4,Antígua e Barbuda,0,0,0,0,0,0,0,0,...,48,53,95,99,36,25,120,168,48,57
4,5,Antilhas Holandesas,0,0,0,0,1125,945,144,135,...,0,0,0,0,0,0,0,0,0,0


In [135]:
# Aplicando a padronização dos dados aos países
suco_uva["País"] = suco_uva["País"].replace(mapeamento)

In [136]:
# Transformação das colunas em linhas utilizando a função melt() do pandas (tabela pivô)
tabela_melted_suco_uva = pd.melt(suco_uva, id_vars = ['Id', 'País'], var_name = 'Ano', value_name='Valor')
teste = tabela_melted_suco_uva.sort_values(by=['País', 'Ano'])
teste

Unnamed: 0,Id,País,Ano,Valor
0,1,Africa do Sul,1970,0
121,1,Africa do Sul,1970.1,0
242,1,Africa do Sul,1971,0
363,1,Africa do Sul,1971.1,0
484,1,Africa do Sul,1972,0
...,...,...,...,...
12341,121,Venezuela,2020.1,230
12462,121,Venezuela,2021,0
12583,121,Venezuela,2021.1,0
12704,121,Venezuela,2022,0


## 4.1 - Trabalhando com a tabela de dolares de suco de uva

In [137]:
# Filtrando a tabela dos valores em dolar para depois unir com a tabela com valores em quantidade kg
# As linhas com anos que tem '.' são referentes aos valores em dolar

# Separa uma tabela com valores que contenham apenas as linhas com os ano que estão com '.'
tabela_dolar_suco_uva = tabela_melted_suco_uva[tabela_melted_suco_uva.Ano.str.contains(".", regex=False)]
tabela_dolar_suco_uva

Unnamed: 0,Id,País,Ano,Valor
121,1,Africa do Sul,1970.1,0
122,2,Alemanha,1970.1,0
123,3,Angola,1970.1,0
124,4,Antigua e Barbuda,1970.1,0
125,5,Antilhas Holandesas,1970.1,0
...,...,...,...,...
12821,117,Trindade e Tobago,2022.1,0
12822,118,Turquia,2022.1,0
12823,119,Uruguai,2022.1,0
12824,120,Vanuatu,2022.1,9


In [138]:
# Removendo os dois últimos caracteres da coluna 'Ano' para remover o caracter '.1'
tabela_dolar_suco_uva['Ano'] = [x[:-2] for x in tabela_dolar_suco_uva['Ano']]

# Verificando os valores únicos da coluna
tabela_dolar_suco_uva['Ano'].unique()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tabela_dolar_suco_uva['Ano'] = [x[:-2] for x in tabela_dolar_suco_uva['Ano']]


array(['1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985',
       '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993',
       '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001',
       '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009',
       '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017',
       '2018', '2019', '2020', '2021', '2022'], dtype=object)

In [139]:
# Renomeando as colunas das duas tabelas
tabela_dolar_suco_uva = tabela_dolar_suco_uva.rename(columns={'Valor': 'Valor_Dolar', 'País': 'Pais'})

# Criando uma coluna 'ID' para conseguir fazer o join das duas tabelas
tabela_dolar_suco_uva['ID'] = tabela_dolar_suco_uva['Pais'] + "-" + tabela_dolar_suco_uva['Ano']

# Visualizando o resultado
tabela_dolar_suco_uva

Unnamed: 0,Id,Pais,Ano,Valor_Dolar,ID
121,1,Africa do Sul,1970,0,Africa do Sul-1970
122,2,Alemanha,1970,0,Alemanha-1970
123,3,Angola,1970,0,Angola-1970
124,4,Antigua e Barbuda,1970,0,Antigua e Barbuda-1970
125,5,Antilhas Holandesas,1970,0,Antilhas Holandesas-1970
...,...,...,...,...,...
12821,117,Trindade e Tobago,2022,0,Trindade e Tobago-2022
12822,118,Turquia,2022,0,Turquia-2022
12823,119,Uruguai,2022,0,Uruguai-2022
12824,120,Vanuatu,2022,9,Vanuatu-2022


## 4.2 - Trabalhando com a tabela de quilos de suco de uva

In [140]:
# Trabalhando com a tabela de valor de kg com dados de suco de uva
# Removendo as linhas da coluna 'Ano' que contêm '.1'
substring = '.1'
tabela_quantidade_kg_suco_uva = tabela_melted_suco_uva[tabela_melted_suco_uva['Ano'].str.contains(substring, regex = False) == False]
tabela_quantidade_kg_suco_uva

Unnamed: 0,Id,País,Ano,Valor
0,1,Africa do Sul,1970,0
1,2,Alemanha,1970,0
2,3,Angola,1970,0
3,4,Antigua e Barbuda,1970,0
4,5,Antilhas Holandesas,1970,0
...,...,...,...,...
12700,117,Trindade e Tobago,2022,0
12701,118,Turquia,2022,0
12702,119,Uruguai,2022,0
12703,120,Vanuatu,2022,12


In [141]:
# Renomeando as colunas das duas tabelas
tabela_quantidade_kg_suco_uva = tabela_quantidade_kg_suco_uva.rename(columns={'Valor': 'Valor_KG', 'País':'Pais'})

# Criando uma coluna 'ID' para conseguir fazer o join das duas tabelas
tabela_quantidade_kg_suco_uva['ID'] = tabela_quantidade_kg_suco_uva['Pais'] + "-" + tabela_quantidade_kg_suco_uva['Ano']

# Visualizando o resultado
tabela_quantidade_kg_suco_uva.head()

Unnamed: 0,Id,Pais,Ano,Valor_KG,ID
0,1,Africa do Sul,1970,0,Africa do Sul-1970
1,2,Alemanha,1970,0,Alemanha-1970
2,3,Angola,1970,0,Angola-1970
3,4,Antigua e Barbuda,1970,0,Antigua e Barbuda-1970
4,5,Antilhas Holandesas,1970,0,Antilhas Holandesas-1970


## 4.3 Juntando as duas bases de dados

In [142]:
# Realizando o merge (união) das duas tabelas
tabela_final_suco_uva = pd.merge(tabela_quantidade_kg_suco_uva, tabela_dolar_suco_uva, on = 'ID')
tabela_final_suco_uva

Unnamed: 0,Id_x,Pais_x,Ano_x,Valor_KG,ID,Id_y,Pais_y,Ano_y,Valor_Dolar
0,1,Africa do Sul,1970,0,Africa do Sul-1970,1,Africa do Sul,1970,0
1,2,Alemanha,1970,0,Alemanha-1970,2,Alemanha,1970,0
2,3,Angola,1970,0,Angola-1970,3,Angola,1970,0
3,4,Antigua e Barbuda,1970,0,Antigua e Barbuda-1970,4,Antigua e Barbuda,1970,0
4,5,Antilhas Holandesas,1970,0,Antilhas Holandesas-1970,5,Antilhas Holandesas,1970,0
...,...,...,...,...,...,...,...,...,...
6620,117,Trindade e Tobago,2022,0,Trindade e Tobago-2022,117,Trindade e Tobago,2022,0
6621,118,Turquia,2022,0,Turquia-2022,118,Turquia,2022,0
6622,119,Uruguai,2022,0,Uruguai-2022,119,Uruguai,2022,0
6623,120,Vanuatu,2022,12,Vanuatu-2022,120,Vanuatu,2022,9


In [143]:
# Removendo as colunas duplicadas
tabela_final_suco_uva.drop(columns=['Id_x', 'Pais_x', 'Ano_x', 'ID', 'Id_y'], inplace = True)

# Renomeando as colunas do dataset
tabela_final_suco_uva = tabela_final_suco_uva.rename(columns={'Pais_y': 'Pais', 'Ano_y': 'Ano'})

# Visualizando o dataset
tabela_final_suco_uva.head()

Unnamed: 0,Valor_KG,Pais,Ano,Valor_Dolar
0,0,Africa do Sul,1970,0
1,0,Alemanha,1970,0
2,0,Angola,1970,0
3,0,Antigua e Barbuda,1970,0
4,0,Antilhas Holandesas,1970,0


In [144]:
# Criando uma coluna informando que os dados são para o tipo 'Suco Uva'
tabela_final_suco_uva['Tipo'] = 'Suco Uva'

# Ordenando as colunas 
tabela_final_suco_uva = tabela_final_suco_uva[['Pais', 'Ano', 'Tipo', 'Valor_KG', 'Valor_Dolar']]

# Visualizando o resultado
tabela_final_suco_uva.head()

Unnamed: 0,Pais,Ano,Tipo,Valor_KG,Valor_Dolar
0,Africa do Sul,1970,Suco Uva,0,0
1,Alemanha,1970,Suco Uva,0,0
2,Angola,1970,Suco Uva,0,0
3,Antigua e Barbuda,1970,Suco Uva,0,0
4,Antilhas Holandesas,1970,Suco Uva,0,0


In [145]:
# Exportando a base de dados tratada para Excel
tabela_final_suco_uva.to_excel('outputs/Exportacao_Suco_Tratado.xlsx')

# 5 - Unindo todos os arquivos em uma única base de dados

In [146]:
# Lendo e gravando todos os arquivos gerados em variáveis
df1 = pd.read_excel('outputs/Exportacao_Espumante_Tratado.xlsx')
df2 = pd.read_excel('outputs/Exportacao_Vinho_Tratado.xlsx')
df3 = pd.read_excel('outputs/Exportacao_UvasFrescas_Tratado.xlsx')
df4 = pd.read_excel('outputs/Exportacao_Suco_Tratado.xlsx')

In [147]:
# Unindo todos os dataframes em um único arquivo
df_final = pd.concat([df1, df2, df3, df4])

In [148]:
# Exportando para Excel
df_final.to_excel("outputs/DatasetFinal.xlsx")