# **Análise de Dados de Exportação de Vinhos**

Este notebook tem como objetivo analisar os dados de exportação de vinhos de mesa do Brasil, explorando padrões de exportação, principais destinos e a evolução do volume e valor das exportações ao longo do tempo. Utilizaremos a biblioteca pandas para manipulação dos dados e matplotlib/seaborn para visualização.

# **Configuração do Ambiente**

Antes de começarmos a análise, vamos preparar nosso ambiente importando as bibliotecas necessárias e configurando algumas opções de visualização para facilitar a análise.

In [1]:
# Importa a biblioteca pandas para manipulação e análise de dados
import pandas as pd

# Importa a biblioteca matplotlib.pyplot para criação de gráficos
import matplotlib.pyplot as plt

# Importa a biblioteca seaborn para visualização de dados baseada em matplotlib
import seaborn as sns

# Importa a função unidecode para remover acentos de strings
from unidecode import unidecode

## **Carregamento dos Dados**

Os dados de exportação de vinhos de mesa serão carregados a partir de um arquivo `CSV`. Vamos carregar esses dados em um DataFrame do pandas para começar nossa análise.

In [2]:
# Define a URL ou caminho do arquivo CSV contendo os dados de exportação de vinhos
url_vinhos = "dados/ExpVinho.csv"
url_espumantes = "dados/ExpEspumantes.csv"
url_pais_continentes = "dados/paises_continentes.csv"

# Carrega os dados do CSV para um DataFrame do pandas, usando ";" como separador de colunas
dados_vinhos = pd.read_csv(url_vinhos, sep=";")
dados_espumantes = pd.read_csv(url_espumantes, sep=";")
dados_pais_continentes = pd.read_csv(url_pais_continentes, sep=";")


In [184]:
# Exibe as primeiras linhas do DataFrame para uma rápida visualização dos dados carregados
dados_vinhos.head()

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1,2023,2023.1
0,1,Afeganistão,0,0,0,0,0,0,0,0,...,0,0,0,0,11,46,0,0,0,0
1,2,África do Sul,0,0,0,0,0,0,0,0,...,26,95,4,21,0,0,0,0,117,698
2,3,"Alemanha, República Democrática",0,0,0,0,4168,2630,12000,8250,...,3660,25467,6261,32605,2698,6741,7630,45367,4806,31853
3,4,Angola,0,0,0,0,0,0,0,0,...,345,1065,0,0,0,0,4068,4761,0,0
4,5,Anguilla,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [185]:
# Exibe as primeiras linhas do DataFrame para uma rápida visualização dos dados carregados
dados_espumantes.head()

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1,2023,2023.1
0,1,África do Sul,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,2,44
1,2,Alemanha,0,0,0,0,0,0,0,0,...,1003,5466,2388,14767,142,265,1164,6560,162,1542
2,3,Angola,0,0,0,0,0,0,0,0,...,1007,3615,24,38,0,0,26383,141588,56242,315073
3,4,Antigua e Barbuda,0,0,0,0,0,0,0,0,...,7,34,32,328,10,82,65,146,24,100
4,5,Antilhas Holandesas,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


# **Análise Inicial dos Dados de Exportação de Vinhos e Espumantes**

Ao explorar o conjunto de dados de exportação de Vinhos e a de Espumantes, notamos uma distinção importante nas nomenclaturas das colunas:

- **Valor de Exportação (US$):** As colunas que incluem um `ponto` seguido do `numeral 1` (por exemplo, "1970.1", "1971.1") representam o valor das exportações em dólares americanos (US$).

- **Quantidade de Exportação (l):** Por outro lado, as colunas que apresentam apenas o ano (como "1970", "1971") referem-se à quantidade de vinhos exportados, medida em litros (l).


---
## **Tratamento do Dataset `Exportação de Vinhos`**

Separamos as colunas de quantidade e valor dos dados de `Exportação de Vinhos` e, após a separação, renomeamos a coluna `País` para `pais_destino` para melhor clareza nos dados.

In [186]:
lista_colunas_atuais = dados_vinhos.columns
lista_colunas_valor = []
lista_colunas_quantidade = []

for coluna in lista_colunas_atuais[2:]:
    if "." in coluna:
        lista_colunas_valor.append(coluna)
    else:
        lista_colunas_quantidade.append(coluna)

print(lista_colunas_valor)
print(lista_colunas_quantidade)

dados_vinhos.rename(columns={"País": "pais_destino"}, inplace=True)


['1970.1', '1971.1', '1972.1', '1973.1', '1974.1', '1975.1', '1976.1', '1977.1', '1978.1', '1979.1', '1980.1', '1981.1', '1982.1', '1983.1', '1984.1', '1985.1', '1986.1', '1987.1', '1988.1', '1989.1', '1990.1', '1991.1', '1992.1', '1993.1', '1994.1', '1995.1', '1996.1', '1997.1', '1998.1', '1999.1', '2000.1', '2001.1', '2002.1', '2003.1', '2004.1', '2005.1', '2006.1', '2007.1', '2008.1', '2009.1', '2010.1', '2011.1', '2012.1', '2013.1', '2014.1', '2015.1', '2016.1', '2017.1', '2018.1', '2019.1', '2020.1', '2021.1', '2022.1', '2023.1']
['1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021', '2022', '2023']


### **Criação do DataFrame de Quantidade (Vinhos)**

Com as colunas de quantidade identificadas, criamos um DataFrame `dados_vinhos_quantidade` utilizando a função `melt`. Este DataFrame contém as quantidades de vinho exportadas, organizadas por país de destino e ano.

In [187]:
# Transforma o DataFrame 'dados_vinhos', convertendo as colunas de quantidade em linhas, mantendo 'pais_destino' como coluna fixa
dados_vinhos_quantidade = dados_vinhos.melt(id_vars=["pais_destino"], value_vars=lista_colunas_quantidade, var_name="ano", value_name="quantidade_litro")

# Exibe o DataFrame 'dados_vinhos_quantidade' após a transformação
dados_vinhos_quantidade

Unnamed: 0,pais_destino,ano,quantidade_litro
0,Afeganistão,1970,0
1,África do Sul,1970,0
2,"Alemanha, República Democrática",1970,0
3,Angola,1970,0
4,Anguilla,1970,0
...,...,...,...
7393,Tuvalu,2023,0
7394,Uruguai,2023,326093
7395,Vanuatu,2023,0
7396,Venezuela,2023,141030


### **Criação do DataFrame de Valor (Vinhos)**

De maneira similar, criamos um DataFrame `dados_vinhos_valor` para os valores de exportação, também usando a função `melt`. Neste passo, ajustamos os nomes dos anos para remover o sufixo `.1`, padronizando-os com os nomes no DataFrame de quantidade.

In [188]:
dados_vinhos_valor = dados_vinhos.melt(id_vars=["pais_destino"], value_vars=lista_colunas_valor, var_name="ano", value_name="valor_usd")

dados_vinhos_valor["ano"] = dados_vinhos_valor["ano"].str.replace(".1", "")

dados_vinhos_valor

Unnamed: 0,pais_destino,ano,valor_usd
0,Afeganistão,1970,0
1,África do Sul,1970,0
2,"Alemanha, República Democrática",1970,0
3,Angola,1970,0
4,Anguilla,1970,0
...,...,...,...
7393,Tuvalu,2023,0
7394,Uruguai,2023,454271
7395,Vanuatu,2023,0
7396,Venezuela,2023,220512


### **Consolidação dos DataFrames (Vinhos)**

Após a criação dos DataFrames de quantidade e valor, realizamos um `merge` entre eles com base nas colunas `pais_destino` e `ano`, resultando no DataFrame `dados_vinhos_consolidados`. Este DataFrame unificado contém tanto a quantidade (litros) quanto o valor (US$) das exportações de vinho, por país e ano.

In [189]:
dados_vinhos_consolidados = pd.merge(dados_vinhos_quantidade, dados_vinhos_valor, on=["pais_destino", "ano"])

dados_vinhos_consolidados

Unnamed: 0,pais_destino,ano,quantidade_litro,valor_usd
0,Afeganistão,1970,0,0
1,África do Sul,1970,0,0
2,"Alemanha, República Democrática",1970,0,0
3,Angola,1970,0,0
4,Anguilla,1970,0,0
...,...,...,...,...
7393,Tuvalu,2023,0,0
7394,Uruguai,2023,326093,454271
7395,Vanuatu,2023,0,0
7396,Venezuela,2023,141030,220512


In [190]:
dados_vinhos_consolidados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7398 entries, 0 to 7397
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   pais_destino      7398 non-null   object
 1   ano               7398 non-null   object
 2   quantidade_litro  7398 non-null   int64 
 3   valor_usd         7398 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 231.3+ KB


### **Filtragem dos dados dos últimos 15 anos e País de Origem (Vinhos)**

Realizamos ajustes finais no DataFrame consolidado, convertendo a coluna `ano` para o tipo inteiro e filtrando os dados para `excluir os anos anteriores a 2009`. Esses ajustes preparam os dados para análises futuras, focando nas exportações mais recentes.

In [191]:
# Converte o tipo de dados da coluna 'ano' para inteiro
dados_vinhos_consolidados["ano"] = dados_vinhos_consolidados["ano"].astype(int)

# Filtra o DataFrame para incluir apenas os registros dos anos entre 2009 e 2023
dados_vinhos_consolidados = dados_vinhos_consolidados[dados_vinhos_consolidados["ano"].between(2009, 2023)]

# Exibe o DataFrame 'dados_vinhos_consolidados' após a conversão de tipo e filtragem
dados_vinhos_consolidados

Unnamed: 0,pais_destino,ano,quantidade_litro,valor_usd
5343,Afeganistão,2009,0,0
5344,África do Sul,2009,0,0
5345,"Alemanha, República Democrática",2009,225086,393482
5346,Angola,2009,54786,84235
5347,Anguilla,2009,0,0
...,...,...,...,...
7393,Tuvalu,2023,0,0
7394,Uruguai,2023,326093,454271
7395,Vanuatu,2023,0,0
7396,Venezuela,2023,141030,220512


> Adicionalmente, adicionamos uma nova coluna `pais_origem` com o valor `Brasil` e `produto` com o valor `Espumante` para todas as linhas, identificando claramente a origem das exportações.

In [192]:
# Insere uma nova coluna chamada 'pais_origem' na posição 0 (primeira coluna) do DataFrame 'dados_vinhos_consolidados', atribuindo o valor 'Brasil' a todas as linhas
dados_vinhos_consolidados.insert(0, "pais_origem", "Brasil")

# Insere uma nova coluna chamada 'produto' na posição 2 (terceira coluna) do DataFrame 'dados_vinhos_consolidados', atribuindo o valor 'Vinho' a todas as linhas
dados_vinhos_consolidados.insert(2, "produto", "Vinho")

# Exibe o DataFrame 'dados_vinhos_consolidados' após a inserção das novas colunas
dados_vinhos_consolidados

Unnamed: 0,pais_origem,pais_destino,produto,ano,quantidade_litro,valor_usd
5343,Brasil,Afeganistão,Vinho,2009,0,0
5344,Brasil,África do Sul,Vinho,2009,0,0
5345,Brasil,"Alemanha, República Democrática",Vinho,2009,225086,393482
5346,Brasil,Angola,Vinho,2009,54786,84235
5347,Brasil,Anguilla,Vinho,2009,0,0
...,...,...,...,...,...,...
7393,Brasil,Tuvalu,Vinho,2023,0,0
7394,Brasil,Uruguai,Vinho,2023,326093,454271
7395,Brasil,Vanuatu,Vinho,2023,0,0
7396,Brasil,Venezuela,Vinho,2023,141030,220512


In [193]:
dados_vinhos_consolidados.groupby(["pais_destino"])[["quantidade_litro", "valor_usd"]].sum().sort_values(["quantidade_litro"],ascending=False).head(20)

Unnamed: 0_level_0,quantidade_litro,valor_usd
pais_destino,Unnamed: 1_level_1,Unnamed: 2_level_1
Rússia,32822141,23151716
Paraguai,30803247,42862206
Estados Unidos,3349299,9309051
China,2574686,4903695
Haiti,2351228,3198849
Espanha,1990238,3805889
Reino Unido,1150780,4640935
Uruguai,1118688,1674149
Japão,972341,2257163
Países Baixos,897986,3012934


---
## **Tratamento do Dataset `Exportação de Espumantes`**

Como o dataset de `Exportação de Espumantes` possui a mesma estrutura do dataset de `Exportação de Vinhos` não foi necessário efetuar a separação das colunas de quantidade e valor dos dados de exportação de espumantes, pois essas informações estão nas variáveis `lista_colunas_valor` e `lista_colunas_quantidade`. Então, apenas renomeamos a coluna `País` para `pais_destino` para melhor clareza nos dados.

In [194]:
dados_espumantes.rename(columns={"País": "pais_destino"}, inplace=True)

# Remover acentos
dados_espumantes['pais_destino'] = dados_espumantes['pais_destino'].apply(unidecode)

dados_espumantes.head()

Unnamed: 0,Id,pais_destino,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1,2023,2023.1
0,1,Africa do Sul,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,2,44
1,2,Alemanha,0,0,0,0,0,0,0,0,...,1003,5466,2388,14767,142,265,1164,6560,162,1542
2,3,Angola,0,0,0,0,0,0,0,0,...,1007,3615,24,38,0,0,26383,141588,56242,315073
3,4,Antigua e Barbuda,0,0,0,0,0,0,0,0,...,7,34,32,328,10,82,65,146,24,100
4,5,Antilhas Holandesas,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### **Criação do DataFrame de Quantidade (Espumantes)**

Com as colunas de quantidade identificadas, criamos um DataFrame `dados_espumantes_quantidade` utilizando a função `melt`. Este DataFrame contém as quantidades de vinho exportadas, organizadas por país de destino e ano.

In [195]:
# Transforma o DataFrame 'dados_espumantes' de formato largo para longo, especificando 'pais_destino' como identificador e reorganizando as quantidades por ano.
dados_espumantes_quantidade = dados_espumantes.melt(id_vars=["pais_destino"], value_vars=lista_colunas_quantidade, var_name="ano", value_name="quantidade_litro")

# Exibe o DataFrame 'dados_espumantes_quantidade' após a transformação.
dados_espumantes_quantidade

Unnamed: 0,pais_destino,ano,quantidade_litro
0,Africa do Sul,1970,0
1,Alemanha,1970,0
2,Angola,1970,0
3,Antigua e Barbuda,1970,0
4,Antilhas Holandesas,1970,0
...,...,...,...
5557,Uruguai,2023,2812
5558,Vanuatu,2023,0
5559,Venezuela,2023,0
5560,Vietna,2023,0


### **Criação do DataFrame de Valor (Espumantes)**

De maneira similar, criamos um DataFrame `dados_espumantes_valor` para os valores de exportação, também usando a função `melt`. Neste passo, ajustamos os nomes dos anos para remover o sufixo `.1`, padronizando-os com os nomes no DataFrame de quantidade.

In [196]:
# Transforma o DataFrame 'dados_espumantes', convertendo colunas de valores em linhas, mantendo 'pais_destino' como identificador.
dados_espumantes_valor = dados_espumantes.melt(id_vars=["pais_destino"], value_vars=lista_colunas_valor, var_name="ano", value_name="valor_usd")

# Remove o sufixo '.1' dos valores na coluna 'ano', ajustando o formato do ano.
dados_espumantes_valor["ano"] = dados_espumantes_valor["ano"].str.replace(".1", "")

# Exibe o DataFrame 'dados_espumantes_valor' após a transformação e limpeza da coluna 'ano'.
dados_espumantes_valor

Unnamed: 0,pais_destino,ano,valor_usd
0,Africa do Sul,1970,0
1,Alemanha,1970,0
2,Angola,1970,0
3,Antigua e Barbuda,1970,0
4,Antilhas Holandesas,1970,0
...,...,...,...
5557,Uruguai,2023,14352
5558,Vanuatu,2023,0
5559,Venezuela,2023,0
5560,Vietna,2023,0


### **Consolidação dos DataFrames (Espumantes)**

Após a criação dos DataFrames de quantidade e valor, realizamos um `merge` entre eles com base nas colunas `pais_destino` e `ano`, resultando no DataFrame `dados_espumantes_consolidados`. Este DataFrame unificado contém tanto a quantidade (litros) quanto o valor (US$) das exportações de espumante, por país e ano.

In [197]:
# Combina os DataFrames 'dados_espumantes_quantidade' e 'dados_espumantes_valor' usando 'pais_destino' e 'ano' como chaves de junção.
dados_espumantes_consolidados = pd.merge(dados_espumantes_quantidade, dados_espumantes_valor, on=["pais_destino", "ano"])

# Exibe o DataFrame 'dados_espumantes_consolidados' resultante da fusão.
dados_espumantes_consolidados

Unnamed: 0,pais_destino,ano,quantidade_litro,valor_usd
0,Africa do Sul,1970,0,0
1,Alemanha,1970,0,0
2,Angola,1970,0,0
3,Antigua e Barbuda,1970,0,0
4,Antilhas Holandesas,1970,0,0
...,...,...,...,...
5557,Uruguai,2023,2812,14352
5558,Vanuatu,2023,0,0
5559,Venezuela,2023,0,0
5560,Vietna,2023,0,0


In [198]:
# Exibe um resumo informativo do DataFrame 'dados_espumantes_consolidados', incluindo o tipo de dado de cada coluna e a contagem de valores não nulos.
dados_espumantes_consolidados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5562 entries, 0 to 5561
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   pais_destino      5562 non-null   object
 1   ano               5562 non-null   object
 2   quantidade_litro  5562 non-null   int64 
 3   valor_usd         5562 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 173.9+ KB


### **Filtragem dos dados dos últimos 15 anos e País de Origem (Espumantes)**

Realizamos ajustes finais no DataFrame consolidado, convertendo a coluna `ano` para o tipo inteiro e filtrando os dados para `excluir os anos anteriores a 2009`. Esses ajustes preparam os dados para análises futuras, focando nas exportações mais recentes.

In [199]:
# Converte o tipo de dado da coluna 'ano' para inteiro.
dados_espumantes_consolidados["ano"] = dados_espumantes_consolidados["ano"].astype(int)

# Filtra o DataFrame para incluir apenas os registros entre os anos de 2009 e 2023.
dados_espumantes_consolidados = dados_espumantes_consolidados[dados_espumantes_consolidados["ano"].between(2009, 2023)]

# Exibe o DataFrame 'dados_espumantes_consolidados' após a conversão do tipo de dado e filtragem.
dados_espumantes_consolidados

Unnamed: 0,pais_destino,ano,quantidade_litro,valor_usd
4017,Africa do Sul,2009,0,0
4018,Alemanha,2009,6648,29018
4019,Angola,2009,11393,33664
4020,Antigua e Barbuda,2009,0,0
4021,Antilhas Holandesas,2009,180,1660
...,...,...,...,...
5557,Uruguai,2023,2812,14352
5558,Vanuatu,2023,0,0
5559,Venezuela,2023,0,0
5560,Vietna,2023,0,0


>Adicionalmente, adicionamos uma nova coluna `pais_origem` com o valor `Brasil` e `produto` com o valor `Espumante` para todas as linhas, identificando claramente a origem das exportações.

In [200]:
# Adiciona a coluna "pais_origem" na posição 0 com o valor "Brasil" para todas as linhas.
dados_espumantes_consolidados.insert(0, "pais_origem", "Brasil")

# Adiciona a coluna "produto" na posição 2 com o valor "Espumante" para todas as linhas.
dados_espumantes_consolidados.insert(2, "produto", "Espumante")

# Exibe o DataFrame 'dados_espumantes_consolidados' após a adição das novas colunas.
dados_espumantes_consolidados

Unnamed: 0,pais_origem,pais_destino,produto,ano,quantidade_litro,valor_usd
4017,Brasil,Africa do Sul,Espumante,2009,0,0
4018,Brasil,Alemanha,Espumante,2009,6648,29018
4019,Brasil,Angola,Espumante,2009,11393,33664
4020,Brasil,Antigua e Barbuda,Espumante,2009,0,0
4021,Brasil,Antilhas Holandesas,Espumante,2009,180,1660
...,...,...,...,...,...,...
5557,Brasil,Uruguai,Espumante,2023,2812,14352
5558,Brasil,Vanuatu,Espumante,2023,0,0
5559,Brasil,Venezuela,Espumante,2023,0,0
5560,Brasil,Vietna,Espumante,2023,0,0


# **Concatenação os DataFrames de Vinhos e Espumantes**

Após a criação dos DataFrames consolidados para Vinhos e Espumantes, realizamos com a `concatenação` dos mesmos. O resultado é um novo DataFrame chamado `dados_consolidados`, que contém os registros tanto de Vinhos quanto de Espumantes, unificando as informações em uma única estrutura para análise.

In [201]:
# Combina os DataFrames 'dados_espumantes_consolidados' e 'dados_vinhos_consolidados' em um novo DataFrame.
dados_consolidados = pd.concat([dados_espumantes_consolidados, dados_vinhos_consolidados])

# Reinicia o índice do DataFrame combinado para uma sequência contínua e remove o índice antigo.
dados_consolidados.reset_index(drop=True, inplace=True)

# Exibe o DataFrame 'dados_consolidados' após a concatenação e reinicialização do índice.
dados_consolidados

Unnamed: 0,pais_origem,pais_destino,produto,ano,quantidade_litro,valor_usd
0,Brasil,Africa do Sul,Espumante,2009,0,0
1,Brasil,Alemanha,Espumante,2009,6648,29018
2,Brasil,Angola,Espumante,2009,11393,33664
3,Brasil,Antigua e Barbuda,Espumante,2009,0,0
4,Brasil,Antilhas Holandesas,Espumante,2009,180,1660
...,...,...,...,...,...,...
3595,Brasil,Tuvalu,Vinho,2023,0,0
3596,Brasil,Uruguai,Vinho,2023,326093,454271
3597,Brasil,Vanuatu,Vinho,2023,0,0
3598,Brasil,Venezuela,Vinho,2023,141030,220512


# **Tratamento dos Dados no DataFrame `Consolidado`**

Durante a análise e preparação dos dados para análises futuras, identificamos a necessidade de realizar algumas modificações na coluna `pais_destino` do DataFrame `dados_consolidados`. Foram feitas remoções de acentuação e correções em nomes de países que estavam incorretos ou inconsistentes. Os ajustes incluíram a padronização de nomes e a correção de erros de digitação, como ajustar "Alemanha, República Democrática" para "Alemanha" e corrigir "Filanldia" para "Finlandia" entre outros. Essas modificações foram essenciais para garantir a consistência dos dados, facilitar comparações e análises, e melhorar a qualidade geral do dataset.

In [202]:
# Aplica a função unidecode para remover acentos dos nomes dos países no campo 'pais_destino'
dados_consolidados['pais_destino'] = dados_consolidados['pais_destino'].apply(unidecode)

# Corrige o nome "Alemanha, República Democrática" para "Alemanha"
dados_consolidados["pais_destino"] = dados_consolidados["pais_destino"].str.replace("Alemanha, Republica Democratica", "Alemanha")

# Corrige o erro de digitação de "Filanldia" para "Finlândia"
dados_consolidados["pais_destino"] = dados_consolidados["pais_destino"].str.replace("Filanldia", "Finlandia")

# Unifica as entradas "Coreia do Sul, República da" e "Coreia, República Sul" para "Coreia do Sul"
dados_consolidados["pais_destino"] = dados_consolidados["pais_destino"].str.replace("Coreia do Sul, Republica da", "Coreia do Sul")

# Esta linha é redundante com a anterior e também visa unificar as entradas para "Coreia do Sul"
dados_consolidados["pais_destino"] = dados_consolidados["pais_destino"].str.replace("Coreia, Republica Sul", "Coreia do Sul")

# Corrige "Tcheca, República" para "República Tcheca"
dados_consolidados["pais_destino"] = dados_consolidados["pais_destino"].str.replace("Tcheca, Republica", "Republica Tcheca")

# Altera "Países Baixos (Holanda)" para "Países Baixos", que é o nome oficial
dados_consolidados["pais_destino"] = dados_consolidados["pais_destino"].str.replace("Paises Baixos (Holanda)", "Paises Baixos")

## **Atualização do Dataset `dados_consolidados`**

Para enriquecer o dataset `dados_consolidados` com informações de continente correspondentes ao `pais_destino`.

In [203]:
# Realiza o merge entre 'dados_consolidados' e 'dados_pais_continentes' com base em 'pais_destino' e 'pais'
dados_consolidados = pd.merge(dados_consolidados, dados_pais_continentes, how='left', left_on='pais_destino', right_on='pais')

# Renomeia a coluna resultante do merge 'continente' para 'continente_pais_destino'
dados_consolidados.rename(columns={'continente': 'continente_pais_destino'}, inplace=True)

# Remove a coluna 'pais' que se tornou redundante após o merge
dados_consolidados.drop('pais', axis=1, inplace=True)

# Obtendo a lista de colunas atuais para reordenar a posição da coluna 'continente_pais_destino'
colunas = dados_consolidados.columns.tolist()

# Remove a coluna 'continente_pais_destino' que está na última posição do DataFrame
colunas.remove('continente_pais_destino')

# Insere a coluna 'continente_pais_destino' na terceira posição do DataFrame
colunas.insert(2, 'continente_pais_destino')

# Reorganizando o DataFrame com a nova ordem de colunas
dados_consolidados = dados_consolidados[colunas]

dados_consolidados

Unnamed: 0,pais_origem,pais_destino,continente_pais_destino,produto,ano,quantidade_litro,valor_usd
0,Brasil,Africa do Sul,Africa,Espumante,2009,0,0
1,Brasil,Alemanha,Europa,Espumante,2009,6648,29018
2,Brasil,Angola,Africa,Espumante,2009,11393,33664
3,Brasil,Antigua e Barbuda,America do Norte,Espumante,2009,0,0
4,Brasil,Antilhas Holandesas,America do Norte,Espumante,2009,180,1660
...,...,...,...,...,...,...,...
3595,Brasil,Tuvalu,Oceania,Vinho,2023,0,0
3596,Brasil,Uruguai,America do Sul,Vinho,2023,326093,454271
3597,Brasil,Vanuatu,Oceania,Vinho,2023,0,0
3598,Brasil,Venezuela,America do Sul,Vinho,2023,141030,220512


In [212]:
total_paises = list(dados_consolidados["pais_destino"].unique())
len(total_paises)

143

# **Removendo registros de países com zero exportação**

Com a concatenação concluída, verificamos que existem muitos registro de países para o qual  Brasil nunca exportou vinhos e espumantes. Esses registros foram identificados e excluídos.

In [206]:
dados_consolidados.groupby(["pais_destino"])[["quantidade_litro", "valor_usd"]].sum()

Unnamed: 0_level_0,quantidade_litro,valor_usd
pais_destino,Unnamed: 1_level_1,Unnamed: 2_level_1
Afeganistao,11,46
Africa do Sul,149,858
Alemanha,698899,2422691
Angola,356180,1732012
Anguilla,0,0
...,...,...
Tuvalu,2,4
Uruguai,1243688,2224608
Vanuatu,32,62
Venezuela,198943,324349


In [207]:
# Agrupar por país e calcular a soma total para cada coluna
somas_por_pais = dados_consolidados.groupby('pais_destino')[['quantidade_litro', 'valor_usd']].sum()

# Identificar os países com qualquer soma total (quantidade_litro ou valor_usd) maior que zero
paises_com_exportacao = somas_por_pais[(somas_por_pais['quantidade_litro'] > 0) | (somas_por_pais['valor_usd'] > 0)].index

In [208]:
# Filtrar 'dados_consolidados' para manter apenas registros dos países identificados
dados_filtrados = dados_consolidados[dados_consolidados['pais_destino'].isin(paises_com_exportacao)]

In [209]:
dados_filtrados.groupby(['pais_destino'])[['quantidade_litro', 'valor_usd']].sum().sort_values("quantidade_litro", ascending=False)

Unnamed: 0_level_0,quantidade_litro,valor_usd
pais_destino,Unnamed: 1_level_1,Unnamed: 2_level_1
Russia,32942550,23202596
Paraguai,31399376,44542439
Estados Unidos,6737861,19098037
China,2740787,5473562
Haiti,2366396,3233263
...,...,...
Martinica,9,31
Mauritania,9,85
Macau,7,6
Toquelau,3,10
