<a href="https://colab.research.google.com/github/murarov/POS_Fiap/blob/main/TechChallenge_Fase1_Grupo51.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TechChallenge - Fase 1 (Grupo 51)

# **Análise de Dados de Exportação de Vinhos**

Este notebook tem como objetivo analisar os dados de exportação de vinhos de mesa e espumantes do Brasil, explorando padrões de exportação, principais destinos e a evolução do volume e valor das exportações ao longo do tempo. Utilizaremos a biblioteca pandas para manipulação dos dados e matplotlib/seaborn para visualização.

# **Configuração do Ambiente**

Antes de começarmos a análise, vamos preparar nosso ambiente importando as bibliotecas necessárias e configurando algumas opções de visualização para facilitar a análise.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## **Carregamento dos Dados**

Os dados de exportação de vinhos de mesa e espumantes serão carregados a partir de um arquivo `CSV`. Vamos carregar esses dados em um DataFrame do pandas para começar nossa análise.

In [2]:
# Define a URL ou caminho do arquivo CSV contendo os dados de exportação de vinhos
url_vinhos = "https://raw.githubusercontent.com/murarov/POS_Fiap/main/ExpVinho.csv"

url_espumantes = "https://raw.githubusercontent.com/murarov/POS_Fiap/main/ExpEspumantes.csv"

# Carrega os dados do CSV para um DataFrame do pandas, usando ";" como separador de colunas
dados_vinhos = pd.read_csv(url_vinhos, sep=";")
dados_espumantes = pd.read_csv(url_espumantes, sep=";")

In [3]:
# Exibe as primeiras linhas do DataFrame para uma rápida visualização dos dados carregados
dados_vinhos.head()

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1,2023,2023.1
0,1,Afeganistão,0,0,0,0,0,0,0,0,...,0,0,0,0,11,46,0,0,0,0
1,2,África do Sul,0,0,0,0,0,0,0,0,...,26,95,4,21,0,0,0,0,117,698
2,3,"Alemanha, República Democrática",0,0,0,0,4168,2630,12000,8250,...,3660,25467,6261,32605,2698,6741,7630,45367,4806,31853
3,4,Angola,0,0,0,0,0,0,0,0,...,345,1065,0,0,0,0,4068,4761,0,0
4,5,Anguilla,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [4]:
# Exibe as primeiras linhas do DataFrame para uma rápida visualização dos dados carregados
dados_espumantes.head()

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1,2023,2023.1
0,1,África do Sul,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,2,44
1,2,Alemanha,0,0,0,0,0,0,0,0,...,1003,5466,2388,14767,142,265,1164,6560,162,1542
2,3,Angola,0,0,0,0,0,0,0,0,...,1007,3615,24,38,0,0,26383,141588,56242,315073
3,4,Antigua e Barbuda,0,0,0,0,0,0,0,0,...,7,34,32,328,10,82,65,146,24,100
4,5,Antilhas Holandesas,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


# **Análise Inicial dos Dados de Exportação de Vinhos e Espumantes**

Ao explorar o conjunto de dados de exportação de Vinhos e a de Espumantes, notamos uma distinção importante nas nomenclaturas das colunas:

- **Valor de Exportação (USD):** As colunas que incluem um `ponto` seguido do `numeral 1` (por exemplo, "1970.1", "1971.1") representam o valor das exportações em dólares americanos (USD).

- **Quantidade de Exportação (l):** Por outro lado, as colunas que apresentam apenas o ano (como "1970", "1971") referem-se à quantidade de vinhos exportados, medida em litros (l).

---
## **Tratamento do Dataset `Exportação de Vinhos`**

Separamos as colunas de quantidade e valor dos dados de `Exportação de Vinhos` e, após a separação, renomeamos a coluna `País` para `pais_destino` para melhor clareza nos dados.

In [5]:
lista_colunas_atuais = dados_vinhos.columns
lista_colunas_valor = []
lista_colunas_quantidade = []

for coluna in lista_colunas_atuais[2:]:
    if "." in coluna:
        lista_colunas_valor.append(coluna)
    else:
        lista_colunas_quantidade.append(coluna)

print(lista_colunas_valor)
print(lista_colunas_quantidade)

dados_vinhos.rename(columns={"País": "pais_destino"}, inplace=True)

['1970.1', '1971.1', '1972.1', '1973.1', '1974.1', '1975.1', '1976.1', '1977.1', '1978.1', '1979.1', '1980.1', '1981.1', '1982.1', '1983.1', '1984.1', '1985.1', '1986.1', '1987.1', '1988.1', '1989.1', '1990.1', '1991.1', '1992.1', '1993.1', '1994.1', '1995.1', '1996.1', '1997.1', '1998.1', '1999.1', '2000.1', '2001.1', '2002.1', '2003.1', '2004.1', '2005.1', '2006.1', '2007.1', '2008.1', '2009.1', '2010.1', '2011.1', '2012.1', '2013.1', '2014.1', '2015.1', '2016.1', '2017.1', '2018.1', '2019.1', '2020.1', '2021.1', '2022.1', '2023.1']
['1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021', '2022', '2023']


### **Criação do DataFrame de Quantidade (Vinhos)**

Com as colunas de quantidade identificadas, criamos um DataFrame `dados_vinhos_quantidade` utilizando a função `melt`. Este DataFrame contém as quantidades de vinho exportadas, organizadas por país de destino e ano.

In [6]:
# Transforma o DataFrame 'dados_vinhos', convertendo as colunas de quantidade em linhas, mantendo 'pais_destino' como coluna fixa
dados_vinhos_quantidade = dados_vinhos.melt(id_vars=["pais_destino"], value_vars=lista_colunas_quantidade, var_name="ano", value_name="quantidade_litro")

# Exibe o DataFrame 'dados_vinhos_quantidade' após a transformação
dados_vinhos_quantidade

Unnamed: 0,pais_destino,ano,quantidade_litro
0,Afeganistão,1970,0
1,África do Sul,1970,0
2,"Alemanha, República Democrática",1970,0
3,Angola,1970,0
4,Anguilla,1970,0
...,...,...,...
7393,Tuvalu,2023,0
7394,Uruguai,2023,326093
7395,Vanuatu,2023,0
7396,Venezuela,2023,141030


### **Criação do DataFrame de Valor (Vinhos)**

De maneira similar, criamos um DataFrame `dados_vinhos_valor` para os valores de exportação, também usando a função `melt`. Neste passo, ajustamos os nomes dos anos para remover o sufixo `.1`, padronizando-os com os nomes no DataFrame de quantidade.

In [7]:
# Transforma o DataFrame 'dados_vinhos', convertendo as colunas de valor em linhas, mantendo 'pais_destino' como coluna fixa
dados_vinhos_valor = dados_vinhos.melt(id_vars=["pais_destino"], value_vars=lista_colunas_valor, var_name="ano", value_name="valor_usd")

# Limpa a coluna 'ano', removendo a string ".1" de seus valores para corrigir o formato do ano
dados_vinhos_valor["ano"] = dados_vinhos_valor["ano"].str.replace(".1", "")

# Exibe o DataFrame 'dados_vinhos_valor' após a transformação e limpeza
dados_vinhos_valor

Unnamed: 0,pais_destino,ano,valor_usd
0,Afeganistão,1970,0
1,África do Sul,1970,0
2,"Alemanha, República Democrática",1970,0
3,Angola,1970,0
4,Anguilla,1970,0
...,...,...,...
7393,Tuvalu,2023,0
7394,Uruguai,2023,454271
7395,Vanuatu,2023,0
7396,Venezuela,2023,220512


### **Consolidação dos DataFrames (Vinhos)**

Após a criação dos DataFrames de quantidade e valor, realizamos um `merge` entre eles com base nas colunas `pais_destino` e `ano`, resultando no DataFrame `dados_vinhos_consolidados`. Este DataFrame unificado contém tanto a quantidade (litros) quanto o valor (US$) das exportações de vinho, por país e ano.

In [8]:
# Combina os DataFrames 'dados_vinhos_quantidade' e 'dados_vinhos_valor' em um novo DataFrame, unindo-os pelas colunas 'pais_destino' e 'ano'
dados_vinhos_consolidados = pd.merge(dados_vinhos_quantidade, dados_vinhos_valor, on=["pais_destino", "ano"])

# Exibe o DataFrame 'dados_vinhos_consolidados' resultante da combinação
dados_vinhos_consolidados

Unnamed: 0,pais_destino,ano,quantidade_litro,valor_usd
0,Afeganistão,1970,0,0
1,África do Sul,1970,0,0
2,"Alemanha, República Democrática",1970,0,0
3,Angola,1970,0,0
4,Anguilla,1970,0,0
...,...,...,...,...
7393,Tuvalu,2023,0,0
7394,Uruguai,2023,326093,454271
7395,Vanuatu,2023,0,0
7396,Venezuela,2023,141030,220512


In [9]:
dados_vinhos_consolidados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7398 entries, 0 to 7397
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   pais_destino      7398 non-null   object
 1   ano               7398 non-null   object
 2   quantidade_litro  7398 non-null   int64 
 3   valor_usd         7398 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 231.3+ KB


### **Filtragem dos dados dos últimos 15 anos e País de Origem (Vinhos)**

Realizamos ajustes finais no DataFrame consolidado, convertendo a coluna `ano` para o tipo inteiro e filtrando os dados para `excluir os anos anteriores a 2009`. Esses ajustes preparam os dados para análises futuras, focando nas exportações mais recentes.

In [10]:
# Converte o tipo de dados da coluna 'ano' para inteiro
dados_vinhos_consolidados["ano"] = dados_vinhos_consolidados["ano"].astype(int)

# Filtra o DataFrame para incluir apenas os registros dos anos entre 2009 e 2023
dados_vinhos_consolidados = dados_vinhos_consolidados[dados_vinhos_consolidados["ano"].between(2009, 2023)]

# Exibe o DataFrame 'dados_vinhos_consolidados' após a conversão de tipo e filtragem
dados_vinhos_consolidados

Unnamed: 0,pais_destino,ano,quantidade_litro,valor_usd
5343,Afeganistão,2009,0,0
5344,África do Sul,2009,0,0
5345,"Alemanha, República Democrática",2009,225086,393482
5346,Angola,2009,54786,84235
5347,Anguilla,2009,0,0
...,...,...,...,...
7393,Tuvalu,2023,0,0
7394,Uruguai,2023,326093,454271
7395,Vanuatu,2023,0,0
7396,Venezuela,2023,141030,220512


>Adicionalmente, adicionamos uma nova coluna `pais_origem` com o valor `Brasil` para todas as linhas, identificando claramente a origem das exportações.

In [11]:
# Insere uma nova coluna chamada 'pais_origem' na posição 0 (primeira coluna) do DataFrame 'dados_vinhos_consolidados', atribuindo o valor 'Brasil' a todas as linhas
dados_vinhos_consolidados.insert(0, "pais_origem", "Brasil")

# Insere uma nova coluna chamada 'produto' na posição 2 (terceira coluna) do DataFrame 'dados_vinhos_consolidados', atribuindo o valor 'Vinho' a todas as linhas
dados_vinhos_consolidados.insert(2, "produto", "Vinho")

# Exibe o DataFrame 'dados_vinhos_consolidados' após a inserção das novas colunas
dados_vinhos_consolidados

Unnamed: 0,pais_origem,pais_destino,produto,ano,quantidade_litro,valor_usd
5343,Brasil,Afeganistão,Vinho,2009,0,0
5344,Brasil,África do Sul,Vinho,2009,0,0
5345,Brasil,"Alemanha, República Democrática",Vinho,2009,225086,393482
5346,Brasil,Angola,Vinho,2009,54786,84235
5347,Brasil,Anguilla,Vinho,2009,0,0
...,...,...,...,...,...,...
7393,Brasil,Tuvalu,Vinho,2023,0,0
7394,Brasil,Uruguai,Vinho,2023,326093,454271
7395,Brasil,Vanuatu,Vinho,2023,0,0
7396,Brasil,Venezuela,Vinho,2023,141030,220512


---
## **Tratamento do Dataset `Exportação de Espumantes`**

Como o dataset de `Exportação de Espumantes` possui a mesma estrutura do dataset de `Exportação de Vinhos` não foi necessário efetuar a separação das colunas de quantidade e valor dos dados de exportação de espumantes, pois essas informações estão nas variáveis `lista_colunas_valor` e `lista_colunas_quantidade`. Então, apenas renomeamos a coluna `País` para `pais_destino` para melhor clareza nos dados.

In [12]:
# Renomeia a coluna 'País' para 'pais_destino' no DataFrame 'dados_espumantes', modificando o DataFrame original
dados_espumantes.rename(columns={"País": "pais_destino"}, inplace=True)

# Exibe as primeiras 5 linhas do DataFrame 'dados_espumantes' após a renomeação da coluna
dados_espumantes.head()

Unnamed: 0,Id,pais_destino,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1,2023,2023.1
0,1,África do Sul,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,2,44
1,2,Alemanha,0,0,0,0,0,0,0,0,...,1003,5466,2388,14767,142,265,1164,6560,162,1542
2,3,Angola,0,0,0,0,0,0,0,0,...,1007,3615,24,38,0,0,26383,141588,56242,315073
3,4,Antigua e Barbuda,0,0,0,0,0,0,0,0,...,7,34,32,328,10,82,65,146,24,100
4,5,Antilhas Holandesas,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### **Criação do DataFrame de Quantidade (Espumantes)**

Com as colunas de quantidade identificadas, criamos um DataFrame `dados_espumantes_quantidade` utilizando a função `melt`. Este DataFrame contém as quantidades de vinho exportadas, organizadas por país de destino e ano.

In [13]:
# Transforma o DataFrame 'dados_espumantes' de formato largo para longo, especificando 'pais_destino' como identificador e reorganizando as quantidades por ano.
dados_espumantes_quantidade = dados_espumantes.melt(id_vars=["pais_destino"], value_vars=lista_colunas_quantidade, var_name="ano", value_name="quantidade_litro")

# Exibe o DataFrame 'dados_espumantes_quantidade' após a transformação.
dados_espumantes_quantidade

Unnamed: 0,pais_destino,ano,quantidade_litro
0,África do Sul,1970,0
1,Alemanha,1970,0
2,Angola,1970,0
3,Antigua e Barbuda,1970,0
4,Antilhas Holandesas,1970,0
...,...,...,...
5557,Uruguai,2023,2812
5558,Vanuatu,2023,0
5559,Venezuela,2023,0
5560,Vietnã,2023,0


### **Criação do DataFrame de Valor (Espumantes)**

De maneira similar, criamos um DataFrame `dados_espumantes_valor` para os valores de exportação, também usando a função `melt`. Neste passo, ajustamos os nomes dos anos para remover o sufixo `.1`, padronizando-os com os nomes no DataFrame de quantidade.

In [14]:
# Transforma o DataFrame 'dados_espumantes', convertendo colunas de valores em linhas, mantendo 'pais_destino' como identificador.
dados_espumantes_valor = dados_espumantes.melt(id_vars=["pais_destino"], value_vars=lista_colunas_valor, var_name="ano", value_name="valor_usd")

# Remove o sufixo '.1' dos valores na coluna 'ano', ajustando o formato do ano.
dados_espumantes_valor["ano"] = dados_espumantes_valor["ano"].str.replace(".1", "")

# Exibe o DataFrame 'dados_espumantes_valor' após a transformação e limpeza da coluna 'ano'.
dados_espumantes_valor

Unnamed: 0,pais_destino,ano,valor_usd
0,África do Sul,1970,0
1,Alemanha,1970,0
2,Angola,1970,0
3,Antigua e Barbuda,1970,0
4,Antilhas Holandesas,1970,0
...,...,...,...
5557,Uruguai,2023,14352
5558,Vanuatu,2023,0
5559,Venezuela,2023,0
5560,Vietnã,2023,0


### **Consolidação dos DataFrames (Espumantes)**

Após a criação dos DataFrames de quantidade e valor, realizamos um `merge` entre eles com base nas colunas `pais_destino` e `ano`, resultando no DataFrame `dados_espumantes_consolidados`. Este DataFrame unificado contém tanto a quantidade (litros) quanto o valor (US$) das exportações de espumante, por país e ano.

In [15]:
# Combina os DataFrames 'dados_espumantes_quantidade' e 'dados_espumantes_valor' usando 'pais_destino' e 'ano' como chaves de junção.
dados_espumantes_consolidados = pd.merge(dados_espumantes_quantidade, dados_espumantes_valor, on=["pais_destino", "ano"])

# Exibe o DataFrame 'dados_espumantes_consolidados' resultante da fusão.
dados_espumantes_consolidados

Unnamed: 0,pais_destino,ano,quantidade_litro,valor_usd
0,África do Sul,1970,0,0
1,Alemanha,1970,0,0
2,Angola,1970,0,0
3,Antigua e Barbuda,1970,0,0
4,Antilhas Holandesas,1970,0,0
...,...,...,...,...
5557,Uruguai,2023,2812,14352
5558,Vanuatu,2023,0,0
5559,Venezuela,2023,0,0
5560,Vietnã,2023,0,0


In [16]:
# Exibe um resumo informativo do DataFrame 'dados_espumantes_consolidados', incluindo o tipo de dado de cada coluna e a contagem de valores não nulos.
dados_espumantes_consolidados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5562 entries, 0 to 5561
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   pais_destino      5562 non-null   object
 1   ano               5562 non-null   object
 2   quantidade_litro  5562 non-null   int64 
 3   valor_usd         5562 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 173.9+ KB


### **Filtragem dos dados dos últimos 15 anos e País de Origem (Espumantes)**

Realizamos ajustes finais no DataFrame consolidado, convertendo a coluna `ano` para o tipo inteiro e filtrando os dados para `excluir os anos anteriores a 2009`. Esses ajustes preparam os dados para análises futuras, focando nas exportações mais recentes.

In [17]:
# Converte o tipo de dado da coluna 'ano' para inteiro.
dados_espumantes_consolidados["ano"] = dados_espumantes_consolidados["ano"].astype(int)

# Filtra o DataFrame para incluir apenas os registros entre os anos de 2009 e 2023.
dados_espumantes_consolidados = dados_espumantes_consolidados[dados_espumantes_consolidados["ano"].between(2009, 2023)]

# Exibe o DataFrame 'dados_espumantes_consolidados' após a conversão do tipo de dado e filtragem.
dados_espumantes_consolidados

Unnamed: 0,pais_destino,ano,quantidade_litro,valor_usd
4017,África do Sul,2009,0,0
4018,Alemanha,2009,6648,29018
4019,Angola,2009,11393,33664
4020,Antigua e Barbuda,2009,0,0
4021,Antilhas Holandesas,2009,180,1660
...,...,...,...,...
5557,Uruguai,2023,2812,14352
5558,Vanuatu,2023,0,0
5559,Venezuela,2023,0,0
5560,Vietnã,2023,0,0


>Adicionalmente, adicionamos uma nova coluna `pais_origem` com o valor `Brasil` e `produto` com o valor `Espumante` para todas as linhas, identificando claramente a origem das exportações.

In [18]:
# Adiciona a coluna "pais_origem" na posição 0 com o valor "Brasil" para todas as linhas.
dados_espumantes_consolidados.insert(0, "pais_origem", "Brasil")

# Adiciona a coluna "produto" na posição 2 com o valor "Espumante" para todas as linhas.
dados_espumantes_consolidados.insert(2, "produto", "Espumante")

# Exibe o DataFrame 'dados_espumantes_consolidados' após a adição das novas colunas.
dados_espumantes_consolidados

Unnamed: 0,pais_origem,pais_destino,produto,ano,quantidade_litro,valor_usd
4017,Brasil,África do Sul,Espumante,2009,0,0
4018,Brasil,Alemanha,Espumante,2009,6648,29018
4019,Brasil,Angola,Espumante,2009,11393,33664
4020,Brasil,Antigua e Barbuda,Espumante,2009,0,0
4021,Brasil,Antilhas Holandesas,Espumante,2009,180,1660
...,...,...,...,...,...,...
5557,Brasil,Uruguai,Espumante,2023,2812,14352
5558,Brasil,Vanuatu,Espumante,2023,0,0
5559,Brasil,Venezuela,Espumante,2023,0,0
5560,Brasil,Vietnã,Espumante,2023,0,0


# **Concatenação os DataFrames de Vinhos e Espumantes**

Após a criação dos DataFrames consolidados para Vinhos e Espumantes, realizamos com a `concatenação` dos mesmos. O resultado é um novo DataFrame chamado `dados_consolidados`, que contém os registros tanto de Vinhos quanto de Espumantes, unificando as informações em uma única estrutura para análise.

In [19]:
# Combina os DataFrames 'dados_espumantes_consolidados' e 'dados_vinhos_consolidados' em um novo DataFrame.
dados_consolidados = pd.concat([dados_espumantes_consolidados, dados_vinhos_consolidados])

# Reinicia o índice do DataFrame combinado para uma sequência contínua e remove o índice antigo.
dados_consolidados.reset_index(drop=True, inplace=True)

# Exibe o DataFrame 'dados_consolidados' após a concatenação e reinicialização do índice.
dados_consolidados

Unnamed: 0,pais_origem,pais_destino,produto,ano,quantidade_litro,valor_usd
0,Brasil,África do Sul,Espumante,2009,0,0
1,Brasil,Alemanha,Espumante,2009,6648,29018
2,Brasil,Angola,Espumante,2009,11393,33664
3,Brasil,Antigua e Barbuda,Espumante,2009,0,0
4,Brasil,Antilhas Holandesas,Espumante,2009,180,1660
...,...,...,...,...,...,...
3595,Brasil,Tuvalu,Vinho,2023,0,0
3596,Brasil,Uruguai,Vinho,2023,326093,454271
3597,Brasil,Vanuatu,Vinho,2023,0,0
3598,Brasil,Venezuela,Vinho,2023,141030,220512


##Proximos Passos

* Climaticos = Abigail
* Demográfico = Victor
* Economico = Rodrigo
* Avaliação de Vinhos = Alex


Juntar a exportação de Espumante


1 - Total dos ultimos 15 anos

2 - Total de Vinhos de Mesa

3 - Total de Espumantes

----------

Abrir os top

