# Análise Exportação de Vinhos - Tech Challenge - Fase 1 - Pos Tech - Data Analytics - FIAP

## 1. Introdução

Este projeto faz parte do projeto Tech Challenge da Pos Tech Data Analytics FIAP e conta como nota da primeira fase da pós graduação.
O grupo que desenvolveu esse projeto é composto por:

Aelton Pereira de Lacerda

André Martins Pontes

Arthur do Nascimento Siqueira

Matheus Martins Matias Rodrigues

Victor Campanha Barros -  (https://www.linkedin.com/in/victorcbarros/)

## 2. Visão Geral 

O problema da previsibilidade de cenários futuros é uma preocupação significativa para empresas de produção e exportação de vinhos. Mudanças inesperadas no mercado internacional de compra e venda podem levar à perda de mercado e até a prejuízos enormes se a empresa não acompanhar essas alterações. Nesse sentido, a análise de dados, tanto da empresa quanto do cenário mundial, torna-se uma ferramenta indispensável para auxiliar na tomada de decisão. Essa prática oferece uma vantagem competitiva frente às concorrentes que não utilizam essa ferramenta, permitindo uma adaptação mais rápida e eficaz às mudanças de mercado.

Este projeto tem como objetivo analisar o montante de vendas de exportação de vinhos provenientes do Brasil nos últimos 15 anos. Utilizamos a linguagem de programação Python, através da biblioteca Pandas, para a extração, limpeza, tratamento e carregamento dos dados. Para a visualização dos dados, utilizamos o software Power BI, criando um dashboard para facilitar a análise. A partir disso, sugerimos possíveis ações para melhorias nas exportações com base nos dados analisados.

<center>
<img src = "https://github.com/victorcbarros/Analise-Exportacao-de-Vinhos/blob/363d14771c1b1b8828b0b67a6c402d16819683b7/reports-relatorios/figures-figuras/Projeto%20Analise%20Exporta%C3%A7%C3%A3o%20de%20Vinhos%20Banner.jpg" width = "60%">
</center>

## 3. Business Understanding

No cenário atual de globalização e competitividade no mercado de vinhos, compreender os padrões de exportação é fundamental para as empresas do setor. Com o aumento do comércio internacional e a diversificação dos gostos dos consumidores, entender as tendências de exportação de vinhos torna-se crucial para desenvolver estratégias de negócios eficazes.

A análise dos dados de exportação de vinhos do Brasil ao longo dos últimos 15 anos oferece uma visão detalhada das mudanças no mercado global, permitindo que as empresas identifiquem padrões, sazonalidades e preferências dos consumidores em diferentes regiões do mundo. Essa compreensão é essencial para a tomada de decisões informadas em relação à produção, marketing e distribuição dos produtos, visando maximizar as oportunidades de negócio e minimizar os riscos associados às flutuações do mercado.

**Tipos de Análise Realizados:**
- Análise exploratoria dos dados de exportação,importação, produção e comercialização
- Análise das tendências de mercado 
- Analise do cenario mundial de vinhos

**Principais Indicadores Chave de Desempenho:**
- Quantidade em litros de vinho exportado(1Kg = 1L)
- Valor exportado (US\$)
- Valor por litro exportado(US\$)
- Quantidade em litros de vinho importado(1Kg = 1L)
- Valor Importado (US\$)
- Valor por litro importado(US$)
- Quantidade em litros de vinho produzido(1L)
- Quantidade em litros de vinho comercializado(1L)


## 4. Importando os pacotes necessários

In [3]:
# Bibliotecas padrão
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.ticker as ticker

In [4]:
importacao = pd.read_csv('https://github.com/ArthurNSiqueira/tech_challenge/raw/main/ImpVinhos.csv',sep=';',encoding="UTF-8-SIG",thousands=".",decimal=",")

In [5]:
exportacao = pd.read_csv('https://github.com/ArthurNSiqueira/tech_challenge/raw/main/ExpVinho.csv',
                         sep=';',encoding='UTF-8-SIG',decimal=',')

In [6]:
producao = pd.read_csv("https://github.com/ArthurNSiqueira/tech_challenge/raw/main/Producao.csv",
                        encoding="UTF-8-SIG",sep=";",thousands=".",decimal=",")

In [7]:
comercio = pd.read_csv("https://github.com/ArthurNSiqueira/tech_challenge/raw/main/Comercio.csv",
                  encoding="UTF-8-SIG",sep=";",thousands=".",decimal=",")

##  5. **Tratamendo e Limpeza dos dados**

Esta seção fornece uma visão sobre o tratamento e limpeza feita nos dados que estão sendo analisados.

## 5.1 Produção e Comercialização

### **Dicionário de Variáveis**

####  **Produção**

- **`Produto`**: 
  - **Descrição:** Vinho do Rio Grande do Sul
  - **Finalidade:** Definir o tipo do Vinho
  
- **`Quantidade(L.)`**: 
  - **Descrição:** Quantidade em Litros produzido
  - **Finalidade:** Quantificar o volume de produção por ano

####  **Comercialização**

- **`Produto`**: 
  - **Descrição:** Vinho do Rio Grande do Sul
  - **Finalidade:** Definir o tipo do Vinho
  
- **`Quantidade(L.)`**: 
  - **Descrição:** Quantidade em Litros comercializado
  - **Finalidade:** Quantificar o volume comercializado por ano





### 5.1.1 Tratamendo e Limpeza dos dados de Produção e Comercialização

Os dados de Produção e Comercialização estão ambos em duas tabelas diferentes, o intuito inicial é juntar as duas tabelas em uma só, para isso vamos analisar e fazer todo procedimento de tratamento e limpeza das duas tabelas. O primeiro passo é observar como os dados estão organizados

In [8]:
# Ver as cinco primeiras entradas
producao.head()

Unnamed: 0,id,produto,1970,1971,1972,1973,1974,1975,1976,1977,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,1,VINHO DE MESA,217208604,154264651,146953297,116710345,193875345,177401209,144565438,195359778,...,196904222,196173123,210308560,86319015,255015187,218375636,144629737,124200414,173899995,195031611
1,2,Tinto,174224052,121133369,118180926,88589019,146544484,144274134,118360170,154801826,...,163111797,157776363,169811472,75279191,1365957,188270142,121045115,103916391,146075996,162844214
2,3,Branco,748400,1160500,1812367,243900,4138768,1441507,1871473,4954387,...,32066403,37438069,39557250,10727099,217527985,29229970,22032828,19568734,26432799,30198430
3,4,Rosado,42236152,31970782,26960004,27877426,43192093,31685568,24333795,35603565,...,1726022,958691,939838,312725,36121245,875524,1551794,715289,1391200,1988968
4,5,VINHO FINO DE MESA (VINÍFERA),23899346,23586062,21078771,12368410,31644124,39424590,34500590,41264971,...,45782530,38464314,37148982,18070626,44537870,38707220,37615422,32516686,43474998,47511796


In [9]:
comercio.head()

Unnamed: 0,1,VINHO DE MESA,VINHO DE MESA.1,98327606,114399031,118377367,116617910,94173324,108031792,139238614,...,221590810,206404427,209198468,166769622,176059959,177186273,180446489,215557931,210012238,187939996
0,2,vm_Tinto,Tinto,83300735,98522869,101167932,98196747,77167303,91528090,116407222,...,188033494,178250072,182028785,146646365,154309442,155115499,158519218,189573423,185653678,165067340
1,3,vm_Rosado,Rosado,107681,542274,7770851,8425617,8891367,7261777,11748047,...,1777648,1419855,1409002,1391942,1097426,1972944,1265435,1394901,1931606,2213723
2,4,vm_Branco,Branco,14919190,15333888,9438584,9995546,8114654,9241925,11083345,...,31779668,26734500,25760681,18731315,20653091,20097830,20661836,24589607,22426954,20658933
3,5,VINHO FINO DE MESA,VINHO FINO DE MESA,4430629,4840369,5602091,7202830,7571802,8848303,14095648,...,27912934,20424983,20141631,19630158,15874354,14826143,15684588,24310834,27080445,21533487
4,6,vm_Tinto,Tinto,435354,428927,624499,783508,1616144,2050960,4450570,...,19121750,15354938,15572632,15228514,12021684,11150517,11433702,18202453,19337862,15258778


É possível notar que que as tabela em csv trazem os dados por tipo de Vinho e suas derivações na mesma linha o que dificulta a analise dos dados, sera necessario o tratamento dos dados para que esses dados sejam usados alem disso na primeira tabela os dados estão organizados por ano desde 1970 e na segunda com valores que a principio não conseguimos identificar. Nosso intuito é analisar os dados de 2007 a 2022 (ultimos 15 anos da base).



In [10]:
# Visualizar o tamanho do dataframe Producao
print(f"Linhas da tabela Produção: {producao.shape[0]}")
print(f"Colunas da tabela Produção: {producao.shape[1]}")

Linhas da tabela Produção: 51
Colunas da tabela Produção: 55


In [11]:
# Visualizar o tamanho do dataframe Comercio 
print(f"Linhas da tabela Comercio: {comercio.shape[0]}")
print(f"Colunas da tabela Comercio: {comercio.shape[1]}")

Linhas da tabela Comercio: 60
Colunas da tabela Comercio: 56


### 5.1.2 Tratamendo e Limpeza dos dados de Produção

In [12]:
# Alterando o nome das colunas para facilitar o tratamento
producao["Categoria"] = producao["id"]
producao["Nome Produto"] = producao["produto"]

In [13]:
# Definindo a coluna id como index da tabela
producao = producao.set_index('id')

In [14]:
# filtrando as colunas apenas dos ultimos 15 anos para analise
producao_ultimos_15_anos = producao.columns[38:]
producao = producao[producao_ultimos_15_anos]
producao.head()

Unnamed: 0_level_0,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,Categoria,Nome Produto
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
1,275287908,287506811,205418206,195267980,257840749,212777037,196904222,196173123,210308560,86319015,255015187,218375636,144629737,124200414,173899995,195031611,1,VINHO DE MESA
2,228156220,241057928,164143454,157290088,210113358,175875432,163111797,157776363,169811472,75279191,1365957,188270142,121045115,103916391,146075996,162844214,2,Tinto
3,42118552,42942053,39211278,35408083,46007504,34938249,32066403,37438069,39557250,10727099,217527985,29229970,22032828,19568734,26432799,30198430,3,Branco
4,5013136,3506830,2063474,2569809,1719887,1963356,1726022,958691,939838,312725,36121245,875524,1551794,715289,1391200,1988968,4,Rosado
5,43176484,47334501,39900568,24805713,47598471,45200730,45782530,38464314,37148982,18070626,44537870,38707220,37615422,32516686,43474998,47511796,5,VINHO FINO DE MESA (VINÍFERA)


In [15]:
# Definindo as colunas a serem usadas e reornenando 
producao=producao[["Nome Produto",'Categoria', '2007', '2008', '2009', '2010', '2011', '2012',
       '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021',
       '2022']]

In [16]:
producao.head()

Unnamed: 0_level_0,Nome Produto,Categoria,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
1,VINHO DE MESA,1,275287908,287506811,205418206,195267980,257840749,212777037,196904222,196173123,210308560,86319015,255015187,218375636,144629737,124200414,173899995,195031611
2,Tinto,2,228156220,241057928,164143454,157290088,210113358,175875432,163111797,157776363,169811472,75279191,1365957,188270142,121045115,103916391,146075996,162844214
3,Branco,3,42118552,42942053,39211278,35408083,46007504,34938249,32066403,37438069,39557250,10727099,217527985,29229970,22032828,19568734,26432799,30198430
4,Rosado,4,5013136,3506830,2063474,2569809,1719887,1963356,1726022,958691,939838,312725,36121245,875524,1551794,715289,1391200,1988968
5,VINHO FINO DE MESA (VINÍFERA),5,43176484,47334501,39900568,24805713,47598471,45200730,45782530,38464314,37148982,18070626,44537870,38707220,37615422,32516686,43474998,47511796


In [17]:
# definindo as categorias dos de cada produto 
producao["Categoria"] = producao["Categoria"].mask(producao["Categoria"] >= 15,'derivado')

In [18]:
# definindo as categorias dos de cada produto 
producao["Categoria"] = producao["Categoria"].replace([5,6,7,8],"vinho fino vinífera")
producao["Categoria"] = producao["Categoria"].replace([9, 10, 11, 12, 13, 14],"suco")
producao["Categoria"] = producao["Categoria"].replace([1,2,3,4],"vinho mesa")

In [19]:
# eliminando as linhas que não deveriam ser nome do produto e sim categorias 
producao = producao.drop(1, axis=0)
producao = producao.drop(5, axis=0)
producao = producao.drop(9, axis=0)
producao = producao.drop(15, axis=0)

In [20]:
# Reorganizando o dataframe em função da Categoria e Nome do produto utilizando os anos como uma unica coluna
producao = pd.melt(producao, id_vars=["Categoria","Nome Produto"],var_name="Ano", value_name="Total_Produzido")

In [21]:
# Alterando o nome do produto para letras minusculas 
producao["Nome Produto"] = producao["Nome Produto"].str.lower()

In [22]:
# visualizando o dataframe tratado 
producao.head(10)

Unnamed: 0,Categoria,Nome Produto,Ano,Total_Produzido
0,vinho mesa,tinto,2007,228156220
1,vinho mesa,branco,2007,42118552
2,vinho mesa,rosado,2007,5013136
3,vinho fino vinífera,tinto,2007,24786071
4,vinho fino vinífera,branco,2007,17598428
5,vinho fino vinífera,rosado,2007,791985
6,suco,suco de uva integral,2007,10147037
7,suco,suco de uva concentrado,2007,19280709
8,suco,suco de uva adoçado,2007,709098
9,suco,suco de uva orgânico,2007,0


In [23]:
# visualizando o dataframe tratado 
producao.head(10)

Unnamed: 0,Categoria,Nome Produto,Ano,Total_Produzido
0,vinho mesa,tinto,2007,228156220
1,vinho mesa,branco,2007,42118552
2,vinho mesa,rosado,2007,5013136
3,vinho fino vinífera,tinto,2007,24786071
4,vinho fino vinífera,branco,2007,17598428
5,vinho fino vinífera,rosado,2007,791985
6,suco,suco de uva integral,2007,10147037
7,suco,suco de uva concentrado,2007,19280709
8,suco,suco de uva adoçado,2007,709098
9,suco,suco de uva orgânico,2007,0


In [24]:
# Visualizar o tamanho do dataframe Producao
print(f"Linhas da tabela Produção apos o tratamento: {producao.shape[0]}")
print(f"Colunas da tabela Produção apos o tratamento: {producao.shape[1]}")

Linhas da tabela Produção apos o tratamento: 752
Colunas da tabela Produção apos o tratamento: 4


Após o tratamento e limpeza dos dados de Produção temos um dataframe maior porem com menos colunas e mais organização dos dados 
o que sera importante na junção com os dados de comercialização que faremos o tratamento a seguir.

### 5.1.3 Tratamendo e Limpeza dos dados de Comercialização 

In [25]:
# vizualizando o dataframe sem tratamento nenhum
comercio.head()

Unnamed: 0,1,VINHO DE MESA,VINHO DE MESA.1,98327606,114399031,118377367,116617910,94173324,108031792,139238614,...,221590810,206404427,209198468,166769622,176059959,177186273,180446489,215557931,210012238,187939996
0,2,vm_Tinto,Tinto,83300735,98522869,101167932,98196747,77167303,91528090,116407222,...,188033494,178250072,182028785,146646365,154309442,155115499,158519218,189573423,185653678,165067340
1,3,vm_Rosado,Rosado,107681,542274,7770851,8425617,8891367,7261777,11748047,...,1777648,1419855,1409002,1391942,1097426,1972944,1265435,1394901,1931606,2213723
2,4,vm_Branco,Branco,14919190,15333888,9438584,9995546,8114654,9241925,11083345,...,31779668,26734500,25760681,18731315,20653091,20097830,20661836,24589607,22426954,20658933
3,5,VINHO FINO DE MESA,VINHO FINO DE MESA,4430629,4840369,5602091,7202830,7571802,8848303,14095648,...,27912934,20424983,20141631,19630158,15874354,14826143,15684588,24310834,27080445,21533487
4,6,vm_Tinto,Tinto,435354,428927,624499,783508,1616144,2050960,4450570,...,19121750,15354938,15572632,15228514,12021684,11150517,11433702,18202453,19337862,15258778


In [26]:
# alterando o nome das colunas
comercio["VINHO DE MESA1"] = comercio["VINHO DE MESA"]
comercio["Categoria1"] = comercio["1"]

In [27]:
# excluindo a coluna '1' sem informação relevante
comercio = comercio.drop('1',axis=1)

In [28]:
# criando uma coluna com os dados que seram usados como coluna
comercio = comercio.T
comercio.insert(0,column="id",value = ['produto', 'produto.1','1970', '1971', '1972', '1973', '1974', '1975', '1976','1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985','1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994','1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003','2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012','2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021','2022','Nome Produto','Categoria'])

In [29]:
# Definindo a coluna 'id' como index
comercio= comercio.set_index("id")

In [30]:
# Transpondo a matriz para que os anos fiquem como coluna
comercio = comercio.T

In [31]:
# filtrando as colunas apenas dos ultimos 15 anos para analise
comercio_ultimos_15_anos = comercio.columns[39:]
comercio = comercio[comercio_ultimos_15_anos]

In [32]:
# Definindo as colunas a serem usadas e reornenando 
comercio =comercio[["Nome Produto",'Categoria', '2007', '2008', '2009', '2010', '2011', '2012',
       '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021',
       '2022']]

In [33]:
# definindo as categorias dos  produto 
comercio["Categoria"] = comercio["Categoria"].mask(comercio["Categoria"] >24,'derivado') #outros produtos comercializados

In [34]:
# definindo as categorias dos  produto 
comercio["Categoria"] = comercio["Categoria"].replace([5,6,7,8],"vinho fino vinífera")
comercio["Categoria"] = comercio["Categoria"].replace([9,10],"derivado")
comercio["Categoria"] = comercio["Categoria"].replace([11,12,13,14],"vinho especial")
comercio["Categoria"] = comercio["Categoria"].replace([19,20,21,22,23,24],"suco")
comercio["Categoria"] = comercio["Categoria"].replace([15,16,17,18],"derivado") #espumantes
comercio["Categoria"] = comercio["Categoria"].replace([11,12,13],"suco")
comercio["Categoria"] = comercio["Categoria"].replace([14],"suco") #suco de uva concentrado nao faz parte da soma do suco de uva
comercio["Categoria"] = comercio["Categoria"].replace([2,3,4],"vinho mesa")

In [35]:
# eliminando as linhas que não deveriam ser nome do produto e sim categorias 
comercio = comercio.drop([3,9,15,17,23], axis=0)

In [36]:
# Reorganizando o dataframe em função da Categoria e Nome do produto utilizando os anos como uma única coluna
comercio = pd.melt(comercio, id_vars=["Categoria","Nome Produto"],var_name="Ano", value_name="Total_Comercializado")

In [37]:
# Corrigindo o nome dos produtos
comercio ["Nome Produto"] = comercio ["Nome Produto"].str.replace('vm_', '')
comercio ["Nome Produto"] = comercio ["Nome Produto"].str.replace('ve_', '')
comercio ["Nome Produto"] = comercio ["Nome Produto"].str.replace('es_', '')
comercio ["Nome Produto"] = comercio ["Nome Produto"].str.replace('su_', '')
comercio ["Nome Produto"] = comercio ["Nome Produto"].str.replace('ou_', '')
comercio ["Nome Produto"] = comercio ["Nome Produto"].str.replace('_', ' ')
comercio["Nome Produto"] = comercio["Nome Produto"].str.lower()

In [38]:
comercio.sample(10)

Unnamed: 0,Categoria,Nome Produto,Ano,Total_Comercializado
727,derivado,espumante moscatel,2020,9298571
806,derivado,mistelas,2021,9075
652,derivado,vinagre duplo,2018,888589
711,derivado,vinho composto,2019,366549
690,derivado,brandy,2019,5015
64,vinho especial,rosado,2008,0
773,vinho fino vinífera,tinto,2021,19337862
175,vinho especial,branco,2010,0
642,derivado,mosto concentrado,2018,0
474,derivado,filtrado doce,2015,6001714


In [39]:
# Visualizar o tamanho do dataframe Comercialização
print(f"Linhas da tabela Comercialização apos o tratamento: {comercio.shape[0]}")
print(f"Colunas da tabela Comercialização apos o tratamento: {comercio.shape[1]}")

Linhas da tabela Comercialização apos o tratamento: 880
Colunas da tabela Comercialização apos o tratamento: 4


Após o tratamento e limpeza dos dados de Comercialização temos um dataframe maior porem com menos colunas e mais organização dos dados assim como o de Produção o que sera importante agora junção com os dados.

### 5.1.4 Junção das Tabelas Produção e Comercialização

Com as duas tabelas de Produção e Comercialização podemos perceber que ambas tem as mesmas categorias, Nome de produtos, anos e possuem o mesmo formato. Para facilitar a analise iremos uni-las em um dataframe só. 

In [40]:
# visualizando as categorias de produção e comercio
categorias_producao = producao['Categoria'].unique()
categorias_comercio = comercio['Categoria'].unique()
print(f'As categorias de produção são: {categorias_producao}')
print(f'As categorias de comercio são: {categorias_comercio}')

As categorias de produção são: ['vinho mesa' 'vinho fino vinífera' 'suco' 'derivado']
As categorias de comercio são: ['vinho mesa' 'vinho fino vinífera' 'derivado' 'vinho especial' 'suco']


In [41]:
# unindo os dataframes
producao_comercio = pd.merge(producao,comercio,how = "left", on = ["Categoria","Nome Produto","Ano"])

In [42]:
# visualizando as 5 primeiras linhas do dataframe unido
producao_comercio.head()

Unnamed: 0,Categoria,Nome Produto,Ano,Total_Produzido,Total_Comercializado
0,vinho mesa,tinto,2007,228156220,190526781
1,vinho mesa,branco,2007,42118552,29122090
2,vinho mesa,rosado,2007,5013136,2252558
3,vinho fino vinífera,tinto,2007,24786071,13872339
4,vinho fino vinífera,branco,2007,17598428,7197075


In [43]:
# visualizando os tipos de dados das colunas 
producao_comercio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 752 entries, 0 to 751
Data columns (total 5 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Categoria             752 non-null    object
 1   Nome Produto          752 non-null    object
 2   Ano                   752 non-null    object
 3   Total_Produzido       752 non-null    int64 
 4   Total_Comercializado  320 non-null    object
dtypes: int64(1), object(4)
memory usage: 29.5+ KB


In [44]:
# preenchendo os valores NaN com zero 
producao_comercio = producao_comercio.fillna(0)

  producao_comercio = producao_comercio.fillna(0)


In [45]:
# corrigindo o tipo de dados da colunas Total_Produzido e Total Comercializado
producao_comercio["Total_Produzido"] = producao_comercio.Total_Produzido.astype('int64')
producao_comercio["Total_Comercializado"] = producao_comercio.Total_Comercializado.astype('int64')

In [46]:
# visualizando os tipos de dados das colunas 
producao_comercio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 752 entries, 0 to 751
Data columns (total 5 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Categoria             752 non-null    object
 1   Nome Produto          752 non-null    object
 2   Ano                   752 non-null    object
 3   Total_Produzido       752 non-null    int64 
 4   Total_Comercializado  752 non-null    int64 
dtypes: int64(2), object(3)
memory usage: 29.5+ KB


In [47]:
# Visualizar o tamanho do dataframe Producao e Comercialização
print(f"Linhas da tabela Producao e Comercialização: {producao_comercio.shape[0]}")
print(f"Colunas da tabela Producao e Comercialização: {producao_comercio.shape[1]}")

Linhas da tabela Producao e Comercialização: 752
Colunas da tabela Producao e Comercialização: 5


O tramento e limpeza dos dados de Produção e Comercio foram finalizados e os dados estão prontos para suas primeiras analises exploratorias que sera feito no proximo tópico.

## 5.2 Importação e Exportação 

### **Dicionário de Variáveis**

####  **Importação**

- **`Países`**: 
  - **Descrição:** Países de origem dos vinhos comprados pelo Brasil
  - **Finalidade:** Definir o país de origem do vinho importado
  
- **`Quantidade(Kg)`**: 
  - **Descrição:** Quantidade em kilos importado
  - **Finalidade:** Quantificar o volume de importação por ano para cada país
  
- **`Valor(US$)`**: 
  - **Descrição:** Valor comprado em dolares
  - **Finalidade:** Quantificar o valor de importação por ano para cada país

####  **Exportação**

- **`Países`**: 
  - **Descrição:** Países comprador dos vinhos feitos pelo Brasil
  - **Finalidade:** Definir o país consumidor dos Vinhos Brasileiros
  
- **`Quantidade(Kg)`**: 
  - **Descrição:** Quantidade em kilos exportado
  - **Finalidade:** Quantificar o volume de exportação por ano e por país
  
- **`Valor(US$)`**: 
  - **Descrição:** Valor vendido em dolares
  - **Finalidade:** Quantificar o volume de exportação por ano e por país


### 5.2.1 Tratamendo e Limpeza dos dados de Importação e Exportação

Os dados de Importação e Exportação estão ambos em tabelas propias assim como o de Produção e Comercialização.Seguindo o mesmo processo do tratamento anterior o intuito inicial é juntar as duas tabelas em uma só, para isso vamos analisar e fazer todo procedimento de tratamento e limpeza das duas tabelas. O primeiro passo é observar como os dados estão organizados.

In [48]:
# Ver as tres primeiras entradas
importacao.head(3)

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2018,2018.1,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1
0,1,Africa do Sul,0,0.0,0,0,0,0,0,0,...,1127053,3574371,1092042,3604038,627150,1701072,859169,2508140,738116.0,2266827.0
1,2,Alemanha,52297,30498.0,34606,26027,134438,92103,111523,98638,...,142971,516975,101055,412794,136992,504168,106541,546967,92600.0,438595.0
2,3,Argélia,0,0.0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0.0,0.0


In [49]:
# Ver as tres primeiras entradas
exportacao.head(3)

Unnamed: 0,Id,País,1970,1970.1,1971,1971.1,1972,1972.1,1973,1973.1,...,2018,2018.1,2019,2019.1,2020,2020.1,2021,2021.1,2022,2022.1
0,1,Afeganistão,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,11,46,0,0
1,2,África do Sul,0,0,0,0,0,0,0,0,...,0,0,26,95,4,21,0,0,0,0
2,3,"Alemanha, República Democrática",0,0,0,0,4168,2630,12000,8250,...,10794,45382,3660,25467,6261,32605,2698,6741,7630,45367


É possível notar que que as tabela em csv trazem os dados por país em cada linha e a quantidade nas colunas com o ano (1970) e o valor em dolares nas colunas com o ano + '.1'(ex:1970.1) dificultando a analise dos dados por isso sera necessario o tratamento dos dados para que esses dados sejam usados. Alem disso nas tabela os dados estão organizados por ano desde 1970. Nosso intuito é analisar os dados de 2007 a 2022 (ultimos 15 anos da base).

In [50]:
# Visualizar o tamanho do dataframe Importacao
print(f"Linhas da tabela Importação: {importacao.shape[0]}")
print(f"Colunas da tabela Importação: {importacao.shape[1]}")

Linhas da tabela Importação: 66
Colunas da tabela Importação: 108


In [51]:
# Visualizar o tamanho do dataframe Exportacao
print(f"Linhas da tabela Exportação: {exportacao.shape[0]}")
print(f"Colunas da tabela Exportação: {exportacao.shape[1]}")

Linhas da tabela Exportação: 128
Colunas da tabela Exportação: 108


### 5.2.2 Tratamendo e Limpeza dos dados de Importação 

In [52]:
# definindo o index como país para filtrar as colunas de 2008 a 2023
importacao = importacao.set_index('País')

In [53]:
# filtrando as colunas de 2007 a 2022 para as analises
colunas_15_anos = importacao.columns[-32:]
importacao = importacao[colunas_15_anos]

Como nossos dados tem colunas duplicadas de anos sendo a primeira de quantidade e a segunda de valores importados faremos o tratamento separando em duas tabelas uma para quantidade e outra para valor importado e depois uniremos

#### -  Valores Vinhos Importados

In [54]:
# Pegando apenas as colunas impares que são referentes ao valor importado
importacao_valor = importacao.iloc[:,1::2]


In [55]:
# corringindo o nome das colunas
importacao_valor.columns = importacao_valor.columns.str[:-2]

In [56]:
# Resetando o index
importacao_valor = importacao_valor.reset_index()
# Fazendo o melt da tabela
importacao_valor = importacao_valor.melt(id_vars=['País'],value_vars=importacao_valor.columns)
# Renomeando as colunas
importacao_valor.columns = ['País','Ano','Valor Importado(US$)']
# Exibindo os valores
importacao_valor.head(3)

Unnamed: 0,País,Ano,Valor Importado(US$)
0,Africa do Sul,2007,1320244.0
1,Alemanha,2007,647626.0
2,Argélia,2007,0.0


#### -  Quantidade Vinhos Importados

In [57]:
# separando as colunas com a quantidade de vinho de mesa importada
importacao_quantidade = importacao.iloc[:,0::2]


In [58]:
# Resetando o index
importacao_quantidade = importacao_quantidade.reset_index()
# Fazendo o melt da tabela
importacao_quantidade = importacao_quantidade.melt(id_vars=['País'],value_vars=importacao_quantidade.columns)
# Renomeando as colunas
importacao_quantidade.columns = ['País','Ano','Quantidade Importada(Kg)']
# Exibindo os valores
importacao_quantidade.head()

Unnamed: 0,País,Ano,Quantidade Importada(Kg)
0,Africa do Sul,2007,386425.0
1,Alemanha,2007,234006.0
2,Argélia,2007,0.0
3,Arábia Saudita,2007,0.0
4,Argentina,2007,15621172.0


#### - Tabela Final de Importação 

In [59]:
#unindo as tabelas de quantidade importada e valor importado
importacao = pd.merge(importacao_quantidade,importacao_valor,on =['País','Ano'])
importacao.head()

Unnamed: 0,País,Ano,Quantidade Importada(Kg),Valor Importado(US$)
0,Africa do Sul,2007,386425.0,1320244.0
1,Alemanha,2007,234006.0,647626.0
2,Argélia,2007,0.0,0.0
3,Arábia Saudita,2007,0.0,0.0
4,Argentina,2007,15621172.0,36160548.0


In [60]:
# Visualizar o tamanho do dataframe Importacao
print(f"Linhas da tabela Importação: {importacao.shape[0]}")
print(f"Colunas da tabela Importação: {importacao.shape[1]}")

Linhas da tabela Importação: 1056
Colunas da tabela Importação: 4


Após o tratamento e limpeza dos dados de Importação temos um dataframe maior porem da mesma maneira do que Produção e Comercialização com menos colunas o que facilita a junção com a tabela de exportação e a analise dos dados

### 5.2.3 Tratamendo e Limpeza dos dados de Exportação

In [61]:
# definindo o index como país para filtrar as colunas de 2007 a 2022
exportacao = exportacao.set_index('País')

In [62]:
# filtrando as colunas de 2007 a 2022 para as analises
colunas_15_anos = exportacao.columns[-32:]
exportacao = exportacao[colunas_15_anos]

Seguindo o mesmo procedimento do dataframe de importação da seção 5.2.2

#### - Valores Vinhos Exportados

In [63]:
# Pegando apenas as colunas impares que são referentes ao valor importado
exportacao_valor = exportacao.iloc[:,1::2]
exportacao_valor.head(3)

Unnamed: 0_level_0,2007.1,2008.1,2009.1,2010.1,2011.1,2012.1,2013.1,2014.1,2015.1,2016.1,2017.1,2018.1,2019.1,2020.1,2021.1,2022.1
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Afeganistão,0,0,0,0,0,0,0,0,0,0,0,0,0,0,46,0
África do Sul,0,0,0,0,0,0,0,0,0,0,0,0,95,21,0,0
"Alemanha, República Democrática",238052,429970,393482,138666,144150,56342,265978,761653,44780,68109,87702,45382,25467,32605,6741,45367


In [64]:
# corringindo o nome das colunas
exportacao_valor.columns = exportacao_valor.columns.str[:-2]

In [65]:
# Resetando o index
exportacao_valor = exportacao_valor.reset_index()
# Fazendo o melt da tabela
exportacao_valor = exportacao_valor.melt(id_vars=['País'],value_vars=exportacao_valor.columns)
# Renomeando as colunas
exportacao_valor.columns = ['País','Ano','Valor Exportado(US$)']
# Exibindo os valores
exportacao_valor.head(3)

Unnamed: 0,País,Ano,Valor Exportado(US$)
0,Afeganistão,2007,0
1,África do Sul,2007,0
2,"Alemanha, República Democrática",2007,238052


#### - Quantidade Vinhos Exportados

In [66]:
# separando as colunas com a quantidade de vinho de mesa exportada
exportacao_quantidade = exportacao.iloc[:,0::2]
exportacao_quantidade.head()

Unnamed: 0_level_0,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
País,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Afeganistão,0,0,0,0,0,0,0,0,0,0,0,0,0,0,11,0
África do Sul,0,0,0,0,0,0,0,0,0,0,0,0,26,4,0,0
"Alemanha, República Democrática",119512,265742,225086,27715,36070,8189,61699,213348,10680,14012,15467,10794,3660,6261,2698,7630
Angola,25931,25721,54786,33557,13889,2833,1573,12182,1908,7359,10170,477,345,0,0,4068
Anguilla,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [67]:
# Resetando o index
exportacao_quantidade = exportacao_quantidade.reset_index()
# Fazendo o melt da tabela
exportacao_quantidade = exportacao_quantidade.melt(id_vars=['País'],value_vars=exportacao_quantidade.columns)
# Renomeando as colunas
exportacao_quantidade.columns = ['País','Ano','Quantidade Exportada(Kg)']
# Exibindo os valores
exportacao_quantidade.head(3)

Unnamed: 0,País,Ano,Quantidade Exportada(Kg)
0,Afeganistão,2007,0
1,África do Sul,2007,0
2,"Alemanha, República Democrática",2007,119512


#### - Tabela Final de Exportação

In [68]:
exportacao = pd.merge(exportacao_quantidade,exportacao_valor,on =['País','Ano'])
exportacao.head(3)

Unnamed: 0,País,Ano,Quantidade Exportada(Kg),Valor Exportado(US$)
0,Afeganistão,2007,0,0
1,África do Sul,2007,0,0
2,"Alemanha, República Democrática",2007,119512,238052


In [69]:
# Visualizar o tamanho do dataframe Importacao
print(f"Linhas da tabela Importação: {exportacao.shape[0]}")
print(f"Colunas da tabela Importação: {exportacao.shape[1]}")

Linhas da tabela Importação: 2048
Colunas da tabela Importação: 4


Após o tratamento e limpeza dos dados de Exportação temos um dataframe maior porem da mesma maneira do que Produção e Comercialização com menos colunas o que facilita a junção com a tabela de importação e a analise dos dados

### 5.2.4 Junção das Tabelas  de Exportação e Importação

Com as duas tabelas de Exportação e Importação podemos perceber que ambas tem as mesmas categorias, País, Ano e possuem o mesmo formato. Para facilitar a analise iremos uni-las em um dataframe só.

In [70]:

exportacao_importacao = pd.merge(exportacao,importacao,on =['País','Ano'],how='left')
exportacao_importacao.fillna(0,inplace=True)
exportacao_importacao.head(3)

Unnamed: 0,País,Ano,Quantidade Exportada(Kg),Valor Exportado(US$),Quantidade Importada(Kg),Valor Importado(US$)
0,Afeganistão,2007,0,0,0.0,0.0
1,África do Sul,2007,0,0,0.0,0.0
2,"Alemanha, República Democrática",2007,119512,238052,0.0,0.0


## 6. Análise dos Dados

Nesta seção faremos a analise dos dados das duas tabelas ja tratadas Comecaremos pela tabela de Importação e Exportação e depois iremos para a tabela de Produção e Comercialização 

## 6.1 Análise dos Dados de Importação e Exportação 

In [71]:
# Visualizando as tres primeiras linhas do dataframe
exportacao_importacao.head(3)

Unnamed: 0,País,Ano,Quantidade Exportada(Kg),Valor Exportado(US$),Quantidade Importada(Kg),Valor Importado(US$)
0,Afeganistão,2007,0,0,0.0,0.0
1,África do Sul,2007,0,0,0.0,0.0
2,"Alemanha, República Democrática",2007,119512,238052,0.0,0.0


In [72]:
# Visualizar o tamanho do dataframe Importacao
print(f"Linhas da tabela Exportação e Importação : {exportacao_importacao.shape[0]}")
print(f"Colunas da tabela Exportação e Importação: {exportacao_importacao.shape[1]}")

Linhas da tabela Exportação e Importação : 2048
Colunas da tabela Exportação e Importação: 6


In [73]:
# visualização das colunas e seus tipos
exportacao_importacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2048 entries, 0 to 2047
Data columns (total 6 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   País                      2048 non-null   object 
 1   Ano                       2048 non-null   object 
 2   Quantidade Exportada(Kg)  2048 non-null   int64  
 3   Valor Exportado(US$)      2048 non-null   int64  
 4   Quantidade Importada(Kg)  2048 non-null   float64
 5   Valor Importado(US$)      2048 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 96.1+ KB


### ANÁLISE EXPLORATÓRIA (EDA) UNIVARIADA


- **Variáveis Categóricas:** [Descreva a análise para variáveis categóricas]
- **Variáveis Numéricas:** [Descreva a análise para variáveis numéricas]

### ANÁLISE EXPLORATÓRIA (EDA) BIVARIADA

- [Insira Hipótese, por exemplo, "Há alguma relação entre entrega dos documentos e a incidência de fraude?"]
- [Repita para outras hipóteses relevantes...]


## Conclusão Geral:

Após uma análise aprofundada das métricas de desempenho e valuation financeiro de ambos os modelos, os seguintes pontos foram observados:

[Apresente uma conclusão geral baseada nas métricas de desempenho e avaliação financeira dos modelos.]
