# 1. Contexto, Objetivos e Perguntas de Pesquisa

--------------------

## Objetivo do Projeto
Realizar uma análise exploratória profunda e aplicar técnicas de ciência de dados para entender a relação entre dependência petrolífera e desempenho econômico da Venezuela ao longo de 64 anos (1960-2024).

##  Perguntas Principais 

- Como o PIB da Venezuela evoluiu ao longo de 64 anos?

- Qual é a relação entre renda do petróleo e crescimento econômico?

- A Venezuela sofre da "maldição dos recursos naturais"?

- Quais eventos históricos impactaram mais a economia?

- É possível prever o crescimento econômico futuro da Venezuela?



## Setup & Preparação

In [None]:
pip install pandas numpy matplotlib seaborn statsmodels scipy scikit-learn ruptur plotly

## Carregar os dados do dataset

Os dados foram obtidos através do dataset do kaggle : https://www.kaggle.com/datasets/ibrahimqasimi/venezuela-resource-dependency-and-economy1960-2023

In [None]:
os.listdir()


NameError: name 'os' is not defined

In [None]:
import pandas as pd
df = pd.read_csv('venezuela_wdi_indicators.csv') #le o arquivo
df #mostra o dataframe

Unnamed: 0,country_iso3,year,oil_rents_pct_gdp,total_natural_resource_rents_pct_gdp,fuel_exports_pct_merch_exports,ores_and_metals_exports_pct_merch_exports,gdp_current_usd,gdp_growth_pct
0,VEN,1960,,,,,7.663938e+09,
1,VEN,1961,,,,,8.067267e+09,3.192519
2,VEN,1962,,,92.362928,0.180690,8.814310e+09,8.532934
3,VEN,1963,,,92.911190,3.766721,9.608717e+09,3.900951
4,VEN,1964,,,91.099545,5.871650,8.192414e+09,11.129345
...,...,...,...,...,...,...,...,...
60,VEN,2020,,,,,4.283802e+10,-29.998570
61,VEN,2021,,,,,5.661498e+10,0.955433
62,VEN,2022,,,,,8.901326e+10,8.000913
63,VEN,2023,,,,,1.023765e+11,4.001686


In [None]:
df.columns

Index(['country_iso3', 'year', 'oil_rents_pct_gdp',
       'total_natural_resource_rents_pct_gdp',
       'fuel_exports_pct_merch_exports',
       'ores_and_metals_exports_pct_merch_exports', 'gdp_current_usd',
       'gdp_growth_pct'],
      dtype='object')

country_iso3 -> País, no caso Venezuela

year -> ano de analise

oil_rents_pct_gdp ->  quanto o petróleo representa do PIB (%)

total_natural_resource_rents_pct_gdp -> peso total dos recursos naturais no PIB (%)

fuel_exports_pct_merch_exports -> porcentagem de combustíveis nas exportações

ores_and_metals_exports_pct_merch_exports -> porcentagem de minérios e metais nas exportações

gdp_current_usd ->PIB em dólares correntes

gdp_growth_pct ->  crescimento do PIB no ano (%)

In [None]:
df.head(30) #as 30 primeiras lihas

Unnamed: 0,country_iso3,year,oil_rents_pct_gdp,total_natural_resource_rents_pct_gdp,fuel_exports_pct_merch_exports,ores_and_metals_exports_pct_merch_exports,gdp_current_usd,gdp_growth_pct
0,VEN,1960,,,,,7663938000.0,
1,VEN,1961,,,,,8067267000.0,3.192519
2,VEN,1962,,,92.362928,0.18069,8814310000.0,8.532934
3,VEN,1963,,,92.91119,3.766721,9608717000.0,3.900951
4,VEN,1964,,,91.099545,5.87165,8192414000.0,11.129345
5,VEN,1965,,,92.518557,4.659653,8427778000.0,4.162867
6,VEN,1966,,,93.401158,4.964472,8781333000.0,1.51025
7,VEN,1967,,,93.421344,4.351396,9250000000.0,2.833869
8,VEN,1968,,,93.461653,4.127013,10034440000.0,7.337233
9,VEN,1969,,,92.359253,5.03554,10285110000.0,0.706037


De imediato, observa-se a presença de diversos valores nulos, indicando a necessidade de realizar um tratamento dos dados antes da análise e da preparação do modelo de previsão.

- Primeiro, irei analisar quantos dados nulos existe em cada coluna:

In [None]:
df.isna().sum() 

country_iso3                                  0
year                                          0
oil_rents_pct_gdp                            20
total_natural_resource_rents_pct_gdp         20
fuel_exports_pct_merch_exports               16
ores_and_metals_exports_pct_merch_exports    16
gdp_current_usd                               0
gdp_growth_pct                                1
dtype: int64

- vemos uma quantidade muito grande de dados nulos nas principais colunas que iremos analisar, as que tem os dados de petróleo e metais.

Como se tratam de variáveis relevantes para a análise e não há registros disponíveis para os anos anteriores a 1970, optei por excluir os dados anteriores a esse período, mantendo a análise restrita aos anos a partir de 1970, nos quais as informações estão completas.

In [None]:
df = df[df['year'] >= 1970].reset_index(drop=True) #Manter os dados acima de 1970
df.head()


Unnamed: 0,country_iso3,year,oil_rents_pct_gdp,total_natural_resource_rents_pct_gdp,fuel_exports_pct_merch_exports,ores_and_metals_exports_pct_merch_exports,gdp_current_usd,gdp_growth_pct
0,VEN,1970,4.799272,5.487721,91.015971,5.807845,11561110000.0,7.711914
1,VEN,1971,6.787192,7.387941,91.523845,5.503732,12986590000.0,1.479291
2,VEN,1972,6.691746,7.192719,90.574042,5.032713,13977730000.0,1.282805
3,VEN,1973,10.286674,10.755443,93.089806,4.354791,17035580000.0,7.109958
4,VEN,1974,33.340228,33.947884,95.130787,2.873486,26100930000.0,2.069333


In [None]:
df

Unnamed: 0,country_iso3,year,oil_rents_pct_gdp,total_natural_resource_rents_pct_gdp,fuel_exports_pct_merch_exports,ores_and_metals_exports_pct_merch_exports,gdp_current_usd,gdp_growth_pct
0,VEN,1970,4.799272,5.487721,91.015971,5.807845,11561110000.0,7.711914
1,VEN,1971,6.787192,7.387941,91.523845,5.503732,12986590000.0,1.479291
2,VEN,1972,6.691746,7.192719,90.574042,5.032713,13977730000.0,1.282805
3,VEN,1973,10.286674,10.755443,93.089806,4.354791,17035580000.0,7.109958
4,VEN,1974,33.340228,33.947884,95.130787,2.873486,26100930000.0,2.069333
5,VEN,1975,24.023362,24.891501,94.640486,3.359402,27464650000.0,2.896258
6,VEN,1976,22.15094,22.993151,93.827282,3.631743,31419530000.0,7.72774
7,VEN,1977,15.743835,16.198534,92.611057,4.937538,36210700000.0,6.270784
8,VEN,1978,15.461522,15.8264,94.467874,2.887393,39316280000.0,2.346896
9,VEN,1979,35.900591,36.481381,92.763317,4.923059,48310930000.0,0.764355
