<a href="https://colab.research.google.com/github/Fagner608/inflacao_global/blob/main/inflacao_global.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Análise exploratória e DataViz com Google Data Studio**

### *Sobre o conjunto de dados*

Fonte: [Kaggle]('https://www.kaggle.com/datasets/bhupeshsinghrathore/world-inflation-dataset-19602021?select=Data+set+for+inflation.csv')

Descrição: *Este é o conjunto de dados para a inflação mundial de 1960 a 2021, obtido do site do banco mundial para analisar a taxa de inflação em todo o mundo e nas principais economias.*


Fonte: [Kaggle]('https://www.kaggle.com/datasets/uddipta/world-bank-unemployment-data-19912017')


Fonte: [Kaggle]('https://www.kaggle.com/datasets/fredericksalazar/pib-gdp-global-by-countries-since-1960-to-2021')

### **Motivação**

## **Carregando bibliotecas**

In [None]:
# Bibliotecas nativas
import warnings

# Bibliotecas externas
import pandas as pd
import seaborn as sns
import numpy as np
import re


In [None]:
# Configurando área de plotagem e warnings
warnings.filterwarnings('ignore')

sns.set(style = 'whitegrid', context = 'talk', font_scale = 0.8, rc = {'figure.figsize':(20,8)})

## **Carregando e visualizando bases de dados**

In [None]:
# Verificando dados no diretório
!pwd

/content


In [None]:
!ls

 API_FP.CPI.TOTL.ZG_DS2_en_csv_v2_4250827.csv
'Data set for inflation.csv'
 Metadata_Country_API_FP.CPI.TOTL.ZG_DS2_en_csv_v2_4250827.csv
 Metadata_Indicator_API_FP.CPI.TOTL.ZG_DS2_en_csv_v2_4250827.csv
 sample_data


In [None]:
# Carregando dados de inflação

!wget 'https://raw.githubusercontent.com/Fagner608/inflacao_global/main/Data%20set%20for%20inflation.csv?token=GHSAT0AAAAAAB5WOSKFPVGCXDSB6FIRGSZIZAAALYA' -O 'inflacao.csv'

inflation = pd.read_csv('inflacao.csv')

--2023-03-02 00:59:30--  https://raw.githubusercontent.com/Fagner608/inflacao_global/main/Data%20set%20for%20inflation.csv?token=GHSAT0AAAAAAB5WOSKFPVGCXDSB6FIRGSZIZAAALYA
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 150649 (147K) [text/plain]
Saving to: ‘inflacao.csv’


2023-03-02 00:59:31 (6.28 MB/s) - ‘inflacao.csv’ saved [150649/150649]



In [None]:
# Carregando dados de desemprego

!wget 'https://raw.githubusercontent.com/Fagner608/inflacao_global/main/full_data.csv?token=GHSAT0AAAAAAB5WOSKEZRAXD3X2VAQO2EHSZAAAM5A' -O 'unployment.csv'

unployment = pd.read_csv('unployment.csv')

--2023-03-02 01:00:38--  https://raw.githubusercontent.com/Fagner608/inflacao_global/main/full_data.csv?token=GHSAT0AAAAAAB5WOSKEZRAXD3X2VAQO2EHSZAAAM5A
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 110496 (108K) [text/plain]
Saving to: ‘unployment.csv’


2023-03-02 01:00:38 (5.00 MB/s) - ‘unployment.csv’ saved [110496/110496]



In [None]:
# Carregando dados do PIB

!wget 'https://raw.githubusercontent.com/Fagner608/inflacao_global/main/countries_gdp_hist.csv?token=GHSAT0AAAAAAB5WOSKFVHCYE6UEMJXVOE5QZAAANQA' -O 'pib.csv'

pib = pd.read_csv('pib.csv', sep = ';')

--2023-03-02 01:01:28--  https://raw.githubusercontent.com/Fagner608/inflacao_global/main/countries_gdp_hist.csv?token=GHSAT0AAAAAAB5WOSKFVHCYE6UEMJXVOE5QZAAANQA
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1586722 (1.5M) [text/plain]
Saving to: ‘pib.csv’


2023-03-02 01:01:29 (26.9 MB/s) - ‘pib.csv’ saved [1586722/1586722]



### **Dicionários de dados**

  - inflation

|Coluna|Descrição|
|-------|---------|
|Country Name| Nome dos países|
|Country Code| Código(abreviação) dos países|
|Indicator Name| Indicador utilizado (preços ao consumidor)|
|Indicator Code | Código internacional do indicador utilizado|
|1960| Primeiro ano com dado de inflação|
|...|...|


  - unployment

|Coluna|Descrição|
|-------|---------|
|Country Name| Nome dos países|
|Region| A região do país|
|Income Group| A qual grupo de renda o país pertence|
|Special Notes| Qualquer nota especial sobre o país|
|Years(1991-2017| contém a taxa de desemprego desse ano em particular|

  - PIB


|Coluna|Descrição|
|-------|---------|
|Alpha 3 country code| Código dos países|
|region_name| Continente|
|sub_region_name| VERIFICAR|
|intermediate_region| VERIFICAR|
|country_name| Nome do país|
|income_groupe| Faixa de renda|
|year| Ano|
|total_gdp| Total do PIB|
|total_gdp_milion| Total em milhões|
|gdp_variation| Variação do PIB|


Verificamos que os dados estão dispostos em diferentes estruturas. Faremos o pré-processamento dos dados, deixando-os todos com o mesmo schema.

### *Esclarecimentos*

Verificando a necessidade de pré-processamento, e, estabelecidos os objetivos da análise, aplicaremos POO (programação orientada a objetos) à todas as fases da análise.

Foram criadas classes, com métodos e atributos específicos para este dataset, e, para o fluxo de trabalho, nesta ordem:

Pré-processamento > Análise exploratória e Data-wrangling > Machine Learning.

 - As classes herdam os atributos e métodos das criadas para a classe antecessora.

 - O fluxo acima poderá ser repetido quantas vezes forem necessário para se obter os resutados desejados.

### **Classe para pré-processamento dos dados**

In [None]:
# Classe para instanciar o DF
class data():

  def __init__(self, dataframe: pd.DataFrame) -> pd.DataFrame:

    if type(dataframe) == pd.DataFrame:
      
      self.__df = dataframe

    else:

      print('Dados não instanciados. Instancie um objeto do tipo pd.DataFrame')

  #definindo getter
  @property

  def dataframe(self):

    return self.__df
  
  #definindo setter
  @dataframe.setter

  def dataframe(self, df_2):

    if type(df_2) == pd.DataFrame:
      
      self.__df = df_2

    else:

      print('Dados não instanciados. Instancie um objeto do tipo pd.DataFrame')


In [None]:
# criando classe para verificar informações
class pre_processing(data):

  def __init__(self):
    pass

  def clean(self, char = False):

    self.dataframe.columns = [i.replace(" ","_") for i in self.dataframe.columns]

    if char is not None:

      self.dataframe.columns = [i.replace(f"{char}","_") for i in self.dataframe.columns]

    for coluna in self.dataframe.select_dtypes('object').columns:
        
            if char is not None:

              self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: x.replace(f"{char}", "_"))

            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: x.replace(" ", "_"))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: x.lower())
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[áàãâä]', 'a', x))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[éèêë]', 'e', x))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[íìîï]', 'i', x))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[óòõôö]', 'o', x))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[úùûü]', 'u', x))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[ç]', 'c', x))

            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r"['’]", '', x))


### Classe para datawrangling

In [None]:
class data_wrangling(pre_processing):

  def __init__(self):
    pass

  def larg_long(self, id_vars = [], var_name = str, value_name = str, sort_values=[]):

    return pd.melt(instanciando_inflation.dataframe, id_vars=id_vars,
            var_name=var_name, value_name=value_name).sort_values(by  = sort_values).reset_index(drop = True)

In [None]:
instanciando_inflation = data_wrangling()

In [None]:
instanciando_inflation.dataframe = inflation

In [None]:
instanciando_inflation.clean(char = '%')

In [None]:
instanciando_inflation.dataframe.columns

Index(['Country_Name', 'Country_Code', 'Indicator_Name', 'Indicator_Code',
       '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1967', '1968',
       '1969', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986',
       '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995',
       '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004',
       '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013',
       '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021'],
      dtype='object')

In [None]:
inflaction_2 = data_wrangling()

In [None]:
inflaction_2.dataframe = instanciando_inflation.larg_long(id_vars = ['Country_Name', 'Country_Code', 'Indicator_Name', 'Indicator_Code'],
                                 var_name = 'year', value_name = 'variacao', sort_values = ['Country_Name', 'year'])

In [None]:
inflaction_2.dataframe

Unnamed: 0,Country_Name,Country_Code,Indicator_Name,Indicator_Code,year,variacao
0,afghanistan,afg,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,1960,
1,afghanistan,afg,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,1961,
2,afghanistan,afg,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,1962,
3,afghanistan,afg,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,1963,
4,afghanistan,afg,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,1964,
...,...,...,...,...,...,...
16487,zimbabwe,zwe,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2017,0.893962
16488,zimbabwe,zwe,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2018,10.618866
16489,zimbabwe,zwe,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2019,255.304991
16490,zimbabwe,zwe,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2020,557.201817
