<a href="https://colab.research.google.com/github/Fagner608/inflacao_global/blob/main/inflacao_global.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Análise exploratória e DataViz com Google Data Studio**

### *Sobre o conjunto de dados*

Fonte: [Kaggle]('https://www.kaggle.com/datasets/bhupeshsinghrathore/world-inflation-dataset-19602021?select=Data+set+for+inflation.csv')

Descrição: *Este é o conjunto de dados para a inflação mundial de 1960 a 2021, obtido do site do banco mundial para analisar a taxa de inflação em todo o mundo e nas principais economias.*


Fonte: [Kaggle]('https://www.kaggle.com/datasets/uddipta/world-bank-unemployment-data-19912017')


Fonte: [Kaggle]('https://www.kaggle.com/datasets/fredericksalazar/pib-gdp-global-by-countries-since-1960-to-2021')

### **Motivação**

## **Carregando bibliotecas**

In [1]:
# Bibliotecas nativas
import warnings

# Bibliotecas externas
import pandas as pd
import seaborn as sns
import numpy as np
import re


In [2]:
# Configurando área de plotagem e warnings
warnings.filterwarnings('ignore')

sns.set(style = 'whitegrid', context = 'talk', font_scale = 0.8, rc = {'figure.figsize':(20,8)})

## **Carregando e visualizando bases de dados**

In [3]:
# Verificando dados no diretório
!pwd

/content


In [4]:
!ls

sample_data


In [5]:
# Carregando dados de inflação

!wget 'https://raw.githubusercontent.com/Fagner608/inflacao_global/main/Data%20set%20for%20inflation.csv?token=GHSAT0AAAAAAB5WOSKFPVGCXDSB6FIRGSZIZAAALYA' -O 'inflacao.csv'

inflation = pd.read_csv('inflacao.csv')

--2023-03-04 01:19:17--  https://raw.githubusercontent.com/Fagner608/inflacao_global/main/Data%20set%20for%20inflation.csv?token=GHSAT0AAAAAAB5WOSKFPVGCXDSB6FIRGSZIZAAALYA
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 150649 (147K) [text/plain]
Saving to: ‘inflacao.csv’


2023-03-04 01:19:17 (6.32 MB/s) - ‘inflacao.csv’ saved [150649/150649]



In [6]:
# Carregando dados de desemprego

!wget 'https://raw.githubusercontent.com/Fagner608/inflacao_global/main/full_data.csv?token=GHSAT0AAAAAAB5WOSKEZRAXD3X2VAQO2EHSZAAAM5A' -O 'unployment.csv'

unployment = pd.read_csv('unployment.csv')

--2023-03-04 01:19:18--  https://raw.githubusercontent.com/Fagner608/inflacao_global/main/full_data.csv?token=GHSAT0AAAAAAB5WOSKEZRAXD3X2VAQO2EHSZAAAM5A
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 110496 (108K) [text/plain]
Saving to: ‘unployment.csv’


2023-03-04 01:19:18 (4.92 MB/s) - ‘unployment.csv’ saved [110496/110496]



In [7]:
# Carregando dados do PIB

!wget 'https://raw.githubusercontent.com/Fagner608/inflacao_global/main/countries_gdp_hist.csv?token=GHSAT0AAAAAAB5WOSKFVHCYE6UEMJXVOE5QZAAANQA' -O 'pib.csv'

pib = pd.read_csv('pib.csv', sep = ';')

--2023-03-04 01:19:18--  https://raw.githubusercontent.com/Fagner608/inflacao_global/main/countries_gdp_hist.csv?token=GHSAT0AAAAAAB5WOSKFVHCYE6UEMJXVOE5QZAAANQA
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1586722 (1.5M) [text/plain]
Saving to: ‘pib.csv’


2023-03-04 01:19:18 (26.7 MB/s) - ‘pib.csv’ saved [1586722/1586722]



### **Dicionários de dados**

  - inflation

|Coluna|Descrição|
|-------|---------|
|Country Name| Nome dos países|
|Country Code| Código(abreviação) dos países|
|Indicator Name| Indicador utilizado (preços ao consumidor)|
|Indicator Code | Código internacional do indicador utilizado|
|1960| Primeiro ano com dado de inflação|
|...|...|


  - unployment

|Coluna|Descrição|
|-------|---------|
|Country Name| Nome dos países|
|Region| A região do país|
|Income Group| A qual grupo de renda o país pertence|
|Special Notes| Qualquer nota especial sobre o país|
|Years(1991-2017| contém a taxa de desemprego desse ano em particular|

  - PIB


|Coluna|Descrição|
|-------|---------|
|Alpha 3 country code| Código dos países|
|region_name| Continente|
|sub_region_name| VERIFICAR|
|intermediate_region| VERIFICAR|
|country_name| Nome do país|
|income_groupe| Faixa de renda|
|year| Ano|
|total_gdp| Total do PIB|
|total_gdp_milion| Total em milhões|
|gdp_variation| Variação do PIB|


Verificamos que os dados estão dispostos em diferentes estruturas. Faremos o pré-processamento dos dados, deixando-os todos com o mesmo schema.

### *Esclarecimentos*

Verificando a necessidade de pré-processamento, e, estabelecidos os objetivos da análise, aplicaremos POO (programação orientada a objetos) à todas as fases da análise.

Foram criadas classes, com métodos e atributos específicos para este dataset, e, para o fluxo de trabalho, nesta ordem:

Pré-processamento > Análise exploratória e Data-wrangling > Machine Learning.

 - As classes herdam os atributos e métodos das criadas para a classe antecessora.

 - O fluxo acima poderá ser repetido quantas vezes forem necessário para se obter os resutados desejados.

### **Classe para pré-processamento dos dados**

In [8]:
# Classe para instanciar o DF
class data():

  def __init__(self, dataframe: pd.DataFrame) -> pd.DataFrame:

    if type(dataframe) == pd.DataFrame:
      
      self.__df = dataframe

    else:

      print('Dados não instanciados. Instancie um objeto do tipo pd.DataFrame')

  #definindo getter
  @property

  def dataframe(self):

    return self.__df
  
  #definindo setter
  @dataframe.setter

  def dataframe(self, df_2):

    if type(df_2) == pd.DataFrame:
      
      self.__df = df_2

    else:

      print('Dados não instanciados. Instancie um objeto do tipo pd.DataFrame')


In [9]:
# criando classe para verificar informações
class pre_processing(data):

  def __init__(self):
    pass

  def clean(self, char = False):

    self.dataframe.columns = [i.replace(" ","_") for i in self.dataframe.columns]

    if char is not None:

      self.dataframe.columns = [i.replace(f"{char}","_") for i in self.dataframe.columns]

    for coluna in self.dataframe.select_dtypes('object').columns:
        
            if char is not None:

              self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: x.replace(f"{char}", "_"))

            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: x.replace(" ", "_"))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: x.lower())
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[áàãâä]', 'a', x))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[éèêë]', 'e', x))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[íìîï]', 'i', x))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[óòõôö]', 'o', x))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[úùûü]', 'u', x))
        
            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r'[ç]', 'c', x))

            self.dataframe[coluna] = self.dataframe[coluna].apply(lambda x: re.sub(r"['’]", '', x))


### Classe para datawrangling

In [821]:
class data_wrangling(pre_processing):

  def __init__(self):

    pass

  #realizando pivot dos dados
  def larg_long(self, dados:pd.DataFrame, id_vars = [], var_name = str, value_name = str, sort_values=[]):

    return pd.melt(frame=dados, id_vars=id_vars,
            var_name=var_name, value_name=value_name).sort_values(by  = sort_values).reset_index(drop = True)

  #atribuindo novo tipo aos dados - (preciso fazer classe para analisar e tratar nas antes de fazer conversoes)
  def set_attributes(self, atributo: list = str, tipo: list = type):

    for attr,tp in zip(atributo, tipo):
      
      self.dataframe[attr] = self.dataframe[attr].apply(lambda x: tp(x))


  #tratando nan
  def calculate_nan(self):

    nrow = self.dataframe.shape[0]

    result = []

    for col in self.dataframe.columns:

      result.append([str(col), self.dataframe[col].isnull().sum(), str(round((self.dataframe[col].isnull().sum()/nrow),2))+'%'])

    return pd.DataFrame(result, columns = ['atributos', 'frequencia_nan', 'nan_%']).set_index(['atributos'])


    #info char
  def info_char(self):

      dados1 = self.calculate_nan()
      
      dados2 = self.dataframe.select_dtypes('object').describe().T

      return pd.concat([dados1, dados2], axis = 1, join = 'inner')


    #info number
  def info_number(self):

      dados1 = self.calculate_nan()
      
      dados2 = self.dataframe.describe().T

      return pd.concat([dados1, dados2], axis = 1, join = 'inner')


  #eliminando nan's
  def drop_na(self):

    self.dataframe.dropna(inplace = True)

  #drop values
  def drop_values(self, atributo: str, values: list = str):

    for value in values:
      
      self.dataframe = self.dataframe.query(f'{atributo} != {value}').reset_index(drop=True)


  #defindo atributos
  def attr(self):

    setattr(self, 'char_attr', [self.dataframe.select_dtypes('object').columns])

    setattr(self, 'number_attr', [self.dataframe.select_dtypes(['int', 'float']).columns])

  # Elementos dos atributos
  def attr_element(self, elemento: list = ['-', '*', '/', '^']):

    item = elemento

    dado = {}

    for col in self.dataframe.columns:

      dado[col] = self.dataframe[col].apply(lambda x: x if x in item else None)

    return pd.DataFrame(dado).drop_duplicates().reset_index(drop = True)

  #inspecionando elementos - 
#  def inspect_element(self, regex=str, atributo= str):

#    expressao = regex

#    dados = re.finditer(expressao, self.dataframe[f'{atributo}'])

#    return dados






In [822]:
teste = data_wrangling()

In [823]:
teste.dataframe = inflation

In [824]:
teste2 = data_wrangling()

In [825]:
teste2.dataframe = teste.larg_long(dados=teste.dataframe, id_vars = ['Country_Name', 'Country_Code', 'Indicator_Name', 'Indicator_Code'],
                                 var_name = 'year', value_name = 'variacao', sort_values = ['Country_Name', 'year'])

In [826]:
teste2.drop_na()

In [827]:
lista_tipo = [float]
lista_atributos =['variacao']
teste2.set_attributes(atributo = lista_atributos, tipo = lista_tipo)

In [828]:
teste2.dataframe.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10489 entries, 45 to 16491
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Country_Name    10489 non-null  object 
 1   Country_Code    10489 non-null  object 
 2   Indicator_Name  10489 non-null  object 
 3   Indicator_Code  10489 non-null  object 
 4   year            10489 non-null  object 
 5   variacao        10489 non-null  float64
dtypes: float64(1), object(5)
memory usage: 573.6+ KB


In [829]:
teste2.dataframe

Unnamed: 0,Country_Name,Country_Code,Indicator_Name,Indicator_Code,year,variacao
45,afghanistan,afg,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2005,12.686269
46,afghanistan,afg,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2006,6.784597
47,afghanistan,afg,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2007,8.680571
48,afghanistan,afg,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2008,26.418664
49,afghanistan,afg,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2009,-6.811161
...,...,...,...,...,...,...
16487,zimbabwe,zwe,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2017,0.893962
16488,zimbabwe,zwe,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2018,10.618866
16489,zimbabwe,zwe,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2019,255.304991
16490,zimbabwe,zwe,"inflation,_consumer_prices_(annual__)",fp.cpi.totl.zg,2020,557.201817


In [830]:
teste2.attr()

In [831]:
teste2.char_attr

[Index(['Country_Name', 'Country_Code', 'Indicator_Name', 'Indicator_Code',
        'year'],
       dtype='object')]

In [832]:
teste2.attr_element()

Unnamed: 0,Country_Name,Country_Code,Indicator_Name,Indicator_Code,year,variacao
0,,,,,,


Em andamento