In [1]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import numpy as np

In [2]:
# Importando o arquivo bruto
df = pd.read_excel('data\\ipca_202201SerieHist.xls', sheet_name='Série Histórica IPCA', engine='xlrd', skiprows=4, header=0)

colunas = {'ANO': 'ANO', 'MÊS': 'MÊS', 'NÚMERO ÍNDICE': 'NÚMERO_ÍNDICE', '(%)': 'NO_MÊS',
           'Unnamed: 4': '3_MESES', 'Unnamed: 5': '6_MESES', 'Unnamed: 6': 'NO_ANO', 'Unnamed: 7': '12_MESES'}

# Renomeando as colunas
df = df.rename(columns=colunas)
df

Unnamed: 0,ANO,MÊS,NÚMERO_ÍNDICE,NO_MÊS,3_MESES,6_MESES,NO_ANO,12_MESES
0,,,(DEZ 93 = 100),NO,3,6,NO,12
1,,,,MÊS,MESES,MESES,ANO,MESES
2,,,,,,,,
3,1994,JAN,141.31,41.31,162.13,533.33,41.31,2693.84
4,,FEV,198.22,40.27,171.24,568.17,98.22,3035.71
...,...,...,...,...,...,...,...,...
421,,,,,,,,
422,,,,,,,,
423,,,,,,,,
424,,,,,,,,


In [3]:
# Excluindo linhas vazias
df.dropna(how='all', inplace=True)

# Removendo linhas de fonte de dados
df = df.iloc[0:-3, :]
df

Unnamed: 0,ANO,MÊS,NÚMERO_ÍNDICE,NO_MÊS,3_MESES,6_MESES,NO_ANO,12_MESES
0,,,(DEZ 93 = 100),NO,3,6,NO,12
1,,,,MÊS,MESES,MESES,ANO,MESES
3,1994,JAN,141.31,41.31,162.13,533.33,41.31,2693.84
4,,FEV,198.22,40.27,171.24,568.17,98.22,3035.71
5,,MAR,282.96,42.75,182.96,602.93,182.96,3417.39
...,...,...,...,...,...,...,...,...
402,,SET,5944.21,1.16,3.02,4.75,6.9,10.25
403,,OUT,6018.51,1.25,3.32,5.73,8.24,10.67
404,,NOV,6075.69,0.95,3.4,5.86,9.26,10.74
405,,DEZ,6120.04,0.73,2.96,6.07,10.06,10.06


In [4]:
# Excluindo títulos e linhas de formatação desnecessária
df = df[df['NÚMERO_ÍNDICE'] != '(DEZ 93 = 100)']
df = df[df['NO_MÊS'] != 'MÊS']
df = df[df['3_MESES'] != 'MESES']
df = df[df['6_MESES'] != 'MESES']
df = df[df['NO_ANO'] != 'ANO']
df = df[df['12_MESES'] != 'MESES']
df = df[df['ANO'] != 'SÉRIE HISTÓRICA DO IPCA']
df = df[df['ANO'] != ' ']
df = df[df['6_MESES'] != '    VARIAÇÃO']
df = df[df['12_MESES'] != '(continuação)']
df = df[df['NO_MÊS'] != '(%)']
df = df[df['NÚMERO_ÍNDICE'] != 'NÚMERO ÍNDICE']
df = df[df['12_MESES'] != '(conclusão)']

df

Unnamed: 0,ANO,MÊS,NÚMERO_ÍNDICE,NO_MÊS,3_MESES,6_MESES,NO_ANO,12_MESES
3,1994,JAN,141.31,41.31,162.13,533.33,41.31,2693.84
4,,FEV,198.22,40.27,171.24,568.17,98.22,3035.71
5,,MAR,282.96,42.75,182.96,602.93,182.96,3417.39
6,,ABR,403.73,42.68,185.71,648.92,303.73,3828.49
7,,MAI,581.49,44.03,193.36,695.71,481.49,4331.19
...,...,...,...,...,...,...,...,...
402,,SET,5944.21,1.16,3.02,4.75,6.9,10.25
403,,OUT,6018.51,1.25,3.32,5.73,8.24,10.67
404,,NOV,6075.69,0.95,3.4,5.86,9.26,10.74
405,,DEZ,6120.04,0.73,2.96,6.07,10.06,10.06


In [5]:
# Preenchendo os dados faltantes da coluna ANO
df.fillna(method='ffill', inplace=True)
df

Unnamed: 0,ANO,MÊS,NÚMERO_ÍNDICE,NO_MÊS,3_MESES,6_MESES,NO_ANO,12_MESES
3,1994,JAN,141.31,41.31,162.13,533.33,41.31,2693.84
4,1994,FEV,198.22,40.27,171.24,568.17,98.22,3035.71
5,1994,MAR,282.96,42.75,182.96,602.93,182.96,3417.39
6,1994,ABR,403.73,42.68,185.71,648.92,303.73,3828.49
7,1994,MAI,581.49,44.03,193.36,695.71,481.49,4331.19
...,...,...,...,...,...,...,...,...
402,2021,SET,5944.21,1.16,3.02,4.75,6.90,10.25
403,2021,OUT,6018.51,1.25,3.32,5.73,8.24,10.67
404,2021,NOV,6075.69,0.95,3.40,5.86,9.26,10.74
405,2021,DEZ,6120.04,0.73,2.96,6.07,10.06,10.06


In [6]:
df['ANO_MES'] = df['MÊS'] + "\\" + df['ANO'].astype(str)

# Criando uma variável para sempre obter informações do mês mais recente
mes_recente = df['ANO_MES'].iloc[-1]
mes_recente

'JAN\\2022'

In [7]:
# Criando novas colunas para fazer o cálculo de variação
df.loc[0, 'Valor Nominal (R$) - Jan/1994'] = np.nan
df.loc[0, 'Valor Real (R$) - ' + mes_recente] = np.nan

df = df[['ANO_MES', 'NÚMERO_ÍNDICE', 'NO_MÊS', '3_MESES', '6_MESES', 'NO_ANO', '12_MESES', \
    'Valor Nominal (R$) - Jan/1994', 'Valor Real (R$) - ' + mes_recente]]

df

Unnamed: 0,ANO_MES,NÚMERO_ÍNDICE,NO_MÊS,3_MESES,6_MESES,NO_ANO,12_MESES,Valor Nominal (R$) - Jan/1994,Valor Real (R$) - JAN\2022
3,JAN\1994,141.31,41.31,162.13,533.33,41.31,2693.84,,
4,FEV\1994,198.22,40.27,171.24,568.17,98.22,3035.71,,
5,MAR\1994,282.96,42.75,182.96,602.93,182.96,3417.39,,
6,ABR\1994,403.73,42.68,185.71,648.92,303.73,3828.49,,
7,MAI\1994,581.49,44.03,193.36,695.71,481.49,4331.19,,
...,...,...,...,...,...,...,...,...,...
403,OUT\2021,6018.51,1.25,3.32,5.73,8.24,10.67,,
404,NOV\2021,6075.69,0.95,3.40,5.86,9.26,10.74,,
405,DEZ\2021,6120.04,0.73,2.96,6.07,10.06,10.06,,
407,JAN\2022,6153.09,0.54,2.24,5.63,0.54,10.38,,


In [8]:
# Inserindo dados referente a Dez/1993, nos dados da Série Histórica não contem
# informacao necessaria para obter o valor real
new_row = pd.DataFrame({'ANO_MES': 'DEZ\\1993', 'NÚMERO_ÍNDICE': 100, 'NO_MÊS': 36.84, '3_MESES': 0.00, '6_MESES': 0.00,
                        'NO_ANO': 0.00, '12_MESES': 0.00, 'Valor Nominal (R$) - Jan/1994': 0.00, 'Valor Real (R$) - ' + mes_recente: 0.00}, index=[0])

df_2 = pd.concat([new_row, df]).reset_index(drop=True)

df_2

Unnamed: 0,ANO_MES,NÚMERO_ÍNDICE,NO_MÊS,3_MESES,6_MESES,NO_ANO,12_MESES,Valor Nominal (R$) - Jan/1994,Valor Real (R$) - JAN\2022
0,DEZ\1993,100.00,36.84,0.00,0.00,0.00,0.00,0.0,0.0
1,JAN\1994,141.31,41.31,162.13,533.33,41.31,2693.84,,
2,FEV\1994,198.22,40.27,171.24,568.17,98.22,3035.71,,
3,MAR\1994,282.96,42.75,182.96,602.93,182.96,3417.39,,
4,ABR\1994,403.73,42.68,185.71,648.92,303.73,3828.49,,
...,...,...,...,...,...,...,...,...,...
334,OUT\2021,6018.51,1.25,3.32,5.73,8.24,10.67,,
335,NOV\2021,6075.69,0.95,3.40,5.86,9.26,10.74,,
336,DEZ\2021,6120.04,0.73,2.96,6.07,10.06,10.06,,
337,JAN\2022,6153.09,0.54,2.24,5.63,0.54,10.38,,


In [9]:
# Excluindo linha vazia que resultou da concatenação
df_2.dropna(how='all', inplace=True)

In [10]:
# Definindo um valor nominal para cálculo do valor real
df_2.loc[1, 'Valor Nominal (R$) - Jan/1994'] = 1000

# Valor real obtido através do cálculo: Valor Nominal / (Número Índice Atual / Núm. Índice Dez/1993) - 1
df_2.loc[1, 'Valor Real (R$) - ' + mes_recente] = df_2['Valor Nominal (R$) - Jan/1994'].iloc[1] / (df_2['NÚMERO_ÍNDICE'].iloc[-1] / df_2['NÚMERO_ÍNDICE'].iloc[0]) - 1

df_2

Unnamed: 0,ANO_MES,NÚMERO_ÍNDICE,NO_MÊS,3_MESES,6_MESES,NO_ANO,12_MESES,Valor Nominal (R$) - Jan/1994,Valor Real (R$) - JAN\2022
0,DEZ\1993,100.00,36.84,0.00,0.00,0.00,0.00,0.0,0.000000
1,JAN\1994,141.31,41.31,162.13,533.33,41.31,2693.84,1000.0,15.251997
2,FEV\1994,198.22,40.27,171.24,568.17,98.22,3035.71,,
3,MAR\1994,282.96,42.75,182.96,602.93,182.96,3417.39,,
4,ABR\1994,403.73,42.68,185.71,648.92,303.73,3828.49,,
...,...,...,...,...,...,...,...,...,...
333,SET\2021,5944.21,1.16,3.02,4.75,6.90,10.25,,
334,OUT\2021,6018.51,1.25,3.32,5.73,8.24,10.67,,
335,NOV\2021,6075.69,0.95,3.40,5.86,9.26,10.74,,
336,DEZ\2021,6120.04,0.73,2.96,6.07,10.06,10.06,,


In [11]:
# Convertendo a coluna de valor real para inteiro
df_2['Valor Real (R$) - JAN\\2022'] = df_2['Valor Real (R$) - JAN\\2022'].apply(pd.to_numeric, errors='coerce')

In [12]:
# Salvando o arquivo já com toda a formatação aplicada
df_2.to_csv('output\\arquivo_formatado.csv', index=False, decimal=',', encoding='utf-8-sig', sep=';')

## Gráficos

In [13]:
# Criando uma coluna para Ano para auxiliar na elaboração visual
df_2['ANO'] = df_2['ANO_MES'].str.split('\\').str[1]
df_2

Unnamed: 0,ANO_MES,NÚMERO_ÍNDICE,NO_MÊS,3_MESES,6_MESES,NO_ANO,12_MESES,Valor Nominal (R$) - Jan/1994,Valor Real (R$) - JAN\2022,ANO
0,DEZ\1993,100.00,36.84,0.00,0.00,0.00,0.00,0.0,0.000000,1993
1,JAN\1994,141.31,41.31,162.13,533.33,41.31,2693.84,1000.0,15.251997,1994
2,FEV\1994,198.22,40.27,171.24,568.17,98.22,3035.71,,,1994
3,MAR\1994,282.96,42.75,182.96,602.93,182.96,3417.39,,,1994
4,ABR\1994,403.73,42.68,185.71,648.92,303.73,3828.49,,,1994
...,...,...,...,...,...,...,...,...,...,...
333,SET\2021,5944.21,1.16,3.02,4.75,6.90,10.25,,,2021
334,OUT\2021,6018.51,1.25,3.32,5.73,8.24,10.67,,,2021
335,NOV\2021,6075.69,0.95,3.40,5.86,9.26,10.74,,,2021
336,DEZ\2021,6120.04,0.73,2.96,6.07,10.06,10.06,,,2021


In [14]:
# Convertendo a coluna de Ano para inteiro
df_2['ANO'] = df_2['ANO'].apply(pd.to_numeric, errors='coerce')

# Realizando um filtro para selecionar informações posteriores a 1999 para apenas o mês de Dezembro
df_2 = df_2[(df_2['ANO'] > 1999) & (df_2['ANO_MES'].str.contains('DEZ'))]
df_2

Unnamed: 0,ANO_MES,NÚMERO_ÍNDICE,NO_MÊS,3_MESES,6_MESES,NO_ANO,12_MESES,Valor Nominal (R$) - Jan/1994,Valor Real (R$) - JAN\2022,ANO
84,DEZ\2000,1683.47,0.59,1.05,4.26,5.97,5.97,,,2000
96,DEZ\2001,1812.65,0.65,2.21,4.58,7.67,7.67,,,2001
108,DEZ\2002,2039.78,2.1,6.56,9.31,12.53,12.53,,,2002
120,DEZ\2003,2229.49,0.52,1.15,2.49,9.3,9.3,,,2003
132,DEZ\2004,2398.92,0.86,2.0,3.98,7.6,7.6,,,2004
144,DEZ\2005,2535.4,0.36,1.67,2.45,5.69,5.69,,,2005
156,DEZ\2006,2615.05,0.48,1.12,1.58,3.14,3.14,,,2006
168,DEZ\2007,2731.62,0.74,1.43,2.33,4.46,4.46,,,2007
180,DEZ\2008,2892.86,0.28,1.09,2.18,5.9,5.9,,,2008
192,DEZ\2009,3017.59,0.37,1.06,1.7,4.31,4.31,,,2009


In [32]:
# Utilizando algumas features do Plotly para criar um gráfico

# Passando o DataFrame como fonte de dados e escolhendo os eixos devidos
fig = px.bar(df_2, x = 'ANO', y = 'NO_ANO', text_auto = True)

# Definindo os rótulos de dados como fonte 10 e alocados fora das colunas internas
fig.update_traces(textfont_size = 9, textangle = 0, textposition = 'outside', cliponaxis = False, marker_color='midnightblue')

# Ajustando as informações do gráfico, adicionando título, centralizando e formatando eixos
fig.update_layout(
    title = {
        'text':'Inflação nos últimos anos <br><sup>Variação anual, em %',
        'y': 0.95,
        'x': 0.5,
        'xanchor': 'center',
        'yanchor': 'top',
        'font': {'size':20, 'color': 'darkslategrey', 'family': 'luminari, fantasy'}
    },
    yaxis = dict(
        title = '(%)',
        titlefont_size=12),
    xaxis = dict(
        title = 'Período',
        titlefont_size = 12,
        type = 'category'),
    uniformtext_minsize = 10,
    uniformtext_mode = 'hide',
    paper_bgcolor='rgb(255,255,255)',
    plot_bgcolor='rgb(255,255,255)',
)

# Ajustando o ângulo do eixo X
fig.update_xaxes(tickangle=-60)

fig.show()

In [34]:
fig.write_image('output\\figura.jpeg', width=1280, height=720)