<a href="https://colab.research.google.com/github/carolfazani/curso_python/blob/master/Preparando_os_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [178]:
import pandas as pd
import numpy as np

#1. Coletando os dados:

Para realizar nossa análise orçamentária vamos utilizar os balanços orçamentários do município de SP referentes aos anos de 2017, 2018, 2019, 2020 e 2021, ambos disponíveis no sítio: https://www.prefeitura.sp.gov.br/cidade/secretarias/fazenda/contaspublicas/index.php?p=3212

#2. Limpando os dados:

2.1 Lendo os arquivos em xlsx e os tranformando em dataframes

In [179]:
files = ('r2017.xlsx', 'r2018.xlsx', 'r2019.xlsx', 'r2020.xlsx', 'r2021.xlsx')
years = ('2017', '2018', '2019', '2020', '2021')
df ={}
for year,file in zip(years, files):
    df[year] = pd.read_excel(file, index_col = 0)
    print(f'shape: {df[year].shape}')


shape: (31, 4)
shape: (31, 4)
shape: (31, 4)
shape: (31, 4)
shape: (31, 4)


2.2 Renomeando as colunas

In [180]:

for year in years:
  df[year].columns = ['Previsão_Inicial', 'Previsão_Atualizada',
       'Receitas_Realizadas', 'Saldo']


2.3 Inserindo uma nova coluna

In [181]:
for year in years:
  df[year].insert(0, 'Categoria', (np.nan))

In [182]:
df['2021'].columns

Index(['Categoria', 'Previsão_Inicial', 'Previsão_Atualizada',
       'Receitas_Realizadas', 'Saldo'],
      dtype='object')

2.4 Conferindo se nossos índices são iguais

In [183]:
#capturando os objetos Index
idx17 = df['2017'].index
idx18 = df['2018'].index
idx19 = df['2019'].index
idx20 = df['2020'].index
idx21 = df['2021'].index



In [184]:
type(idx17)

pandas.core.indexes.base.Index

In [185]:
#todos indices colocados dentro dos parenteses retornaram True
idx17.equals(idx21)

True

2.5 Removendo linhas

In [186]:
for year in years:
    df[year] = df[year].drop(['RECEITAS  CORRENTES (I)', 'RECEITAS DE CAPITAL (II)','SUBTOTAL DAS RECEITAS (III) = ( I + II)', 'OPERAÇÕES DE CRÉDITO / REFINANCIAMENTO (IV)','TOTAL (VII) = (V + VI)', 'Saldos de Exercícios Anteriores (Utilizados para Créditos', 'Adicionais)','SUBTOTAL COM REFINANCIAMENTO (V) = (III + IV)','Deficit (VI)'])


2.6 Tratando valores nulos

In [187]:
for year in years:
    df[year].loc[df[year]['Previsão_Inicial'] == '-', 'Previsão_Inicial'] = 0
    df[year].loc[df[year]['Previsão_Atualizada'] == '-', 'Previsão_Atualizada'] = 0
    df[year].loc[df[year]['Receitas_Realizadas'] == '-', 'Receitas_Realizadas'] = 0
    df[year].loc[df[year]['Saldo'] == '-', 'Saldo'] = 0

In [188]:
df['2017'].dtypes

Categoria              float64
Previsão_Inicial        object
Previsão_Atualizada     object
Receitas_Realizadas     object
Saldo                   object
dtype: object

2.7 Alterando os tipos de valores

In [189]:
for year in years:
    df[year]['Previsão_Inicial'] = df[year]['Previsão_Inicial'].astype(float)
    df[year]['Previsão_Atualizada'] = df[year]['Previsão_Atualizada'].astype(float)
    df[year]['Receitas_Realizadas'] = df[year]['Receitas_Realizadas'].astype(float)
    df[year]['Saldo'] = df[year]['Saldo'].astype(float)

In [190]:
df['2018'].dtypes

Categoria              float64
Previsão_Inicial       float64
Previsão_Atualizada    float64
Receitas_Realizadas    float64
Saldo                  float64
dtype: object

2.8 Verificando duplicados

In [191]:
print(idx17.duplicated(keep = False))
print(idx18.duplicated(keep = False))
print(idx19.duplicated(keep = False))
print(idx20.duplicated(keep = False))
print(idx21.duplicated(keep = False))

[False False False False False False False False False False False False
 False False False False False False  True  True False  True  True False
 False False False False False False False]
[False False False False False False False False False False False False
 False False False False False False  True  True False  True  True False
 False False False False False False False]
[False False False False False False False False False False False False
 False False False False False False  True  True False  True  True False
 False False False False False False False]
[False False False False False False False False False False False False
 False False False False False False  True  True False  True  True False
 False False False False False False False]
[False False False False False False False False False False False False
 False False False False False False  True  True False  True  True False
 False False False False False False False]


In [192]:
for year in years:
  print(f'shape: {df[year].shape}')

shape: (22, 5)
shape: (22, 5)
shape: (22, 5)
shape: (22, 5)
shape: (22, 5)


In [194]:
for year in years:
    df[year] = df[year][~df[year].index.duplicated(keep='first')]

In [195]:
#capturando os novos indices
idx17 = df['2017'].index
idx18 = df['2018'].index
idx19 = df['2019'].index
idx20 = df['2020'].index
idx21 = df['2021'].index

In [196]:
print(idx17.duplicated(keep = False))
print(idx18.duplicated(keep = False))
print(idx19.duplicated(keep = False))
print(idx20.duplicated(keep = False))
print(idx21.duplicated(keep = False))

[False False False False False False False False False False False False
 False False False False False False False False]
[False False False False False False False False False False False False
 False False False False False False False False]
[False False False False False False False False False False False False
 False False False False False False False False]
[False False False False False False False False False False False False
 False False False False False False False False]
[False False False False False False False False False False False False
 False False False False False False False False]


In [198]:
for year in years:
  print(f'shape: {df[year].shape}')

shape: (20, 5)
shape: (20, 5)
shape: (20, 5)
shape: (20, 5)
shape: (20, 5)


#3. Classificando os dados

In [None]:
for year in years:
  print(f'RECEITAS CORRENTE >>> {df[year][0:8]}')
  print(f'RECEITAS DE CAPITAL >>> {df[year][8:13]}')
  print(f'OPERAÇÕES DE CRÉDITO >>> {df[year][13:17]}')
  print(f'SALDOS ANTERIORES >>> {df[year][17:20]}')


In [207]:
#classifica as receitas por categoria
for year in years:
  df[year].loc[0:8,'Categoria'] = "RECEITAS CORRENTE"
  df[year].loc[8:13, 'Categoria'] ='RECEITAS DE CAPITAL'
  df[year].loc[13:17, 'Categoria'] = 'OPERAÇÕES DE CRÉDITO'
  df[year].loc[17:20, 'Categoria'] = 'SALDOS ANTERIORES'


  indexer = self._get_setitem_indexer(key)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


In [205]:
df['2017'].head(n=30)

Unnamed: 0_level_0,Categoria,Previsão_Inicial,Previsão_Atualizada,Receitas_Realizadas,Saldo
RECEITAS ORÇAMENTÁRIAS,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
RECEITA TRIBUTÁRIA,RECEITA CORRENTE,25000000000.0,25000000000.0,25500000000.0,538000000.0
RECEITA DE CONTRIBUIÇÕES,RECEITA CORRENTE,3790000000.0,3790000000.0,3750000000.0,-37200000.0
RECEITA PATRIMONIAL,RECEITA CORRENTE,1020000000.0,1020000000.0,989000000.0,-26200000.0
RECEITA AGROPECUÁRIA,RECEITA CORRENTE,0.0,0.0,0.0,0.0
RECEITA INDUSTRIAL,RECEITA CORRENTE,0.0,0.0,0.0,0.0
RECEITA DE SERVIÇOS,RECEITA CORRENTE,623000000.0,623000000.0,547000000.0,-76500000.0
TRANSFERÊNCIAS CORRENTES,RECEITA CORRENTE,14600000000.0,14600000000.0,14100000000.0,-454000000.0
OUTRAS RECEITAS CORRENTES,RECEITA CORRENTE,4750000000.0,4750000000.0,5750000000.0,998000000.0
OPERAÇÕES DE CRÉDITO,RECEITAS DE CAPITAL,108000000.0,108000000.0,44400000.0,-63800000.0
ALIENAÇÃO DE BENS,RECEITAS DE CAPITAL,906000000.0,906000000.0,23000000.0,-883000000.0


#4. Criando variáveis de análise

In [223]:
#guarda a soma de cada coluna por categoria em uma variável
inicial ={}
atualizada = {}
realizada = {}
saldo = {}
for year in years:
    inicial[f'{year}'] = df[year].groupby('Categoria')['Previsão_Inicial'].sum().reset_index(name='Previsão_Inicial')
    atualizada[f'{year}'] = df[year].groupby('Categoria')['Previsão_Atualizada'].sum().reset_index(name='Previsão_Atualizada')
    realizada[f'{year}'] = df[year].groupby('Categoria')['Receitas_Realizadas'].sum().reset_index(name='Receitas_Realizadas')
    saldo[f'{year}'] = df[year].groupby('Categoria')['Saldo'].sum().reset_index(name='Saldo')

              Categoria  Previsão_Inicial
0  OPERAÇÕES DE CRÉDITO          0.00e+00
1     RECEITAS CORRENTE          4.97e+10
2   RECEITAS DE CAPITAL          4.86e+09
3     SALDOS ANTERIORES          1.00e+08
              Categoria  Previsão_Inicial
0  OPERAÇÕES DE CRÉDITO          0.00e+00
1     RECEITAS CORRENTE          5.22e+10
2   RECEITAS DE CAPITAL          4.17e+09
3     SALDOS ANTERIORES          4.00e+07
              Categoria  Previsão_Inicial
0  OPERAÇÕES DE CRÉDITO          0.00e+00
1     RECEITAS CORRENTE          5.60e+10
2   RECEITAS DE CAPITAL          4.48e+09
3     SALDOS ANTERIORES          6.23e+07
              Categoria  Previsão_Inicial
0  OPERAÇÕES DE CRÉDITO          0.00e+00
1     RECEITAS CORRENTE          6.32e+10
2   RECEITAS DE CAPITAL          5.71e+09
3     SALDOS ANTERIORES          6.61e+07
              Categoria  Previsão_Inicial
0  OPERAÇÕES DE CRÉDITO          0.00e+00
1     RECEITAS CORRENTE          6.33e+10
2   RECEITAS DE CAPITAL          4

In [227]:
atualizada['2017']

Unnamed: 0,Categoria,Previsão_Atualizada
0,OPERAÇÕES DE CRÉDITO,0.0
1,RECEITAS CORRENTE,49700000000.0
2,RECEITAS DE CAPITAL,4860000000.0
3,SALDOS ANTERIORES,263000000.0


In [230]:
#soma as categorias 
c_inicial ={}
c_atualizada = {}
c_realizada = {}
c_saldo = {}
for year in years:
  c_inicial[f'{year}'] = inicial[year]['Previsão_Inicial'].sum()
  c_atualizada[f'{year}'] = atualizada[year]['Previsão_Atualizada'].sum()
  c_realizada[f'{year}'] = realizada[year]['Receitas_Realizadas'].sum()
  c_saldo[f'{year}'] = saldo[year]['Saldo'].sum()

In [231]:
c_inicial['2017']

54694563143.0

In [235]:
realizada['2020']['Receitas_Realizadas'][3:]

3    2.07e+09
Name: Receitas_Realizadas, dtype: float64

In [239]:
t_inicial ={}
t_atualizada = {}
t_realizada = {}
t_saldo = {}
for year in years:
  t_inicial[f'{year}'] = df[year]['Previsão_Inicial'].sum()
  t_atualizada[f'{year}'] = df[year]['Previsão_Atualizada'].sum()
  t_realizada[f'{year}'] = df[year]['Receitas_Realizadas'].sum() - realizada[year]['Receitas_Realizadas'][3:]
  t_saldo[f'{year}'] = t_realizada[f'{year}'] - t_atualizada[f'{year}'] 

#5. Indicadores para análise

Quociente de execução da receita: Receita Executada Receita Prevista
(Kohama, 2000, p. 144-148):
QUOCIENTES FÓRMULAS SIGNIFICADO DOS QUOCIENTES
Execução da Receita: Receita Executada/ Receita Prevista
1 = Receita executada é igual à receita prevista;
>1 = Receita executada é maior que a prevista, portanto, representa
o excesso de arrecadação;
<1 = Receita executada é menor que a prevista, portanto,
representa a falta de arrecadação.

In [240]:
q_execucao= {}
for year in years:
  q_execucao[f'{year}'] = t_realizada[f'{year}']/ t_inicial[f'{year}'] 