### <bold>Entendimento dos dados</bold>

Fonte: <a>https://dados.gov.br/dados/conjuntos-dados/operacoes-copem</a>

Esses dados são empréstimos e financiamentos buscados por municípios, estados e pelo DF.
As colunas são assim identificadas:

* **Interessado**: quem está pedindo o empréstimo;
* **UF**: sigla do estado;
* **Tipo de Interessado**: se é um município ou um estado;
* **Tipo de Operação**: tipo de empréstimo, como por exemplo, empréstimo interno;
* **Finalidade**: para que o dinheiro será usado;
* **Tipo de Credor**: tipo de instituição que empresta o dinheiro;
* **Credor**: nome do banco ou instituição financeira;
* **Moeda**: em que moeda o empréstimo foi feito;
* **Valor**: a quantia pedida;
* **Número do Processo/PVL**: número único que identifica o pedido;
* **Código IBGE**: identificador oficial do município ou estado;
* **Status**: situação do pedido;
* **Data**: quando o pedido foi atualizado;
* **Analisado**: quem analisou o pedido, pro exmplo, um banco ou órgão do governo;

### <bold>Preparação dos dados</bold>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import unidecode

In [2]:
# Ajuste para 2 casas decimais
pd.options.display.float_format = '{:,.2f}'.format

In [3]:
cred = pd.read_csv('/home/cristoshie/Public/projects/storytelling/database/operacoes_uniao.csv', 
                   encoding = 'latin1', 
                   sep = ';')

In [4]:
cred.head()

Unnamed: 0,Interessado,UF,Tipo de interessado,Tipo de operação,Finalidade,Tipo de credor,Credor,Moeda,Valor,Número do Processo/PVL,Código IBGE,Status,Data,Analisado por
0,Abadia dos Dourados,MG,Município,Operação Contratual Interna,Provias 2009,Instituição Financeira Nacional,Caixa Econômica Federal,Real,"300.000,00",00000.000000/0021-94,3100104.0,Devolvido,19/08/2009,STN
1,Abadia dos Dourados,MG,Município,Operação Contratual Interna,Caminho da Escola,Instituição Financeira Nacional,Caixa Econômica Federal,Real,"172.700,00",17944.000104/2008-22,3100104.0,Arquivado,17/04/2008,STN
2,Abadia dos Dourados,MG,Município,Operação Contratual Interna,Provias 2009,Instituição Financeira Nacional,Caixa Econômica Federal,Real,"300.000,00",17944.000953/2009-67,3100104.0,Deferido,20/11/2009,STN
3,Abadia dos Dourados,MG,Município,Operação Contratual Interna,Caminho da Escola 2009 A,Instituição Financeira Nacional,Caixa Econômica Federal,Real,"187.200,00",17944.001037/2009-44,3100104.0,Deferido,20/11/2009,STN
4,Abadia dos Dourados,MG,Município,Operação Contratual Interna,"Aquisição de máquinas, equipamentos e veículos",Instituição Financeira Nacional,Banco de Desenvolvimento de Minas Gerais S/A,Real,"1.000.000,00",17944.001324/2013-31,3100104.0,Deferido,06/11/2013,STN


In [5]:
cred.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25891 entries, 0 to 25890
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Interessado             25891 non-null  object 
 1   UF                      25891 non-null  object 
 2   Tipo de interessado     25891 non-null  object 
 3   Tipo de operação        25891 non-null  object 
 4   Finalidade              25891 non-null  object 
 5   Tipo de credor          25891 non-null  object 
 6   Credor                  25891 non-null  object 
 7   Moeda                   25891 non-null  object 
 8   Valor                   25891 non-null  object 
 9   Número do Processo/PVL  25891 non-null  object 
 10  Código IBGE             25876 non-null  float64
 11  Status                  25891 non-null  object 
 12  Data                    25891 non-null  object 
 13  Analisado por           25891 non-null  object 
dtypes: float64(1), object(13)
memory usage

obs: data e valor são tipo 'object', ou seja, deve ser mudado para melhor trabalhar com os dados.

In [6]:
cred.columns = [Name.replace(' ', '_') for Name in cred.columns]
cred.columns

Index(['Interessado', 'UF', 'Tipo_de_interessado', 'Tipo_de_operação',
       'Finalidade', 'Tipo_de_credor', 'Credor', 'Moeda', 'Valor',
       'Número_do_Processo/PVL', 'Código_IBGE', 'Status', 'Data',
       'Analisado_por'],
      dtype='object')

In [7]:
# Transformar em float e substituir ponto por vírgula
cred.Valor = cred.Valor.apply( lambda name : name.replace('.', '') )
cred.Valor = cred.Valor.apply( lambda name : name.replace(',', '.') )
cred.Valor = pd.to_numeric( cred.Valor )

cred.Valor.head()

0     300,000.00
1     172,700.00
2     300,000.00
3     187,200.00
4   1,000,000.00
Name: Valor, dtype: float64

In [8]:
# Transformar data em datetime

cred.Data = pd.to_datetime(cred.Data)
cred.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25891 entries, 0 to 25890
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   Interessado             25891 non-null  object        
 1   UF                      25891 non-null  object        
 2   Tipo_de_interessado     25891 non-null  object        
 3   Tipo_de_operação        25891 non-null  object        
 4   Finalidade              25891 non-null  object        
 5   Tipo_de_credor          25891 non-null  object        
 6   Credor                  25891 non-null  object        
 7   Moeda                   25891 non-null  object        
 8   Valor                   25891 non-null  float64       
 9   Número_do_Processo/PVL  25891 non-null  object        
 10  Código_IBGE             25876 non-null  float64       
 11  Status                  25891 non-null  object        
 12  Data                    25891 non-null  dateti

  cred.Data = pd.to_datetime(cred.Data)


In [9]:
# Quantos valores únicos cada coluna possui
cred.nunique()

Interessado                3948
UF                           27
Tipo_de_interessado           3
Tipo_de_operação              6
Finalidade                   82
Tipo_de_credor                7
Credor                      137
Moeda                         5
Valor                      7479
Número_do_Processo/PVL    25891
Código_IBGE                4079
Status                       28
Data                       4096
Analisado_por                 2
dtype: int64

In [10]:
region = {
    'AC': 'Norte',
    'AL': 'Nordeste',
    'AM': 'Norte',
    'AP': 'Norte',
    'BA': 'Nordeste',
    'CE': 'Nordeste',
    'DF': 'Centro-Oeste',
    'ES': 'Sudeste',
    'GO': 'Centro-Oeste',
    'MA': 'Nordeste',
    'MG': 'Sudeste',
    'MS': 'Centro-Oeste',
    'MT': 'Centro-Oeste',
    'PA': 'Norte',
    'PB': 'Nordeste',
    'PE': 'Nordeste',
    'PI': 'Nordeste',
    'PR': 'Sul',
    'RJ': 'Sudeste',
    'RN': 'Nordeste',
    'RO': 'Norte',
    'RR': 'Norte',
    'RS': 'Sul',
    'SC': 'Sul',
    'SE': 'Nordeste',
    'SP': 'Sudeste',
    'TO': 'Norte'
}
cred['Regiao'] = cred.UF.map(region)
cred.head()

Unnamed: 0,Interessado,UF,Tipo_de_interessado,Tipo_de_operação,Finalidade,Tipo_de_credor,Credor,Moeda,Valor,Número_do_Processo/PVL,Código_IBGE,Status,Data,Analisado_por,Regiao
0,Abadia dos Dourados,MG,Município,Operação Contratual Interna,Provias 2009,Instituição Financeira Nacional,Caixa Econômica Federal,Real,300000.0,00000.000000/0021-94,3100104.0,Devolvido,2009-08-19,STN,Sudeste
1,Abadia dos Dourados,MG,Município,Operação Contratual Interna,Caminho da Escola,Instituição Financeira Nacional,Caixa Econômica Federal,Real,172700.0,17944.000104/2008-22,3100104.0,Arquivado,2008-04-17,STN,Sudeste
2,Abadia dos Dourados,MG,Município,Operação Contratual Interna,Provias 2009,Instituição Financeira Nacional,Caixa Econômica Federal,Real,300000.0,17944.000953/2009-67,3100104.0,Deferido,2009-11-20,STN,Sudeste
3,Abadia dos Dourados,MG,Município,Operação Contratual Interna,Caminho da Escola 2009 A,Instituição Financeira Nacional,Caixa Econômica Federal,Real,187200.0,17944.001037/2009-44,3100104.0,Deferido,2009-11-20,STN,Sudeste
4,Abadia dos Dourados,MG,Município,Operação Contratual Interna,"Aquisição de máquinas, equipamentos e veículos",Instituição Financeira Nacional,Banco de Desenvolvimento de Minas Gerais S/A,Real,1000000.0,17944.001324/2013-31,3100104.0,Deferido,2013-11-06,STN,Sudeste


In [11]:
path = '../database/'

cred.to_csv(path + "credit.csv", index = False)

In [12]:
cred.describe(include = 'all').transpose()

Unnamed: 0,count,unique,top,freq,mean,min,25%,50%,75%,max,std
Interessado,25891.0,3948.0,São Paulo,122.0,,,,,,,
UF,25891.0,27.0,MG,4954.0,,,,,,,
Tipo_de_interessado,25891.0,3.0,Município,24697.0,,,,,,,
Tipo_de_operação,25891.0,6.0,Operação Contratual Interna,24168.0,,,,,,,
Finalidade,25891.0,82.0,Infraestrutura,9871.0,,,,,,,
Tipo_de_credor,25891.0,7.0,Instituição Financeira Nacional,23998.0,,,,,,,
Credor,25891.0,137.0,Caixa Econômica Federal,6904.0,,,,,,,
Moeda,25891.0,5.0,Real,25226.0,,,,,,,
Valor,25891.0,,,,47485866.33,0.00,503879.00,1470441.00,5000000.00,223539966235.09,1696002998.11
Número_do_Processo/PVL,25891.0,25891.0,00000.000000/0021-94,1.0,,,,,,,


In [13]:
# Concentração em relação à cidade
cred.Interessado.value_counts(normalize=True).cumsum()

Interessado
São Paulo                0.00
Rio de Janeiro           0.01
Ceará                    0.01
Bahia                    0.02
Belo Horizonte           0.02
                         ... 
Barra de São Miguel      1.00
Passabém                 1.00
Barra de Santo Antônio   1.00
São Braz do Piauí        1.00
Crisópolis               1.00
Name: proportion, Length: 3948, dtype: float64

In [14]:
cred.UF.value_counts(normalize=True)

UF
MG   0.19
PR   0.18
RS   0.15
SP   0.13
SC   0.12
BA   0.05
GO   0.02
CE   0.02
MT   0.02
RJ   0.01
PE   0.01
MS   0.01
ES   0.01
PI   0.01
TO   0.01
PA   0.01
RO   0.01
MA   0.01
RN   0.01
PB   0.01
SE   0.01
AL   0.00
AM   0.00
AC   0.00
DF   0.00
RR   0.00
AP   0.00
Name: proportion, dtype: float64

obs: Analisando as duas células acima, nota-se que apesar de SP ser o município que mais é citado na base de dados, o estado de MG é o que tem uma proporçãode 0.19% dos pedidos.

In [15]:
cred['Regiao'].value_counts(normalize=True)

Regiao
Sul            0.45
Sudeste        0.35
Nordeste       0.12
Centro-Oeste   0.06
Norte          0.03
Name: proportion, dtype: float64

In [16]:
cred['Tipo_de_interessado'].value_counts()

Tipo_de_interessado
Município          24697
Estado              1179
Empresa Estatal       15
Name: count, dtype: int64

In [17]:
cred.Finalidade.value_counts(normalize=True).cumsum().head(10)

Finalidade
Infraestrutura                                                  0.38
Aquisição de máquinas, equipamentos e veículos                  0.52
Provias                                                         0.57
PAC 2 - Pró-Transporte - Pavimentação e Qualificação de Vias    0.61
Aquisição de terrenos, imóveis e/ou construção de instalações   0.64
PMAT                                                            0.67
Caminho da Escola 2                                             0.69
Saneamento básico                                               0.72
Multissetorial                                                  0.74
Caminho da Escola                                               0.76
Name: proportion, dtype: float64

obs: cumsum é a frequência relativa acumulada.

In [18]:
cred.Status.value_counts(normalize=True).cumsum()

Status
Deferido                                                0.49
Deferido (PVL-IF)                                       0.70
Arquivado                                               0.77
Devolvido                                               0.84
Arquivado por decurso de prazo                          0.89
Encaminhado à PGFN com manifestação técnica favorável   0.93
Regularizado                                            0.96
Arquivado a pedido                                      0.97
Em retificação pelo interessado                         0.98
Em análise                                              0.98
Indeferido                                              0.99
Arquivado por decurso de prazo (PVL-IF)                 0.99
Arquivado a pedido (PVL-IF)                             0.99
Em retificação pelo interessado (PVL-IF)                0.99
Em retificação pelo credor                              0.99
Em retificação pelo credor (PVL-IF)                     0.99
Encaminhado à PGF

In [19]:
status_filtered = ['Deferido', 'Deferido(PVL-IF', 'Regularizado']

concession = cred.loc[cred.Status.isin(status_filtered)]
concession.shape

(13453, 15)

In [20]:
concession.tail(10)

Unnamed: 0,Interessado,UF,Tipo_de_interessado,Tipo_de_operação,Finalidade,Tipo_de_credor,Credor,Moeda,Valor,Número_do_Processo/PVL,Código_IBGE,Status,Data,Analisado_por,Regiao
25873,Xaxim,SC,Município,Operação Contratual Interna,PMAT,Instituição Financeira Nacional,Banco do Brasil S/A,Real,411420.0,19406.000326/2004-34,4219705.0,Deferido,2004-07-01,STN,Sul
25874,Xaxim,SC,Município,Operação Contratual Interna,Infraestrutura,Instituição Financeira Nacional,Agência de Fomento do Estado de Santa Catarina...,Real,1000000.0,19406.000424/2006-33,4219705.0,Deferido,2006-07-18,STN,Sul
25875,Xaxim,SC,Município,Operação Contratual Interna,Caminho da Escola,Instituição Financeira Nacional,Caixa Econômica Federal,Real,785850.0,19406.000451/2009-59,4219705.0,Deferido,2010-07-07,STN,Sul
25876,Xaxim,SC,Município,Operação Contratual Interna,Multissetorial,Instituição Financeira Nacional,Agência de Fomento do Estado de Santa Catarina...,Real,2000000.0,19406.000491/2008-10,4219705.0,Deferido,2008-05-20,STN,Sul
25877,Xaxim,SC,Município,Operação Contratual Interna,Infraestrutura,Instituição Financeira Nacional,Agência de Fomento do Estado de Santa Catarina...,Real,2000000.0,17944.001026/2015-11,4219705.0,Deferido,2016-01-26,STN,Sul
25882,Xinguara,PA,Município,Operação Contratual Interna,Infraestrutura,Instituição Financeira Nacional,Banco do Brasil S/A,Real,15500000.0,17944.100742/2023-81,1508407.0,Deferido,2023-03-16,STN,Norte
25884,Xique-Xique,BA,Município,Operação Contratual Interna,"Aquisição de máquinas, equipamentos e veículos",Instituição Financeira Nacional,Agência de Fomento do Estado da Bahia S/A,Real,500000.0,19407.000006/2004-74,2933604.0,Deferido,2004-05-14,STN,Nordeste
25888,Zortéa,SC,Município,Operação Contratual Interna,PMAT,Instituição Financeira Nacional,Banco do Brasil S/A,Real,47394.0,19406.000010/2004-42,4219853.0,Deferido,2004-02-26,STN,Sul
25889,Zortéa,SC,Município,Operação Contratual Interna,Infraestrutura,Instituição Financeira Nacional,Agência de Fomento do Estado de Santa Catarina...,Real,250000.0,19406.000070/2002-01,4219853.0,Deferido,2002-06-27,STN,Sul
25890,Zortéa,SC,Município,Operação Contratual Interna,Infraestrutura,Instituição Financeira Nacional,Agência de Fomento do Estado de Santa Catarina...,Real,650000.0,19406.000686/2008-60,4219853.0,Deferido,2008-07-18,STN,Sul


In [21]:
# transformar em um dataset concession.csv  
concession.to_csv(path + "concession.csv", index = False)

In [22]:
db_concession = concession[
    (concession.Tipo_de_interessado == 'Estado') & (cred.Data.dt.year >= 2014 )].groupby(by = ['Regiao', 'Interessado']).agg(
        Quantidade = ('Interessado', 'count'),
        Total_Liberado = ('Valor', 'sum'),
        Ticket_Medio = ('Valor', 'median')
    ).reset_index()

db_concession

  db_concession = concession[


Unnamed: 0,Regiao,Interessado,Quantidade,Total_Liberado,Ticket_Medio
0,Centro-Oeste,Distrito Federal,9,1154729593.37,98109150.0
1,Centro-Oeste,Goiás,2,2405856000.0,1202928000.0
2,Centro-Oeste,Mato Grosso,4,2445747484.88,216000000.0
3,Centro-Oeste,Mato Grosso do Sul,2,5798237149.08,2899118574.54
4,Nordeste,Alagoas,2,550741606.2,275370803.1
5,Nordeste,Bahia,5,1809000000.0,250000000.0
6,Nordeste,Ceará,4,889010499.8,123816137.08
7,Nordeste,Maranhão,1,55225235.44,55225235.44
8,Nordeste,Paraíba,1,300000000.0,300000000.0
9,Nordeste,Pernambuco,6,3702835371.45,151000000.0
