<a href="https://colab.research.google.com/github/simonefmr/datascience_mvp/blob/main/MVP_desenvolvimento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **MVP Pós Data Science - PUC Rio - Sprint 1**

## **1. Introdução**

O Banco Central do Brasil divulga mensalmente informações agregadas das operações de crédito recebidas através do Sistema de Informações de Créditos – SCR. Os relatórios são atualizados no último dia útil do mês, disponibilizando os dados após 60 dias do fechamento de cada período. São disponibilizados dados agregados de Carteira Ativa, Inadimplência e Ativo Problemático com possibilidade de detalhamento por tipo de cliente (PF/PJ), modalidade de crédito, unidade da federação, Classificação Nacional de Atividades Econômicas – CNAE (PJ), natureza da ocupação (PF), porte/rendimento dos clientes, origem de recursos e indexador das operações. Adicionalmente ao recurso gráfico apresentado na página, o relatório também disponibiliza aproximadamente 700 mil séries mensais acessíveis pelo portal de dados abertos. A publicação compreende o período de junho de 2012 até a atualidade. (Fonte: SCR.data - Painel de Operações de Crédito - Metodologia - https://dadosabertos.bcb.gov.br/dataset/scr_data/resource/6ed8c917-aace-4906-a8c4-09dd736e6872)

## **2. Definição do Problema**

O objetivo deste projeto é avaliar a evolução do endividamento das pessoas físicas no Brasil, no ano de 2022, conforme registro feito pelas instituições financeiras e comunicados ao Banco Central através do Sistema de Informações de Créditos (SCR). 

Fonte: 

### **2.1. Problema de aprendizado supervisionado ou não supervisionado?**

Não temos rótulos históricos dos dados e, por isso, não temos resultados esperados. Desta forma, podemos considerar como um problema de aprendizado não supervisionado. Tentaremos explorar os dados e aprender os possíveis relacionamentos entre eles.

### **2.2. Hipóteses sobre o problema**

Atuando no setor bancário/financeiro, pude perceber um intenso uso de crédito nos últimos anos. Num cenário de inflação alta (IPCA de 10,06% em 2021 e 5,79% em 2022), muitas vezes as famílias recorrem à contratação de operações de crédito para pagar despesas recorrentes. 

Além disso, a elevação da margem (30% para 35% e depois para 40% da renda bruta) para contratação de crédito consignado em alguns convênios como INSS e servidores federais, alavancou a concessão de crédito, ainda que as taxas não estivessem atrativas.

A hipótese que vou analisar é se houve uma elevação real no endividamento geral das famílias e se houve elevação da inadimplência.

## **3. Importação de pacotes e bibliotecas**

In [2]:
# Importando bibliotecas e pacotes que poderão ser utilizados na análise

import pandas as pd
import os
import glob
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt 
from sklearn.preprocessing import MinMaxScaler # normalização
from sklearn.preprocessing import StandardScaler # padronização
from sklearn.preprocessing import OrdinalEncoder # ordinal encoding
from sklearn.preprocessing import OneHotEncoder # one-hot encoding e dummy encoding

In [3]:
# Versão do Pandas utilizada

pd.__version__

'1.5.3'

## **4. Carregamento dos dados**

### **4.1. Restrições ou condições para seleção dos dados**

Os dados do SCR foram obtidos no Portal de Dados Abertos do Banco Central do Brasil (https://dadosabertos.bcb.gov.br/). As informações são disponibilizadas desde 2012 mas, num primeiro momento, optei por trabalhar apenas com o ano de 2022.

Inicialmente, os dados analisados continham informações completas de clientes PF (Pessoas Físicas) e PJ (Pessoas Jurídicas) e o segmento das instituições(SR  - Segmento Resolução nº 4.553/2017), que variava de S1 a S5.

Devido ao tamanho dos arquivos (acima de 250MB cada base mensal), foi necessário reduzir a base analisada e foram excluídos ainda no arquivo *.csv* todas operações de clientes PJ e utilizado apenas informações de instituições S1.

*S1 - Bancos múltiplos, bancos comerciais, bancos de investimento, bancos de câmbio e caixas econômicas que tenham porte (Exposição/Produto Interno Bruto) superior a 10% ou exerçam atividade internacional relevante (ativos no exterior superiores a US$ 10 bilhões)*

### **4.2. Importando e unificando os dados**

In [4]:
# Cada arquivo .csv representa um mês da base de dados. Serão importados individualmente

url_2022_01 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202201.csv?raw=true', sep=';') # Base Janeiro/2022
url_2022_02 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202202.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Fevereiro/2022
url_2022_03 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202203.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Março/2022
url_2022_04 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202204.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Abril/2022
url_2022_05 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202205.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Maio/2022
url_2022_06 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202206.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Junho/2022
url_2022_07 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202207.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Julho/2022
url_2022_08 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202208.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Agosto/2022
url_2022_09 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202209.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Setembro/2022
url_2022_10 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202210.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Outubro/2022
url_2022_11 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202211.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Novembro/2022
url_2022_12 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202212.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Dezembro/2022


In [25]:
colunas = ['data_base', 'uf', 'tcb', 'sr', 'cliente', 'ocupacao', 'cnae_secao','cnae_subclasse', 'porte', 'modalidade', 'origem', 'indexador', 'numero_de_operacoes', 'a_vencer_ate_90_dias', 'a_vencer_de_91_ate_360_dias', 'a_vencer_de_361_ate_1080_dias', 'a_vencer_de_1081_ate_1800_dias', 'a_vencer_de_1801_ate_5400_dias', 'a_vencer_acima_de_5400_dias', 'vencido_acima_de_15_dias', 'carteira_ativa', 'carteira_inadimplida_arrastada', 'ativo_problematico']

In [27]:
# Unificando os dados em um só dataset

scr_2022 = pd.concat(([url_2022_01, url_2022_02, url_2022_03, url_2022_04, url_2022_05, url_2022_06, url_2022_07, url_2022_08, url_2022_09, url_2022_10, url_2022_11, url_2022_12]), names='colunas')

### **4.3. Definindo os atributos do dataset**

Vou informar abaixo o que cada atributo representa, conforme a metodologia usada pelo Banco Central.

'data_base'

'uf'

'tcb'

'sr'

'cliente'

'ocupacao'

'cnae_secao'

'cnae_subclasse'

'porte'

'modalidade'

'origem'

'indexador'

'numero_de_operacoes'

'a_vencer_ate_90_dias'

'a_vencer_de_91_ate_360_dias'

'a_vencer_de_361_ate_1080_dias'

'a_vencer_de_1081_ate_1800_dias'

'a_vencer_de_1801_ate_5400_dias'

'a_vencer_acima_de_5400_dias'

'vencido_acima_de_15_dias'

'carteira_ativa'

'carteira_inadimplida_arrastada'

'ativo_problematico'



In [28]:
# Verificando as primeiras linhas

# Os dados foram carregados corretamente e estão classificados por database e depois por estado (UF) em ordem alfabética

scr_2022.head(5)

Unnamed: 0,data_base,uf,tcb,sr,cliente,ocupacao,cnae_secao,cnae_subclasse,porte,modalidade,...,a_vencer_ate_90_dias,a_vencer_de_91_ate_360_dias,a_vencer_de_361_ate_1080_dias,a_vencer_de_1081_ate_1800_dias,a_vencer_de_1801_ate_5400_dias,a_vencer_acima_de_5400_dias,vencido_acima_de_15_dias,carteira_ativa,carteira_inadimplida_arrastada,ativo_problematico
0,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Cartão de crédito,...,0,556130,0,0,0,0,0,556130,0,0
1,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Cartão de crédito,...,379103442,98237888,7401625,900630,374161,0,28103664,514121410,17604479,23727293
2,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Empréstimo com consignação em folha,...,176471058,445671222,1131676296,982214326,1202677846,0,30658487,3969369235,120826490,127842045
3,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Empréstimo sem consignação em folha,...,29311191,88839440,113474773,63685019,28626762,0,105448,324042633,0,13133805
4,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Habitacional,...,14023105,38405493,86770121,67842545,152834060,35373540,0,395248864,0,10221654


In [29]:
# Verificando as últimas linhas observamos a database de Dezembro (última cronologicamente) e seguindo a ordem alfabética das UF's.

scr_2022.tail(5)

Unnamed: 0,data_base,uf,tcb,sr,cliente,ocupacao,cnae_secao,cnae_subclasse,porte,modalidade,...,a_vencer_ate_90_dias,a_vencer_de_91_ate_360_dias,a_vencer_de_361_ate_1080_dias,a_vencer_de_1081_ate_1800_dias,a_vencer_de_1801_ate_5400_dias,a_vencer_acima_de_5400_dias,vencido_acima_de_15_dias,carteira_ativa,carteira_inadimplida_arrastada,ativo_problematico
34684,31/12/2022,TO,Bancário,S1,PF,PF - Servidor ou empregado público,-,-,PF - Sem rendimento,PF - Cartão de crédito,...,1951907,386250,0,0,0,0,6349923,8688080,5966251,5971609
34685,31/12/2022,TO,Bancário,S1,PF,PF - Servidor ou empregado público,-,-,PF - Sem rendimento,PF - Empréstimo com consignação em folha,...,1248731,3354411,3679448,370046,45658,0,1352380,10050674,1545251,1635170
34686,31/12/2022,TO,Bancário,S1,PF,PF - Servidor ou empregado público,-,-,PF - Sem rendimento,PF - Empréstimo sem consignação em folha,...,285412,674012,947985,123855,0,0,0,2031264,0,0
34687,31/12/2022,TO,Bancário,S1,PF,PF - Servidor ou empregado público,-,-,PF - Sem rendimento,PF - Outros créditos,...,1833,0,0,0,0,0,0,1833,0,0
34688,31/12/2022,TO,Bancário,S1,PF,PF - Servidor ou empregado público,-,-,PF - Sem rendimento,PF - Veículos,...,283024,759595,1445694,285096,0,0,0,2773409,0,0


## **5. Análise dos Dados**

### **5.1. Estatísticas descritivas**

In [30]:
# Verificando dimensões do dataset (quantos atributos e instâncias existem)

scr_2022.shape

(416856, 23)

In [31]:
# Quais são os tipos de dados dos atributos?

# A princípio todos essão classificados como object

scr_2022.dtypes

data_base                         object
uf                                object
tcb                               object
sr                                object
cliente                           object
ocupacao                          object
cnae_secao                        object
cnae_subclasse                    object
porte                             object
modalidade                        object
origem                            object
indexador                         object
numero_de_operacoes               object
a_vencer_ate_90_dias              object
a_vencer_de_91_ate_360_dias       object
a_vencer_de_361_ate_1080_dias     object
a_vencer_de_1081_ate_1800_dias    object
a_vencer_de_1801_ate_5400_dias    object
a_vencer_acima_de_5400_dias       object
vencido_acima_de_15_dias          object
carteira_ativa                    object
carteira_inadimplida_arrastada    object
ativo_problematico                object
dtype: object

Podemos observar que todos os atributos estão classificados como sendo do tipo "object". Será necessário fazer a conversão de algumas colunas para permitirmos a análise descritiva.

In [22]:
scr_2022['a_vencer_ate_90_dias'] = scr_2022['a_vencer_ate_90_dias'].str.replace(',','.').astype('float')

ValueError: ignored

In [12]:
# Mostra as informações do dataset

scr_2022.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 416856 entries, 0 to 34688
Data columns (total 23 columns):
 #   Column                          Non-Null Count   Dtype 
---  ------                          --------------   ----- 
 0   data_base                       416856 non-null  object
 1   uf                              416856 non-null  object
 2   tcb                             416856 non-null  object
 3   sr                              412963 non-null  object
 4   cliente                         416856 non-null  object
 5   ocupacao                        416856 non-null  object
 6   cnae_secao                      416856 non-null  object
 7   cnae_subclasse                  416856 non-null  object
 8   porte                           416856 non-null  object
 9   modalidade                      416856 non-null  object
 10  origem                          416856 non-null  object
 11  indexador                       416856 non-null  object
 12  numero_de_operacoes            

In [11]:
# Verificando se existem dados faltantes, discrepantes ou inconsistentes

scr_2022.isnull()

Unnamed: 0,data_base,uf,tcb,sr,cliente,ocupacao,cnae_secao,cnae_subclasse,porte,modalidade,...,a_vencer_ate_90_dias,a_vencer_de_91_ate_360_dias,a_vencer_de_361_ate_1080_dias,a_vencer_de_1081_ate_1800_dias,a_vencer_de_1801_ate_5400_dias,a_vencer_acima_de_5400_dias,vencido_acima_de_15_dias,carteira_ativa,carteira_inadimplida_arrastada,ativo_problematico
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
34684,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
34685,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
34686,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
34687,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [15]:

# Faz um resumo estatístico do dataset (média, desvio padrão, mínimo, máximo e os quartis)
scr_2022.describe()

Unnamed: 0,data_base,uf,tcb,sr,cliente,ocupacao,cnae_secao,cnae_subclasse,porte,modalidade,...,a_vencer_ate_90_dias,a_vencer_de_91_ate_360_dias,a_vencer_de_361_ate_1080_dias,a_vencer_de_1081_ate_1800_dias,a_vencer_de_1801_ate_5400_dias,a_vencer_acima_de_5400_dias,vencido_acima_de_15_dias,carteira_ativa,carteira_inadimplida_arrastada,ativo_problematico
count,416856,416856,416856,412963,416856,416856,416856,416856,416856,416856,...,416856,416856,416856,416856,416856,416856,416856,416856,416856,416856
unique,12,27,2,1,1,8,1,1,9,7,...,357248,362196,344336,299917,278181,94648,288423,407788,237230,272559
top,30/11/2022,SP,Bancário,S1,PF,PF - Outros,-,-,PF - Mais de 5 a 10 salários mínimos,PF - Outros créditos,...,0,0,0,0,0,0,0,25000,0,0
freq,38621,22636,412963,412963,416856,64464,416856,416856,57213,96596,...,46745,46236,61695,101252,126312,295631,104336,66,152144,120373


Vamos agora verificar se o dataset tem as classes balanceadas para que possamos tratar o desbalanceamento posteriormente, se necessário. Veremos que as classes 0 (não ocorrência de diabetes) e 1 (ocorrência de diabetes) estão desbalanceadas. Vamos guardar esta informação, pois possivelmente precisaremos realizar algum tipo de tratamento nas próximas etapas.

In [None]:
# Faz um resumo estatístico do dataset (média, desvio padrão, mínimo, máximo e os quartis)
scr_2022.describe()

In [None]:
# Correlação de Pearson
scr_2022.corr(method = 'pearson')

Estatísticas descritivas: 

Quantos atributos e instâncias existem?
Quais são os tipos de dados dos atributos?
Verifique as primeiras linhas do dataset. Algo chama a atenção?
Há valores faltantes, discrepantes ou inconsistentes?
Faça um resumo estatístico dos atributos com valor numérico (mínimo, máximo, mediana, moda, média, desvio-padrão e número de valores ausentes). O que você percebe?
Visualizações: 

Verifique a distribuição de cada atributo. O que você percebe? Dica: esta etapa pode dar ideias sobre a necessidade de transformações na etapa de preparação de dados (por exemplo, converter atributos de um tipo para outro, realizar operações de discretização, normalização, padronização, etc.).
Se for um problema de classificação, verifique a distribuição de frequência das classes. O que você percebe? Dica: esta etapa pode indicar a possível necessidade futura de balanceamento de classes.
Analise os atributos individualmente ou de forma combinada, usando os gráficos mais apropriados. 

Pré-processamento de dados: 
Objetivo: realizar operações de limpeza, tratamento e preparação dos dados. 

Verifique quais operações de pré-processamento podem ser interessantes para o seu problema e salve visões diferentes do seu dataset (por exemplo, normalização, padronização, discretização e one-hot-encoding).
Trate (removendo ou substituindo) os valores faltantes (se existentes).
Realize outras transformações de dados porventura necessárias.
Explique, passo a passo, as operações realizadas, justificando cada uma delas.
Se julgar necessário, utilizando os dados pré-processados, volte na etapa de análise exploratória e verifique se surge algum insight diferente após as operações realizadas.


# Calcular a média aritmétia, mediana, variância e desvio-padrão
mediana = np.median(data)
media = np.mean(data)
desv_pad = np.std(data)
variancia = np.var(data)

# Mostrar os resultados
print('Mediana: ', mediana)
print('Média: ', media)
print('Desvio Padrão: ', desv_pad)
print('Variância: ', variancia)

# Plotar Histograma
plt.hist(data, bins=5)
plt.xlabel('Salários')
plt.ylabel('Frequência')
plt.title('Distribuição Salarial')
plt.show()