<a href="https://colab.research.google.com/github/simonefmr/datascience_mvp/blob/main/MVP_desenvolvimento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **MVP Pós Data Science - PUC Rio - Sprint 1**

## **Introdução**

O Banco Central do Brasil divulga mensalmente informações agregadas das operações de crédito recebidas através do Sistema de Informações de Créditos – SCR. Os relatórios são atualizados no último dia útil do mês, disponibilizando os dados após 60 dias do fechamento de cada período. São disponibilizados dados agregados de Carteira Ativa, Inadimplência e Ativo Problemático com possibilidade de detalhamento por tipo de cliente (PF/PJ), modalidade de crédito, unidade da federação, Classificação Nacional de Atividades Econômicas – CNAE (PJ), natureza da ocupação (PF), porte/rendimento dos clientes, origem de recursos e indexador das operações. Adicionalmente ao recurso gráfico apresentado na página, o relatório também disponibiliza aproximadamente 700 mil séries mensais acessíveis pelo portal de dados abertos. A publicação compreende o período de junho de 2012 até a atualidade. (Fonte: SCR.data - Painel de Operações de Crédito - **Metodologia**)

## **Definição do Problema**

O objetivo deste projeto é avaliar a evolução do endividamento das pessoas físicas no Brasil, no ano de 2022, conforme registro feito pelas instituições financeiras e comunicados ao Banco Central através do Sistema de Informações de Créditos (SCR). 

Fonte: 

### **Problema de aprendizado supervisionado ou não supervisionado?**

Não temos rótulos históricos dos dados e, por isso, não temos resultados esperados. Desta forma, podemos considerar como um problema de aprendizado não supervisionado. Tentaremos explorar os dados e aprender os possíveis relacionamentos entre eles.

### **Hipóteses sobre o problema**

Atuando no setor bancário/financeiro, pude perceber um intenso uso de crédito nos últimos anos. Num cenário de inflação alta (IPCA de 10,06% em 2021 e 5,79% em 2022), muitas vezes as famílias recorrem à contratação de operações de crédito para pagar despesas recorrentes. 

Além disso, a elevação da margem (30% para 35% e depois para 40% da renda bruta) para contratação de crédito consignado em alguns convênios como INSS e servidores federais, alavancou a concessão de crédito, ainda que as taxas não estivessem atrativas.

A hipótese que vou analisar é se houve uma elevação real no endividamento geral das famílias e se houve elevação da inadimplência.

## **Importação de pacotes e bibliotecas**

In [1]:
# Importando bibliotecas e pacotes que poderão ser utilizados na análise

import pandas as pd
import os
import glob
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt 
from sklearn.preprocessing import MinMaxScaler # normalização
from sklearn.preprocessing import StandardScaler # padronização
from sklearn.preprocessing import OrdinalEncoder # ordinal encoding
from sklearn.preprocessing import OneHotEncoder # one-hot encoding e dummy encoding

In [2]:
# Versão do Pandas utilizada

pd.__version__

'1.5.3'

## **Análise dos Dados**

### **Algumas restrições ou condições para seleção dos dados**

Os dados do SCR foram obtidos no Portal de Dados Abertos do Banco Central do Brasil (https://dadosabertos.bcb.gov.br/). As informações são disponibilizadas desde 2012 mas, num primeiro momento, optei por trabalhar apenas com o ano de 2022.

Inicialmente, os dados analisados continham informações completas de clientes PF (Pessoas Físicas) e PJ (Pessoas Jurídicas) e o segmento das instituições(SR  - Segmento Resolução nº 4.553/2017), que variava de S1 a S5.

Devido ao tamanho dos arquivos (acima de 250MB cada base mensal), foi necessário reduzir a base analisada e foram excluídos ainda no arquivo *.csv* todas operações de clientes PJ e utilizado apenas informações de instituições S1.

*S1 - Bancos múltiplos, bancos comerciais, bancos de investimento, bancos de câmbio e caixas econômicas que tenham porte (Exposição/Produto Interno Bruto) superior a 10% ou exerçam atividade internacional relevante (ativos no exterior superiores a US$ 10 bilhões)*

## **Importando os dados**

In [13]:
# Cada arquivo .csv representa um mês da base de dados. Serão importados individualmente

url_2022_01 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202201.csv?raw=true', sep=';') # Base Janeiro/2022
url_2022_02 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202202.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Fevereiro/2022
url_2022_03 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202203.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Março/2022
url_2022_04 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202204.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Abril/2022
url_2022_05 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202205.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Maio/2022
url_2022_06 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202206.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Junho/2022
url_2022_07 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202207.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Julho/2022
url_2022_08 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202208.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Agosto/2022
url_2022_09 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202209.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Setembro/2022
url_2022_10 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202210.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Outubro/2022
url_2022_11 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202211.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Novembro/2022
url_2022_12 = pd.read_csv('https://github.com/simonefmr/datascience_mvp/blob/main/database_202212.csv?raw=true', sep=';', encoding='ISO-8859-1') # Base Dezembro/2022


In [15]:
# Unificando os dados em um só dataframe

df_scr = pd.concat([url_2022_01, url_2022_02, url_2022_03, url_2022_04, url_2022_05, url_2022_06, url_2022_07, url_2022_08, url_2022_09, url_2022_10, url_2022_11, url_2022_12])

In [5]:
colunas = ['data_base', 'uf', 'tcb', 'sr', 'cliente', 'ocupacao', 'cnae_secao','cnae_subclasse', 'porte', 'modalidade', 'origem', 'indexador', 'numero_de_operacoes', 'a_vencer_ate_90_dias', 'a_vencer_de_91_ate_360_dias', 'a_vencer_de_361_ate_1080_dias', 'a_vencer_de_1081_ate_1800_dias', 'a_vencer_de_1801_ate_5400_dias', 'a_vencer_acima_de_5400_dias', 'vencido_acima_de_15_dias', 'carteira_ativa', 'carteira_inadimplida_arrastada', 'ativo_problematico']

In [6]:
url_2022_01.shape

(34180, 23)

In [7]:
url_2022_01.head(10)

Unnamed: 0,data_base,uf,tcb,sr,cliente,ocupacao,cnae_secao,cnae_subclasse,porte,modalidade,...,a_vencer_ate_90_dias,a_vencer_de_91_ate_360_dias,a_vencer_de_361_ate_1080_dias,a_vencer_de_1081_ate_1800_dias,a_vencer_de_1801_ate_5400_dias,a_vencer_acima_de_5400_dias,vencido_acima_de_15_dias,carteira_ativa,carteira_inadimplida_arrastada,ativo_problematico
0,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Cartão de crédito,...,0,556130,0,0,0,0,0,556130,0,0
1,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Cartão de crédito,...,379103442,98237888,7401625,900630,374161,0,28103664,514121410,17604479,23727293
2,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Empréstimo com consignação em folha,...,176471058,445671222,1131676296,982214326,1202677846,0,30658487,3969369235,120826490,127842045
3,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Empréstimo sem consignação em folha,...,29311191,88839440,113474773,63685019,28626762,0,105448,324042633,0,13133805
4,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Habitacional,...,14023105,38405493,86770121,67842545,152834060,35373540,0,395248864,0,10221654
5,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Outros créditos,...,11113685,20400384,12911657,6542461,3251841,0,2726151,56946179,2423926,12102764
6,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Outros créditos,...,2940434,7813561,15486042,9888281,13866432,0,0,49994750,0,0
7,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Rural e agroindustrial,...,27320740,117281693,325623554,175636675,121845622,0,0,767708284,0,0
8,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Rural e agroindustrial,...,0,0,53026360,65939338,45882646,0,0,164848344,0,0
9,31/01/2022,AC,Bancário,S1,PF,PF - Aposentado/pensionista,-,-,PF - Acima de 20 salários mínimos,PF - Veículos,...,9140182,20633308,29419521,4998227,0,0,0,64191238,0,0


In [8]:
pd.DataFrame(url_2022_01.dtypes, columns = ['Tipos de Dados'])

Unnamed: 0,Tipos de Dados
data_base,object
uf,object
tcb,object
sr,object
cliente,object
ocupacao,object
cnae_secao,object
cnae_subclasse,object
porte,object
modalidade,object


In [9]:
url_2022_01.isnull()

Unnamed: 0,data_base,uf,tcb,sr,cliente,ocupacao,cnae_secao,cnae_subclasse,porte,modalidade,...,a_vencer_ate_90_dias,a_vencer_de_91_ate_360_dias,a_vencer_de_361_ate_1080_dias,a_vencer_de_1081_ate_1800_dias,a_vencer_de_1801_ate_5400_dias,a_vencer_acima_de_5400_dias,vencido_acima_de_15_dias,carteira_ativa,carteira_inadimplida_arrastada,ativo_problematico
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
34175,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
34176,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
34177,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
34178,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [10]:
url_2022_01.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34180 entries, 0 to 34179
Data columns (total 23 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   data_base                       34180 non-null  object
 1   uf                              34180 non-null  object
 2   tcb                             34180 non-null  object
 3   sr                              34180 non-null  object
 4   cliente                         34180 non-null  object
 5   ocupacao                        34180 non-null  object
 6   cnae_secao                      34180 non-null  object
 7   cnae_subclasse                  34180 non-null  object
 8   porte                           34180 non-null  object
 9   modalidade                      34180 non-null  object
 10  origem                          34180 non-null  object
 11  indexador                       34180 non-null  object
 12  numero_de_operacoes             34180 non-null

In [11]:
replace_all = [url_2022_01, if ]
print(replace_all)

SyntaxError: ignored


# Calcular a média aritmétia, mediana, variância e desvio-padrão
mediana = np.median(data)
media = np.mean(data)
desv_pad = np.std(data)
variancia = np.var(data)

# Mostrar os resultados
print('Mediana: ', mediana)
print('Média: ', media)
print('Desvio Padrão: ', desv_pad)
print('Variância: ', variancia)

# Plotar Histograma
plt.hist(data, bins=5)
plt.xlabel('Salários')
plt.ylabel('Frequência')
plt.title('Distribuição Salarial')
plt.show()