# **Base de dados**

Este banco de dados foi disponibilizado pela instituição de ensino EBAC. O conjunto possui informações de 10127 clientes com perfil variado. Através da análise do banco, desejamos identificar o perfil dos clientes inadimplentes e elaborar uma estratégia para mitigar danos.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_style("whitegrid")



In [None]:
leitura_df=pd.read_csv('/kaggle/input/analise-de-dados/Dados_bancarios.csv',na_values='na')
display(leitura_df)

* Podemos visualizar que existem valores faltantes para alguns clientes

In [None]:
leitura_df.info()


* Identificamos que as colunas *limite_credito e valor_transacoes_12m* estão com a tipificação errada, uma vez que nas colunas existem um float e não uma string

In [None]:
total,_=leitura_df.shape
adimplente,_=leitura_df[leitura_df['default']==0].shape
inadimplente,_=leitura_df[leitura_df['default']==1].shape
print(f'O percentual de clientes adimplente é de {round(100* adimplente / total ,2)}%')
print(f'O percentual de clientes inadimplente é de {round(100* inadimplente / total ,2)}%')

* Como podemos visualizar, o percentual de clientes inadimplentes é de 16.07%

In [None]:
leitura_df.isna().any()

* Aqui verificamos que as colunas escolaridade, estado_civil e salario_anual possuem valores faltantes.  

# **Limpeza de dados:**

In [None]:
leitura_df.dropna(inplace=True)

In [None]:
novo_total,_=leitura_df.shape
novo_adimplente,_=leitura_df[leitura_df['default']==0].shape
novo_inadimplente,_=leitura_df[leitura_df['default']==1].shape
print(f'O novo percentual de clientes adimplente é de {round(100* novo_adimplente / novo_total ,2)}%')
print(f'O percentual de clientes adimplente é de {round(100* adimplente / total ,2)}%')
print(f'O novo percentual de clientes inadimplente é de {round(100* novo_inadimplente / novo_total ,2)}%')
print(f'O percentual de clientes inadimplente é de {round(100* inadimplente / total ,2)}%')

* Verificamos que após a limpeza dos valores faltantes não houve impacto relevante no banco.

In [None]:
leitura_df[['limite_credito','valor_transacoes_12m']]

* Identificamos que a tipificação das duas colunas estão erradas pois não seguem as regras de pontuação Python 

In [None]:
fn=lambda valor:float(valor.replace('.','').replace(',','.'))

* Ajustando a pontuação de acordo com normas Python

In [None]:
leitura_df['limite_credito']=leitura_df['limite_credito'].apply(fn)
leitura_df['valor_transacoes_12m']=leitura_df['valor_transacoes_12m'].apply(fn)

In [None]:
leitura_df[['limite_credito','valor_transacoes_12m']]

* Colunas ajustadas de acordo com a norma Python

In [None]:
leitura_df.select_dtypes('object').describe().transpose()

In [None]:
leitura_df.drop('id',axis=1).select_dtypes('number').describe().transpose()

In [None]:
coluna='escolaridade'
titulos=['Escolaridade dos Cliente',
         'Escolaridade dos Clientes Adimplentes',
         'Escolaridade dos Cliente Inadimplentes']


In [None]:
adimplente_df=leitura_df[leitura_df['default']==0]
inadimplente_df=leitura_df[leitura_df['default']==1]

In [None]:
eixo=0
max_y=0 
max=leitura_df.select_dtypes('object').describe()[coluna]['freq']*1.1
figura, eixos=plt.subplots(1,3, figsize=(20,5),sharex=True)

for dataframe in [leitura_df,adimplente_df,inadimplente_df]:
  leitura_df_to_plot=dataframe[coluna].value_counts().to_frame()
  leitura_df_to_plot.rename(columns={coluna:'frequencia_absoluta'},inplace=True)
  leitura_df_to_plot[coluna]=leitura_df_to_plot.index
  leitura_df_to_plot.sort_values(by=[coluna], inplace=True)
  leitura_df_to_plot.sort_values(by=[coluna])

  f= sns.barplot(x=leitura_df_to_plot[coluna],y=leitura_df_to_plot['frequencia_absoluta'], ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(),ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(),rotation=90)
  _,max_y_f=f.get_ylim()
  max_y=max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0,max_y))
  eixo+=1

  figura.show()

* Não houve variação entre os gráficos

In [None]:
coluna='qtd_transacoes_12m'
titulos=['Qtd de transações dos clientes',
         'Qtd de transaçoes dos clientes adimplentes',
         'Qtd de transações do clientes inadimplentes']

In [None]:
eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)
for dataframe in [leitura_df, adimplente_df, inadimplente_df]:
  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))
  eixo += 1
figura.show()


* Idenficamos que o perfil dos clientes inadimplentes são daqueles que realizaram entre 30 a 50 transações

In [None]:
coluna='limite_credito'
titulos=['Limite de credito dos clientes',
         'Limite de credito dos clientes adimplentes',
         'Limite de credito dos cliente inadimplentes']

In [None]:
eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)
for dataframe in [leitura_df, adimplente_df, inadimplente_df]:
  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))
  eixo += 1
figura.show()

* Não houve variação entre os gráficos

# **Conclusão**

Uma possível medida para mitigar os índices de inadimplência, é enviar um pop up com informativo de educação financeira para os clientes com transações entre 30 a 50.

In [None]:
nan

In [None]:
nan

In [None]:
nan

In [None]:
nan

In [None]:
nan

In [None]:
nan

In [None]:
nan

In [None]:
nan

In [None]:
nan

In [None]:
nan

In [None]:
nan

In [None]:
nan

In [None]:
nan

In [None]:
nan