**Analise de score - EBAC projeto final modulo python 
**

Descrição : Esete notebook trabalha com um conjunto de dados chamado "credito.csd", este arquivo contem dados sobre os clientes de um banco, incluindo quais são inadimplentes ou não. O trabalho é separar e filtrar esses dados para avaliação e tentar achar uma correspondencia entre outras variaveis e o fato da inadimplencia.

Dessa maneira pode-se encontrar caracteristicas para classificar clientes como seguros, ou como não tão seguros assim, e assim saber para quem é vantajoso dar crédito ou limitar.

Importação das bibliotecas:

In [None]:


import numpy as np # algebra linear
import pandas as pd # processamento de dados, arquivos CSV I/O
import seaborn as sns #graficos
import matplotlib.pyplot as plt #graficos baixo nivel

import os

sns.set_style("whitegrid")



Importação do arquivo: (estamos apelidando-o de df, dataframe)

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.csv', na_values='na')

Exploração dos dados

In [None]:
#o formato variavel, _ = [a,b] não salva o segundo parametro

qtd_total, _ = df.shape 
qtd_adimplentes, _ = df[df['default'] == 0].shape
qtd_inadimplentes, _ = df[df['default'] == 1].shape

print(f"A proporcão clientes adimplentes é de {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"A proporcão clientes inadimplentes é de {round(100 * qtd_inadimplentes / qtd_total, 2)}%")

Verificando o tipo de dado de cada coluna:

In [None]:

df.dtypes

Porcentagem de valores 'Nan' (vazio):

In [None]:
def stats_dados_faltantes(df: pd.DataFrame) -> None:

  stats_dados_faltantes = []
  for col in df.columns:
    if df[col].isna().any():
      qtd, _ = df[df[col].isna()].shape
      total, _ = df.shape
      dict_dados_faltantes = {col: {'quantidade': qtd, "porcentagem": round(100 * qtd/total, 2)}}
      stats_dados_faltantes.append(dict_dados_faltantes)

  for stat in stats_dados_faltantes:
    print(stat)
    
    
    
stats_dados_faltantes(df=df)
print('\n dados dos adimplentes \n')

stats_dados_faltantes(df=df[df['default'] == 0])
print('\n dados dos inadimplentes \n')

stats_dados_faltantes(df=df[df['default'] == 1])

Verificando o tipo de dado do 'limite_credito'  e 'valor_transacoes_12m':

In [None]:
df[['limite_credito', 'valor_transacoes_12m']].dtypes

Transformação de object para float, para isso tem que consertar o padrão númerico substituindo ',' por '.' .

In [None]:
fn = lambda valor: float(valor.replace(".", "").replace(",", "."))
df['valor_transacoes_12m'] = df['valor_transacoes_12m'].apply(fn)
df['limite_credito'] = df['limite_credito'].apply(fn)


#verificando novamente os tipos de dados, ambos foram transformados em float
df.dtypes

Como temos uma proporação muito parecidade de dados vazios nos clientes adimplentes e nos inadimplentes, podemos deletar os dados vazios sem ter grande perda de informações.

In [None]:
df.dropna(inplace=True)

Porcentagem de dados corretos (filtrados)

In [None]:
qtd_total_novo, _ = df.shape
qtd_adimplentes_novo, _ = df[df['default'] == 0].shape
qtd_inadimplentes_novo, _ = df[df['default'] == 1].shape

print(f"A proporcão adimplentes ativos é de {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"A nova proporcão de clientes adimplentes é de {round(100 * qtd_adimplentes_novo / qtd_total_novo, 2)}%")
print("")
print(f"A proporcão clientes inadimplentes é de {round(100 * qtd_inadimplentes / qtd_total, 2)}%")
print(f"A nova proporcão de clientes inadimplentes é de {round(100 * qtd_inadimplentes_novo / qtd_total_novo, 2)}%")

Análise e comparação dos dados:

In [None]:
df_adimplente = df[df['default'] == 0]
df_inadimplente = df[df['default'] == 1]
#separação de dois tipos de conjunto de dados (df)
#o dos clientes adimplentes e o dos clientes inadimplentes

Primeiro serão mostrados os dados que não apresentaram relações do que procuramos



Escolaridade:

In [None]:
coluna = 'escolaridade'
titulos = ['Escolaridade dos Clientes', 'Escolaridade dos Clientes Adimplentes', 'Escolaridade dos Clientes Inadimplentes']

eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1

figura, eixos = plt.subplots(1,3, figsize=((20), 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  df_to_plot = dataframe[coluna].value_counts().to_frame()
  df_to_plot.rename(columns={coluna: 'frequencia_absoluta'}, inplace=True)
  df_to_plot[coluna] = df_to_plot.index
  df_to_plot.sort_values(by=[coluna], inplace=True)
  df_to_plot.sort_values(by=[coluna])

  f = sns.barplot(x=df_to_plot[coluna], y=df_to_plot['frequencia_absoluta'], ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

#iconclusivo, os dados se distribuem de maneira parecida em ambos os grupos.

Salário anual :

In [None]:
coluna = 'salario_anual'
titulos = ['Salário Anual dos Clientes', 'Salário Anual dos Clientes Adimplentes', 'Salário Anual dos Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  df_to_plot = dataframe[coluna].value_counts().to_frame()
  df_to_plot.rename(columns={coluna: 'frequencia_absoluta'}, inplace=True)
  df_to_plot[coluna] = df_to_plot.index
  df_to_plot.reset_index(inplace=True, drop=True)
  df_to_plot.sort_values(by=[coluna], inplace=True)

  f = sns.barplot(x=df_to_plot[coluna], y=df_to_plot['frequencia_absoluta'], ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))
  eixo += 1

figura.show()

##iconclusivo, os dados se distribuem de maneira parecida em ambos os grupos.

Estado civil :

In [None]:
coluna = 'estado_civil'
titulos = ['Estado civil dos Clientes', 'Estado civil dos Clientes Adimplentes', 'Estado civil dos Clientes Inadimplentes']

eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1

figura, eixos = plt.subplots(1,3, figsize=((20), 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  df_to_plot = dataframe[coluna].value_counts().to_frame()
  df_to_plot.rename(columns={coluna: 'frequencia_absoluta'}, inplace=True)
  df_to_plot[coluna] = df_to_plot.index
  df_to_plot.sort_values(by=[coluna], inplace=True)
  df_to_plot.sort_values(by=[coluna])

  f = sns.barplot(x=df_to_plot[coluna], y=df_to_plot['frequencia_absoluta'], ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

#iconclusivo, os dados se distribuem de maneira parecida em ambos os grupos.

Idade

In [None]:
coluna = 'idade'
titulos = ['distribuição idade', 'distribuição idade de Adimplentes', 'distribuição idade de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

##iconclusivo, os dados se distribuem de maneira parecida em ambos os grupos.

Tipo de cartão :

In [None]:
coluna = 'tipo_cartao'
titulos = ['Cartão dos Clientes', 'Cartão dos Clientes Adimplentes', 'Cartão dos Clientes Inadimplentes']

eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1

figura, eixos = plt.subplots(1,3, figsize=((20), 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  df_to_plot = dataframe[coluna].value_counts().to_frame()
  df_to_plot.rename(columns={coluna: 'frequencia_absoluta'}, inplace=True)
  df_to_plot[coluna] = df_to_plot.index
  df_to_plot.sort_values(by=[coluna], inplace=True)
  df_to_plot.sort_values(by=[coluna])

  f = sns.barplot(x=df_to_plot[coluna], y=df_to_plot['frequencia_absoluta'], ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

##iconclusivo, os dados se distribuem de maneira parecida em ambos os grupos.

Meses inativos no ano :

In [None]:
coluna = 'meses_inativo_12m'
titulos = ['quantidade de transações anual', 'quantidade de transações anual de Adimplentes', 'quantidade de transações anual de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

#iconclusivo, os dados se distribuem de maneira parecida em ambos os grupos.

Dados relevantes:

Quantidade de transações anual

In [None]:
coluna = 'qtd_transacoes_12m'
titulos = ['Qtd. de Transações no Último Ano', 'Qtd. de Transações no Último Ano de Adimplentes', 'Qtd. de Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()


#Existe uma região de clientes adimplentes que não está presente no gráfico dos clientes inadimplentes
#Possivelmente pode indicar uma zona de clientes seguros para o banco.

Valor de transações anual :

In [None]:
coluna = 'valor_transacoes_12m'
titulos = ['Valor das Transações no Último Ano', 'Valor das Transações no Último Ano de Adimplentes', 'Valor das Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()
#Podemos notar que clientes com um valor de transações maior que 11000 não estão presentes
#no gráfico de clientes inadimplentes, pode indicar uma zona segura novamente.

Agora vamos cruzar os dois dados que aparentemente traçam uma linha de clientes seguros, o esperado será uma região delimitada por duas linhas

Valor de transações anual x quantidade de transações anual :


In [None]:
f = sns.relplot(x='valor_transacoes_12m', y='qtd_transacoes_12m', data=df, hue='default', style='sexo')
_ = f.set(
    title='Relação entre Valor e Quantidade de Transações no Último Ano', 
    xlabel='Valor das Transações no Último Ano', 
    ylabel='Quantidade das Transações no Último Ano'
  )

# De fato temos a zona segura de clientes delimitada pelas linhas de valor de transações maior que
#11000 e a quantidade de transações anual maior que 90.
#O gráfico ainda indica que não há nenhuma relação o fator inadimplência com o genero do cliente.

Agora vamos isolar os dados apenas para clientes dentro da faixa não segura descoberta anteriormente.

In [None]:
df_filtro=df[df['valor_transacoes_12m'] <= 11000]
df_adimplente_filtro = df_adimplente[df_adimplente['valor_transacoes_12m'] <= 11000]
df_inadimplente_filtro = df_inadimplente[df_inadimplente['valor_transacoes_12m'] <= 11000 ]
#DUVIDA : existe uma maneira mais 'phytonica' de filtrar esses dados?
#como acrescentar outra condição do tipo and?


Testando:

In [None]:
df_inadimplente_filtro.head()

Testei as mesmas variaveis novamente, mas para os dados filtrados, encontrei o mesmo resultado, para poupar o leitor, apaguei esses testes do código.

In [None]:
coluna = 'valor_transacoes_12m'
titulos = ['Valor das Transações no Último Ano', 'Valor das Transações no Último Ano de Adimplentes', 'Valor das Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df_filtro, df_adimplente_filtro, df_inadimplente_filtro]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()
#Podemos notar que clientes com um valor de transações maior que 11000 não estão presentes
#no gráfico de clientes inadimplentes, pode indicar uma zona segura novamente.

Resumo das ideias :

* Através dos gráficos nos podemos ver que existe uma região de clientes seguros para o banco.

* As fronteiras da região de clientes seguros são movimentação anual acima de 11000 e quantidade de transações anuais acima de 90.


* Os outros dados se mostraram não ter relação direta com o objetivo (inadimplência)


* Para levar a análise a um nível superior deveriamos analisar dentro da zona não segura quais são os fatores que determinam a inadimplência, testei filtrar os dados e realizar os testes novamente, mas não encontrei nenhum padrão para mapear o perfil de clientes devedores, além de estarem fora da zona de segurança.