# **Compreen√ß√£o e Preven√ß√£o aos Inadimplentes**

Os dados financeiros est√£o em formato CSV e cont√©m informa√ß√µes sobre clientes de uma instui√ß√£o financeira. Estamos interessados na coluna default, que indica se um cliente √© adimplente(Est√° em dias com suas contas), ou inadimplente(Est√° com pend√™ncias financeiras). Ou seja, queremos entender o porque um cliente deixa de honrar com suas d√≠vidas baseado no comportamento de outros atributos, como sal√°rio, escolaridade e movimenta√ß√£o financeira.

`  Default = 0 #Adimplente`
`  Default = 1 #Inadimplente`

# **T√≥picos**
# 

1.   Explora√ß√£o
2.   Transforma√ß√£o e Limpeza de dados
3.   Visualiza√ß√£o de dados
4.   Storytelling


# 1. Explora√ß√£o de dados financeiro

üî∏- Vamos come√ßar com biblioteca pandas

In [None]:
import pandas as pd

üî∏- Exportando o arquivo do banco de dados dentro do kaggle.

In [None]:
df = pd.read_csv('/kaggle/input/dados01/dados.csv', sep=',', na_values='na')

üî∏- Tabela dos dados

In [None]:
df.head(n=10)

# **1.2 Estrutura**

üî∏- Quantidade de Linhas e Colunas

In [None]:
df.shape

üî∏- Separa√ß√£o de dados da tabela

In [None]:
qtd_total, _ = df.shape
qtd_adimplentes, _ = df[df['default'] == 0].shape
qtd_inadimplentes, _ = df[df['default'] == 1].shape

üî∏- Divis√£o para determinar a propor√ß√£o.

In [None]:
print(f"A propor√ß√£o de clientes adimplentes √© de {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"A propor√ß√£o de clientes inadimplentes √© de {round(100 * qtd_inadimplentes / qtd_total, 2)}%")

# **1.3 Schema**

üî∏- Verificando a tabela de dados novamente.

In [None]:
df.head(n=5)

 üî∏- Colunas e seus respectivos **tipos** de dados.

In [None]:
df.dtypes

üî∏- Atributos **categ√≥ricos**.

In [None]:
df.select_dtypes('object').describe().transpose()

üî∏- Atributos **n√∫mericos**.

In [None]:
df.drop('id', axis=1).select_dtypes('number').describe().transpose()

# **1.4 - Dados faltantes**

üî∏- Verificando a tabela de dados

In [None]:
df.head()

üî∏- Informa as categorias que tem dados faltando. [NaN]

In [None]:
df.isna().any()

üî∏- Imprime estat√≠sticas sobre os dados faltantes, valores None

In [None]:
def stats_dados_faltantes(df: pd.DataFrame) -> None:

  stats_dados_faltantes = []
  for col in df.columns:
    if df[col].isna().any():
      qtd, _ = df[df[col].isna()].shape
      total, _ = df.shape
      dict_dados_faltantes = {col: {'quantidade': qtd, "porcentagem": round(100 * qtd/total, 2)}}
      stats_dados_faltantes.append(dict_dados_faltantes)

  for stat in stats_dados_faltantes:
    print(stat)

In [None]:
stats_dados_faltantes(df=df)

In [None]:
stats_dados_faltantes(df=df[df['default'] == 0])

In [None]:
stats_dados_faltantes(df=df[df['default'] == 1])

# 2.1 Transforma√ß√£o e limpeza

**Data Wrangling**

A seguinte vamos corrigir o schema das nossas colunas e remover os dados faltantes.

**Corre√ß√£o de schema**

Na etapa de explora√ß√£o, notamos que as colunas **limite_credito** e **valor_transacoes_12m** estavam sendo interpretadas como colunas categ√≥ricas (`dtype = object`).

In [None]:
df[['limite_credito', 'valor_transacoes_12m']].dtypes

In [None]:
df[['limite_credito', 'valor_transacoes_12m']].head(n=5)

üî∏- Criando uma fun√ß√£o `lambda` para limpar os dados e usar o m√©todo funcional map.

In [None]:
fn = lambda valor: float(valor.replace(".", "").replace(",", "."))

valores_originais = ['12.691,51', '8.256,96', '3.418,56', '3.313,03', '4.716,22']
valores_limpos = list(map(fn, valores_originais))

print(valores_originais)
print(valores_limpos)

üî∏- Aplicando fun√ß√£o `lambda` de limpeza nas colunas de interesse

In [None]:
df['valor_transacoes_12m'] = df['valor_transacoes_12m'].apply(fn)
df['limite_credito'] = df['limite_credito'].apply(fn)

üî∏- Verifica novamente se ainda est√° objeto, as colunas limite_credito, valor_transacoes_12m

In [None]:
df.dtypes

üî∏- Atributos **categ√≥ricos**

In [None]:
df.select_dtypes('object').describe().transpose()

üî∏- Atributos **n√∫mericos**.

In [None]:
df.drop('id', axis=1).select_dtypes('number').describe().transpose()

# **3.2 - Remo√ß√£o de dados faltantes**

Como o pandas est√° ciente do que √© um dados faltante, a remo√ß√£o das linhas problem√°ticas √© trivial.

In [None]:
df.dropna(inplace=True)

üî∏- Vamos analisar novamente a estrutura dos dados

In [None]:
df.shape

In [None]:
df[df['default'] == 0].shape

In [None]:
df[df['default'] == 1].shape

In [None]:
qtd_total_novos, _ = df.shape
qtd_adimplentes_novos, _ = df[df['default'] == 0].shape
qtd_inadimplentes_novos, _ = df[df['default'] == 1].shape

In [None]:
print(f"A propor√ß√£o adimplentes ativos √© de {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"A nova propor√ß√£o de clientes adimplentes √© de {round(100 * qtd_adimplentes_novos / qtd_total_novos, 2)}%")
print("")
print(f"A propor√ß√£o de clientes inadimplentes √© de {round(100 * qtd_inadimplentes / qtd_total, 2)}%")
print(f"A nova propor√ß√£o de clientes inadimplentes √© de {round(100 * qtd_inadimplentes_novos / qtd_total_novos, 2)}%")

# **4. Visualiza√ß√£o de dados**

Vamos criar diversas visualiza√ß√µes para correlacionar vari√°veis explicativas com a vari√°vel resposta para buscar entender qual fator leva um cliente a inadimplencia. E para isso, vamos sempre comparar a base com todos os clientes com a base de adimplentes e inadimplentes.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import warnings

sns.set_style("whitegrid")

In [None]:
df_adimplente = df[df['default'] == 0]

In [None]:
df_inadimplente = df[df['default'] == 1]

#**4.1 Visualiza√ß√£o categ√≥ricas**

üî∏- Vamos analisar rela√ß√£o entre vari√°vel resposta default com os atributos categ√≥ricos

In [None]:
df.select_dtypes('object').head(n=5)

üî∏- Visualiza√ß√£o da coluna Escolaridade

In [None]:
coluna = 'escolaridade'
titulos = ['Escolaridade dos Clientes', 'Escolaridade dos Clientes Adimplentes', 'Escolaridade dos Clientes Inadimplentes']

figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)
max_y = 0

for eixo, dataframe in enumerate([df, df_adimplente, df_inadimplente]):

    df_to_plot = dataframe[coluna].value_counts().reset_index()
    df_to_plot.columns = [coluna, 'frequencia_absoluta']
    df_to_plot.sort_values(by=[coluna], inplace=True)

    f = sns.barplot(data=df_to_plot, x=coluna, y='frequencia_absoluta', ax=eixos[eixo])
    f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequ√™ncia Absoluta')

    f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

    _, max_y_f = f.get_ylim()
    max_y = max_y_f if max_y_f > max_y else max_y

for eixo in eixos:
    eixo.set(ylim=(0, max_y))

plt.show()

üî∏- Visualiza√ß√£o do Sal√°rio Anual

In [None]:
coluna = 'salario_anual'
titulos = ['Salario Anual dos Clientes', 'Sal√°rio Anual dos Clientes Adimplentes', 'Sal√°rio Anual dos Clientes Inadimplentes']

figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)
max_y = 0

for eixo, dataframe in enumerate([df, df_adimplente, df_inadimplente]):

    df_to_plot = dataframe[coluna].value_counts().reset_index()
    df_to_plot.columns = [coluna, 'frequencia_absoluta']
    df_to_plot.sort_values(by=[coluna], inplace=True)

    f = sns.barplot(data=df_to_plot, x=coluna, y='frequencia_absoluta', ax=eixos[eixo])
    f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequ√™ncia Absoluta')

    f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

    _, max_y_f = f.get_ylim()
    max_y = max_y_f if max_y_f > max_y else max_y

for eixo in eixos:
    eixo.set(ylim=(0, max_y))

plt.show()

*  S√°lario menor que √© 40k que √© o mais baixo √© adimplentes, enquanto sal√°rios de 120k s√£o menores em adimplentes. Conclus√£o √© que isso n√£o interfere no comportamento inadimplente.  

üî∏- Visualiza√ß√£o da Idade

In [None]:
coluna = 'estado_civil'
titulos = ['Estado Civil dos Clientes', 'Estado Civil dos Clientes Adimplentes', 'Estado Civil dos Clientes Inadimplentes']

figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)
max_y = 0

for eixo, dataframe in enumerate([df, df_adimplente, df_inadimplente]):

    df_to_plot = dataframe[coluna].value_counts().reset_index()
    df_to_plot.columns = [coluna, 'frequencia_absoluta']
    df_to_plot.sort_values(by=[coluna], inplace=True)

    f = sns.barplot(data=df_to_plot, x=coluna, y='frequencia_absoluta', ax=eixos[eixo])
    f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequ√™ncia Absoluta')

    f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

    _, max_y_f = f.get_ylim()
    max_y = max_y_f if max_y_f > max_y else max_y

for eixo in eixos:
    eixo.set(ylim=(0, max_y))

plt.show()

*  Lembrando que o gr√°fico est√° em porcentagem, no gr√°fico de inadimpl√™ncia n√£o h√° diferen√ßa os clientes que n√£o pagam est√£o no mesmo gr√°fico entre casado e solteiro, ent√£o na minha conclus√£o Estado Civil n√£o interfere no comportamento Inadimplente.

#**4.2. Visualiza√ß√µes num√©ricas**

In [None]:
df.drop(['id', 'default'], axis=1).select_dtypes('number').head(n=5)

In [None]:
coluna = 'valor_transacoes_12m'
titulos = ['Qtd. de Quansa√ß√µes no √öltimo Ano', 'Qtd. de Transa√ß√µes no √öltimo Ano de Adimplentes', 'Qtd. de Transa√ß√µes no √öltimo Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20,3), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequ√™ncia Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

  figura.show()



*   Podemos dizer que quanto mais transa√ß√µes menor a chance desse cliente se tornar inadimplente.


In [None]:
warnings.filterwarnings("ignore")

f = sns.relplot(x='valor_transacoes_12m', y='qtd_transacoes_12m', data=df, hue='default')

_ = f.set(
    title='Rela√ß√£o entre valor e Quantidade de Transa√ß√µes no √öltimo Ano',
    xlabel='Valor das Transa√ß√µes no √öltimo Ano',
    ylabel='Quantidade das Transa√ß√µes no √öltimo Ano'
)

plt.subplots_adjust(hspace=0.5, wspace=0.5)

plt.show()



*   Ficou claro que quanto mais transa√ß√µes menor o n√∫mero do cliente ser inadimplente, podemos seguir esse padr√£o de pensamento para gerar uma solu√ß√£o.



üî∏- Antes de avan√ßarmos vamos verificar se o limite de cr√©dito alto tende a formar mais inadimplentes

In [None]:
coluna = 'limite_credito'
titulos = ['Limite de Cr√©dito', 'Limite de Cr√©dito de Adimplentes', 'Limite de Cr√©dito de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequ√™ncia Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()



*   Nas extremidades no inadimplente entre valor de 5k - 35k h√° um n√∫mero grande com limites altos, talvez um pouco de aten√ß√£o abaixando o limite diminua um pouco a inadimpl√™ncia, mas n√£o influ√™ncia a vari√°vel de interesse.



****
# **Conclus√£o**

1.   Nosso principal objetivo era entender e tentar prever o comportamente de clientes se tornarem inadimplentes com base nos dados fornecidos.
2.   Depois de diversos gr√°ficos comparativos podemos concluir que os gr√°ficos categ√≥ricos, como Sal√°rio, Escolaridade e Estado Civil, pouco diferem no comportamente de adimplente ou inadimplente.
3.   J√° os gr√°ficos comparativos de categ√≥ria n√∫mericos tivemos mais sucesso em obter um resultado, com base nos gr√°fico conluimos que quanto menos transa√ß√µes e menor o valor transicionado, maior a chance de uma pessoa se tornar uma pessoa se tornar inadimplente.
4.   Vimos tamb√©m que o limite de cr√©dito possuem maiores inadimplentes, com baixo e alto n√∫mero de cr√©dito.

****

# **Conclus√£o Final**

Com as informa√ß√µes que possuimos podemos prever e tentar tratar clientes que possuam esse tipo de comportamente inadimplente, antes de liberar acr√©scimo de cr√©dito.

****
