#  **EBAC Python Final Project**

**Objetivo:** criar um notebook e contar uma história com os dados utilizando o Kaggle, afim de construir o projeto final do curso de Python da Escola Britânica de Artes Criativas & Tecnologia (EBAC).

**Objetivo da análise:** através dos dados fornecidos entender o comportamento dos clientes, entender a correlação entre os dados fornecidos e encontrar soluções para os problemas do banco.

In [None]:
#Importando bibliotecas

import numpy as np 
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt

sns.set_style("whitegrid")

In [None]:
df = pd.read_csv('/kaggle/input/ebac-python-final-project-data/Python_M10_support material.csv', na_values ='na')

# Base de dados
* A coluna "default" é utilizada para sinalizar se o cliente está adimplente (default = 0) ou se ele está inadimplente (default = 1).

In [None]:
df.head(n=10)

# Explorando os dados:

* **Analisando a dimenção dos dados**

In [None]:
print(f'Tamanho do dataframe: {df.shape}')


In [None]:
df_total, _ = df.shape
df_adimplentes, _ = df[df['default']==0].shape
df_inadimplentes, _ = df[df['default']==1].shape

print(f"A proporção de clientes adimplentes é de {round(df_adimplentes/df_total,2)*100}%")
print(f"A proporção de clientes inadimplentes é de {round(df_inadimplentes/df_total,2)*100}%")

In [None]:
df.dtypes

*  **Pode-se observar que as colunas "limite_credito " e "valor_transacoes_12m " estão nos formatos errados**

In [None]:
df.select_dtypes('number').describe().transpose()

In [None]:
df.select_dtypes('object').describe().transpose()

# **Limpando os dados**

* **Os dados precisam ser mudados para o formato inglês para que o Python possa entender, então removeremos os pontos e trocaremos a vírgula decimal por um ponto.**

In [None]:
df['limite_credito'] = df['limite_credito'].map(lambda valor: float(valor.replace(".", "").replace(",", ".")))
df['valor_transacoes_12m'] = df['valor_transacoes_12m'].map(lambda valor: float(valor.replace(".", "").replace(",", ".")))

In [None]:
df.dtypes

**Checando se existem valores nulos nos dados**

In [None]:
df.isna().any()

**Agora que sabemos que existem dados faltando, resta descobrir quantos e como isso afeta os dados**

In [None]:
df.count()

 **Primeiro vemos quantos dados estão faltando no banco de dados total:**

In [None]:
print(f"Na coluna escolaridade estão faltando: {(df_total - df['escolaridade'].count())}, que é igual a {round(((df_total - df['escolaridade'].count())/df_total)*100)}%")
print(f"Na coluna estado_civil estão faltando: {(df_total - df['estado_civil'].count())}, que é igual a {round(((df_total - df['estado_civil'].count())/df_total)*100)}%")
print(f"Na coluna salario_anual estão faltando: {(df_total - df['salario_anual'].count())}, que é igual a {round(((df_total - df['salario_anual'].count())/df_total)*100)}%")

 **Quantos estão faltando são adimplentes?**

In [None]:
#analisando quantas das informações faltando são de adimplentes
print(f"Na coluna escolaridade estão faltando: {df[df['default']==0].escolaridade.isna().sum()}, que é igual a {round(((df_adimplentes - df[df['default']==0].escolaridade.count())/df_adimplentes)*100)}%")
print(f"Na coluna estado_civil estão faltando: {df[df['default']==0].estado_civil.isna().sum()}, que é igual a {round(((df_adimplentes - df[df['default']==0].estado_civil.count())/df_adimplentes)*100)}%")
print(f"Na coluna salario_anual estão faltando: {df[df['default']==0].salario_anual.isna().sum()}, que é igual a {round(((df_adimplentes - df[df['default']==0].salario_anual.count())/df_adimplentes)*100)}%")


**Quantos estão faltando são inadimplentes?**

In [None]:
#analisando quantas das informações faltando são de inadimplentes
print(f"Na coluna escolaridade estão faltando: {df[df['default']==1].escolaridade.isna().sum()}, que é igual a {round(((df_inadimplentes - df[df['default']==1].escolaridade.count())/df_inadimplentes)*100)}%")
print(f"Na coluna estado_civil estão faltando: {df[df['default']==1].estado_civil.isna().sum()}, que é igual a {round(((df_inadimplentes - df[df['default']==1].estado_civil.count())/df_inadimplentes)*100)}%")
print(f"Na coluna salario_anual estão faltando: {df[df['default']==1].salario_anual.isna().sum()}, que é igual a {round(((df_inadimplentes - df[df['default']==1].salario_anual.count())/df_inadimplentes)*100)}%")


**Pode-se observar que os dados faltando estão bem distribuídos e proporcionais, então é possível apagá-los sem muito dano aos dados**

In [None]:
df.dropna(inplace=True)

In [None]:
df.shape

#  **Dados limpos**

In [None]:
df.count()

In [None]:
df[df['default'] == 0].shape

In [None]:
df[df['default'] == 1].shape

In [None]:
df_total_novo, _ = df.shape
df_adimplentes_novo, _ = df[df['default'] == 0].shape
df_inadimplentes_novo, _ = df[df['default'] == 1].shape

print(f"A proporcão adimplentes ativos é de {round(100 * df_adimplentes / df_total, 2)}%")
print(f"A nova proporcão de clientes adimplentes é de {round(100 * df_adimplentes_novo / df_total_novo, 2)}%")
print("")
print(f"A proporcão clientes inadimplentes é de {round(100 * df_inadimplentes / df_total, 2)}%")
print(f"A nova proporcão de clientes inadimplentes é de {round(100 * df_inadimplentes_novo / df_total_novo, 2)}%")

# **Visualização de dados**

In [None]:
df_adimplente = df[df['default'] == 0]
df_inadimplente = df[df['default'] == 1]

In [None]:
df.select_dtypes('object').head(n=5)

In [None]:
coluna = 'escolaridade'
titulos = ['Escolaridade dos Clientes', 'Escolaridade dos Clientes Adimplentes', 'Escolaridade dos Clientes Inadimplentes']

eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1

figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  df_to_plot = dataframe[coluna].value_counts().to_frame()
  df_to_plot.rename(columns={coluna: 'frequencia_absoluta'}, inplace=True)
  df_to_plot[coluna] = df_to_plot.index
  df_to_plot.sort_values(by=[coluna], inplace=True)
  df_to_plot.sort_values(by=[coluna])

  f = sns.barplot(x=df_to_plot[coluna], y=df_to_plot['frequencia_absoluta'], ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

* Podemos ver que a grande concentração de clientes tem alguma tipo de formação superior.
* Em contraste, também existe uma considerável população de clientes sem formação educacional formal, que quase se equipara em número à quantidade de pessoas que possuem ensino médio.
* Quando comparados com o total, os clientes adimplentes apresentam o mesmo comportamento.
* Existe uma discreta diferença no comportamento dos clientes inadimplentes, onde aqueles que possuem doutorado estão ligeiramente acima daqueles com graduação.

In [None]:
coluna = 'salario_anual'
titulos = ['Salário Anual dos Clientes', 'Salário Anual dos Clientes Adimplentes', 'Salário Anual dos Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  df_to_plot = dataframe[coluna].value_counts().to_frame()
  df_to_plot.rename(columns={coluna: 'frequencia_absoluta'}, inplace=True)
  df_to_plot[coluna] = df_to_plot.index
  df_to_plot.reset_index(inplace=True, drop=True)
  df_to_plot.sort_values(by=[coluna], inplace=True)

  f = sns.barplot(x=df_to_plot[coluna], y=df_to_plot['frequencia_absoluta'], ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))
  eixo += 1

figura.show()

* Uma vez que os adimplentes representam mais de 80% da nossa base, é esperado que eles acompanhem o comportamento dos dados gerais.
* O cenário dos inadimplentes igualmente reflete o comportamento do total de clientes, o que não contribui para a compreensão do padrão de inadimplência.

**Para melhor analise vamos remover os dados numéricos que não serão usados**

In [None]:
df.drop(['id', 'default'], axis=1).select_dtypes('number').head(n=5)

**Quantidade de transações nos Ultimos 12 Meses**

In [None]:
coluna = 'qtd_transacoes_12m'
titulos = ['Qtd. de Transações no Último Ano', 'Qtd. de Transações no Último Ano de Adimplentes', 'Qtd. de Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

* É possível notar a presença de dois picos distintos no volume de transações no conjunto geral de dados, o primeiro situado no intervalo entre 20 e 60, e o segundo entre 70 e 100.
* Os clientes em situação regular demonstram uma predominância significativa em termos de volume de transações, especialmente na faixa de 60 a 80 transações
* Os clientes inadimplentes exibem uma quantidade reduzida de transações, geralmente concentradas na faixa de 20 a 60 operações.

**Valor das transações nos Últimos 12 meses**

In [None]:
coluna = 'valor_transacoes_12m'
titulos = ['Valor das Transações no Último Ano', 'Valor das Transações no Último Ano de Adimplentes', 'Valor das Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

* A predominância das transações efetuadas pelos clientes ocorre nas faixas de valores entre 1500 e 2500, assim como entre 3000 e 5000. Além disso, são observados picos notáveis nas transações nos intervalos de 7500 a 10000 e de 13000 a 17000.
* É possível notar que os clientes inadimplentes estão exibindo um padrão comportamental no qual seus valores de transação nos últimos 12 meses se mantêm bastante próximos a 2500.

**Meses de relacionamento com o banco**

In [None]:
coluna = 'meses_de_relacionamento'
titulos = ['Meses de Relacionamento Total', 'Meses de Relacionamento Adimplentes', 'Meses de Relacionamento Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

* A duração do relacionamento dos clientes está predominantemente concentrada em 36 meses e não apresenta indícios que revelem variações ou influências significativas na inadimplência.

**Limite de crédido dos clientes**


In [None]:
coluna = 'limite_credito'
titulos = ['limite de crédito Total', 'limite de crédito Adimplentes', 'limite de crédito Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

* O comportamento dos clientes é consistente em todos os cenários e não apresenta indícios de influência na inadimplência.

**Meses Inativos**

In [None]:
coluna = 'meses_inativo_12m'
titulos = ['Meses Inativos Total', 'Meses Inativos Adimplentes', 'Meses Inativos Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

* É possível observar um significativo número de clientes inadimplentes inativos por 2 e 3 meses, nos quais a proporção é substancialmente maior do que o esperado.

**Quantidade de produtos**

In [None]:
coluna = 'qtd_produtos'
titulos = ['Qtd. Produtos Total', 'Qtd. Produtos Adimplentes', 'Qtd. Produtos Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

* O comportamento dos clientes é consistente em todos os cenários e não apresenta indícios de influência na inadimplência.

**Valor de Transações nos Últimos 12 Meses x Quantidade de Transações nos Últimos 12 Meses**

In [None]:
f = sns.relplot(x='valor_transacoes_12m', y='qtd_transacoes_12m', data=df, hue='default')
_ = f.set(
    title='Relação entre Valor e Quantidade de Transações no Último Ano', 
    xlabel='Valor das Transações no Último Ano', 
    ylabel='Quantidade das Transações no Último Ano'
  )

* É evidente uma notável concentração de clientes adimplentes que exibem um comportamento caracterizado pela realização de múltiplas transações de valor mais elevado.
* Por outro lado, é perceptível a concentração de clientes inadimplentes com valores mais baixos de transação, sobretudo nas faixas entre 1000 e 2500, assim como entre 7500 e 10000.

# Resumo dos Insights:

* Não foram identificadas informações relevantes para compreender o comportamento dos membros em situação de inadimplência nas colunas: limite de crédito, meses de relacionamento, salário e escolaridade.
* As estratégias de pesquisa e intervenção devem ser focalizadas nos seguintes grupos de clientes: aqueles com baixo volume de transações e valores inferiores a 2.5 mil reais; bem como clientes com um volume médio de transações e valores situados na faixa de 7 mil a 10 mil reais.
* É notável a presença de um número considerável de clientes inadimplentes que permanecem inativos por períodos de 2 a 3 meses, apresentando uma proporção significativamente superior àquela que era esperada.