# 1. Introdução

Este caderno, tem como intuito a realização do projeto final em Python para o curso de Ciência de Dados da Escola Britânica de Artes e Ciências, ministrado pelo professor André Perez.
Destaco que grande parte do conteúdo deste caderno é baseado nas linhas de código apresentadas durante as aulas do módulo de Python Para Análise de Dados.
O projeto será uma análise de dados de crédito de uma instituição financeira, composta de três etapas:
    
- Utilização de um caderno de exercícios na plataforma Kaggle para exploração, manipulação, limpeza e visualização de dados.
- Aplicação dos conceitos de storytelling, para apresentação de cenário e processo de resolução de problemas.
- Considerações finais sobre os resultados obtidos durante a análise.

**1.2. Bibliotecas importadas para análise de dados.**
> 
> - Para a etapa exploratória de dados, começamos utilizando Pandas para importar bibliotecas e definir funções para criação e exploração do dataframe.
> - Na etapa de visualização e análise de dados, importaremos Seaborn e Matplotlib para plotar os dados.

In [None]:
# Importação da biblioteca para exploração e tratamento de dados

import pandas as pd

# Importação da biblioteca para visualização de dados

import seaborn as sns
import matplotlib.pyplot as plt

# 2. Exploração da Base de Dados.

**2.1. Definição e exploração do dataframe.**

- Primeiro utilizaremos a biblioteca read_csv do Pandas para criar uma variável df, onde o python irá ler e armazenar os dados do arquivo em um dataframe.
- Após a definição do dataframe, criaremos as variáveis qtd_total, qtd_adimplentes e qtd_inadimplentes, para administrarmos  o uso da variável dependente 'default'.
- Também definiremos as funções 'porcentagem' e 'stats_dados_faltantes' que nos auxiliarão na exploração de dados. 

- Aqui temos uma amostra do dataframe e suas cinco primeiras linhas:

In [None]:
# Definindo o dataframe e sua variável correspondente. df = dataframe

df = pd.read_csv('/kaggle/input/credito/Python_M10_support material.csv', na_values = 'na')

# Conferindo a identação do dataframe

df.head()

- Antes de continuarmos, iremos utilizar a biblioteca rename para corrigir o erro na coluna 'iteracoes_12m' para 'interacoes_12m'.

In [None]:
# Utilizando a biblioteca rename para renomear a coluna 'iteracoes_12m' para 'interacoes_12m'.
# Depois utilizando df.head para conferir a alteração.
df.rename(columns = {'iteracoes_12m': 'interacoes_12m'}, inplace =  True)
df.head()

- Aqui apresentamos a quantidade total de linhas e colunas, respectivamente.

In [None]:
# Conferindo a quantidade de linhas e colunas do dataframe

df.shape

> Quantidade total de linhas e colunas contendo clientes adimplentes (default = 0).

In [None]:
# Conferindo a quantidade de id's default = 0, ou adimplentes

df[df['default'] == 0].shape

> Quantidade total de linhas e colunas contendo clientes inadimplentes (default = 1).

In [None]:
# Conferindo a quantidade de id's default = 0, ou inadimplentes

df[df['default'] == 1].shape

- Para facilitar a exploração dos dados, armazenamos os valores de default em três variáveis separadas.

In [None]:
qtd_total, _ = df.shape
qtd_adimplentes, _ = df[df['default'] == 0]. shape
qtd_inadimplentes, _ = df[df['default'] == 1]. shape

In [None]:
# Função para auxiliar a expressão da porcentagem de adimplentes e inadimplentes
# Como as porcentagens só são apresentadas de maneira descritiva, as retornei com seu tipo formatado para str, juntamente com a adição da caractere % para auxiliar na formatação

def porcentagem(qtd: int, qtd_total: int) -> str:
    porcentagem_formatada = str(round(100 * qtd / qtd_total, 2)) + '%'
    
    return porcentagem_formatada

- Proporções dos clientes adimplentes e inadimplentes convertidas em porcentagem, respectivamente.

In [None]:
# Imprimindo a porcentagem de clientes adimplentes e inadimplentes, para comparação futura

print(f"A proporção de clientes adimplentes é de {porcentagem(qtd_adimplentes, qtd_total)}")
print(f"A proporção de clientes inadimplentes é de {porcentagem(qtd_inadimplentes, qtd_total)}")

- Tidos de dados  armazenados em cada coluna do dataframe:

In [None]:
# Identificando as colunas e os diferentes tipos de dados que as representam

df.dtypes

- Em alguns casos, os dados de um data frame podem possuir tipos que divergem do ideal para a realização da análise.
> Neste objeto de estudo, verificaremos os dados que podem ter sido erroneamente registrados como 'object' ( que representam uma string) 

In [None]:
#Identificando as colunas em que os tipos de dados correspondem a object

df.select_dtypes('object').describe().transpose()

> Aqui podemos observar que as colunas 'limite_credito' e 'valor_transacoes_12m' estão em formato de object, devido a uma formatação diferente dos números presente na base de dados original.

- Colunas que possuem valores que representam dados faltantes:

In [None]:
#Identificando colunas com ocorrência de dados faltantes

df.isna().any()

> O retorno do valor booleano True nos indica a presença de dados faltantes nas colunas 'escolaridade', 'estado_civil' e 'salario_anual'.

- Utilização da função 'stats_dados_faltantes' para identificarmos a proporção de dados faltantes presentes no data frame:

In [None]:
# Função que apresenta a porcentagem de dados faltantes no data frame

def stats_dados_faltantes(df: pd.DataFrame) -> None:
    
    stats_dados_faltantes = []
    for col in df.columns:
        if df[col].isna().any():
            qtd, _ = df[df[col].isna()].shape
            total, _ = df.shape
            dict_dados_faltantes = {col: {'quantidade': qtd, 'porcentagem': porcentagem(qtd, total)}}
            stats_dados_faltantes.append(dict_dados_faltantes)
    for stat in stats_dados_faltantes:
        print(stat)

- Colunas com dados faltantes e sua proporção em porcentagem:

In [None]:
# Aplicação da função que retorna a coluna onde ocorrem dados faltantes, suas respectivas quantidade e porcentagem em relação a coluna.

stats_dados_faltantes(df = df)

> Proporção de dados faltantes de clientes Adimplentes:

In [None]:
# Aplicação da função para clientes adimplentes

stats_dados_faltantes(df = df[df['default'] == 0])

> Proporção de dados faltantes de clientes Inadimplentes:

In [None]:
# Aplicação da função para clientes inadimplentes

stats_dados_faltantes(df = df[df['default'] == 1])

# 3.Etapa de Transformação e limpeza de dados.

- Aqui, retomaremos os resultados obtidos ao analisar os tipos de dados das colunas. Onde descobrimos que 'limite_credito' e 'valor_transacoes_12m' estavam classificados inadequadamente como dtype, devido a formatação de seus números.
- Iremos utilizar a função lambda 'fn' desenvolvida em sala de aula, para realizar a formatação adequada dos números e alterar seu tipo para float.
- Criaremos as variáveis 'qtd_total_novo', 'qtd_adimplentes_novo' e 'qtd_inadimplentes_novo' para armazenar os valores de default.

- Relembrando as colunas identificadas com dados em tipagem inadequada:

In [None]:
# Conferindo os tipos das colunas

df[['limite_credito', 'valor_transacoes_12m']].dtypes

> Estabelecendo uma função lambda 'fn' para formatar os dados em tipo float, representado no data frame como float64:

In [None]:
# Função que remove o '.' e troca ',' ´pr '.', para que assim o python consiga ler o valor como float.

fn = lambda valor: float(valor.replace(".","").replace(",", "."))

valores_originais = ['12.691,51', '8.256,96', '3.418,56', '3.313,03', '4.716,22']
valores_limpos = list(map(fn, valores_originais))

print(valores_originais)
print(valores_limpos)

> Aplicando as funções nas colunas e conferindo a alteração dos tipos:

In [None]:
#  Aplicando a função nas colunas

df['valor_transacoes_12m'] = df['valor_transacoes_12m'].apply(fn)
df['limite_credito'] = df['limite_credito'].apply(fn)

In [None]:
# Conferindo a alteração do tipo das colunas

df.dtypes

In [None]:
# Conferindo a formatação dos valores das colunas

df.select_dtypes('object').describe().transpose()

In [None]:
# Conferindo as colunas com valores númericos, usando df.drop para excluir a coluna id do resultado
df.drop('id', axis = 1).select_dtypes('number').describe().transpose()

- Identificamos que a proporção de dados faltantes não é significante para o objetivo de análise deste projeto. Sendo assim, iremos remover os dados faltantes:
> Conferindo os valores de default antes da remoção dos valores faltantes:

> Clientes adimplentes:

In [None]:
# Conferindo os novos valores de default antes de remover os valores faltantes
df.shape
print('\n')
df[df['default'] == 0].shape

> Clientes inadimplentes:

In [None]:
df.shape
print('\n')
df[df['default'] == 1].shape

> Valores de clientes após a remoção dos dados faltantes:

In [None]:
# Removendo os valores prencidos como na, que representam os valores faltantes
df.dropna(inplace = True)

> Clientes adimplentes:

In [None]:
# Conferindo os novos valores de default
df.shape
print('\n')
df[df['default'] == 0].shape


> Clientes inadimplentes:

In [None]:
df.shape
print('\n')
df[df['default'] == 1]. shape

- Armazenaremos os novos valores de clientes em variáveis diferentes, imprimindo suas proporções antigas e atualizadas.

In [None]:
# Armazenando os novos valores de default em novas variáveis
qtd_total_novo, _ = df.shape
qtd_adimplentes_novo, _ = df[df['default'] == 0].shape
qtd_inadimplentes_novo, _ = df[df['default'] == 1].shape

# Printando os novos valores, formatados utilizando  a função porcentagem

print(f"A proporcão adimplentes ativos é de {porcentagem(qtd_adimplentes, qtd_total)}")
print(f"A nova proporcão de clientes adimplentes é de {porcentagem(qtd_adimplentes_novo, qtd_total_novo)}")
print("")
print(f"A proporcão clientes inadimplentes é de {porcentagem(qtd_inadimplentes, qtd_total)}")
print(f"A nova proporcão de clientes inadimplentes é de {porcentagem(qtd_inadimplentes_novo, qtd_total_novo)}")

# 4. Etapa de visualização de dados
- Identificaremos quais colunas deverão ser abstraída no processo de análise.
- Utilizaremos os pacotes Seaborn e Matplotplit para expressarmos visualmente o dataframe.
- Analisaremos o dataframe para identificar quais colunas podem auxiliar na resolução do problema.

In [None]:
sns.set_style('whitegrid')

In [None]:
df_adimplentes = df[df['default'] == 0]
df_inadimplentes = df[df['default'] == 1]

4.1. Abstração de dados.

- Este tópico irá abordar as colunas que não possuem relevância para a problemática e sua justificativa, bem como as que não deverão ser consideradas para a análise. Ou seja, não tem potencial de indicar divergências comportamentais de clientes inadimplentes.

> 4.1.1. Escolaridade.

In [None]:
# Plotando o gráfico sobre a escolaridade 
coluna = 'escolaridade'

titulos = ['Escolaridade dos Clientes', 'Escolaridade dos Clientes Adimplentes', 'Escolaridade dos Clientes Inadimplentes']

eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1
figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:
    df_to_plot = dataframe[coluna].value_counts().reset_index()  
    df_to_plot.columns = [coluna, 'frequencia_absoluta']
    df_to_plot.sort_values(by=[coluna], inplace=True)

    f = sns.barplot(x=coluna, y='frequencia_absoluta', data=df_to_plot, ax=eixos[eixo])
    f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
    f.set_xticklabels(labels=df_to_plot[coluna], rotation=90)

    _, max_y_f = f.get_ylim()
    max_y = max_y_f if max_y_f > max_y else max_y
    f.set(ylim=(0, max_y))

    eixo += 1



figura.show()

In [None]:
coluna = 'escolaridade'
titulos = ['Escolaridade dos Clientes', 'Escolaridade dos Clientes Adimplentes', 'Escolaridade dos Clientes Inadimplentes']

plt.figure(figsize=(10, 6))

for dataframe, titulo in zip([df, df_adimplentes, df_inadimplentes], titulos):
    pg = sns.histplot(x=coluna, data=dataframe, stat='count', label=titulo, alpha=0.5)
    pg.set_xticklabels(labels=df_to_plot[coluna], rotation=90)

plt.title('Escolaridade dos Clientes')
plt.xlabel(coluna.capitalize())
plt.ylabel('Frequência Absoluta')
plt.legend()
plt.show()

- A escolaridade dos clientes não possui uma distribuição homogênea, grande parte é caracterizada por indivíduos com ensino médio completo e mestrado.
- É possível indicar que uma grande quantidade dos clientes que realizaram uma graduação buscaram se especializar até o nível de mestrado.
- Ao comparar os dois gráficos sobrepostos, a diferença entre a escolaridade de clientes adimplentes e inadimplentes é mínima, não sendo relevante para indicar o comportamento daqueles que são inadimplentes.

O gráfico plotado com as colunas sobrepostas nos ajuda a visualizar como a escolaridade reflete de maneira praticamente insignificante na distribuição de clietes adimplentes e inadimplentes.
- Este padrão irá se repetir nos gráficos apresentados nos demais itens que foram abstraídos da análise final. Como consequência, não irei reproduzi-lo novamente dentro do segmento de abstração.

> 4.1.2. Sexo.
> - Conforme a Lei Geral de Proteção de Dados Pessoais (LGPD), Lei n° 13.709 e orientações de boas práticas. Dados como gênero não devem ser considerados para este tipo de análise. Portanto,  a coluna 'sexo' foi abstraida da análise neste projeto.

> 4.1.3. Idade.

In [None]:
coluna = 'idade'
titulos = ['Idade dos Clientes', 'Idade dos Clientes Adimplentes', 'Idade dos Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
 
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

- Os clientes adimplentes registrados neste data frame possuem uma maior variação de idade em comparação com os inadimplentes.
- Embora exista esta variação de idades, ela não representa uma tendência, não sendo relevante para indicar o comportamento daqueles que são inadimplentes.

> 4.1.4. Dependentes.

In [None]:
coluna = 'dependentes'
titulos = ['Dependentes dos Clientes', 'Dependentes dos Clientes Adimplentes', 'Dependentes dos Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
 
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

- As variações na quantidade de pessoas dependentes, dos clientes adimplentes e inadimplentes, são mínimas. Não sendo relevante para indicar o comportamento daqueles que são inadimplentes. 

> 4.1.5. Estado Civil.

In [None]:
coluna = 'estado_civil'
titulos = ['Estado Civil dos Clientes', 'Estado Civil dos Clientes Adimplentes', 'Estado Civil dos Clientes Inadimplentes']

eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1
figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:
    df_to_plot = dataframe[coluna].value_counts().reset_index()  
    df_to_plot.columns = [coluna, 'frequencia_absoluta']
    df_to_plot.sort_values(by=[coluna], inplace=True)

    f = sns.barplot(x=coluna, y='frequencia_absoluta', data=df_to_plot, ax=eixos[eixo])
    f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
    f.set_xticklabels(labels=df_to_plot[coluna], rotation=90)

    _, max_y_f = f.get_ylim()
    max_y = max_y_f if max_y_f > max_y else max_y
    f.set(ylim=(0, max_y))

    eixo += 1



figura.show()

- As variações no Estado Civil dos clientes adimplentes e inadimplentes são mínimas. Não sendo relevante para indicar o comportamento daqueles que são inadimplentes. 

4.1.6. Tipos de Cartão.

In [None]:
coluna = 'tipo_cartao'
titulos = ['Tipo de Cartão dos Clientes', 'Tipo de Cartão dos Clientes Adimplentes', 'Tipo de Cartão dos Clientes Inadimplentes']

eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1
figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:
    df_to_plot = dataframe[coluna].value_counts().reset_index()  
    df_to_plot.columns = [coluna, 'frequencia_absoluta']
    df_to_plot.sort_values(by=[coluna], inplace=True)

    f = sns.barplot(x=coluna, y='frequencia_absoluta', data=df_to_plot, ax=eixos[eixo])
    f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
    f.set_xticklabels(labels=df_to_plot[coluna], rotation=90)

    _, max_y_f = f.get_ylim()
    max_y = max_y_f if max_y_f > max_y else max_y
    f.set(ylim=(0, max_y))

    eixo += 1



figura.show()

- Os clientes inadimplentes não apresentaram cartões do tipo gold.
- Embora exista a ausência de cartões gold para inadimplentes, a quantidade de adimplentes com cartão gold é mínima, enquanto as demais não variam entre os tipos de cientes. Nos levando a não considerar os tipos de cartão para indicar o comportamento daqueles que são inadimplentes.

4.1.7. Meses de Relacionamento.

In [None]:
coluna = 'meses_de_relacionamento'
titulos = ['Meses de Relacionamento dos Clientes', 'Meses de Relacionamento dos Clientes Adimplentes', 'Meses de Relacionamento dos Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
 
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

- A proporção das máximas e mínimas dos clientes adimplentes e inadimplentes apresentam similaridade.
- As variações dos meses de relacionamento entre os clientes adimplentes e inadimplentes não é considerável ao ponto de indicar uma tendência, não sendo relevante para indicar o comportamento daqueles que são inadimplentes.

> 4.1.8. Interações do banco com o cliente no último ano.

In [None]:
coluna = 'interacoes_12m'
titulos = ['Quantidade de Interações com os Clientes', 'Quantidade de Interações com os Clientes Adimplentes', 'Quantidade de Interações com os Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
 
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

- A quantidade de vezes em que o banco interagiu com os clientes também não apresentam variações significativas, não sendo relevante para indicar o comportamento daqueles que são inadimplentes.

> 4.1.9. Meses em que o cliente esteve inativo no último ano.

In [None]:
coluna = 'meses_inativo_12m'
titulos = ['Meses inativos no Ano dos Clientes', 'Meses inativos no Ano dos Clientes Adimplentes', 'Meses inativos no Ano dos Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
 
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

- Ao longo do ano, os meses em que os clientes ficaram inativos também não apresentam variações significativas, não sendo relevante para indicar o comportamento daqueles que são inadimplentes.

4.1.10. Limite de Crédito.

In [None]:
coluna = 'limite_credito'
titulos = ['Limite de Crédito dos Clientes', 'Limite de Crédito dos Clientes Adimplentes', 'Limite de Crédito dos Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
 
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

> 4.1.11. Salário Anual.

In [None]:
# Plotando o gráfico sobre salário anual
coluna = 'salario_anual'
titulos = ['Salário Anual dos Clientes', 'Salário Anual dos Clientes Adimplentes', 'Salário Anual dos Clientes Inadimplentes']

eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1
figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:
    df_to_plot = dataframe[coluna].value_counts().reset_index()  
    df_to_plot.columns = [coluna, 'frequencia_absoluta']
    df_to_plot.sort_values(by=[coluna], inplace=True)

    f = sns.barplot(x=coluna, y='frequencia_absoluta', data=df_to_plot, ax=eixos[eixo])
    f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
    f.set_xticklabels(labels=df_to_plot[coluna], rotation=90)

    _, max_y_f = f.get_ylim()
    max_y = max_y_f if max_y_f > max_y else max_y
    f.set(ylim=(0, max_y))

    eixo += 1



figura.show()

4.2. Colunas Consideradas para a Análise. 

In [None]:
# Verificando as colunas disponíveis para demais análises numéricas.
df.drop(['id', 'default'], axis = 1).select_dtypes('number').head(n = 5)

> 4.2.1. Quantidade de Produtos Contratados.

In [None]:
coluna = 'qtd_produtos'
titulos = ['Quantidade de Produtos Contratados pelos Clientes', 'Quantidade de Produtos Contratados pelos Clientes Adimplentes', 'Quantidade de Produtos Contratados pelos Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
 
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

- Podemos considerar que os clientes Adimplentes apresentam uma leve tendência a contratar uma quantidade maior de produtos em relação aos inadimplentes.
- Ambos os tipos de clientes encontram sua máxima de contratação na quantidade de 3 produtos.

> 4.2.2. Quantida de Transações no Último Ano.

In [None]:
coluna = 'qtd_transacoes_12m'
titulos = ['Qtd. de Transações no Último Ano', 'Qtd. de Transações no Último Ano de Adimplentes', 'Qtd. de Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
 
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

- Clientes adimplentes realizam uma maior quantidade de transações ao longo dos anos, em comparação aos inadimplentes.
- A máxima de transações de clientes adimplentes entre a faixa de 60 e 80 transações ao longo do ano.
- A máxima de transações daqueles que são inadimplentes se concentra na faixa de 40 transações ao longo do ano.

In [None]:
coluna = 'qtd_transacoes_12m'
titulos = ['Qtd. de Transações no Último Ano', 'Qtd. de Transações no Último Ano de Adimplentes', 'Qtd. de Transações no Último Ano de Inadimplentes']

plt.figure(figsize=(10, 6))

for dataframe, titulo in zip([df, df_adimplentes, df_inadimplentes], titulos):
    sns.histplot(x=coluna, data=dataframe, stat='count', label=titulo, alpha=0.5)

plt.title('Quantidade de Transações no Último Ano')
plt.xlabel(coluna.capitalize())
plt.ylabel('Frequência Absoluta')
plt.legend(fontsize='small')
plt.show()

4.2.3. Valor das Transações no Último Ano.

In [None]:
coluna = 'valor_transacoes_12m'
titulos = ['Valor das Transações no Último Ano', 'Valor das Transações no Último Ano de Adimplentes', 'Valor das Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplentes, df_inadimplentes]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

In [None]:
coluna = 'valor_transacoes_12m'
titulos = ['Valor das Transações no Último Ano', 'Valor das Transações no Último Ano de Adimplentes', 'Valor das Transações no Último Ano de Inadimplentes']

plt.figure(figsize=(10, 6))

for dataframe, titulo in zip([df, df_adimplentes, df_inadimplentes], titulos):
    sns.histplot(x=coluna, data=dataframe, stat='count', label=titulo, alpha=0.5)

plt.title('Valor das Transações no Último Ano')
plt.xlabel(coluna.capitalize())
plt.ylabel('Frequência Absoluta')
plt.legend()
plt.show()

In [None]:
f = sns.relplot(x='valor_transacoes_12m', y='qtd_transacoes_12m', data=df, hue='default')
_ = f.set(
    title='Relação entre Valor e Quantidade de Transações no Último Ano',
    xlabel='Valor das Transações no Último Ano',
    ylabel='Quantidade das Transações no Último Ano'
  )

- Clientes que transacionam em valores elevados e com frequência, não representam riscos de se tornarem inadimplentes.
- Clientes inadimplentes possuem um faixa de atuação com uma limitação intermediária de valores e quantidade de transação.

# 5. Conclusão e resumo dos insights gerados.

Ao concluir a análise deste banco de dados, podemos indicar alguns fatores que demonstram o comportamento de clientes inadimplentes. Entretanto, devemos ressaltar que utilizamos um banco de dados pequeno, contendo uma amostra relativamente pequena de clientes inadimplentes, representando apenas 15.07% de todo o data frame após e remoção de dados vazios.
- Foi possível identificar que clientes inadimplentes tendem a contratar uma menor quantidade de serviços do banco, e ao mesmo tempo, não parecem interagir menos com o banco em comparação com aqueles que são adimplentes.
- Inadimplentes apresentam a tendência de realizar uma quantidade total de transações por ano, atigindo seu pico em 40 vezes por ano, em comparação com os adimplentes que possuem uma máxima que atua entre a faixa das 60 e 80 vezes.
- Os valores das transações também são limitados, onde os inadimplentes concentração seus valores na faixa dos 2.000 mil e não superando valores de 10.100 mil. Diferente dos adimplentes que apresentam uma gama mais diversa de valores.
- Ao compararmos a quantidade de transações com seus valores ao longo do ano, foi possível identificar 3 grupos. Os dois primeiros grupos, de quantidades e valores de transação que navegam entre o baixo e o intermediário, ocorre uma distribuição relativamente balanceada entre clientes adimplentes e inadimplentes. No grupo dos valores intermidiários, já é possível identificar a diminuição da quantidade de inadimplentes. Por fim, no terceiro grupo, de valores elevados e com maior frequência, ocorrem apenas clientes adimplentes, fomentando a questão da limitação da atuação dos clientes adimplentes.
- Nenhum padrão possível de ser reconhecido como relevante foi encontrado nas variáveis de idade, quantidade de dependentes, escolaridade, estado civil, salário anual, tipo de cartão e meses de relacionamento. Levando a abstração dos mesmos.