<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Python: Projeto Final

Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

Aluna [Alexandra Carvalho](https://www.linkedin.com/in/alexandra-locarvalho/)

---

#**0. Análise de Risco de Crédito: Perfis de Clientes Adimplentes e Inadimplentes**


**Projeto final do curso de Python para Análise de Dados da Ebac**

# **1. Descrição**


No cenário atual das instituições financeiras, a análise de dados de crédito desempenha um papel crucial na avaliação de risco e na tomada de decisões, sendo que a concessão de crédito é uma das principais atividades desenvolvidas pelas instituições financeiras. No entanto, a eficácia dessas análises é frequentemente prejudicada pela falta de compreensão abrangente dos diferentes perfis de clientes adimplentes e inadimplentes. Portanto, surge a seguinte problemática:

Como os dados podem auxiliar a identificar padrões de comportamento de cliente adimplentes e inadimplentes com maior precisão? Esta questão é essencial para desenvolver abordagens eficazes na gestão da carteira de crédito, melhorando assim a rentabilidade das instituições e consequentemente a satisfação do cliente.

Essa problemática aborda a importância do tratamento correto dos dados, para obter uma análise eficiente para a identificação e previsão do comportamento de pagamento dos clientes, buscando aprimorar as estratégias de gerenciamento de risco.

Os dados a serem explorados se encontram no arquivo Python_M10_support material.csv, sendo possível acessar através deste [link](https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.csv) disponibilizados pelo professor André Perez, esse arquivo contém informações sobre clientes de uma instituição financeira. Iremos explicar a segunda coluna, chamada de **default**, que indica se um cliente é adimplente (default = 0), ou inadimplente (default = 1), ou seja, queremos entender o porque um cliente deixa de honrar com as suas dívidas baseado no comportamento de outros atributos, como salário, escolaridade e movimentação financeira. Uma descrição completa dos atributos está abaixo.



| Coluna  | Descrição |
| ------- | --------- |
| id      | Número da conta |
| default | Indica se o cliente é adimplente (0) ou inadimplente (1) |
| idade   | --- |
| sexo    | --- |
| depedentes | --- |
| escolaridade | --- |
| estado_civil | --- |
| salario_anual | Faixa do salario mensal multiplicado por 12 |
| tipo_cartao | Categoria do cartao: blue, silver, gold e platinium |
| meses_de_relacionamento | Quantidade de meses desde a abertura da conta |
| qtd_produtos | Quantidade de produtos contratados |
| iteracoes_12m | Quantidade de iteracoes com o cliente no último ano |
| meses_inatico_12m | Quantidade de meses que o cliente ficou inativo no último ano |
| limite_credito | Valor do limite do cartão de crédito |
| valor_transacoes_12m | Soma total do valor das transações no cartão de crédito no último ano |
| qtd_transacoes_12m | Quantidade total de transações no cartão de crédito no último ano |



#**2. Bibliotecas**


Importação das bibliotecas a serem utilizadas nesta análise:

In [2]:
#Standard library imports.

#Related third party imports.

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

#Local application/library specific imports.


AttributeError: module 'matplotlib.cm' has no attribute 'register_cmap'

#**3. Importação de dados**

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.csv', na_values='na')

#**4. Exploração de dados**


##**4.1 Estrutura**


In [4]:
# A função head() retorna as primeiras 5 linhas do DataFrame:

df.head()

Unnamed: 0,id,default,idade,sexo,dependentes,escolaridade,estado_civil,salario_anual,tipo_cartao,meses_de_relacionamento,qtd_produtos,iteracoes_12m,meses_inativo_12m,limite_credito,valor_transacoes_12m,qtd_transacoes_12m
0,768805383,0,45,M,3,ensino medio,casado,$60K - $80K,blue,39,5,3,1,"12.691,51","1.144,90",42
1,818770008,0,49,F,5,mestrado,solteiro,menos que $40K,blue,44,6,2,1,"8.256,96","1.291,45",33
2,713982108,0,51,M,3,mestrado,casado,$80K - $120K,blue,36,4,0,1,"3.418,56","1.887,72",20
3,769911858,0,40,F,4,ensino medio,,menos que $40K,blue,34,3,1,4,"3.313,03","1.171,56",20
4,709106358,0,40,M,3,sem educacao formal,casado,$60K - $80K,blue,21,5,0,1,"4.716,22",81608,28


In [5]:
# Quantidade de linhas, quantidade de colunas)

qtd_total_linhas, qtd_total_colunas = df.shape

print(f'A quantidade total de linhas: {qtd_total_linhas}')
print(f'A quantidade total de colunas: {qtd_total_colunas}')

A quantidade total de linhas: 10127
A quantidade total de colunas: 16


In [6]:
# Quantidade de linhas de clientes adimplentes, neste caso não é necessário demonstrar a quantidade de coluna pois o valor será o mesmo do total de colunas

qtd_linhas_adimplentes, qtd_colunas_adimplentes = df[df['default'] == 0].shape

print(f'Quantidade de linhas de clientes adimplentes: {qtd_linhas_adimplentes}')


Quantidade de linhas de clientes adimplentes: 8500


In [7]:
# Apuração das linhas em relação aos clientes Inadimplentes

qtd_linhas_inadimplentes, qtd_colunas_inadimplentes = df[df['default'] == 1].shape

print(f'Quantidade de linhas de clientes inadimplentes: {qtd_linhas_inadimplentes}')

Quantidade de linhas de clientes inadimplentes: 1627


In [8]:
# Demonstração do percentual referente a cada cliente

print(f'A proporcão clientes adimplentes é de {round(100 * qtd_linhas_adimplentes / qtd_total_linhas, 2)}%')
print(f'A proporcão clientes inadimplentes é de {round(100 * qtd_linhas_inadimplentes / qtd_total_linhas, 2)}%')

A proporcão clientes adimplentes é de 83.93%
A proporcão clientes inadimplentes é de 16.07%


##**4.2 Schema**


In [9]:
# Análise dos tipos de dados presentes em cada coluna

df.dtypes

id                          int64
default                     int64
idade                       int64
sexo                       object
dependentes                 int64
escolaridade               object
estado_civil               object
salario_anual              object
tipo_cartao                object
meses_de_relacionamento     int64
qtd_produtos                int64
iteracoes_12m               int64
meses_inativo_12m           int64
limite_credito             object
valor_transacoes_12m       object
qtd_transacoes_12m          int64
dtype: object

In [10]:
# Verificação dos valores presentes das primeiras linhas de cada coluna para comparar com as variáveis descritas no tópico anterior

df.head(1).transpose()

Unnamed: 0,0
id,768805383
default,0
idade,45
sexo,M
dependentes,3
escolaridade,ensino medio
estado_civil,casado
salario_anual,$60K - $80K
tipo_cartao,blue
meses_de_relacionamento,39


In [11]:
# Verificação dos atributos categóricos da tabela principal:

df.select_dtypes('object').describe().transpose()

Unnamed: 0,count,unique,top,freq
sexo,10127,2,F,5358
escolaridade,8608,5,mestrado,3128
estado_civil,9378,3,casado,4687
salario_anual,9015,5,menos que $40K,3561
tipo_cartao,10127,4,blue,9436
limite_credito,10127,9272,"1.438,21",11
valor_transacoes_12m,10127,10035,"3.851,51",3


Podemos observar que as colunas `limite_credito` e `valor_transacoes_12m` estão com valores no formato brasileiro, devido a isso não são reconhecidos diretamente como números, pois o Python usa o ponto (.) como o separador decimal e não reconhece a vírgula (,) dessa forma.



In [12]:
# Confirmação do tipo de várial que precisam de correção

df[['limite_credito', 'valor_transacoes_12m']].dtypes

limite_credito          object
valor_transacoes_12m    object
dtype: object

## **4.3 Correção do Schema**


In [13]:
# Função lambda criada para fazer a substituição dos separadores brasileiros

correcao = lambda valor: float(valor.replace('.', '').replace(',','.'))

# Aplicação da função lambda nas colunas que precisam de alterações

df['valor_transacoes_12m'] = df['valor_transacoes_12m'].apply(correcao)
df['limite_credito'] = df['limite_credito'].apply(correcao)

In [14]:
# Novamente a verificação dos tipos de dados de cada coluna

df.dtypes

id                           int64
default                      int64
idade                        int64
sexo                        object
dependentes                  int64
escolaridade                object
estado_civil                object
salario_anual               object
tipo_cartao                 object
meses_de_relacionamento      int64
qtd_produtos                 int64
iteracoes_12m                int64
meses_inativo_12m            int64
limite_credito             float64
valor_transacoes_12m       float64
qtd_transacoes_12m           int64
dtype: object

In [15]:
# Confirmação do tipo de várial que foram corrigidas

df[['limite_credito', 'valor_transacoes_12m']].dtypes

limite_credito          float64
valor_transacoes_12m    float64
dtype: object

In [16]:
# Verificação dos valores alterados na tabela:

df.head().transpose()

Unnamed: 0,0,1,2,3,4
id,768805383,818770008,713982108,769911858,709106358
default,0,0,0,0,0
idade,45,49,51,40,40
sexo,M,F,M,F,M
dependentes,3,5,3,4,3
escolaridade,ensino medio,mestrado,mestrado,ensino medio,sem educacao formal
estado_civil,casado,solteiro,casado,,casado
salario_anual,$60K - $80K,menos que $40K,$80K - $120K,menos que $40K,$60K - $80K
tipo_cartao,blue,blue,blue,blue,blue
meses_de_relacionamento,39,44,36,34,21


Possível notar que nas colunas alteradas `valor_transacoes_12m` e `limte_credito` que antes constavam valores, como: **"12.691,51"** da 1º linha passaram a demonstrar valores do tipo float e passou a ser **"12691.51"**

In [17]:
df[['valor_transacoes_12m', 'limite_credito']].head(n=5)

Unnamed: 0,valor_transacoes_12m,limite_credito
0,1144.9,12691.51
1,1291.45,8256.96
2,1887.72,3418.56
3,1171.56,3313.03
4,816.08,4716.22


##**4.4** Dados faltantes


Verificação e tratamento dos dados faltantes da tabela principal


In [18]:
# Tabela principal:

df.head(1).transpose()

Unnamed: 0,0
id,768805383
default,0
idade,45
sexo,M
dependentes,3
escolaridade,ensino medio
estado_civil,casado
salario_anual,$60K - $80K
tipo_cartao,blue
meses_de_relacionamento,39


In [19]:
# Verificação dos atributos categóricos da tabela acima:

df.select_dtypes('object').describe().transpose()

Unnamed: 0,count,unique,top,freq
sexo,10127,2,F,5358
escolaridade,8608,5,mestrado,3128
estado_civil,9378,3,casado,4687
salario_anual,9015,5,menos que $40K,3561
tipo_cartao,10127,4,blue,9436


In [20]:
# Verificação dos atributos númericos da tabela principal

df.drop('id', axis=1).select_dtypes('number').describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
default,10127.0,0.16066,0.367235,0.0,0.0,0.0,0.0,1.0
idade,10127.0,46.32596,8.016814,26.0,41.0,46.0,52.0,73.0
dependentes,10127.0,2.346203,1.298908,0.0,1.0,2.0,3.0,5.0
meses_de_relacionamento,10127.0,35.928409,7.986416,13.0,31.0,36.0,40.0,56.0
qtd_produtos,10127.0,3.81258,1.554408,1.0,3.0,4.0,5.0,6.0
iteracoes_12m,10127.0,2.455317,1.106225,0.0,2.0,2.0,3.0,6.0
meses_inativo_12m,10127.0,2.341167,1.010622,0.0,2.0,2.0,3.0,6.0
limite_credito,10127.0,8632.440165,9088.788041,1438.0,2555.355,4549.42,11068.175,34516.99
valor_transacoes_12m,10127.0,4404.583047,3397.128078,510.16,2155.825,3899.59,4741.31,18484.93
qtd_transacoes_12m,10127.0,64.858695,23.47257,10.0,45.0,67.0,81.0,139.0


E possível observar que na tabela dos atributos categóricos, a coluna denominada como **"count"** de alguns dados não está de acordo com a quantidade total de linhas do nosso dataframe. É um indicador que há informações faltantes destes dados.

In [21]:
# Verificação de dados faltantes em alguma linha das colunas de dados:

df.isna().any()

id                         False
default                    False
idade                      False
sexo                       False
dependentes                False
escolaridade                True
estado_civil                True
salario_anual               True
tipo_cartao                False
meses_de_relacionamento    False
qtd_produtos               False
iteracoes_12m              False
meses_inativo_12m          False
limite_credito             False
valor_transacoes_12m       False
qtd_transacoes_12m         False
dtype: bool

Neste caso os dados sobre `escolaridade`, `estado_civil` e `salario_anual` estão desfalcados, prejudicando a análise correta do nosso DataFrame

## **4.5 Remoção de dados faltantes**



In [22]:
# Função para descrever a quantidade de dados faltantes das colunas em relação a quantidade total:

def apuracao_dados_faltantes(df: pd.DataFrame) -> None:

  dados_faltantes = list()
  for coluna in df.columns:
    if df[coluna].isna().any():
      quantidade_faltante_coluna, _ = df[df[coluna].isna()].shape
      quantidade_faltante_total, _ = df.shape
      resultado_dados_faltantes = {
          coluna: {'quantidade de dados faltantes': f'{quantidade_faltante_coluna} linhas',
                   '% em relação ao total': f'{round(quantidade_faltante_coluna/quantidade_faltante_total * 100, 2)}%'}
                   }
      dados_faltantes.append(resultado_dados_faltantes)

  print(f'Quantidade total de linhas: {df.shape[0]}\n')

  for resultado in dados_faltantes:
    print(resultado)

In [23]:
# Função para a visualização da quantidade de linhas com dados faltantes

apuracao_dados_faltantes(df=df)

Quantidade total de linhas: 10127

{'escolaridade': {'quantidade de dados faltantes': '1519 linhas', '% em relação ao total': '15.0%'}}
{'estado_civil': {'quantidade de dados faltantes': '749 linhas', '% em relação ao total': '7.4%'}}
{'salario_anual': {'quantidade de dados faltantes': '1112 linhas', '% em relação ao total': '10.98%'}}


In [24]:
# Quantidade de linhas nas colunas com dados faltantes dos clientes adimplentes:

apuracao_dados_faltantes(df=df[df['default'] == 0])

Quantidade total de linhas: 8500

{'escolaridade': {'quantidade de dados faltantes': '1263 linhas', '% em relação ao total': '14.86%'}}
{'estado_civil': {'quantidade de dados faltantes': '620 linhas', '% em relação ao total': '7.29%'}}
{'salario_anual': {'quantidade de dados faltantes': '925 linhas', '% em relação ao total': '10.88%'}}


In [25]:
# Quantidade de linhas nas colunas com dados faltantes dos clientes inadimplentes:

apuracao_dados_faltantes(df=df[df['default'] == 1])

Quantidade total de linhas: 1627

{'escolaridade': {'quantidade de dados faltantes': '256 linhas', '% em relação ao total': '15.73%'}}
{'estado_civil': {'quantidade de dados faltantes': '129 linhas', '% em relação ao total': '7.93%'}}
{'salario_anual': {'quantidade de dados faltantes': '187 linhas', '% em relação ao total': '11.49%'}}


Com a apuração detalhada sobre cada tipo de cliente, nota-se que a quantidade de dados faltantes é semelhante.

In [26]:
# Função utilizada para remoção de linhas com valores ausentes, com parâmetro para ser realizada no próprio DataFrame

df.dropna(inplace=True)
df.isna().any()

id                         False
default                    False
idade                      False
sexo                       False
dependentes                False
escolaridade               False
estado_civil               False
salario_anual              False
tipo_cartao                False
meses_de_relacionamento    False
qtd_produtos               False
iteracoes_12m              False
meses_inativo_12m          False
limite_credito             False
valor_transacoes_12m       False
qtd_transacoes_12m         False
dtype: bool

In [27]:
# Verificação da nova quantidade de linhas de cliente adimplentes após a remoção dos dados faltantes

df[df['default'] == 0].shape[0]

5968

In [28]:
# Verificação da nova quantidade de linhas de cliente inadimplentes após a remoção dos dados faltantes

df[df['default'] == 1].shape[0]

1113

In [29]:
# Comparação do total de linhas antes e após a remoção dos dados faltantes

print(f'A quantidade total de linhas antes da remoção de dados faltantes: \n')

qtd_original = {'Quantidade total de linhas: ': qtd_total_linhas,
                'Quantidade linha adimplentes: ': qtd_linhas_adimplentes,
                'Quantidade linhas inadimplentes: ': qtd_linhas_inadimplentes}

for key, value in qtd_original.items():
  print(f'{key}: {value}')

print(f'\n Atualização do total de linhas após a remoção de dados faltantes: \n')

qtd_atualizada = {'Quantidade total de linhas após remoção: ': df.shape[0],
                  'Quantidade linhas adimplentes após remoção: ': df[df['default'] == 0].shape[0],
                  'Quantidade linhas inadimplentes após remoção: ': df[df['default'] == 1].shape[0]}

for key, value in qtd_atualizada.items():
  print(f'{key}: {value}')


A quantidade total de linhas antes da remoção de dados faltantes: 

Quantidade total de linhas: : 10127
Quantidade linha adimplentes: : 8500
Quantidade linhas inadimplentes: : 1627

 Atualização do total de linhas após a remoção de dados faltantes: 

Quantidade total de linhas após remoção: : 7081
Quantidade linhas adimplentes após remoção: : 5968
Quantidade linhas inadimplentes após remoção: : 1113


In [30]:
# Comparação das proporções antes e após a remoção dos dados faltantes

print(f'A proporção de linhas de clientes adimplentes antes da remoção de dados faltantes: \n')

prop_adimplentes_original = round(100 * qtd_linhas_adimplentes / qtd_total_linhas, 2)
prop_adimplentes_atualizado = round(100 * df[df['default'] == 0].shape[0] / df.shape[0], 2)

print(f'A proporcão clientes adimplentes antes da remoção é de {prop_adimplentes_original}%')
print(f'A proporção de cliente adimplentes após a remoção é de {prop_adimplentes_atualizado}%')
print(f'Diferença de {abs(round(prop_adimplentes_atualizado - prop_adimplentes_original, 2))}%\n')

print(f'A proporção de linhas de clientes inadimplentes antes da remoção de dados faltantes: \n')

prop_inadimplentes_original = round(100 * qtd_linhas_inadimplentes / qtd_total_linhas, 2)
prop_inadimplentes_atualizado = round(100 * df[df['default'] == 1].shape[0] / df.shape[0], 2)

print(f'A proporcão clientes inadimplentes antes da remoção é de {prop_inadimplentes_original}%')
print(f'A proporção de cliente inadimplentes após a remoção é de {prop_inadimplentes_atualizado}%')
print(f'Diferença de {abs(round(prop_inadimplentes_atualizado - prop_inadimplentes_original, 2))}%\n')



A proporção de linhas de clientes adimplentes antes da remoção de dados faltantes: 

A proporcão clientes adimplentes antes da remoção é de 83.93%
A proporção de cliente adimplentes após a remoção é de 84.28%
Diferença de 0.35%

A proporção de linhas de clientes inadimplentes antes da remoção de dados faltantes: 

A proporcão clientes inadimplentes antes da remoção é de 16.07%
A proporção de cliente inadimplentes após a remoção é de 15.72%
Diferença de 0.35%



#**5. Visualização de dados**


Os dados estão prontos, vamos criar diversas visualizações para correlacionar variáveis explicativas com a variável resposta para buscar entender qual fator leva um cliente a inadimplência.

In [31]:
# Definição do estilo de visualização do seaborn:

sns.set_style('darkgrid')

NameError: name 'sns' is not defined

In [None]:
# Definição de cada variável para cada DataFrame:

df = df
df_adimplente = df[df['default'] == 0]
df_inadimplente = df[df['default'] == 1]

##**5.1 Visualizações dos dados categóricos**

In [None]:
df.select_dtypes('object').head(n=5)

Visualização do Data Frame sobre informações categóricas:

In [None]:
cores_personalizadas = ['#0000FF','#FFA500', '#008000','#FF0000','#A020F0']

# DataFrame com informações de escolaridade:

coluna = 'escolaridade'
titulos = ['Escolaridade dos Clientes', 'Escolaridade dos Clientes Adimplentes', 'Escolaridade dos Clientes Inadimplentes']
eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1
figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)
max_y = 0

for eixo, dataframe in enumerate([df, df_adimplente, df_inadimplente]):
  df_to_plot = dataframe[coluna].value_counts().reset_index()
  df_to_plot.columns = [coluna, 'frequencia_absoluta']
  df_to_plot.sort_values(by=[coluna], inplace=True)

  f = sns.barplot(data=df_to_plot, x=coluna, y='frequencia_absoluta', ax=eixos[eixo], palette=cores_personalizadas)
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y

for eixo in eixos:
  eixo.set(ylim=(0, max_y))

#DataFrame com informações sobre o estado civil dos clientes:

coluna = 'estado_civil'
titulos = ['Estado civil dos Clientes', 'Estado civil dos Clientes Adimplentes', 'Estado civil dos Clientes Inadimplentes']
eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1
figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)
max_y = 0

for eixo, dataframe in enumerate([df, df_adimplente, df_inadimplente]):
  df_to_plot = dataframe[coluna].value_counts().reset_index()
  df_to_plot.columns = [coluna, 'frequencia_absoluta']
  df_to_plot.sort_values(by=[coluna], inplace=True)

  f = sns.barplot(data=df_to_plot, x=coluna, y='frequencia_absoluta', ax=eixos[eixo], palette=cores_personalizadas)
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y

for eixo in eixos:
  eixo.set(ylim=(0, max_y))

# DataFrame com informações de salário anual dos clientes:

coluna = 'salario_anual'
titulos = ['Salário anual dos Clientes', 'Salário anual dos Clientes Adimplentes', 'Salário anual dos Clientes Inadimplentes']
eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1
figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)
max_y = 0

for eixo, dataframe in enumerate([df, df_adimplente, df_inadimplente]):
  df_to_plot = dataframe[coluna].value_counts().reset_index()
  df_to_plot.columns = [coluna, 'frequencia_absoluta']
  df_to_plot.sort_values(by=[coluna], inplace=True)

  f = sns.barplot(data=df_to_plot, x=coluna, y='frequencia_absoluta', ax=eixos[eixo], palette=cores_personalizadas)
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y

for eixo in eixos:
  eixo.set(ylim=(0, max_y))

# DataFrame com informações do cartão utilizado pelos clientes:

coluna = 'tipo_cartao'
titulos = ['Cartão utilizado pelos Clientes', 'Cartão utilizado por Clientes Adimplentes', 'Cartão utilizado por Clientes Inadimplentes']
eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1
figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)
max_y = 0

for eixo, dataframe in enumerate([df, df_adimplente, df_inadimplente]):
  df_to_plot = dataframe[coluna].value_counts().reset_index()
  df_to_plot.columns = [coluna, 'frequencia_absoluta']
  df_to_plot.sort_values(by=[coluna], inplace=True)

  f = sns.barplot(data=df_to_plot, x=coluna, y='frequencia_absoluta', ax=eixos[eixo], palette=cores_personalizadas)
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y

for eixo in eixos:
  eixo.set(ylim=(0, max_y))

plt.show()
figura.show()

Não foi gerado um DataFrame sobre informações de gênero dos clientes por se tratar de um dado sensível.

## **5.2. Visualizações de dados numéricos**

Nesta seção, vamos visualizar a relação entre a variável resposta **default** com os atributos numéricos.

In [None]:
df.drop(['id', 'default'], axis=1).select_dtypes('number').head(n=5)

 - Quantidade de Transações nos Últimos 12 Meses

In [None]:
# DataFrame com informações sobre a quantidade de transações nos últimos 12 meses:

coluna = 'idade'
titulos = ['Total idade dos clientes', 'Total da idade de Clientes Adimplentes', 'Total da idade de Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

 # DataFrame com informações sobre os dependentes dos clintes do Banco:

coluna = 'dependentes'
titulos = ['Total de dependentes', 'Total de dependentes de Clientes Adimplentes', 'Total de dependentes de Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

 # DataFrame com informações sobre os meses de relacionamento com o Banco:

coluna = 'meses_de_relacionamento'
titulos = ['Total de meses de relacionamento', 'Total de meses de relaionamento de Clientes Adimplentes', 'Total de meses de relaionamento de Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

# DataFrame com informações sobre a quantidade de produtos bancários nos últimos 12 meses:

coluna = 'qtd_produtos'
titulos = ['Total da Qtd. de produtos no último Ano', 'Total da Qtd. de produto no último ano de Adimplentes', 'Total da Qtd. de produto no último ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

# DataFrame com informações sobre a interatividade com o Bancos nos últimos 12 meses:

coluna = 'iteracoes_12m'
titulos = ['Total de interações no Último Ano', 'Total de interações no último ano de Adimplentes', 'Total de interações no último ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

 # DataFrame com informações sobre os meses de inatividade com o Bancos nos últimos 12 meses:

coluna = 'meses_inativo_12m'
titulos = ['Total de meses inativo no Último Ano', 'Total de meses inativo no último ano de Adimplentes', 'Total de meses inativo no último ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

 # DataFrame com informações sobre o limite de crédito dos clientes nos últimos 12 meses:

coluna = 'limite_credito'
titulos = ['Valor do Limite de crédito no Último Ano', 'Valor do limite de crédito no Último Ano de Adimplentes', 'Valor do limite de crédito no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

 # DataFrame com informações sobre os valores das transações nos últimos 12 meses:

coluna = 'valor_transacoes_12m'
titulos = ['Valor das Transações no Último Ano', 'Valor das Transações no Último Ano de Adimplentes', 'Valor das Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

# DataFrame com informações sobre a quantidade de transações nos últimos 12 meses:

coluna = 'qtd_transacoes_12m'
titulos = ['Qtd. de Transações no Último Ano', 'Qtd. de Transações no Último Ano de Adimplentes', 'Qtd. de Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

Relação dos Valores de Transações nos Últimos 12 Meses com a Quantidade de Transações nos Últimos 12 Meses

In [None]:
f = sns.relplot(x='valor_transacoes_12m', y='qtd_transacoes_12m', data=df, hue='default')
_ = f.set(
    title='Relação entre Valor e Quantidade de Transações no Último Ano',
    xlabel='Valor das Transações no Último Ano',
    ylabel='Quantidade das Transações no Último Ano'
  )

#**6. Insights**

## **6.1 Introdução**

Os dados analisados contêm informações sobre clientes de uma instituição financeira. O objetivo da análise foi entender os motivos pelos quais alguns clientes não honram suas dívidas, baseando-se no comportamento de outros atributos, como salário, escolaridade e movimentações financeiras. Uma descrição completa dos atributos foi realizada acima.


## **6.2 Insights - dados categóricos:**

O DataFrame contém as seguintes colunas de dados categóricos: `sexo`,`escolaridade`, `estado civil`, `salário anual` é o `tipo de cartão` utilizado. Cada linha representa a informação de um cliente.

A variável `sexo` não foi analisada por se tratar de um dado sensível.

#### - Insights gerados:

- **Escolaridade:** Com a visualização do DataFrame, concluímos que a coluna `escolaridade` mantém uma distribuição semelhante para todas as categorias. A diferença entre uma informação e outra é bem sutil. Portanto, a escolaridade não auxilia na compreensão do motivo pelo qual um cliente se torna inadimplente.


- **Estado civil:** Já na análise da coluna `estado_civil`, notamos que a distribuição se mantém para os clientes adimplentes. No entanto, para os clientes inadimplentes, os dados mostram que a quantidade de pessoas solteiras é semelhante à de pessoas casadas. Contudo, em termos de proporção total, há mais clientes inadimplentes solteiros do que casados.


- **Salário anual:** Assim como na coluna de escolaridade, a distribuição da coluna `salario_anual` é semelhante tanto para clientes adimplentes quanto para inadimplentes. Portanto, essa variável não oferece informações relevantes para explicar o comportamento dos clientes inadimplentes.


- **Tipo de cartão**: De maneira similar às outras colunas mencionadas, a coluna `tipo_cartao` também apresenta uma distribuição semelhante para clientes adimplentes e inadimplentes. Dessa forma, essa variável não contém informações necessárias para a nossa análise.




##**6.3 Insights - dados númericos:**

O DataFrame contém as seguintes colunas de dados numéricos: `idade`, `dependentes`, `meses_de_relacionamento`, `qtd_produtos`, `iteracoes_12m`, `meses_inativo_12m`, `limite_credito`, `valor_transacoes_12m` e `qtd_transacoes_12m`. Cada linha representa a informação de um cliente.

- **Insights gerados:**

* **Idade:** Com a análise da coluna `idade`, podemos observar que há um grande volume de clientes na faixa etária de 45 a 55 anos. Somente essa informação não auxilia em nossa análise para entender o comportamento do cliente inadimplente.

* **Dependentes:** Observando a coluna `dependentes` do DataFrame, é possível notar uma diferença sutil entre os clientes adimplentes e inadimplentes. Podemos ver um aumento na frequência de clientes inadimplentes em relação aos adimplentes quando o cliente possui cerca de 3 dependentes. Somente essa informação não é suficiente para entender o comportamento do cliente inadimplente.

* **Meses de relacionamento:** Com a análise da coluna `meses_de_relacionamento`, podemos notar que a distribuição se mantém semelhante para os clientes adimplentes e inadimplentes, sendo uma variável com informações irrelevantes para a nossa análise.

* **Quantidade de produtos:** A análise da coluna `qtd_produtos` revela uma pequena diferença entre clientes adimplentes e inadimplentes. Podemos observar que os clientes inadimplentes possuem uma frequência relativamente maior na aquisição de 5 produtos em relação aos clientes adimplentes. Devido a diferença ser pequena, outros dados devem ser analisados para obter uma resposta conclusiva.

* **Interações nos últimos 12 meses:** Através da coluna `iteracoes_12m`, podemos notar um aumento na frequência de interações dos clientes inadimplentes em comparação aos adimplentes. Clientes com 3 interações com o banco nos últimos 12 meses têm uma frequência maior de inadimplência. No entanto, como a diferença é sutil, outros dados devem ser analisados para chegar a uma conclusão.

* **Meses de inatividade nos últimos 12 meses:** A análise da coluna
`meses_inativo_12m` mostra que a distribuição de clientes adimplentes e inadimplentes se mantém parelha, sendo uma variável com informações irrelevantes para a nossa análise.

* **Limite de crédito:** A análise da coluna `limite_credito` mostra que a distribuição dos dados é semelhante para clientes adimplentes e inadimplentes, sendo uma variável com informações irrelevantes para a nossa análise.

* **Valor das transações nos últimos 12 meses:** Observando a coluna `valor_transacoes_12m`, é possível ver que a maioria dos valores transacionados pelos clientes inadimplentes está na faixa de R $ 1.000,00 a 3.000,00, gerando um grande volume de dados de clientes inadimplentes.

* **Quantidade das transações nos últimos 12 meses:** Com a análise da coluna `qtd_transacoes_12m`, podemos notar que o número de clientes inadimplentes é expressivo na faixa de 20 a 60 transações anuais. Quando os clientes atingem essa quantidade de transações, há uma tendência maior de se tornarem inadimplentes.

##**7. Conclusão**

Com os insights gerados pela análise de dados acima, concluímos quais dados possuem grande influência em nosso DataFrame para explicar o comportamento dos clientes inadimplentes. Os principais fatores identificados são a quantidade e os valores das transações. Conforme o gráfico a seguir, podemos destacar as seguintes informações:

- Observando a intensidade de dados de clientes inadimplentes podemos notar que há dois grupos que predominam na escala. E que quanto menor a quantidade de transações e menores os valores transacionados, há mais risco do cliente se tornar inadimplente.

Com essa análise, é possível criar estratégias eficientes para diminuir a quantidade de clientes inadimplentes nas instituições financeiras. Por exemplo:

* Oferecer programas de educação financeira, com o intuito de auxiliar os clientes a gerenciar melhor os seus gastos.

* Ajuste do limite de crédito, com o objetivo de ajustar os limites de crédito dos clientes com base no seu histórico de transações e comportamento de pagamento para evitar o excesso de endividamento.

* Comunicação direcionada, como SMS e whatsapp lembrando-os de seus pagamentos pendentes e oferecendo soluções flexíveis para quitar suas dívidas.

* Ofertas personalizadas para incentivar o aumento de transações e de valores, como por exemplo: descontos em serviços ou produtos adicionais ao atingir certos níveis de transação.

Outro ponto importantíssimo é que ao oferecer soluções proativas e personalizadas, as instituições podem cultivar relacionamentos mais sólidos e duradouros com seus clientes, aumentando a confiança e o engajamento ao longo do tempo.


In [None]:
f = sns.relplot(x='valor_transacoes_12m', y='qtd_transacoes_12m', data=df, hue='default')
_ = f.set(
    title='Relação entre Valor e Quantidade de Transações no Último Ano',
    xlabel='Valor das Transações no Último Ano',
    ylabel='Quantidade das Transações no Último Ano'
  )