
# **Analise de Inadimplência**  
Projeto Final **EBAC**<br>
Por [Geofrey Sasai](https://www.linkedin.com/in/geofrey-sasai-63209b143//)

---

# **Tópicos**

<ol type="1">
  <li>Descrição do problema;</li>
  <li>Código de importação de bibliotecas;</li>
  <li>Código de carregamento;</li>
  <li>Etapa de exploração;</li>
  <li>Etapa de limpeza e transformação;</li>
  <li>Etapa de análise;</li>
  <li>Insights.</li>
</ol>


---

# **Analise de Inadimplência**

## 1\. Descrição do problema

No âmbito financeiro, a inadimplência representa um desafio substancial enfrentado por empresas. A identificação de padrões entre os clientes inadimplentes e o desenvolvimento de estratégias preventivas são imperativos para a preservação da saúde financeira da organização. O propósito deste projeto em Python é conduzir uma análise aprofundada dos dados disponíveis, com o objetivo de compreender os fatores contribuintes para a inadimplência. Com base nessas descobertas, almejamos fornecer insights cruciais que servirão como fundamentos para soluções proativas.

> Os dados em consideração estão acessíveis através deste [link](https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.csv). A variável principal objeto de investigação, denominada variável resposta ou variável dependente, é representada pelo atributo (`default`), indicando se um cliente é adimplente (`default = 0`) ou inadimplente (`default = 1`). Os atributos como idade, salário e outros são categorizados como variáveis explicativas. Estas variáveis oferecem pistas sobre os possíveis fatores que podem influenciar a ocorrência do evento representado por (`default`).

**A tabela abaixo fornece uma descrição detalhada das colunas presentes nos dados:**


| Coluna  | Descrição |
| ------- | --------- |
| id      | Número da conta |
| default | Indica se o cliente é adimplente (0) ou inadimplente (1) |
| idade   | --- |
| sexo    | --- |
| depedentes | --- |
| escolaridade | --- |
| estado_civil | --- |
| salario_anual | Faixa do salario mensal multiplicado por 12 |
| tipo_cartao | Categoria do cartao: blue, silver, gold e platinium |
| meses_de_relacionamento | Quantidade de meses desde a abertura da conta |
| qtd_produtos | Quantidade de produtos contratados |
| iteracoes_12m | Quantidade de iteracoes com o cliente no último ano |
| meses_inatico_12m | Quantidade de meses que o cliente ficou inativo no último ano |
| limite_credito | Valor do limite do cartão de crédito |
| valor_transacoes_12m | Soma total do valor das transações no cartão de crédito no último ano |
| qtd_transacoes_12m | Quantidade total de transações no cartão de crédito no último ano |



## 2\. Código de importação de bibliotecas

Utilizarei três bibliotecas para a execução deste projeto:

Inicialmente, empregarei o Pandas para efetuar a leitura dos dados, organizando-os em um dataframe para uma manipulação mais eficaz.

Em seguida, farei uso das bibliotecas Seaborn e Matplotlib.pyplot, que são especializadas em visualização de dados. Estas ferramentas proporcionarão recursos gráficos que facilitarão a interpretação e análise dos dados, contribuindo para uma compreensão mais aprofundada dos padrões e relações presentes.


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## 3\. Código de carregamento

Neste código, estamos utilizando o conjunto de dados contido no Kaggle. O Pandas é empregado para carregar os dados a partir de um arquivo CSV acessível no Kaggle. A função read_csv do Pandas é utilizada para essa finalidade. É importante observar que durante o processo de leitura, valores marcados como 'na' são tratados como dados ausentes, contribuindo para a robustez do tratamento de dados faltantes no conjunto de dados.

In [None]:
file_path = '/kaggle/input/credito/credito.csv'
df = pd.read_csv((file_path), na_values='na')

## 4\. Etapa de exploração

Neste estágio, direcionamos nossa atenção para a análise detalhada das necessidades de tratamento dos dados.

In [None]:
df.head(n=10) # O comando df.head(n=10) é utilizado para apresentar as 10 primeiras linhas do conjunto de dados, proporcionando uma visão inicial das entradas.

O código df.dtypes é empregado para examinar os tipos de dados em cada coluna. Observa-se que as colunas `limite_credito` e `valor_transacoes_12m` estão sendo identificadas como **object** quando, na verdade, deveriam ser do tipo **float**.

In [None]:
df.dtypes

O código df.isna().any() é utilizado para verificar a presença de dados faltantes em cada coluna. Identifica-se que as colunas `escolaridade`, `estado_civil` e `salario_anual` contêm valores ausentes.

In [None]:
df.isna().any()

> Diante dessas observações, torna-se evidente a necessidade de abordar dois pontos específicos:

*   A correção dos campos com dados ausentes (`escolaridade`, `estado_civil` e `salario_anual`);
*   A conversão numérica adequada das colunas `limite_credito` e `valor_transacoes_12m`.

## 5\. Etapa de limpeza e transformação

Durante a etapa de Limpeza e Transformação, focamos no tratamento de dados ausentes e na conversão das variáveis limite_credito e valor_transacoes_12m de strings para valores em ponto flutuante (float). Este processo é fundamental para aprimorar a qualidade dos dados, assegurar a consistência, integridade e adequação às metas analíticas, preparando-os para análises mais detalhadas.

### **5.1**\. Tratamento de dados ausentes

Vamos iniciar analisando a quantidade total de linhas e colunas, além da proporção de clientes adimplentes e inadimplentes.

In [None]:
qtd_total = df.shape # Retorna a quantidade de linhas e colunas totais
qtd_adimplentes = df[df['default'] == 0].shape # Retorna a quantidade de linhas e colunas dos adimplentes
qtd_inadimplentes = df[df['default'] == 1].shape # Retorna a quantidade de linhas e colunas dos inadimplentes

print(f"O Total de linhas é de {qtd_total[0]}")
print(f"A proporcão clientes adimplentes é de {round(100 * qtd_adimplentes[0] / qtd_total[0], 2)}%")
print(f"A proporcão clientes inadimplentes é de {round(100 * qtd_inadimplentes[0] / qtd_total[0], 2)}%")

Em seguida, procedemos à exclusão das linhas que contêm dados ausentes.

In [None]:
df.dropna(inplace=True)

Para confirmar a eficácia da exclusão, verificamos novamente a presença de dados ausentes.

In [None]:
df.isna().any()

Posteriormente, analisamos se a exclusão dos dados faltantes teve um impacto significativo nas proporções analisadas.

In [None]:
qtd_total_novo = df.shape
qtd_adimplentes_novo = df[df['default'] == 0].shape
qtd_inadimplentes_novo = df[df['default'] == 1].shape

print(f"O Total de linhas era de {qtd_total[0]}")
print(f"A proporcão clientes adimplentes era de {round(100 * qtd_adimplentes[0] / qtd_total[0], 2)}%")
print(f"A proporcão clientes inadimplentes era de {round(100 * qtd_inadimplentes[0] / qtd_total[0], 2)}%")
print("")
print(f"O Total de linhas é de {qtd_total_novo[0]}")
print(f"A proporcão clientes inadimplentes é de {round(100 * qtd_adimplentes_novo[0] / qtd_total_novo[0], 2)}%")
print(f"A nova proporcão de clientes inadimplentes é de {round(100 * qtd_inadimplentes_novo[0] / qtd_total_novo[0], 2)}%")


> As proporções sofreram variações inferiores a 0,5%.

### **5.2**\. Convertendo de object para float

Formata o dado e em seguida transforma em float.

In [None]:
df['valor_transacoes_12m'] = df['valor_transacoes_12m'].apply(lambda valor: float(valor.replace(".", "").replace(",", ".")))
df['limite_credito'] = df['limite_credito'].apply(lambda valor: float(valor.replace(".", "").replace(",", ".")))

Confirmando se o tipo de dado das colunas `limite_credito` e `valor_transacoes_12m` foram alterados para *float*:

In [None]:
df.dtypes

## 6\. Etapa de análise

Os dados estão prontos, e agora iniciaremos a fase de análise. Criaremos várias visualizações para correlacionar as variáveis explicativas com a variável resposta, buscando compreender os fatores que levam um cliente à inadimplência. Durante essa análise, faremos comparações entre a base de todos os clientes e as bases específicas de clientes adimplentes e inadimplentes.

> No código apresentado, estamos utilizando a biblioteca Seaborn para ajustar o estilo estético das nossas visualizações. A função set_style("whitegrid") configura o fundo do gráfico para um padrão de grade branca, o que proporciona uma estética limpa e organizada às nossas representações visuais. Em seguida, criamos duas novas variáveis, df_adimplente e df_inadimplente, que representam subconjuntos dos dados originais (df). Esses subconjuntos são gerados filtrando-se os clientes com base na variável de resposta default.

In [None]:
sns.set_style("whitegrid")

df_adimplente = df[df['default'] == 0]
df_inadimplente = df[df['default'] == 1]

### **6.1**\. Gráfico da quantidade de transações nos últimos 12 meses

Nesse trecho de código, estamos criando um conjunto de visualizações de histograma para analisar a distribuição da quantidade de transações nos últimos 12 meses. Vamos analisar cada parte do código:

Definição das Variáveis:

> coluna: A variável que representa a quantidade de transações nos últimos 12 meses ('qtd_transacoes_12m').

>titulos: Uma lista que contém os títulos para cada uma das visualizações. 'Qtd. de Transações no Último Ano': Título da visualização geral. 'Qtd. de Transações no Último Ano de Adimplentes': Título da visualização para clientes adimplentes. 'Qtd. de Transações no Último Ano de Inadimplentes': Título da visualização para clientes inadimplentes.

Configuração da Visualização:

> eixo e max_y: Variáveis auxiliares para controlar a posição dos eixos e o valor máximo no eixo y.

>figura, eixos: Inicialização da figura com três eixos (subplots) para as três visualizações lado a lado. figsize=(20, 5): Tamanho da figura é definido como (20, 5). sharex=True: Os eixos compartilham o mesmo eixo x.

Loop de Criação dos Histogramas:

> Para cada DataFrame no loop (df, df_adimplente, df_inadimplente):

>f = sns.histplot(...): Criação do histograma para a quantidade de transações usando o DataFrame atual. O histograma é plotado no respectivo eixo.

>f.set(...): Configuração do título e rótulos dos eixos.

>_, max_y_f = f.get_ylim(): Obtém o limite superior atual no eixo y.

>max_y = max_y_f if max_y_f > max_y else max_y: Atualiza o valor máximo no eixo y.

>f.set(ylim=(0, max_y)): Configura o limite superior no eixo y.

Exibição da Figura:

> figura.show(): Exibição da figura contendo os três histogramas lado a lado.

In [None]:
coluna = 'qtd_transacoes_12m'
titulos = ['Qtd. de Transações no Último Ano', 'Qtd. de Transações no Último Ano de Adimplentes', 'Qtd. de Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

### **6.2**\. Gráfico dos valores das transações nos últimos 12 meses

Neste trecho de código, estamos concentrando nossa análise nas informações relacionadas aos valores das transações nos últimos 12 meses. Especificamente, a variável coluna foi definida para representar 'valor_transacoes_12m'.

Os títulos em titulos foram ajustados para refletir a análise específica que estamos realizando. Agora, esses títulos são 'Valor das Transações no Último Ano', 'Valor das Transações no Último Ano de Adimplentes' e 'Valor das Transações no Último Ano de Inadimplentes'. Cada título corresponde a uma visualização distinta, proporcionando insights sobre como esses valores estão distribuídos entre todos os clientes, os clientes adimplentes e os inadimplentes.

In [None]:
coluna = 'valor_transacoes_12m'
titulos = ['Valor das Transações no Último Ano', 'Valor das Transações no Último Ano de Adimplentes', 'Valor das Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

### **6.3**\. Gráfico da relação entre o valor das transações nos últimos 12 meses e a quantidade de transações nos últimos 12 meses

Neste trecho de código, estamos explorando a relação entre duas variáveis: o valor das transações nos últimos 12 meses (representado no eixo x) e a quantidade de transações nos últimos 12 meses (representada no eixo y). Utilizando um gráfico de dispersão, cada ponto representa um cliente, sendo diferenciados pelas cores de acordo com sua condição de adimplência ou inadimplência.

O título do gráfico é 'Relação entre Valor e Quantidade de Transações no Último Ano', e os rótulos dos eixos x e y são configurados para refletir as variáveis em análise, ou seja, 'Valor das Transações no Último Ano' e 'Quantidade das Transações no Último Ano', respectivamente. Este gráfico busca fornecer insights sobre como o valor e a quantidade de transações estão relacionados, além de examinar se há padrões distintos entre clientes adimplentes e inadimplentes.

In [None]:
f = sns.relplot(x='valor_transacoes_12m', y='qtd_transacoes_12m', data=df, hue='default')
_ = f.set(
    title='Relação entre Valor e Quantidade de Transações no Último Ano',
    xlabel='Valor das Transações no Último Ano',
    ylabel='Quantidade das Transações no Último Ano'
  )

## 7\. Insights

Diante da análise das transações financeiras nos últimos 12 meses, conseguimos extrair insights sobre o comportamento dos clientes em relação à inadimplência. A identificação desses padrões específicos, tanto na quantidade quanto no valor das transações, proporciona uma compreensão mais profunda dos fatores que podem influenciar o risco de inadimplência.

Ao observar a distribuição da quantidade e valor das transações, destacam-se grupos distintos de clientes, esses padrões podem ser fundamentais para aprimorar estratégias de gestão de riscos e implementar medidas preventivas mais eficazes.




Quantidade de Transações dos Clientes Inadimplentes:

> A quantidade de transações no último ano para clientes inadimplentes varia entre 20 e 60, com uma incidência significativa em torno de 40 transações anuais.


Valor das Transações dos Clientes Inadimplentes:

> O valor das transações no último ano para clientes inadimplentes está concentrado na faixa de 500 a 2500, sendo mais frequente próximo aos 2500.

Relação entre Valor e Quantidade de Transações:

> O gráfico de relação entre valor e quantidade de transações revela dois grupos distintos com maiores concentração:
1.   Um grupo com 60 a 80 transações anuais, movimentando valores entre 7500 e 10000 anuais.
2.   Um grupo mais prevalente, com 20 a 60 transações anuais e valores entre 500 e 2500 anuais.

Clientes com Alta Frequência e Valor de Transações:

> Observamos que clientes que realizam mais de 100 transações e movimentam valores acima de 12500 não apresentam uma tendência significativa de se tornarem inadimplentes.

Gostaria de expressar meu sincero agradecimento por dedicar seu tempo à revisão deste projeto. Sua atenção e insights são extremamente valiosos. Se houver qualquer dúvida, sugestão ou ponto específico que você gostaria de discutir, estou à disposição para fornecer esclarecimentos adicionais.

Obrigado e até uma próxima.

____