# Projeto de Inadimplência de Clientes de Cartão de Crédito

_Projeto final do módulo Técnicas de Programação I da trilha de Data Science do Santander Coders 2024.2, ministrado por Roberto Pontes. O projeto foi elaborado por Maria Paula Andrade, Gabriel Marques, Filipe Sousa e Gabriel Santos._

> 1. [Problema de negócios](#problema)
> 2. [Objetivos](#objetivos)
> 3. [Dicionário dos dados](#dicionario) 
> 4. [Importando as bibliotecas](#importando)
> 5. [Carregando os dados](#carregandodados)
> 6. [Entendendo a base de dados](#entendendo)
> 7. [Tratando os dados](#tratandodados) 
> 8. [Análises Gerais](#analises-gerais)
> 9. [Analisando perfís](#perfil-pagadores)
> 10. [Próximos passos](#proximospassos)

## Problema de Negócios <a id='problema'></a>

A inadimplência é um problema recorrente em diversas empresas, especialmente aquelas que operam no setor de concessão de crédito. Empresas de crédito enfrentam o desafio contínuo de melhorar a eficiência de suas estratégias de recuperação de crédito, uma vez que a inadimplência representa um risco financeiro significativo. A incapacidade de recuperar valores devidos pode impactar negativamente o fluxo de caixa e a sustentabilidade das operações, afetando diretamente a lucratividade da empresa.

Para melhorar a eficiência na recuperação de crédito, é fundamental o mapeamento adequado dos clientes inadimplentes. Este mapeamento é essencial para a adoção de estratégias de cobrança mais eficazes, direcionando esforços para recuperar o crédito de maneira mais assertiva. Empresas de cobrança e concessão de crédito, ao entenderem o perfil dos inadimplentes, conseguem otimizar seus processos, reduzindo custos operacionais e aumentando a taxa de recuperação.

Além disso, um mapeamento preciso permite uma avaliação mais criteriosa na concessão de crédito, ajudando a reduzir o risco associado à inadimplência. Ao entender os padrões de comportamento de pagamento dos clientes, as empresas podem ajustar seus critérios de avaliação de crédito, minimizando o risco de novos casos de inadimplência e melhorando a sustentabilidade financeira de suas operações.

Contudo, não é apenas o mapeamento de clientes inadimplentes que é crucial para a estratégia de uma empresa de crédito. O mapeamento de clientes adimplentes também é vital, pois permite identificar aqueles que mantêm um histórico de pagamento positivo e consistente. Esse entendimento possibilita a oferta de novas linhas de crédito ou o aumento do limite de crédito já existente para esses clientes, promovendo a fidelização e potencializando as oportunidades de receita.

Portanto, o problema de negócios a ser resolvido consiste em desenvolver um modelo que permita não apenas identificar de forma eficaz os clientes inadimplentes, melhorando a eficiência das estratégias de cobrança, mas também otimizar o mapeamento de clientes adimplentes para ampliar oportunidades de negócios, assegurando a saúde financeira da empresa.


## Objetivos 

O principal objetivo deste projeto é mapear e identificar se um usuário de cartão de crédito é bom ou mau pagador com base em suas características financeiras e demográficas para da suporte a tomada de decisão de empresas de cobrança/recuperação de crédito e concessão de empréstimo. Os objetivos técnicos deste estudo de caso são:
* Entender as características do conjunto de dados (dimensão, tipo de variáveis).
* Avaliar a integridade e consistência dos dados (valores ausentes, duplicidades etc).
* Elaborar estatísticas descritivas das variáveis numéricas.
* Analisar as relações entre inadimplência e variáveis demográficas e financeiras.
* Utilizar as bibliotecas NumPy e Pandas para executar as atividades anteriores.

## Base de dados 

A base de dados é uma adaptação feita por Setphen Klosterman da base original extraída UC Machine Learning Repository.

## Dicionário dos dados <a id='dicionario'></a>

### Descrição das Variáveis <a id='descricao'></a>

_Variáveis contendo informações pessoais dos clientes:_
- **ID** Código de identificação do cliente.
- **LIMIT_BAL** Limite de crédito concedido aos clientes (em dólares de Taiwan - \$NT).
- **SEX** Sexo (1 = Homem, 2 = Mulher).
- **EDUCATION** Nível de Escolaridade (1 = Pós-graduação, 2 = Graduação, 3 = Ensino Médio, 4 = Outros).
- **MARRIAGE** Estado Civil (1 = Solteiro, 2 = Casado, 3 = Outros).
- **AGE** Idade (em anos).

_Variáveis contendo informações do status de pagamento dos clientes em um determinado mês:_
- **PAY_1** Status de Pagamento em Setembro de 2005 (-1 = pagamento em dia, 1 = pagamento atrasado há 1 mês, 2 = pagamento atrasado há 2 meses, ..., 8 = pagamento atrasado há 8 meses).
- **PAY_2** Status de Pagamento em Agosto de 2005 (mesmos valores descritos na variável anterior).
- **PAY_3** Status de Pagamento em Julho de 2005 (mesmos valores descritos na variável anterior).
- **PAY_4** Status de Pahamento em Junho de 2005 (mesmos valores descritos na variável anterior).
- **PAY_5** Status de Pagamento em Maio de 2005 (mesmos valores descritos na variável anterior).
- **PAY_6** Status de Pagamento em Abril de 2005 (mesmos valores descritos na variável anterior).

_Variáveis contendo informações do valor da fatura dos clientes em um determinado mês:_
- **BILL_AMT1** Valor do Extrato da Fatura do Cartão em Setembro de 2005 (em \$NT).
- **BILL_AMT2** Valor do Extrato da Fatura do Cartão em Agosto de 2005 (em \$NT).
- **BILL_AMT3** Valor do Extrato da Fatura do Cartão em Julho de 2005 (em \$NT).
- **BILL_AMT4** Valor do Extrato da Fatura do Cartão em Junho de 2005 (em \$NT).
- **BILL_AMT5** Valor do Extrato da Fatura do Cartão em Maio de 2005 (em \$NT).
- **BILL_AMT6** Valor do Extrato da Fatura do Cartão em Abril de 2005 (em \$NT).

_Variáveis contendo informações do valor do pagamento da fatura dos clientes no mês anterior:_
- **PAY_AMT1** Valor pago na fatura anterior a Setembro de 2005 (em \$NT).
- **PAY_AMT2** Valor pago na fatura anterior a Agosto de 2005 (em \$NT).
- **PAY_AMT3** Valor pago na fatura anterior a Julho de 2005 (em \$NT).
- **PAY_AMT4** Valor pago na fatura anterior a Junho de 2005 (em \$NT).
- **PAY_AMT5** Valor pago na fatura anterior a Maio de 2005 (em \$NT).
- **PAY_AMT6** Valor pago na fatura anterior a Abril de 2005 (em \$NT).

_Informação sobre Inadimplência:_
- **default payment next month** - Indica se o cliente está adimplente (0) ou Inadimplente (1) em Outubro de 2005.

### Classificação das Variáveis <a id='classificacao'></a>

- **Variáveis Numéricas:** LIMIT_BAL, AGE, BILL_AMT1 a BILL_AMT6, PAY_AMT1 a PAY_AMT6.
- **Variáveis Categóricas:** SEX, EDUCATION, MARRIAGE, default payment next month.
- **Variáveis Numéricas e Categóricas:** PAY_1 a PAY_6.

Observação: As variáveis de PAY_1 a PAY_6 são do tipo híbrida (categórica e numérica). O valor -1 corresponde a uma categoria e os valores de 1 a 8 representam quantidade de meses com pagamento atrasado.

## Importando as bibliotecas <a id='importando'></a>

In [1]:
import pandas as pd # Manipulação de Dados Tabulares

import warnings # Controle de Warnings
warnings.filterwarnings('ignore')

## Carregando os dados <a id="carregandodados"></a>

In [2]:
df = pd.read_excel("dados/default_of_credit_card_clients__courseware_version_1_21_19.xls")
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


## Entendendo a base de dados <a id="entendendo"></a>

Os objetivos desta subseção são:
* Verificar a dimensão da base de dados, quantidade de valores duplicados, quantidade de _missing values_ e quantidade de valores nulos nas variáveis.
* Verificar o número de ocorrências de cada valor em cada variável e checar se está de acordo com os valores mencionados na descrição das variáveis.

In [3]:
# Verificando a dimensão da base de dados
print('Número de linhas:', df.shape[0])
print('Número de colunas:', df.shape[1])

Número de linhas: 30000
Número de colunas: 25


In [4]:
# Verificando as colunas da base de dados
df.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_1',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month'],
      dtype='object')

In [5]:
# Verificando informações sobre as variáveis
df.info()
print('Há', len(df.select_dtypes(include=['int', 'float']).columns), 'variáveis do tipo numérica (int ou float)!')
print('Há', len(df.select_dtypes(include=['object']).columns), 'variáveis do tipo objeto!')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   ID                          30000 non-null  object
 1   LIMIT_BAL                   30000 non-null  int64 
 2   SEX                         30000 non-null  int64 
 3   EDUCATION                   30000 non-null  int64 
 4   MARRIAGE                    30000 non-null  int64 
 5   AGE                         30000 non-null  int64 
 6   PAY_1                       30000 non-null  object
 7   PAY_2                       30000 non-null  int64 
 8   PAY_3                       30000 non-null  int64 
 9   PAY_4                       30000 non-null  int64 
 10  PAY_5                       30000 non-null  int64 
 11  PAY_6                       30000 non-null  int64 
 12  BILL_AMT1                   30000 non-null  int64 
 13  BILL_AMT2                   30000 non-null  in

In [6]:
# Criando máscara para identificar variáveis com missing values
null_mask = df.isnull().sum().values != 0

# Verificando a quantidade de missing values nas variáveis 
if len(df.isnull().sum()[null_mask].index) == 0:
    print('Nenhuma variável possui missing values!')
else: 
    print('As variáveis com missing values são:', list(df.isnull().sum()[df.isnull().sum().values != 0].index))

Nenhuma variável possui missing values!


In [7]:
# Verificando a quantidade de valores únicos nas variáveis
df.nunique()

ID                            29687
LIMIT_BAL                        82
SEX                               3
EDUCATION                         7
MARRIAGE                          4
AGE                              57
PAY_1                            12
PAY_2                            11
PAY_3                            11
PAY_4                            11
PAY_5                            10
PAY_6                            10
BILL_AMT1                     22510
BILL_AMT2                     22146
BILL_AMT3                     21822
BILL_AMT4                     21350
BILL_AMT5                     20831
BILL_AMT6                     20417
PAY_AMT1                       7890
PAY_AMT2                       7847
PAY_AMT3                       7463
PAY_AMT4                       6901
PAY_AMT5                       6857
PAY_AMT6                       6895
default payment next month        2
dtype: int64

* Espera-se que a base tenha 30.000 linhas onde cada qual possui um ID único representando uma conta bancária (um cliente). A quantidade de IDs (29.687) é menor que a quantidade de linhas (30.000) da base de dados sugerindo que alguns IDs estão repetidos na base de dados.
* A quantidade de categorias na variável `SEX` é 3, mas a descrição da variável menciona apenas 2 classes (Homem e Mulher).
* A quantidade de categorias na variável `EDUCATION` é 7, mas a descrição da variável menciona apenas 4 classes (Pós-graduação, Graduação, Ensino Médio e Outros).
* A quantidade de categorias na variável `MARRIAGE` é 4, mas a descrição da variável menciona apenas 3 classes (Solteiro, Casado e Outros).
* A descrição das variáveis `PAY_1` a `PAY_6` menciona 9 categorias, mas na base de dados há entre 10 a 12 classes em cada variável.

## Tratando os dados <a id='tratandodados'></a>

Os objetivos desta subseção são:

* Igualar a quantidade de classes nas variáveis categóricas à quantidade de classes mencionadas na descrição de variáveis
* Limpar e organizar a base de dados de forma que cada linha represente uma observação e uma coluna represente uma variável.

### Tratando a variável **ID** <a id="tratandoID"></a>

In [8]:
# Verificando quantos IDs existem
print('Quantidade de IDs únicos na base de dados:', df['ID'].nunique())

Quantidade de IDs únicos na base de dados: 29687


In [9]:
# Identificando os IDs que se repetem na base de dados
id_counts = df['ID'].value_counts()
id_counts.head(10)

ID
89f8f447-fca8    2
7c9b7473-cc2f    2
90330d02-82d9    2
75938fec-e5ec    2
2a793ecf-05c6    2
b44b81b2-7789    2
7be61027-a493    2
998fa9b2-b341    2
a3a5c0fc-fdd6    2
4e2380e6-a8cf    2
Name: count, dtype: int64


* Os IDs repetidos aparecem no máximo 2 vezes na base de dados. 
* Para lidar com o problema de IDs duplicados, será usado o _boolean masking_. Essa técnica consiste em usar uma expressão bolena ("True or False") baseada em uma ou mais condições para extrair ou modificar parte dos elementos de uma array. 

In [10]:
# Criando a variável boleana 
dupli_mask = id_counts == 2
dupli_mask.head()

ID
89f8f447-fca8    True
7c9b7473-cc2f    True
90330d02-82d9    True
75938fec-e5ec    True
2a793ecf-05c6    True
Name: count, dtype: bool

In [11]:
# Identificando os IDs duplicados
dupli_ids = id_counts.index[dupli_mask]
dupli_ids[:10]

Index(['89f8f447-fca8', '7c9b7473-cc2f', '90330d02-82d9', '75938fec-e5ec',
       '2a793ecf-05c6', 'b44b81b2-7789', '7be61027-a493', '998fa9b2-b341',
       'a3a5c0fc-fdd6', '4e2380e6-a8cf'],
      dtype='object', name='ID')

In [12]:
# Convertendo os IDs duplicados para lista 
dupli_ids = list(dupli_ids)
print("Existem", len(dupli_ids), "IDs duplicados.")

Existem 313 IDs duplicados.


* Os dados dos 313 IDs duplicados serão analisados para serem extraídos ou unificados na base.

In [13]:
# Selecionando os dados dos 3 primeiros IDs duplicados na base de dados para analisar
df.loc[df['ID'].isin(dupli_ids[0:3]), :]

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
5033,89f8f447-fca8,320000,2,2,1,32,0,0,0,0,...,169371,172868,150827,8000,8000,5500,6100,6000,5000,0
5133,89f8f447-fca8,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15879,7c9b7473-cc2f,90000,2,1,1,29,0,0,0,0,...,27751,20292,14937,2967,2007,1429,1092,412,263,0
15979,7c9b7473-cc2f,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
29646,90330d02-82d9,70000,1,2,1,29,0,0,0,0,...,10694,27908,11192,2009,1404,3016,20001,2000,5002,0
29746,90330d02-82d9,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


* A partir da amostra da tabela acima percebe-se que cada IDs duplicado contém 1 linha com dados aparentmente válidos e 1 linha com valores nulos.
* A técnica _boolean masking_ será utilizada novamente para selecionar as linhas com valores zerados.
* Os dados zerados são inválidos porque não é provável uma conta bancária cujo proprietário tem 0 de idade, por exemplo.

In [14]:
# Identificando as linhas com os valores zerado na base de dados 
df_zero_mask = df == 0

# Criando uma coluna que terá o valor 1 caso todos os valores restantes na linha sejam iguais a zero. 
feature_zero_mask = df_zero_mask.iloc[:, 1:].all(axis=1)

# Contando a quantidade de linhas que possuem valores zerados 
sum(feature_zero_mask)
print("Existem", sum(feature_zero_mask),"linhas com valores zerados.")

Existem 315 linhas com valores zerados.


 * Existem 315 linhas com valores zerados e 313 IDs duplicados. Portanto, ao eliminar as linhas com valores zerados, o problema de IDs duplicados será resolvido.

In [15]:
# Extraindo as linhas com os valores zerados da base de dados e criando uma novo DataFrame
df_clean_1 = df.loc[~feature_zero_mask, :].copy()

# Verificando as novas dimensões do DataFrame "df_clean_1"
print('Número de linhas do novo dataframe:', df_clean_1.shape[0])
print('Número de colunas do novo dataframe:', df_clean_1.shape[1])

Número de linhas do novo dataframe: 29685
Número de colunas do novo dataframe: 25


In [16]:
# Verificando quantos IDs únicos existem no novo DataFrame "df_clean_1"
df_clean_1['ID'].nunique()

29685

In [17]:
# Salvando o DataFrame sem IDs duplicados no formato CSV 
df_clean_1.to_csv("dados/df_clean_1.csv")

##### (Extra) Outro Método de Tratamento para a variável ID
* Outra forma de remover os IDs duplicados é utilizando o método _drop_duplicates()_ da biblioteca pandas.

In [18]:
# Usando o método drop_duplicates() para remover linhas com IDs duplicados
df_dupli_removed = df.drop_duplicates(['ID'], keep = 'first', ignore_index = True)
print('Dimensões do DataFrame com IDs duplicados removidos:', df_dupli_removed.shape)
print('Número de IDs únicos:', df_dupli_removed['ID'].nunique())

Dimensões do DataFrame com IDs duplicados removidos: (29687, 25)
Número de IDs únicos: 29687


* Nota-se que a quantidade de linhas do DataFrame `df_dupli_removed` (29687) é maior que a do `df_clean_1` (29685). Isso ocorre porque no `df_clean_1` foram removidas as linhas com a 2ª ocorrência do ID duplicado *e* todas as linhas com valores zerados.
* Para equalizar o número de linhas nos 2 DataFrames, vou selecionar e remover as linhas com valores zerados no DataFrame `df_dupli_removed`.

In [19]:
# Selecionando as linhas com valores zerados 
df_dupli_removed[df_dupli_removed['SEX'] == 0]

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
17150,17fb5354-37ec,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
19659,5d7d605d-f03c,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [20]:
# Removendo as linhas com valores zerados 
df_dupli_removed_1 = df_dupli_removed.drop([17150, 19659], axis = 0)
df_dupli_removed_1.shape

(29685, 25)

In [21]:
# Confirmando se as linhas com valores zerados foram de fato eliminadas
df_dupli_removed_1[df_dupli_removed_1['SEX'] == 0]

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month


* Agora, os DataFrames `df_clean_1` e `df_dupli_removed_1` (renomeado) possuem as mesmas dimensões e valores. O primeiro pela técinca de _boolean masking_ e o segundo pelo método _drop_duplicates()_.

### Tratando a variável **SEX** <a id='tratandoSEX'></a>

In [22]:
# Verificando quantidade de classes em SEX
print('A variável SEX possui', df_clean_1['SEX'].nunique(), 'classes:', df_clean_1['SEX'].value_counts().index.to_list())

A variável SEX possui 2 classes: [2, 1]


* Após o tratamento da variável `ID`, a variável `SEX` apresentou 2 classes, que corresponde as categorias mencionadas na sua descrição (homem e mulher).

In [23]:
# Substituindo os valores da variável 'SEX' pelo nome das classes correspondentes
df_clean_1['SEX'] = df_clean_1['SEX'].replace({1:'Homem', 2:'Mulher'})
df_clean_1['SEX'].value_counts()

SEX
Mulher    17910
Homem     11775
Name: count, dtype: int64

### Tratando a variável **EDUCATION** <a id='tratandoEDUCATION'></a>

In [24]:
# Verificando quantidade de classes em EDUCATION
print('A variável EDUCATION possui', df_clean_1['EDUCATION'].nunique(), 'classes.')

A variável EDUCATION possui 7 classes.


In [25]:
df_clean_1['EDUCATION'].value_counts()

EDUCATION
2    13884
1    10474
3     4867
5      275
4      122
6       49
0       14
Name: count, dtype: int64

* Além das classes mencionadas na descrição da variável - 1 (Pós-graduação), 2 (Graduação), 3 (Ensino Médio) e 4 (Outros) - a variável `EDUCATION` possui outras 3 classes: 0, 5 e 6. As novas classes serão substituídas por 4 que indica 'Outros'.

In [26]:
# Substituindo os valores não descritos por 4 = outros no DataFrame df_clean_1
df_clean_1['EDUCATION'].replace(to_replace=[0, 5, 6], value = 4, inplace=True)

# Verificando o número de ocorrências para cada valor da variável EDUCATION após as substituições
df_clean_1['EDUCATION'].value_counts()

EDUCATION
2    13884
1    10474
3     4867
4      460
Name: count, dtype: int64

In [27]:
# Substituindo os valores da variável 'EDUCATION' pelo nome das classes correspondentes
df_clean_1['EDUCATION'] = df_clean_1['EDUCATION'].replace({1: 'Pós-graduação', 2: 'Graduação', 3: 'Ensino Médio', 4: 'Outros'})

### Tratando a variável **MARRIAGE** <a id='tratandoMARRIAGE'></a>

In [28]:
# Verificando quantidade de classes em MARRIAGE
print('A variável MARRIAGE possui', df_clean_1['MARRIAGE'].nunique(), 'classes.')

A variável MARRIAGE possui 4 classes.


In [29]:
df_clean_1['MARRIAGE'].value_counts()

MARRIAGE
2    15810
1    13503
3      318
0       54
Name: count, dtype: int64

* Além das classes mencionadas na descrição da variável - 1 (casado), 2 (solteiro) e 3 (outros) - a variável `MARRIAGE` possui mais uma classe: 0. A nova classe será substituída por 3 que indica 'Outros'.

In [30]:
# Substituindo os valores não descritos por 3 = outros no DataFrame df_clean_1
df_clean_1['MARRIAGE'].replace(to_replace=0, value = 3, inplace=True)

# Substituindo os valores da variável 'MARRIAGE' pelo nome das classes correspondentes
df_clean_1['MARRIAGE'] = df_clean_1['MARRIAGE'].replace({1: 'Casado', 2: 'Solteiro', 3: 'Outros'})

### Tratando as variáveis **PAY_1** a **PAY_6** <a id='tratandoPAY1aPAY6'></a>

In [31]:
# Analisando os valores da coluna PAY_1
df_clean_1['PAY_1'].value_counts()

PAY_1
0                13087
-1                5047
1                 3261
Not available     3021
-2                2476
2                 2378
3                  292
4                   63
5                   23
8                   17
6                   11
7                    9
Name: count, dtype: int64

* Existem dois valores inteiros (0 e -2) que não foram listados na descrição das variáveis para a variável `PAY_1`;
* Além dos valores inteiros não listados, a string *"Not available"* tem 3021 ocorrências indicando que existem *missing values*;
* A técnica de *logical masking* será usada novamente para excluir as linhas com as strings *"Not available"* e gerar um novo DataFrame.

In [32]:
# Identificando os valores da coluna PAY_1 com os valores "Not available" através do operador lógico !=
valid_pay_1_mask = df_clean_1['PAY_1'] != "Not available"
print("Existem", sum(valid_pay_1_mask), "linhas sem missing values na coluna PAY_1!")

Existem 26664 linhas sem missing values na coluna PAY_1!


In [33]:
# Criando um novo DataFrame sem as linhas com missing values na coluna PAY_1
df_clean_1 = df_clean_1.loc[valid_pay_1_mask, :]
print('Número de linhas:', df_clean_1.shape[0])
print('Número de colunas:', df_clean_1.shape[1])

Número de linhas: 26664
Número de colunas: 25


In [34]:
# Verificando se as linhas com missing values de fato foram removida do DataFrame df_clean_2
df_clean_1['PAY_1'].value_counts()

PAY_1
0     13087
-1     5047
1      3261
-2     2476
2      2378
3       292
4        63
5        23
8        17
6        11
7         9
Name: count, dtype: int64

In [35]:
# Verificando o tipo de variável da coluna PAY_1
df_clean_1['PAY_1'].info()

<class 'pandas.core.series.Series'>
Index: 26664 entries, 0 to 29999
Series name: PAY_1
Non-Null Count  Dtype 
--------------  ----- 
26664 non-null  object
dtypes: object(1)
memory usage: 416.6+ KB


* A variável `PAY_1` é do tipo _object_, mas esperava-se que fosse do tipo _int_ por causa da descrição da variável, que tem natureza híbrida pois é numérica de 1 a 8 representando a quantidade de meses em atraso e o número -1 representa uma categoria (se o pagamento está em dia).

In [36]:
# Convertendo o tipo de variável PAY_1 de object para int64
df_clean_1['PAY_1'] = df_clean_1['PAY_1'].astype('int64')
df_clean_1['PAY_1'].info()

<class 'pandas.core.series.Series'>
Index: 26664 entries, 0 to 29999
Series name: PAY_1
Non-Null Count  Dtype
--------------  -----
26664 non-null  int64
dtypes: int64(1)
memory usage: 416.6 KB


Os valores -2 e 0 não foram documentados anteriormente na descrição das variáveis. Mas o estudo de caso menciona que a empresa informou posteriormente os outros valores da variável `PAY_1`. A descrição dos valores -2, -1 e 0 são:
* __-2__ A pessoa abriu a conta naquele mês com saldo 0 e nunca usou nenhum crédito anteriormente.
* __-1__ A conta tinha um saldo que foi pago integralmente.
*   __0__ O pagamento mínimo foi feito. Ou seja, o saldo todo não foi pago, logo um saldo positivo foi transferido para o mês seguinte.

In [37]:
# Analisando os valores das outras colunas de status de pagamento (PAY_2 a PAY_6)
lista_PAY2_PAY6 = ['PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6']

# Valores únicos das colunas de status de pagamento (PAY_2 a PAY_6)
for status in lista_PAY2_PAY6:
    print(f'Valores únicos em {status} : {df_clean_1[status].value_counts().index.sort_values().unique().to_list()}')

Valores únicos em PAY_2 : [-2, -1, 0, 1, 2, 3, 4, 5, 6, 7, 8]
Valores únicos em PAY_3 : [-2, -1, 0, 1, 2, 3, 4, 5, 6, 7, 8]
Valores únicos em PAY_4 : [-2, -1, 0, 1, 2, 3, 4, 5, 6, 7, 8]
Valores únicos em PAY_5 : [-2, -1, 0, 2, 3, 4, 5, 6, 7, 8]
Valores únicos em PAY_6 : [-2, -1, 0, 2, 3, 4, 5, 6, 7, 8]


* Todos os valores únicos das variáveis `PAY_2` a `PAY_6` correspondem aos valores que foram documentados no dicionário de dados (-1, 1 a 8) e aqueles que foram introduzidos no tratamento da `PAY_1` (-2 e 0).

In [38]:
# Obtendo todos os índices únicos que aparecem em qualquer uma das colunas PAY
indices_status_pagamento = set(df_clean_1[['PAY_1', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6']].stack().unique())

# Criando dicionário para armazenar a quantidade de ocorrências associada a cada índice em cada variável
dicionario_value_counts = {}
for coluna in ['PAY_1', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6']:
    dicionario_values = df_clean_1[coluna].value_counts().reindex(indices_status_pagamento, fill_value=0)
    dicionario_value_counts[coluna] = dicionario_values
    
# Criando o DataFrame a partir do dicionário
occorencias_PAY1_PAY6 = pd.DataFrame(dicionario_value_counts)
occorencias_PAY1_PAY6

Unnamed: 0,PAY_1,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6
0,13087,13961,13968,14596,15032,14416
1,3261,24,3,2,0,0
2,2378,3509,3400,2798,2335,2476
3,292,289,214,161,151,156
4,63,85,69,57,71,43
5,23,24,20,30,14,10
6,11,11,19,4,2,15
7,9,17,24,51,53,42
8,17,1,3,2,1,2
-2,2476,3375,3654,3893,4056,4366


_(Justificar aqui que há uma inconsistência e que só utilizaremos a PAY_1)_

In [39]:
# Selecionando as variáveis que serão removidas do DataFrame
lista_remover_variaveis = ['PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6']

# Eliminando as variáveis selecionadas do conjunto de dados
df_clean_1 = df_clean_1.loc[:, ~df_clean_1.columns.isin(lista_remover_variaveis)]

_(justificar o porquê separar a variável `PAY_1` já que ela é híbrida - categórica e numérica)_

In [40]:
# Criando uma variável para quantidade de meses em atraso 
df_clean_1['QTE_MESES_ATRASADO'] = df_clean_1['PAY_1']
df_clean_1['QTE_MESES_ATRASADO'].value_counts()

QTE_MESES_ATRASADO
 0    13087
-1     5047
 1     3261
-2     2476
 2     2378
 3      292
 4       63
 5       23
 8       17
 6       11
 7        9
Name: count, dtype: int64

In [41]:
# Atribuindo os nomes que correspondem aos respectivos status de pagamento mensal
df_clean_1['PAY_1'] = df_clean_1['PAY_1'].replace({-2: 'Abriu conta no mês', 
                                                   -1: 'Pagou totalmente', 
                                                    0: 'Pagou o mínimo',
                                                    1: 'Em atraso', 
                                                    2: 'Em atraso', 
                                                    3: 'Em atraso', 
                                                    4: 'Em atraso', 
                                                    5: 'Em atraso',
                                                    6: 'Em atraso', 
                                                    7: 'Em atraso', 
                                                    8: 'Em atraso'})

# Unificando aqueles que não usaram o crédito e estão 100% adimplenetes em Setembro na categoria de que devem 0 meses
df_clean_1['QTE_MESES_ATRASADO'] = df_clean_1['QTE_MESES_ATRASADO'].replace({-2: 0, -1: 0})

# Formatando os valores default payment pelo nomes das classes correspondentes
df_clean_1['STATUS_DEFAULT_PAYMENT'] = df_clean_1['default payment next month'].replace({0: 'Adimplente', 1: 'Inadimplente'})

## Convertendo os valores em NT\$ para U\$ <a id='convertendovalores'></a>

In [42]:
# Selecionando as variáveis que estão em dólares de Taiwan 
colunas_valor_fatura_mes = ['BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6']
colunas_valor_fatura_anterior = ['PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6']
colunas_valor_fatura = colunas_valor_fatura_mes + colunas_valor_fatura_anterior

# Convertendo para dólares americanos (cotação 07/09 - NT$ 32 = U$1)
## Limite de Crédito
df_clean_1['LIMIT_BAL'] = df_clean_1['LIMIT_BAL'].apply(lambda valor: round(valor/32, 2))

## Outras variáveis financeiras 
for coluna in colunas_valor_fatura:
    df_clean_1[coluna] = df_clean_1[coluna].apply(lambda valor: round(valor/32, 2))

In [43]:
df_clean_1.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,BILL_AMT1,BILL_AMT2,BILL_AMT3,...,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month,QTE_MESES_ATRASADO,STATUS_DEFAULT_PAYMENT
0,798fc410-45c1,625.0,Mulher,Graduação,Casado,24,Em atraso,122.28,96.94,21.53,...,0.0,0.0,21.53,0.0,0.0,0.0,0.0,1,2,Inadimplente
1,8a8c8f3b-8eb4,3750.0,Mulher,Graduação,Solteiro,26,Pagou totalmente,83.81,53.91,83.81,...,101.91,0.0,31.25,31.25,31.25,0.0,62.5,1,0,Inadimplente
2,85698822-43f5,2812.5,Mulher,Graduação,Solteiro,34,Pagou o mínimo,913.72,438.34,423.72,...,485.91,47.44,46.88,31.25,31.25,31.25,156.25,0,0,Adimplente
3,0737c11b-be42,1562.5,Mulher,Graduação,Casado,37,Pagou o mínimo,1468.44,1507.28,1540.34,...,923.34,62.5,63.09,37.5,34.38,33.41,31.25,0,0,Adimplente
4,3b7f77cc-dbc0,1562.5,Homem,Graduação,Casado,57,Pagou totalmente,269.28,177.19,1119.84,...,597.84,62.5,1146.28,312.5,281.25,21.53,21.22,0,0,Adimplente


## Análises Gerais <a id='analises-gerais'></a>

In [44]:
# Renomeando o conjunto de dados para df 
df = df_clean_1.copy()

# Renomeando colunas para melhorar a identificação 
df.rename(columns = {'PAY_1': 'STATUS_PGTO_SEPTEMBER', 'default payment next month': 'DEFAULT_OCTOBER'}, inplace=True)

df.rename(columns = {'BILL_AMT1': 'BILL_AMT_SEPT', 'BILL_AMT2': 'BILL_AMT_AUG', 
                     'BILL_AMT3': 'BILL_AMT_JULY', 'BILL_AMT4': 'BILL_AMT_JUNE',
                     'BILL_AMT5': 'BILL_AMT_MAY', 'BILL_AMT6': 'BILL_AMT_APRIL'}, inplace=True)

df.rename(columns = {'PAY_AMT1': 'PAY_AMT_SEPT', 'PAY_AMT2': 'PAY_AMT_AUG', 
                     'PAY_AMT3': 'PAY_AMT_JULY', 'PAY_AMT4': 'PAY_AMT_JUNE',
                     'PAY_AMT5': 'PAY_AMT_MAY', 'PAY_AMT6': 'PAY_AMT_APRIL'}, inplace=True)

# Estatísticas descritivas das variáveis numéricas 
df.describe()

Unnamed: 0,LIMIT_BAL,AGE,BILL_AMT_SEPT,BILL_AMT_AUG,BILL_AMT_JULY,BILL_AMT_JUNE,BILL_AMT_MAY,BILL_AMT_APRIL,PAY_AMT_SEPT,PAY_AMT_AUG,PAY_AMT_JULY,PAY_AMT_JUNE,PAY_AMT_MAY,PAY_AMT_APRIL,DEFAULT_OCTOBER,QTE_MESES_ATRASADO
count,26664.0,26664.0,26664.0,26664.0,26664.0,26664.0,26664.0,26664.0,26664.0,26664.0,26664.0,26664.0,26664.0,26664.0,26664.0,26664.0
mean,5247.470466,35.505213,1606.429137,1540.625106,1469.573193,1354.340515,1260.566843,1215.308562,178.252747,183.784727,164.359928,152.720355,151.366647,164.307686,0.221797,0.357223
std,4057.482909,9.227442,2301.052683,2216.704654,2147.042463,2008.601526,1897.060691,1857.266876,521.856194,662.947145,539.544965,498.635909,478.4913,551.10838,0.415463,0.762609
min,312.5,21.0,-5174.38,-2180.53,-4914.5,-5312.5,-2541.69,-10612.59,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1562.5,28.0,111.88,93.7425,82.0975,73.1825,54.53,39.25,31.25,25.06,12.19,9.2125,7.5825,3.47,0.0,0.0
50%,4375.0,34.0,698.785,660.94,627.485,594.91,564.56,531.41,66.075,62.72,56.94,46.88,46.88,46.88,0.0,0.0
75%,7500.0,41.0,2114.055,2012.3575,1886.25,1710.2375,1571.575,1539.175,157.09,156.25,142.3875,126.575,127.585,125.47,0.0,0.0
max,25000.0,79.0,23337.94,20986.34,26721.44,22089.5,25735.62,21873.25,27298.5,38346.31,27782.59,19406.25,13329.03,16520.81,1.0,8.0


In [45]:
# Estatísticas descritivas das variáveis categóricas
df.select_dtypes(include='object').describe()

Unnamed: 0,ID,SEX,EDUCATION,MARRIAGE,STATUS_PGTO_SEPTEMBER,STATUS_DEFAULT_PAYMENT
count,26664,26664,26664,26664,26664,26664
unique,26664,2,4,3,4,2
top,15d69f9f-5ad3,Mulher,Graduação,Solteiro,Pagou o mínimo,Adimplente
freq,1,16080,12458,14158,13087,20750


* O conjunto de dados é majoritariamente composto por clientes que são do sexo feminino, têm graduação, são solteiras e que pagaram o mínimo na fatura mensal.

### Analisando taxa de inadimplência nas variáveis categóricas 

In [46]:
# % de inadimplenetes por classes das variáveis categóricas 
for variavel in ['SEX', 'EDUCATION', 'MARRIAGE', 'STATUS_PGTO_SEPTEMBER']:
    dados = df.groupby(variavel)['DEFAULT_OCTOBER'].agg(['count', 'mean', 'std']) #.sort_values(by='mean', ascending=False))
    dados.columns = (('Inadimplência', 'Frequência absoluta'), ('Inadimplência', 'Média'), ('Inadimplência', 'Desvio Padrão '))
    display(dados.sort_values(by=('Inadimplência', 'Média'), ascending=False))

Unnamed: 0_level_0,Inadimplência,Inadimplência,Inadimplência
Unnamed: 0_level_1,Frequência absoluta,Média,Desvio Padrão
SEX,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Homem,10584,0.242252,0.428467
Mulher,16080,0.208333,0.406129


Unnamed: 0_level_0,Inadimplência,Inadimplência,Inadimplência
Unnamed: 0_level_1,Frequência absoluta,Média,Desvio Padrão
EDUCATION,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Ensino Médio,4380,0.255479,0.43618
Graduação,12458,0.235913,0.424585
Pós-graduação,9412,0.193901,0.395374
Outros,414,0.074879,0.263515


Unnamed: 0_level_0,Inadimplência,Inadimplência,Inadimplência
Unnamed: 0_level_1,Frequência absoluta,Média,Desvio Padrão
MARRIAGE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Outros,334,0.239521,0.427431
Casado,12172,0.234637,0.423789
Solteiro,14158,0.21034,0.407565


Unnamed: 0_level_0,Inadimplência,Inadimplência,Inadimplência
Unnamed: 0_level_1,Frequência absoluta,Média,Desvio Padrão
STATUS_PGTO_SEPTEMBER,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Em atraso,6054,0.503964,0.500026
Pagou totalmente,5047,0.170002,0.375672
Abriu conta no mês,2476,0.131664,0.338193
Pagou o mínimo,13087,0.128295,0.334431


- Curiosamente o \% de inadimplentes é maior para quem 'Pagou totalmente' do que para quem 'Pagou o mínimo'.

In [47]:
dados_fatura_setembro = df.groupby(['STATUS_PGTO_SEPTEMBER'])['BILL_AMT_SEPT'].agg(['mean', 'std'])
dados_fatura_setembro.columns = ('BILL_AMT_SEPT', 'Média'), ('BILL_AMT_SEPT', 'Desvio Padrão')
display(dados_fatura_setembro.sort_values(by=('BILL_AMT_SEPT', 'Média'), ascending=False))

Unnamed: 0_level_0,BILL_AMT_SEPT,BILL_AMT_SEPT
Unnamed: 0_level_1,Média,Desvio Padrão
STATUS_PGTO_SEPTEMBER,Unnamed: 1_level_2,Unnamed: 2_level_2
Pagou o mínimo,2461.911067,2561.361449
Em atraso,1360.890101,2124.06939
Pagou totalmente,331.483878,828.981814
Abriu conta no mês,283.913001,914.700604


- O valor médio da fatura de setembro para quem 'Pagou totalmente' é menor do que para quem 'Pagou o mínimo'. O que torna ainda mais curioso ter maior inadimplência para quem pagou totalmente, já que eles deviam uma quantia menor do que quem pagou o mínimo.

### Analisando inadimplência nas variáveis numéricas

In [48]:
# Calculando média e desvio padrão da idade por status de inadimplência em outubro
dados_idade = df.groupby(['DEFAULT_OCTOBER'])['AGE'].agg(['mean', 'std'])
dados_idade.columns = ('Idade', 'Média'), ('Idade', 'Desvio Padrão')
dados_idade.index = ['Não', 'Sim']
dados_idade.index.name = 'Inadimplente'
dados_idade

Unnamed: 0_level_0,Idade,Idade
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,35.434602,9.081116
Sim,35.752959,9.720185


- A média de idade para o grupo de adimplentes e inadimplentes é praticamente a mesma. Isso significa que não podemos desenhar nenhum perfil de 'bom pagador' ou 'mau pagador' baseado em idade.
- As idades serão categorizadas em faixas para verificar se as estatísticas de inadimplência mudam entre elas.

In [49]:
# Definindo função para categorizar os intervalos de idade
def categorize_age(age):
    if 20 <= age < 26:
        return 'Jovem Adulto'
    elif 26 <= age < 40:
        return 'Adulto'
    elif 40 <= age < 65:
        return 'Meia-idade'
    else:
        return 'Terceira idade'

# Adicionando variável de faixas de idade
df['AGE_RANGES'] = df['AGE'].apply(categorize_age)

In [50]:
# Calculando média e desvio padrão da idade por status de inadimplência em outubro
dados_idade_faixas = df.groupby(['AGE_RANGES'])['DEFAULT_OCTOBER'].agg(['mean', 'std', 'count'])
dados_idade_faixas.columns = ('Inadimplência', 'Média'), ('Inadimplência', 'Desvio Padrão'), ('Inadimplência', 'Frequência absoluta') 
dados_idade_faixas

Unnamed: 0_level_0,Inadimplência,Inadimplência,Inadimplência
Unnamed: 0_level_1,Média,Desvio Padrão,Frequência absoluta
AGE_RANGES,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Adulto,0.202901,0.402173,15096
Jovem Adulto,0.266219,0.442045,3422
Meia-idade,0.23764,0.425664,8050
Terceira idade,0.28125,0.451969,96


- Em média, o maior \% de inadimplentes está na categoria 'Jovem adulto' e 'Terceira idade'.

In [51]:
# Calculando média e devio padrão do limite de crédito
dados_limite_credito = df.groupby(['DEFAULT_OCTOBER'])['LIMIT_BAL'].agg(['mean', 'std'])
dados_limite_credito.columns = (('LIMIT_BAL', 'Média'), ('LIMIT_BAL', 'Desvio Padrão'))
dados_limite_credito.index = ['Não', 'Sim']
dados_limite_credito.index.name = 'Inadimplente'
dados_limite_credito

Unnamed: 0_level_0,LIMIT_BAL,LIMIT_BAL
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,5581.966867,4112.409853
Sim,4073.848495,3622.294306


* A média e o desvio padrão do limite de crédito é maior para adimplentes do que para inadimplentes.

In [52]:
# Calculando média e desvio padrão dos valores mensais da fatura
valores_faturas_meses = ['BILL_AMT_SEPT', 'BILL_AMT_AUG','BILL_AMT_JULY', 'BILL_AMT_JUNE', 'BILL_AMT_MAY', 'BILL_AMT_APRIL']

for variavel in valores_faturas_meses:
    dados_valor_fatura = df.groupby(['DEFAULT_OCTOBER'])[variavel].agg(['mean', 'std'])
    dados_valor_fatura.columns = ((variavel, 'Média'), (variavel, 'Desvio Padrão'))
    dados_valor_fatura.index = ['Não', 'Sim']
    dados_valor_fatura.index.name = 'Inadimplente'
    display(dados_valor_fatura)

Unnamed: 0_level_0,BILL_AMT_SEPT,BILL_AMT_SEPT
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,1631.622021,2292.673432
Sim,1518.036791,2328.254146


Unnamed: 0_level_0,BILL_AMT_AUG,BILL_AMT_AUG
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,1557.878357,2204.667693
Sim,1480.089941,2257.576562


Unnamed: 0_level_0,BILL_AMT_JULY,BILL_AMT_JULY
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,1486.36435,2144.089287
Sim,1410.659342,2156.519975


Unnamed: 0_level_0,BILL_AMT_JUNE,BILL_AMT_JUNE
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,1366.51049,2002.328801
Sim,1311.640654,2030.050447


Unnamed: 0_level_0,BILL_AMT_MAY,BILL_AMT_MAY
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,1267.406447,1884.457631
Sim,1236.569248,1940.60414


Unnamed: 0_level_0,BILL_AMT_APRIL,BILL_AMT_APRIL
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,1221.529372,1852.13477
Sim,1193.482083,1875.156854


In [53]:
# Calculando média e desvio padrão dos valores (da fatura) anteriores ao mês corrente 
valores_faturas_anteriores = ['PAY_AMT_SEPT', 'PAY_AMT_AUG','PAY_AMT_JULY', 'PAY_AMT_JUNE', 'PAY_AMT_MAY', 'PAY_AMT_APRIL']

for variavel in valores_faturas_anteriores:
    dados_valor_anterior = df.groupby(['DEFAULT_OCTOBER'])[variavel].agg(['mean', 'std'])
    dados_valor_anterior.columns = ((variavel, 'Média'), (variavel, 'Desvio Padrão'))
    dados_valor_anterior.index = ['Não', 'Sim']
    dados_valor_anterior.index.name = 'Inadimplente'
    display(dados_valor_anterior)

Unnamed: 0_level_0,PAY_AMT_SEPT,PAY_AMT_SEPT
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,198.431665,568.507991
Sim,107.452519,295.704579


Unnamed: 0_level_0,PAY_AMT_AUG,PAY_AMT_AUG
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,205.570259,721.648005
Sim,107.347496,383.222488


Unnamed: 0_level_0,PAY_AMT_JULY,PAY_AMT_JULY
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,181.068973,569.124801
Sim,105.73418,414.323586


Unnamed: 0_level_0,PAY_AMT_JUNE,PAY_AMT_JUNE
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,167.247435,529.829866
Sim,101.750299,364.367779


Unnamed: 0_level_0,PAY_AMT_MAY,PAY_AMT_MAY
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,165.83789,505.525496
Sim,100.592503,363.77363


Unnamed: 0_level_0,PAY_AMT_APRIL,PAY_AMT_APRIL
Unnamed: 0_level_1,Média,Desvio Padrão
Inadimplente,Unnamed: 1_level_2,Unnamed: 2_level_2
Não,180.441758,583.36001
Sim,107.6993,413.838909


**Insights**
- A média de fatura das pessoas que não pagaram em Outubro (inadimplente) é inferior aqueles que pagaram. Ou seja, mesmo com o valor de fatura menor, não conseguiram pagar.Isso sugere que há outras características associadas a inadimplencia em Outubro. Por exemplo, o limite de crédito das pessoas que ficam inadimplentes em outubro é menor que os adimplentes. Isso pode justificar o fato do valor da fatura ser menor.
- Ocorre o mesmo para o caso das variáveis de valores anteriores da fatura.

In [54]:
# Calculando média e desvio padrão da quantidade de meses em atraso por grupo de inadimplentes e adimplentes
dados_meses_em_atraso = df.groupby(['DEFAULT_OCTOBER', df['STATUS_PGTO_SEPTEMBER'][df['STATUS_PGTO_SEPTEMBER'] == 'Em atraso']])['QTE_MESES_ATRASADO'].agg(['mean', 'std', 'max'])
#dados_meses_em_atraso.columns = (('Meses em atraso', 'Média'), ('Meses em atraso', 'Desvio Padrão'), ('Meses em atraso', 'Máximo'))
dados_meses_em_atraso.rename_axis(index={'DEFAULT_OCTOBER': 'Inadimplente', 'STATUS_PGTO_SEPTEMBER': 'Status Setembro'}, inplace=True)
#dados_meses_em_atraso.MultiIndex = [('Não', 'Em atraso'), ('Sim', 'Em atraso')]
dados_meses_em_atraso

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,std,max
Inadimplente,Status Setembro,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Em atraso,1.351648,0.717781,8
1,Em atraso,1.791544,0.826492,8


- A média de meses para o grupo de adimplentes e inadimplentes é semelhante e em ambos há pelo menos uma pessoa que fica 8 meses sem efetura o pagamento.
- A quantidade de meses em atraso não parece ser uma variável que podemo contar para desenhar o perfil de 'bom' ou 'mau' pagador.

### Filtrando Outros

In [55]:
for column in df.columns:
    df = df[df[column] != 'Outros']

### Analisando o limite de crédito nas variáveis categóricas 

In [56]:
# Estatísticas de limite de crédito por classes das variáveis categóricas 
for variavel in ['SEX', 'EDUCATION', 'MARRIAGE', 'AGE_RANGES', 'STATUS_PGTO_SEPTEMBER']:
    dados = df.groupby(variavel)['LIMIT_BAL'].agg(['mean', 'std', 'count']) #.sort_values(by='mean', ascending=False))
    dados.columns = (('Limite de crédito', 'Média'), ('Limite de crédito', 'Desvio Padrão'), ('Limite de crédito', 'Frequência absoluta'))
    display(dados.sort_values(by=('Limite de crédito', 'Média'), ascending=False))

Unnamed: 0_level_0,Limite de crédito,Limite de crédito,Limite de crédito
Unnamed: 0_level_1,Média,Desvio Padrão,Frequência absoluta
SEX,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Mulher,5352.632843,3922.068561,15620
Homem,5137.189563,4277.640315,10300


Unnamed: 0_level_0,Limite de crédito,Limite de crédito,Limite de crédito
Unnamed: 0_level_1,Média,Desvio Padrão,Frequência absoluta
EDUCATION,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Pós-graduação,6684.789864,4231.543031,9363
Graduação,4623.776302,3783.177775,12309
Ensino Médio,4005.985758,3583.60735,4248


Unnamed: 0_level_0,Limite de crédito,Limite de crédito,Limite de crédito
Unnamed: 0_level_1,Média,Desvio Padrão,Frequência absoluta
MARRIAGE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Casado,5703.673337,4178.410774,11968
Solteiro,4892.460938,3933.265028,13952


Unnamed: 0_level_0,Limite de crédito,Limite de crédito,Limite de crédito
Unnamed: 0_level_1,Média,Desvio Padrão,Frequência absoluta
AGE_RANGES,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Terceira idade,6844.758065,4418.712265,93
Adulto,5760.544972,3965.768966,14776
Meia-idade,5603.713293,4353.188961,7696
Jovem Adulto,2277.384501,2066.513775,3355


Unnamed: 0_level_0,Limite de crédito,Limite de crédito,Limite de crédito
Unnamed: 0_level_1,Média,Desvio Padrão,Frequência absoluta
STATUS_PGTO_SEPTEMBER,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Abriu conta no mês,7874.921646,3936.206828,2393
Pagou totalmente,6496.826962,4037.860751,4944
Pagou o mínimo,4861.360335,3982.402647,12666
Em atraso,4053.099121,3582.60235,5917


- Mulheres, pessoas casadas, pessoas com pós-graduação e pessoas que abriram conta recentemente possuem o maior limite de crédito. 

## Analisando perfís <a id='perfil-pagadores'></a>

#### Função `display_pagadores`

Exibe a análise percentual da variável comparativa para diferentes valores da variável de agrupamento, filtrando o DataFrame com base no valor específico de uma coluna.

##### Parâmetros

- **`df`** (`pd.DataFrame`): 
  O DataFrame contendo os dados a serem analisados.

- **`colunas`** (`list`): 
  Lista de nomes das colunas a serem consideradas para a análise. Deve incluir a coluna de agrupamento e a variável comparativa.

- **`eixo`** (`str`): 
  Nome da coluna usada para filtrar o DataFrame. A função filtra o DataFrame para manter apenas as linhas onde o valor desta coluna é igual ao valor especificado em `alvo`.

- **`alvo`** (`str`): 
  Valor pelo qual a coluna especificada em `eixo` será filtrada. Apenas as linhas com esse valor serão consideradas na análise.

- **`comparativo`** (`str`): 
  Nome da coluna usada para a variável comparativa. A função calcula a contagem e a porcentagem dos valores desta coluna para cada valor da variável de agrupamento.

##### Exceções

- **`ValueError`**: 
  Se qualquer coluna especificada em `colunas` não estiver presente no DataFrame.

In [57]:
def display_pagadores(df: pd.DataFrame, colunas: list, eixo: str, alvo: str, comparativo: str):    
    for coluna in colunas:
        if coluna not in df.columns:
            raise ValueError(f"Coluna {coluna} não encontrada no DataFrame.")

    df_display = df[(df[eixo] == alvo)]
    for coluna in colunas:
        if (coluna == eixo) or (coluna == comparativo):
            continue
        
        dados = df_display[[coluna, comparativo]]

        coluna_rename = f'{coluna}_{alvo.upper()}'
        dados = dados.rename(columns={coluna : coluna_rename})
        
        contagem = dados.groupby([coluna_rename])[comparativo].value_counts().unstack()
        porcentagem = ((contagem.divide(contagem.sum(axis=1), axis=0) * 100).round(2)).dropna()

        display(porcentagem)

### Perfil dos pagadores 

In [58]:
colunas_pagadores = ['SEX', 'EDUCATION', 'MARRIAGE', 'AGE_RANGES', 'STATUS_DEFAULT_PAYMENT']
comparativo = colunas_pagadores[-1]
df_pagadores = df[colunas_pagadores].copy()

df_pagadores.head()

Unnamed: 0,SEX,EDUCATION,MARRIAGE,AGE_RANGES,STATUS_DEFAULT_PAYMENT
0,Mulher,Graduação,Casado,Jovem Adulto,Inadimplente
1,Mulher,Graduação,Solteiro,Adulto,Inadimplente
2,Mulher,Graduação,Solteiro,Adulto,Adimplente
3,Mulher,Graduação,Casado,Adulto,Adimplente
4,Homem,Graduação,Casado,Meia-idade,Adimplente


#### Sexo

In [59]:
sexo_valores = df_pagadores['SEX'].unique()
for valor in sexo_valores:    
    display_pagadores(df_pagadores, colunas_pagadores, 'SEX', valor, comparativo)


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
EDUCATION_MULHER,Unnamed: 1_level_1,Unnamed: 2_level_1
Ensino Médio,75.79,24.21
Graduação,77.93,22.07
Pós-graduação,81.72,18.28


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
MARRIAGE_MULHER,Unnamed: 1_level_1,Unnamed: 2_level_1
Casado,77.71,22.29
Solteiro,80.02,19.98


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
AGE_RANGES_MULHER,Unnamed: 1_level_1,Unnamed: 2_level_1
Adulto,80.9,19.1
Jovem Adulto,74.12,25.88
Meia-idade,77.44,22.56
Terceira idade,78.26,21.74


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
EDUCATION_HOMEM,Unnamed: 1_level_1,Unnamed: 2_level_1
Ensino Médio,72.27,27.73
Graduação,74.05,25.95
Pós-graduação,79.05,20.95


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
MARRIAGE_HOMEM,Unnamed: 1_level_1,Unnamed: 2_level_1
Casado,73.94,26.06
Solteiro,76.95,23.05


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
AGE_RANGES_HOMEM,Unnamed: 1_level_1,Unnamed: 2_level_1
Adulto,77.26,22.74
Jovem Adulto,70.71,29.29
Meia-idade,74.44,25.56
Terceira idade,63.83,36.17


#### Educação

In [60]:
educacao_valores = df_pagadores['EDUCATION'].unique()
for valor in educacao_valores:    
    display_pagadores(df_pagadores, colunas_pagadores, 'EDUCATION', valor, comparativo)

STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
SEX_GRADUAÇÃO,Unnamed: 1_level_1,Unnamed: 2_level_1
Homem,74.05,25.95
Mulher,77.93,22.07


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
MARRIAGE_GRADUAÇÃO,Unnamed: 1_level_1,Unnamed: 2_level_1
Casado,75.82,24.18
Solteiro,77.05,22.95


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
AGE_RANGES_GRADUAÇÃO,Unnamed: 1_level_1,Unnamed: 2_level_1
Adulto,78.2,21.8
Jovem Adulto,71.71,28.29
Meia-idade,75.71,24.29
Terceira idade,69.23,30.77


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
SEX_PÓS-GRADUAÇÃO,Unnamed: 1_level_1,Unnamed: 2_level_1
Homem,79.05,20.95
Mulher,81.72,18.28


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
MARRIAGE_PÓS-GRADUAÇÃO,Unnamed: 1_level_1,Unnamed: 2_level_1
Casado,79.1,20.9
Solteiro,81.46,18.54


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
AGE_RANGES_PÓS-GRADUAÇÃO,Unnamed: 1_level_1,Unnamed: 2_level_1
Adulto,81.92,18.08
Jovem Adulto,76.64,23.36
Meia-idade,78.82,21.18
Terceira idade,66.67,33.33


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
SEX_ENSINO MÉDIO,Unnamed: 1_level_1,Unnamed: 2_level_1
Homem,72.27,27.73
Mulher,75.79,24.21


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
MARRIAGE_ENSINO MÉDIO,Unnamed: 1_level_1,Unnamed: 2_level_1
Casado,73.71,26.29
Solteiro,75.35,24.65


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
AGE_RANGES_ENSINO MÉDIO,Unnamed: 1_level_1,Unnamed: 2_level_1
Adulto,75.41,24.59
Jovem Adulto,71.16,28.84
Meia-idade,74.12,25.88
Terceira idade,74.42,25.58


#### Casamento

In [61]:
casamento_valores = df_pagadores['MARRIAGE'].unique()
for valor in casamento_valores:    
    display_pagadores(df_pagadores, colunas_pagadores, 'MARRIAGE', valor, comparativo)

STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
SEX_CASADO,Unnamed: 1_level_1,Unnamed: 2_level_1
Homem,73.94,26.06
Mulher,77.71,22.29


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
EDUCATION_CASADO,Unnamed: 1_level_1,Unnamed: 2_level_1
Ensino Médio,73.71,26.29
Graduação,75.82,24.18
Pós-graduação,79.1,20.9


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
AGE_RANGES_CASADO,Unnamed: 1_level_1,Unnamed: 2_level_1
Adulto,77.37,22.63
Jovem Adulto,69.27,30.73
Meia-idade,75.73,24.27
Terceira idade,71.08,28.92


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
SEX_SOLTEIRO,Unnamed: 1_level_1,Unnamed: 2_level_1
Homem,76.95,23.05
Mulher,80.02,19.98


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
EDUCATION_SOLTEIRO,Unnamed: 1_level_1,Unnamed: 2_level_1
Ensino Médio,75.35,24.65
Graduação,77.05,22.95
Pós-graduação,81.46,18.54


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
AGE_RANGES_SOLTEIRO,Unnamed: 1_level_1,Unnamed: 2_level_1
Adulto,80.78,19.22
Jovem Adulto,73.58,26.42
Meia-idade,77.27,22.73
Terceira idade,70.0,30.0


#### Idades

In [62]:
educacao_valores = df_pagadores['AGE_RANGES'].unique()
for valor in educacao_valores:    
    display_pagadores(df_pagadores, colunas_pagadores, 'AGE_RANGES', valor, comparativo)

STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
SEX_JOVEM ADULTO,Unnamed: 1_level_1,Unnamed: 2_level_1
Homem,70.71,29.29
Mulher,74.12,25.88


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
EDUCATION_JOVEM ADULTO,Unnamed: 1_level_1,Unnamed: 2_level_1
Ensino Médio,71.16,28.84
Graduação,71.71,28.29
Pós-graduação,76.64,23.36


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
MARRIAGE_JOVEM ADULTO,Unnamed: 1_level_1,Unnamed: 2_level_1
Casado,69.27,30.73
Solteiro,73.58,26.42


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
SEX_ADULTO,Unnamed: 1_level_1,Unnamed: 2_level_1
Homem,77.26,22.74
Mulher,80.9,19.1


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
EDUCATION_ADULTO,Unnamed: 1_level_1,Unnamed: 2_level_1
Ensino Médio,75.41,24.59
Graduação,78.2,21.8
Pós-graduação,81.92,18.08


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
MARRIAGE_ADULTO,Unnamed: 1_level_1,Unnamed: 2_level_1
Casado,77.37,22.63
Solteiro,80.78,19.22


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
SEX_MEIA-IDADE,Unnamed: 1_level_1,Unnamed: 2_level_1
Homem,74.44,25.56
Mulher,77.44,22.56


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
EDUCATION_MEIA-IDADE,Unnamed: 1_level_1,Unnamed: 2_level_1
Ensino Médio,74.12,25.88
Graduação,75.71,24.29
Pós-graduação,78.82,21.18


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
MARRIAGE_MEIA-IDADE,Unnamed: 1_level_1,Unnamed: 2_level_1
Casado,75.73,24.27
Solteiro,77.27,22.73


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
SEX_TERCEIRA IDADE,Unnamed: 1_level_1,Unnamed: 2_level_1
Homem,63.83,36.17
Mulher,78.26,21.74


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
EDUCATION_TERCEIRA IDADE,Unnamed: 1_level_1,Unnamed: 2_level_1
Ensino Médio,74.42,25.58
Graduação,69.23,30.77
Pós-graduação,66.67,33.33


STATUS_DEFAULT_PAYMENT,Adimplente,Inadimplente
MARRIAGE_TERCEIRA IDADE,Unnamed: 1_level_1,Unnamed: 2_level_1
Casado,71.08,28.92
Solteiro,70.0,30.0


#### Perfil para empresa de cobrança (maus pagadores)

#### Perfil para empresa de concessão de crédito (bons pagadores)

## Próximos Passos <a id="proximospassos"></a>