# Análise do risco de inadimplência dos mutuários

Seu projeto é preparar um relatório para a divisão de empréstimos de um banco. Você precisará descobrir se o estado civil de um cliente e o número de filhos têm impacto sobre se ele deixará de pagar um empréstimo. O banco já tem alguns dados sobre a capacidade de crédito dos clientes.

Seu relatório será considerado ao construir a **pontuação de crédito** de um cliente em potencial. A **pontuação de crédito** é usada para avaliar a capacidade de um devedor em potencial de pagar seu empréstimo.

## Abra o arquivo de dados e veja a informação geral.


In [1]:
import pandas as pd

try:
    sprint = pd.read_csv('/datasets/credit_scoring_eng.csv')
except:
    sprint = pd.read_csv('credit_scoring_eng.csv')
    
    
sprint.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Tarefa 1. Exploração de dados

**Descrição dos dados**
- `children` - o número de crianças na família
- `days_employed` - experiência de trabalho em dias
- `dob_years` - idade do cliente em anos
- `education` - educação do cliente
- `education_id` - identificador de educação
- `family_status` - estado civil do cliente
- `family_status_id` - identificador de estado civil
- `gender` - gênero do cliente
- `income_type` - tipo de emprego
- `debt` - havia alguma dívida no pagamento do empréstimo
- `total_income` - renda mensal
- `purpose` - o objetivo de obter um empréstimo


In [2]:
sprint.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [3]:
sprint.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Existem a mesma quantidade de números ausentes em duas colunas 'days_employed' e 'total_income', podemos breviamente supor que pode ser pode alguns motivos, Clientes sem emprego fixo ou que não declararam emprego ou renda fixa/mensal, erro no preenchimento de dados, serem dados duplicados ou Clientes menores de idade. 

In [4]:
sprint['days_employed'].head(50)

0      -8437.673028
1      -4024.803754
2      -5623.422610
3      -4124.747207
4     340266.072047
5       -926.185831
6      -2879.202052
7       -152.779569
8      -6929.865299
9      -2188.756445
10     -4171.483647
11      -792.701887
12              NaN
13     -1846.641941
14     -1844.956182
15      -972.364419
16     -1719.934226
17     -2369.999720
18    400281.136913
19    -10038.818549
20     -1311.604166
21      -253.685166
22     -1766.644138
23      -272.981385
24    338551.952911
25    363548.489348
26              NaN
27      -529.191635
28      -717.274324
29              NaN
30    335581.668515
31     -1682.083438
32     -4649.910832
33     -1548.637544
34     -4488.067031
35    394021.072184
36      -176.216688
37     -6448.810860
38      -597.881827
39      -650.587796
40     -1030.362606
41              NaN
42     -1257.496190
43     -4375.681384
44     -1362.041728
45     -1039.451741
46     -2262.712304
47     -2689.137274
48     -3341.067886
49     -1181.443228


In [5]:
sprint['days_employed'] = sprint['days_employed'].astype(float)


In [6]:
sprint['total_income'].head(50)

0      40620.102
1      17932.802
2      23341.752
3      42820.568
4      25378.572
5      40922.170
6      38484.156
7      21731.829
8      15337.093
9      23108.150
10     18230.959
11     12331.077
12           NaN
13     20873.317
14     26420.466
15     18691.345
16     46272.433
17     14465.694
18      9091.804
19     38852.977
20     33528.423
21     21089.953
22     23948.983
23     20522.515
24     46487.558
25      8818.041
26           NaN
27     49415.837
28     30058.118
29           NaN
30     27432.971
31     44077.710
32     22249.194
33     25159.326
34     16745.672
35     12448.908
36     22212.904
37     24660.621
38     30759.568
39    120678.528
40     22858.493
41           NaN
42     13130.414
43     43673.141
44     16124.879
45     17021.747
46     29229.194
47     57004.465
48     25930.483
49      7134.689
Name: total_income, dtype: float64

Analisando as primeiras 50 linhas de 'days_employed' e 'total_income' podemos notar a semelhança nos dados ausentes que estão nas mesmas linhas (12,26,29 e 41) e consequentemente pode ocorrer nas linhas a seguir.  

In [7]:
csv = sprint.loc[(sprint['days_employed'] > 2) & (sprint['total_income'].isin(['a', 'b', 'c']))]

print(csv)

Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


In [8]:
csv = sprint.loc[sprint['days_employed'].isnull() & sprint['total_income'].isnull()]

print(csv.head(50))


     children  days_employed  dob_years            education  education_id  \
12          0            NaN         65  secondary education             1   
26          0            NaN         41  secondary education             1   
29          0            NaN         63  secondary education             1   
41          0            NaN         50  secondary education             1   
55          0            NaN         54  secondary education             1   
65          0            NaN         21  secondary education             1   
67          0            NaN         52    bachelor's degree             0   
72          1            NaN         32    bachelor's degree             0   
82          2            NaN         50    bachelor's degree             0   
83          0            NaN         52  secondary education             1   
90          2            NaN         35    bachelor's degree             0   
94          1            NaN         34    bachelor's degree    

Quando filtramos os valores ausentes "NaN" notamos que este padrão continua durante toda a lista. 

In [9]:
csv = sprint[sprint['days_employed'].isnull()]

csv_completas = sprint.dropna(subset=['days_employed'])

csv_duplicados = csv[csv.duplicated(subset=csv_completas.columns)]

csv = csv_duplicados.shape[0]

print(csv)

print(csv_duplicados)


54
       children  days_employed  dob_years            education  education_id  \
2849          0            NaN         41  secondary education             1   
4182          1            NaN         34    BACHELOR'S DEGREE             0   
4851          0            NaN         60  secondary education             1   
5557          0            NaN         58  secondary education             1   
7808          0            NaN         57  secondary education             1   
8583          0            NaN         58    bachelor's degree             0   
9238          2            NaN         34  secondary education             1   
9528          0            NaN         66  secondary education             1   
9627          0            NaN         56  secondary education             1   
10462         0            NaN         62  secondary education             1   
10697         0            NaN         40  secondary education             1   
10864         0            NaN       

Quando filtramos os ausentes em toda base podemos notar que há outros cadastro completos que se assemelham aos ausentes em 'days_employed'

In [10]:
csv = sprint[sprint['total_income'].isnull()]

csv_completas = sprint.dropna(subset=['total_income'])

csv_duplicados = csv[csv.duplicated(subset=csv_completas.columns)]

csv = csv_duplicados.shape[0]

print(csv)

print(csv_duplicados)



54
       children  days_employed  dob_years            education  education_id  \
2849          0            NaN         41  secondary education             1   
4182          1            NaN         34    BACHELOR'S DEGREE             0   
4851          0            NaN         60  secondary education             1   
5557          0            NaN         58  secondary education             1   
7808          0            NaN         57  secondary education             1   
8583          0            NaN         58    bachelor's degree             0   
9238          2            NaN         34  secondary education             1   
9528          0            NaN         66  secondary education             1   
9627          0            NaN         56  secondary education             1   
10462         0            NaN         62  secondary education             1   
10697         0            NaN         40  secondary education             1   
10864         0            NaN       

Isso também se aplica na coluna 'total_income' e em linhas iguais a 'days_employed'.


In [11]:
csv = csv_duplicados.shape[0]

print(csv)


54


Isso indica que existem 54 linhas com valores nulos na coluna 'total_income' que também possuem outras linhas com exatamente os mesmos valores em todas as colunas presentes no DataFrame.

In [12]:
csv_duplicados_sem_duplicatas = csv_duplicados.drop_duplicates()

csv_duplicados_removidos = csv_duplicados.shape[0] - csv_duplicados_sem_duplicatas.shape[0]
print("Quantidade de linhas duplicadas removidas:", csv_duplicados_removidos)

credit_scoring = csv_duplicados_sem_duplicatas

print(credit_scoring)

Quantidade de linhas duplicadas removidas: 2
       children  days_employed  dob_years            education  education_id  \
2849          0            NaN         41  secondary education             1   
4182          1            NaN         34    BACHELOR'S DEGREE             0   
4851          0            NaN         60  secondary education             1   
5557          0            NaN         58  secondary education             1   
7808          0            NaN         57  secondary education             1   
8583          0            NaN         58    bachelor's degree             0   
9238          2            NaN         34  secondary education             1   
9528          0            NaN         66  secondary education             1   
9627          0            NaN         56  secondary education             1   
10462         0            NaN         62  secondary education             1   
10697         0            NaN         40  secondary education             

In [13]:
print(credit_scoring.info())


<class 'pandas.core.frame.DataFrame'>
Int64Index: 52 entries, 2849 to 21415
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          52 non-null     int64  
 1   days_employed     0 non-null      float64
 2   dob_years         52 non-null     int64  
 3   education         52 non-null     object 
 4   education_id      52 non-null     int64  
 5   family_status     52 non-null     object 
 6   family_status_id  52 non-null     int64  
 7   gender            52 non-null     object 
 8   income_type       52 non-null     object 
 9   debt              52 non-null     int64  
 10  total_income      0 non-null      float64
 11  purpose           52 non-null     object 
dtypes: float64(2), int64(5), object(5)
memory usage: 5.3+ KB
None


In [14]:
sprint_duplicados_sem_duplicatas = sprint.drop_duplicates()

credit_scoring = sprint_duplicados_sem_duplicatas

print(credit_scoring.info())



<class 'pandas.core.frame.DataFrame'>
Int64Index: 21471 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21471 non-null  int64  
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21471 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB
None


Após remover as linhas duplicadas, salvamos em um nova dataframe 'credit_scoring'

In [15]:
missing_values = credit_scoring['days_employed'].isnull().sum()

total_rows = len(credit_scoring['days_employed'])

percentage_missing = (missing_values / total_rows) * 100

print("Número de valores ausentes em cada coluna:")
print(missing_values)

print("\nPorcentagem de valores ausentes em cada coluna:")
print(percentage_missing)

Número de valores ausentes em cada coluna:
2120

Porcentagem de valores ausentes em cada coluna:
9.873783242513156


In [16]:
missing_values2 = credit_scoring['total_income'].isnull().sum()

total_rows2 = len(credit_scoring['total_income'])

percentage_missing2 = (missing_values2 / total_rows2) * 100

print("Número de valores ausentes em cada coluna:")
print(missing_values2)

print("\nPorcentagem de valores ausentes em cada coluna:")
print(percentage_missing2)

Número de valores ausentes em cada coluna:
2120

Porcentagem de valores ausentes em cada coluna:
9.873783242513156


In [17]:
total_missing = credit_scoring.isnull().sum().sum()
total_cells = credit_scoring.size

percentage_missing_total = (total_missing / total_cells) * 100

print(f"Porcentagem de valores ausentes em comparação com todo o conjunto de dados: {percentage_missing_total:.2f}%")

Porcentagem de valores ausentes em comparação com todo o conjunto de dados: 1.65%


**Conclusão intermediária**

1 - Falta de informação: Algumas pessoas podem não ter fornecido a informação de renda ao preencher o formulário ou questionário.

2 - Erros de registro: Pode haver erros de registro ou falhas na coleta dos dados, resultando em valores ausentes na coluna 'total_income' e 'days_employed'.

3 - Problemas técnicos: Falhas no sistema de coleta de dados ou problemas de transferência de informações podem levar à omissão de valores na coluna 'total_income' e 'days_employed'.

4 - Clientes sem emprego fixo ou que não declararam emprego ou renda fixa/mensal no preenchimentos do cadastro.


*Como vamos analisar cada cliente de forma individual neste momento acredito que não é viável utilizar a média ou mediana para preencher esses dados pois podem interferir na analise final.*


In [18]:
clientes_sem_days_employed = credit_scoring[credit_scoring['days_employed'].isnull()]
clientes_sem_total_income = credit_scoring[credit_scoring['total_income'].isnull()]

print(clientes_sem_days_employed)
print(clientes_sem_total_income)

       children  days_employed  dob_years            education  education_id  \
12            0            NaN         65  secondary education             1   
26            0            NaN         41  secondary education             1   
29            0            NaN         63  secondary education             1   
41            0            NaN         50  secondary education             1   
55            0            NaN         54  secondary education             1   
...         ...            ...        ...                  ...           ...   
21489         2            NaN         47  Secondary Education             1   
21495         1            NaN         50  secondary education             1   
21497         0            NaN         48    BACHELOR'S DEGREE             0   
21502         1            NaN         42  secondary education             1   
21510         2            NaN         28  secondary education             1   

           family_status  family_status

In [19]:
clientes_sem_days_employed = credit_scoring[credit_scoring['days_employed'].isnull()]
clientes_sem_total_income = credit_scoring[credit_scoring['total_income'].isnull()]

colunas_relevantes = ['children', 'dob_years', 'education', 'education_id', 'family_status', 'family_status_id', 'gender', 'income_type', 'debt', 'purpose']

caracteristicas_clientes_sem_days_employed = clientes_sem_days_employed[colunas_relevantes]
caracteristicas_clientes_sem_total_income = clientes_sem_total_income[colunas_relevantes]

print("Características dos clientes sem dados em 'days_employed':")
print(caracteristicas_clientes_sem_days_employed.head(50))

print("\nCaracterísticas dos clientes sem dados em 'total_income':")
print(caracteristicas_clientes_sem_total_income.head(50))

Características dos clientes sem dados em 'days_employed':
     children  dob_years            education  education_id  \
12          0         65  secondary education             1   
26          0         41  secondary education             1   
29          0         63  secondary education             1   
41          0         50  secondary education             1   
55          0         54  secondary education             1   
65          0         21  secondary education             1   
67          0         52    bachelor's degree             0   
72          1         32    bachelor's degree             0   
82          2         50    bachelor's degree             0   
83          0         52  secondary education             1   
90          2         35    bachelor's degree             0   
94          1         34    bachelor's degree             0   
96          0         44  SECONDARY EDUCATION             1   
97          0         47    bachelor's degree             0

Investigando mais a fundo, a abordagem mais adequada é calcular a média ou mediana dos valores de 'days_employed' e 'total_income' para cada categoria de 'income_type' ou 'education' e possível categorizando para pode encontrar uma media ou mediana adequada comparando com a rende de clientes dentro desta mesma categoria, já que essas duas colunas parecem ser as mais relevantes para determinar a renda e o tipo de emprego de um cliente.

In [20]:
credit_scoring.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21471.0,19351.0,21471.0,21471.0,21471.0,21471.0,19351.0
mean,0.539565,63046.497661,43.279074,0.817195,0.973685,0.081086,26787.568355
std,1.382978,140827.311974,12.574291,0.548508,1.421082,0.272974,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [21]:
credit_scoring['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [22]:
credit_scoring['total_income'].describe()

count     19351.000000
mean      26787.568355
std       16475.450632
min        3306.762000
25%       16488.504500
50%       23202.870000
75%       32549.611000
max      362496.645000
Name: total_income, dtype: float64

Podemos analisar que 'days_employed' tem muitas valores negativos, além de serem valores ilegíveis.  

Valores Ausentes em 'days_employed': A coluna 'days_employed' representa o número de dias de emprego do cliente. Há uma quantidade considerável de valores ausentes nesta coluna. Uma possível explicação para os valores ausentes pode ser a falta de informações sobre o emprego de alguns clientes no momento em que os dados foram coletados. Pode ser que algumas pessoas não tenham um emprego formal ou que não tenham fornecido essas informações por algum motivo. Também pode haver casos em que os valores ausentes estão associados a clientes que não possuem experiência de trabalho anterior registrada ou são autônomos.

Valores Ausentes em 'total_income': A coluna 'total_income' representa a renda total do cliente. Assim como na coluna 'days_employed', também existem valores ausentes aqui. A falta de informações sobre a renda total pode estar relacionada a clientes que não forneceram esses dados ou não têm uma fonte regular e formal de renda. Isso pode incluir pessoas que não estão atualmente empregadas, clientes autônomos ou indivíduos que não têm uma fonte de renda fixa e não conseguiram fornecer as informações necessárias.


Padrão dos Valores Ausentes: É importante notar que os valores ausentes ocorre em ambas as colunas 'days_employed' e 'total_income', para clientes com diferentes idades, tipos de educação, estado civil, sexo e tipo de renda. E isso só reforça a opinião relatada acima.


In [23]:
missing_days_employed = credit_scoring['days_employed'].isnull().mean()
missing_total_income = credit_scoring['total_income'].isnull().mean()

print("Proporção de valores ausentes em 'days_employed': {:.2f}%".format(missing_days_employed * 100))
print("Proporção de valores ausentes em 'total_income': {:.2f}%".format(missing_total_income * 100))

grouped_by_family_status = credit_scoring.groupby('family_status').agg(missing_days_employed=('days_employed', lambda x: x.isnull().mean()),
                                                           missing_total_income=('total_income', lambda x: x.isnull().mean()))

print(grouped_by_family_status)


Proporção de valores ausentes em 'days_employed': 9.87%
Proporção de valores ausentes em 'total_income': 9.87%
                   missing_days_employed  missing_total_income
family_status                                                 
civil partnership               0.102810              0.102810
divorced                        0.093724              0.093724
married                         0.097294              0.097294
unmarried                       0.101423              0.101423
widow / widower                 0.098019              0.098019


**Conclusão intermediária**

Podemos usar a mediana da renda total ('total_income') para preencher os valores ausentes com base no tipo de ocupação 'income_type', 'education' e 'education_id' para categorizar e criar uma media comparada a renda de clientes com dados similares. 

Para 'days_employed' podemos utilizar a média categorizando também com as colunas 'income_type', 'education' e 'education_id'.


**Conclusões**

Com base na análise dos dados, podemos concluir o seguinte sobre a ausência de dados em 'days_employed' e 'total_income':

Ausência de Dados em 'days_employed':

A coluna 'days_employed' representa o número de dias de emprego do cliente. Verifiquei que existe uma quantidade significativa de dados ausentes nessa coluna (2174 registros com dados ausentes de 21525 no total).
A distribuição dos valores ausentes em 'days_employed' não parece seguir um padrão específico com base nas características dos clientes, como idade, nível de educação, estado civil, tipo de renda, entre outros. Não há correlação ou tendência clara que indiquem uma razão específica para a ausência de dados.
Pode haver vários motivos para a falta de informações em 'days_employed', incluindo clientes que não estão atualmente empregados ou cujos dados de emprego não foram devidamente registrados ou coletados. 

Devido à falta de padrão identificado, o tratamento dos valores ausentes em 'days_employed' pode ser mais desafiador. Uma abordagem razoável pode ser preencher os valores ausentes com a mediana ou a média, e é possível categorizando os dados e classificando de acordo com as colunas 'income_type', 'education', 'education_id' e 'total_income', obviamente que chegar ao valor real de cada cliente é impossível pois cada um tem sua individualidade mas se baseando com as informações de clientes similares podemos encontrar uma média ou mediana aceitável.

Ausência de Dados em 'total_income':

A coluna 'total_income' representa a renda total do cliente. Encontramos 2174 registros com dados ausentes nessa coluna.
Ao analisar a distribuição dos valores ausentes em 'total_income', não parece haver um padrão específico com base nas características dos clientes, como idade, nível de educação, estado civil, tipo de renda, entre outros. Assim como em 'days_employed', as razões para a falta de informações em 'total_income' podem variar. Isso pode incluir clientes que não declararam sua renda ou cujos dados de renda não foram adequadamente registrados ou coletados.

Para tratar os valores ausentes em 'total_income', podemos preenchê-los com a mediana ou média da coluna, considerando o tipo de renda ('income_type') como fator adicional para obter uma imputação mais precisa.

Após a remoção das duplicatas, ainda há (2120 registros ausente de 21471 no total) e a partir disso podemos prosserguir categorizadndo para inserir informações nos valores ausentes. 

Os próximos passos é analisar outras colunas e realizar as correções necessárias para continuar com a análise. 



## Transformação de dados

[Vamos examinar cada coluna para ver quais problemas podemos ter nelas.]

[Comece removendo duplicados e corrigindo informações educacionais, se necessário.]

In [24]:
credit_scoring['education'].head(50)

0       bachelor's degree
1     secondary education
2     Secondary Education
3     secondary education
4     secondary education
5       bachelor's degree
6       bachelor's degree
7     SECONDARY EDUCATION
8       BACHELOR'S DEGREE
9     secondary education
10      bachelor's degree
11    secondary education
12    secondary education
13           some college
14      bachelor's degree
15    secondary education
16    secondary education
17      bachelor's degree
18    secondary education
19    SECONDARY EDUCATION
20    secondary education
21    secondary education
22    secondary education
23      bachelor's degree
24    secondary education
25    secondary education
26    secondary education
27      bachelor's degree
28      bachelor's degree
29    secondary education
30    secondary education
31      primary education
32    SECONDARY EDUCATION
33    secondary education
34    secondary education
35    secondary education
36    secondary education
37      BACHELOR'S DEGREE
38      bach

In [25]:
credit_scoring['education'].unique()


array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [26]:
credit_scoring['education'].value_counts()

secondary education    13705
bachelor's degree       4710
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        273
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

In [27]:
credit_scoring.loc[:, 'education'] = credit_scoring['education'].str.lower()


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(ilocs[0], value, pi)


In [28]:
credit_scoring['education'].value_counts()

secondary education    15188
bachelor's degree       5251
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

Foi corrigido as informações na coluna 'education', havia dados em maiúsculo e isso interfiria na contagem dos dados na coluna. 


Analisando os dados na coluna `children`

In [29]:
credit_scoring['children'].value_counts()

 0     14107
 1      4809
 2      2052
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Podemos notar que há erro na inserção de dados na coluna 'children', os valores -1 e 20 podemos deduzir que são erros humanos no momento do preenchimento dos dados.

In [30]:
credit_scoring.loc[:, 'children'].replace({-1: 1, 20: 2}, inplace=True)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().replace(


In [31]:
credit_scoring['children'].value_counts()

0    14107
1     4856
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

In [32]:
credit_scoring['children'].value_counts(normalize=True)

0    0.657026
1    0.226166
2    0.099110
3    0.015370
4    0.001910
5    0.000419
Name: children, dtype: float64

Foi corrigido as informações na coluna 'children' 

Analisando os dados na coluna `days_employed`, podemos deduzir que os valores nesta coluna se referem aos dias trabalhados, vamos corrigir e torná-los mais legíveis para nossa análise. 

In [33]:
credit_scoring['days_employed'].head(50)

0      -8437.673028
1      -4024.803754
2      -5623.422610
3      -4124.747207
4     340266.072047
5       -926.185831
6      -2879.202052
7       -152.779569
8      -6929.865299
9      -2188.756445
10     -4171.483647
11      -792.701887
12              NaN
13     -1846.641941
14     -1844.956182
15      -972.364419
16     -1719.934226
17     -2369.999720
18    400281.136913
19    -10038.818549
20     -1311.604166
21      -253.685166
22     -1766.644138
23      -272.981385
24    338551.952911
25    363548.489348
26              NaN
27      -529.191635
28      -717.274324
29              NaN
30    335581.668515
31     -1682.083438
32     -4649.910832
33     -1548.637544
34     -4488.067031
35    394021.072184
36      -176.216688
37     -6448.810860
38      -597.881827
39      -650.587796
40     -1030.362606
41              NaN
42     -1257.496190
43     -4375.681384
44     -1362.041728
45     -1039.451741
46     -2262.712304
47     -2689.137274
48     -3341.067886
49     -1181.443228


Podemos analisar que existem muitos dados negativos e que claramente podemos deduzir como erro de digitação. 


In [34]:
negative_values = credit_scoring[credit_scoring['days_employed'] < 0].shape[0]

large_values = credit_scoring[credit_scoring['days_employed'] > 100000].shape[0]

total_rows = credit_scoring.shape[0]
problematic_percentage = (negative_values + large_values) / total_rows * 100

print(f"Porcentagem de dados problemáticos em days_employed: {problematic_percentage:.2f}%")

Porcentagem de dados problemáticos em days_employed: 90.13%


Os valores gigantes em days_employed são claramente inválidos, uma vez que representam uma quantidade de dias absurdamente alta para alguém trabalhar. Isso sugere que há um problema na forma como esses valores foram registrados ou armazenados.

Uma hipótese plausível é que esses valores gigantes foram gerados devido a algum erro no processo de coleta ou armazenamento dos dados. Uma possível explicação é que, em vez de representar o número de dias empregados, esses valores podem estar em uma unidade de medida diferente ou podem ser dados corrompidos.

In [35]:
credit_scoring['days_employed']= credit_scoring['days_employed'].abs()

credit_scoring['days_employed'].head(50)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  credit_scoring['days_employed']= credit_scoring['days_employed'].abs()


0       8437.673028
1       4024.803754
2       5623.422610
3       4124.747207
4     340266.072047
5        926.185831
6       2879.202052
7        152.779569
8       6929.865299
9       2188.756445
10      4171.483647
11       792.701887
12              NaN
13      1846.641941
14      1844.956182
15       972.364419
16      1719.934226
17      2369.999720
18    400281.136913
19     10038.818549
20      1311.604166
21       253.685166
22      1766.644138
23       272.981385
24    338551.952911
25    363548.489348
26              NaN
27       529.191635
28       717.274324
29              NaN
30    335581.668515
31      1682.083438
32      4649.910832
33      1548.637544
34      4488.067031
35    394021.072184
36       176.216688
37      6448.810860
38       597.881827
39       650.587796
40      1030.362606
41              NaN
42      1257.496190
43      4375.681384
44      1362.041728
45      1039.451741
46      2262.712304
47      2689.137274
48      3341.067886
49      1181.443228


Agora vamos encontrar em anos os valores na colunas 'days_employed', podemos tentar encontrar um valor razoável deduzindo que os valores da colunas são horas mas mesmo assim o valor final não é conclusivo.

In [36]:
credit_scoring['days_employed'] = credit_scoring['days_employed'] / (365.25 * 24)

credit_scoring['days_employed'].head(50)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  credit_scoring['days_employed'] = credit_scoring['days_employed'] / (365.25 * 24)


0      0.962545
1      0.459138
2      0.641504
3      0.470539
4     38.816572
5      0.105657
6      0.328451
7      0.017429
8      0.790539
9      0.249687
10     0.475871
11     0.090429
12          NaN
13     0.210660
14     0.210467
15     0.110925
16     0.196205
17     0.270363
18    45.662918
19     1.145199
20     0.149624
21     0.028940
22     0.201534
23     0.031141
24    38.621030
25    41.472563
26          NaN
27     0.060369
28     0.081825
29          NaN
30    38.282189
31     0.191887
32     0.530448
33     0.176664
34     0.511986
35    44.948788
36     0.020102
37     0.735662
38     0.068205
39     0.074217
40     0.117541
41          NaN
42     0.143452
43     0.499165
44     0.155378
45     0.118578
46     0.258124
47     0.306769
48     0.381139
49     0.134776
Name: days_employed, dtype: float64

Analisando a coluna 'dob_years'

In [37]:
credit_scoring['dob_years'].describe()

count    21471.000000
mean        43.279074
std         12.574291
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

In [38]:
credit_scoring['dob_years'].value_counts()

35    616
40    607
41    606
34    601
38    597
42    596
33    581
39    572
31    559
36    554
44    545
29    544
30    538
48    537
37    536
50    513
43    512
32    509
49    508
28    503
45    497
27    493
52    484
56    484
47    477
54    476
46    473
53    459
57    456
58    456
51    448
59    443
55    443
26    408
60    374
25    357
61    354
62    349
63    269
24    264
64    262
23    253
65    194
22    183
66    182
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [40]:
mean_age_female = credit_scoring.loc[credit_scoring['gender'] == 'F', 'dob_years'].mean()
mean_age_male = credit_scoring.loc[credit_scoring['gender'] == 'M', 'dob_years'].mean()

credit_scoring.loc[(credit_scoring['dob_years'] == 0) & (credit_scoring['gender'] == 'F'), 'dob_years'] = mean_age_female
credit_scoring.loc[(credit_scoring['dob_years'] == 0) & (credit_scoring['gender'] == 'M'), 'dob_years'] = mean_age_male

credit_scoring['dob_years'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


35.000000    616
40.000000    607
41.000000    606
34.000000    601
38.000000    597
42.000000    596
33.000000    581
39.000000    572
31.000000    559
36.000000    554
44.000000    545
29.000000    544
30.000000    538
48.000000    537
37.000000    536
50.000000    513
43.000000    512
32.000000    509
49.000000    508
28.000000    503
45.000000    497
27.000000    493
52.000000    484
56.000000    484
47.000000    477
54.000000    476
46.000000    473
53.000000    459
58.000000    456
57.000000    456
51.000000    448
55.000000    443
59.000000    443
26.000000    408
60.000000    374
25.000000    357
61.000000    354
62.000000    349
63.000000    269
24.000000    264
64.000000    262
23.000000    253
65.000000    194
22.000000    183
66.000000    182
67.000000    167
21.000000    111
68.000000     99
69.000000     85
44.458172     72
70.000000     65
71.000000     58
20.000000     51
72.000000     33
40.983931     29
19.000000     14
73.000000      8
74.000000      6
75.000000     

Existem 101 clientes com a idade em 0 que obviamente são valores não foram inseridos corretamente, para corrigi-los vamos utilizar a mediana de acordo com o gênero de cada cliente nas linhas com a idade '0'.

In [41]:
median_age = credit_scoring['dob_years'].median()

credit_scoring.loc[credit_scoring['dob_years'] == 0, 'dob_years'] = median_age
credit_scoring['dob_years'].value_counts()


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


35.000000    616
40.000000    607
41.000000    606
34.000000    601
38.000000    597
42.000000    596
33.000000    581
39.000000    572
31.000000    559
36.000000    554
44.000000    545
29.000000    544
30.000000    538
48.000000    537
37.000000    536
50.000000    513
43.000000    512
32.000000    509
49.000000    508
28.000000    503
45.000000    497
27.000000    493
52.000000    484
56.000000    484
47.000000    477
54.000000    476
46.000000    473
53.000000    459
58.000000    456
57.000000    456
51.000000    448
55.000000    443
59.000000    443
26.000000    408
60.000000    374
25.000000    357
61.000000    354
62.000000    349
63.000000    269
24.000000    264
64.000000    262
23.000000    253
65.000000    194
22.000000    183
66.000000    182
67.000000    167
21.000000    111
68.000000     99
69.000000     85
44.458172     72
70.000000     65
71.000000     58
20.000000     51
72.000000     33
40.983931     29
19.000000     14
73.000000      8
74.000000      6
75.000000     

In [42]:
credit_scoring['dob_years'].describe()

count    21471.000000
mean        43.483514
std         12.217666
min         19.000000
25%         33.500000
50%         43.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

In [43]:
credit_scoring['dob_years'].head(50)

0     42.0
1     36.0
2     33.0
3     32.0
4     53.0
5     27.0
6     43.0
7     50.0
8     35.0
9     41.0
10    36.0
11    40.0
12    65.0
13    54.0
14    56.0
15    26.0
16    35.0
17    33.0
18    53.0
19    48.0
20    36.0
21    33.0
22    24.0
23    21.0
24    57.0
25    67.0
26    41.0
27    28.0
28    26.0
29    63.0
30    62.0
31    47.0
32    34.0
33    48.0
34    35.0
35    68.0
36    33.0
37    43.0
38    25.0
39    31.0
40    30.0
41    50.0
42    20.0
43    43.0
44    26.0
45    49.0
46    37.0
47    33.0
48    45.0
49    54.0
Name: dob_years, dtype: float64

Foi preenchido a média nos 101 clientes que tinham a idade em 0 de acordo com a média para cada gênero (feminino ou masculino). 

Analisando a coluna 'family_status' podemos observar que não há nenhum dado que interfirá em nossa análise. 

In [44]:
credit_scoring['family_status'].head(50)


0               married
1               married
2               married
3               married
4     civil partnership
5     civil partnership
6               married
7               married
8     civil partnership
9               married
10              married
11              married
12    civil partnership
13              married
14    civil partnership
15              married
16              married
17    civil partnership
18      widow / widower
19             divorced
20              married
21    civil partnership
22    civil partnership
23    civil partnership
24            unmarried
25              married
26              married
27              married
28              married
29            unmarried
30              married
31              married
32    civil partnership
33              married
34              married
35    civil partnership
36            unmarried
37    civil partnership
38            unmarried
39    civil partnership
40            unmarried
41              

In [45]:
credit_scoring['family_status'].unique()


array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

Parece que não há problemas aparentes nos valores da coluna 'family_status', os valores são consistentes e correspondem aos seguintes estados civis.

Como não há problemas aparentes nos valores, não há ações imediatas necessárias para corrigir a coluna 'family_status'. Ela parece estar bem estruturada e contém categorias relevantes para o status civil dos clientes. 


In [46]:
credit_scoring['family_status'].value_counts()


married              12344
civil partnership     4163
unmarried             2810
divorced              1195
widow / widower        959
Name: family_status, dtype: int64

Assim como em 'family_status' 'gender' é uma coluna completamente inserida, há apenas um cliente com o sexo XNA que podemos entender como uma pessoa não binário ou que não quis informar o genero.  

In [47]:
credit_scoring['gender'].value_counts()


F      14189
M       7281
XNA        1
Name: gender, dtype: int64

Não há valores problemáticos na coluna 'gender'

Analisando a coluna 'income_type' para não haver valores problemáticos e a distribuição das categorias parece plausível.

In [48]:
credit_scoring['income_type'].head(50)


0          employee
1          employee
2          employee
3          employee
4           retiree
5          business
6          business
7          employee
8          employee
9          employee
10         business
11         employee
12          retiree
13         employee
14         business
15         employee
16         employee
17         employee
18          retiree
19         employee
20         employee
21         employee
22         employee
23         employee
24          retiree
25          retiree
26    civil servant
27         employee
28         employee
29          retiree
30          retiree
31         employee
32         employee
33         business
34         employee
35          retiree
36         employee
37         business
38         employee
39         business
40         business
41    civil servant
42         employee
43         business
44         employee
45         employee
46         business
47    civil servant
48         employee
49         employee


In [49]:
credit_scoring['income_type'].value_counts()

employee                       11091
business                        5080
retiree                         3837
civil servant                   1457
entrepreneur                       2
unemployed                         2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

Analisando se há mais linhas duplicatas:

In [50]:
duplicates = credit_scoring.duplicated().sum()
print("Número de linhas duplicadas:", duplicates)

Número de linhas duplicadas: 17


In [51]:
credit_scoring.drop_duplicates(inplace=True)

duplicates_after_removal = credit_scoring.duplicated().sum()
print("Número de linhas duplicadas após a remoção:", duplicates_after_removal)




Número de linhas duplicadas após a remoção: 0


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  credit_scoring.drop_duplicates(inplace=True)


Foi encontrado mais 17 linhas duplicatas e somando as duplicatas encontradas anteriormente no total foram 71 linhas duplicatas que encontramos. 

In [52]:
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  float64
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21454 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.1+ MB


Valores incorretos: Os valores negativos em 'days_employed' foram convertidos em valores positivos e posteriormente transformados de horas para anos.

Outliers: Foram identificados e tratados os valores anômalos na coluna 'children', onde os valores -1 e 20 foram substituídos por 1 e 2, respectivamente.

Dados duplicados: 17 linhas duplicadas foram removidas do DataFrame credit_scoring.

Após essas transformações, o novo conjunto de dados agora está mais limpo e pronto para análises mais precisas e interpretações significativas sobre os clientes e suas características financeiras.

In [53]:
credit_scoring['debt'].value_counts()

0    19713
1     1741
Name: debt, dtype: int64

0 = Clientes com pagamento em dia

1 = cliente com débito

In [54]:
credit_scoring['family_status_id'].value_counts()

0    12339
1     4151
4     2810
3     1195
2      959
Name: family_status_id, dtype: int64

- 0  "married"
- 1  "civil partnership"
- 2  "widow / widower"
- 3  "divorced"
- 4  "unmarried"

In [55]:
credit_scoring.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,0.962545,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,0.459138,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,0.641504,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,0.470539,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,38.816572,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,0.105657,27.0,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,0.328451,43.0,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,0.017429,50.0,secondary education,1,married,0,M,employee,0,21731.829,education
8,2,0.790539,35.0,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,0.249687,41.0,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


# Trabalhando com valores ausentes

Para algumas colunas, como education_id, family_status_id e income_type podemos usar dicionários para mapear os IDs para as descrições correspondentes, o que facilitará a interpretação e manipulação dos dados.

In [56]:
education_dict = {
    0: "bachelor's degree",
    1: "secondary education",
    2: "some college",
    3: "primary education",
    4: "graduate degree"
}

In [57]:
family_status_dict = {
    0: 'married',
    1: 'civil partnership',
    2: 'unmarried',
    3: 'divorced',
    4: 'widow / widower'
}

In [58]:
income_type_dict = {
    'employee': 'Empregado',
    'business': 'Empresário',
    'retiree': 'Aposentado',
    'civil servant': 'Funcionário Público',
    'entrepreneur': 'Empreendedor',
    'unemployed': 'Desempregado',
    'paternity / maternity leave': 'Licença Paternidade / Maternidade',
    'student': 'Estudante'
}

In [59]:
gender_dict = {
    'F': 'Feminino',
    'M': 'Masculino',
    'XNA': 'Não definido'
}

In [60]:
children_dict = {
    0: 'Sem Filhos',
    1: '1 Filho',
    2: '2 Filhos',
    3: '3 Filhos',
    4: '4 Filhos',
    5: '5 Filhos',
}

### Restaurar valores ausentes em `total_income`

In [61]:
credit_scr = credit_scoring.dropna()

print(credit_scr.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         19351 non-null  float64
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 1.9+ MB
None


Crei o dataframe 'credit_scr' para armazenar a base sem os valores ausentes. 

Prosseguindo com a análise, vou criar uma nova coluna para 'purpose' categorizando os propósitos dos clientes em categorias na coluna 'purpose_category'

In [62]:
credit_scoring['purpose'].head(50)

0                        purchase of the house
1                                 car purchase
2                        purchase of the house
3                      supplementary education
4                            to have a wedding
5                        purchase of the house
6                         housing transactions
7                                    education
8                             having a wedding
9          purchase of the house for my family
10                             buy real estate
11                  buy commercial real estate
12                           to have a wedding
13                                car purchase
14                 buy residential real estate
15                construction of own property
16                                    property
17                         building a property
18                    buying a second-hand car
19                           buying my own car
20                                    property
21           

In [63]:
credit_scoring['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [64]:
credit_scoring['purpose'].value_counts()

wedding ceremony                            791
having a wedding                            768
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
housing                                     646
purchase of the house                       646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
buy real estate                             621
purchase of my own house                    620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       

In [65]:
categories = {
    'house': ['house', 'real estate', 'property', 'housing'],
    'car': ['car', 'vehicle'],
    'education': ['education', 'educated', 'university', 'college', 'school'],
    'wedding': ['wedding'],
}

def categorize_purpose(purpose):
    for category, keywords in categories.items():
        for keyword in keywords:
            if keyword in purpose:
                return category
    return 'other'

credit_scoring['purpose_category'] = credit_scoring['purpose'].apply(categorize_purpose)

credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  float64
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21454 non-null  object 
 12  purpose_category  21454 non-null  object 
dtypes: float64(3), int64(4), object(6)
memory usage: 2.3+ MB


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  credit_scoring['purpose_category'] = credit_scoring['purpose'].apply(categorize_purpose)


In [66]:
credit_scoring['purpose_category'].value_counts()

house        10811
car           4306
education     4013
wedding       2324
Name: purpose_category, dtype: int64

Criei uma nova coluna 'purpose_category' para facilitar a leitura da coluna 'purpose' categorizando os própositos de emprestimos. 

In [67]:
def categorize_age(age):
    if age >= 18 and age <= 25:
        return "Young"
    elif age >= 26 and age <= 40:
        return "Adult"
    elif age >= 41 and age <= 55:
        return "Middle-Age"
    else:
        return "Elderly"

def categorize_education(education):
    if "some college" in education.lower():
        return "primary education"
    elif "primary education" in education.lower():
        return "primary education"
    elif "secondary education" in education.lower():
        return "secondary education"
    elif "graduate degree" in education.lower():
        return "graduate degree"
    else:
        return "bachelor's degree"


def categorize_income(income):
    if income < 20000:
        return "Low Income"
    elif income < 40000:
        return "Middle Income"
    else:
        return "High Income"

def categorize_payment_debt(debt):
    if debt == 0:
        return "No Debt"
    else:
        return "In Debt"

credit_scoring['age_category'] = credit_scoring['dob_years'].apply(categorize_age)
credit_scoring['education_category'] = credit_scoring['education'].apply(categorize_education)
credit_scoring['income_category'] = credit_scoring['total_income'].apply(categorize_income)
credit_scoring['debt_category'] = credit_scoring['debt'].apply(categorize_payment_debt)

print(credit_scoring.head(50))

    children  days_employed  dob_years            education  education_id  \
0          1       0.962545       42.0    bachelor's degree             0   
1          1       0.459138       36.0  secondary education             1   
2          0       0.641504       33.0  secondary education             1   
3          3       0.470539       32.0  secondary education             1   
4          0      38.816572       53.0  secondary education             1   
5          0       0.105657       27.0    bachelor's degree             0   
6          0       0.328451       43.0    bachelor's degree             0   
7          0       0.017429       50.0  secondary education             1   
8          2       0.790539       35.0    bachelor's degree             0   
9          0       0.249687       41.0  secondary education             1   
10         2       0.475871       36.0    bachelor's degree             0   
11         0       0.090429       40.0  secondary education             1   

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  credit_scoring['age_category'] = credit_scoring['dob_years'].apply(categorize_age)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  credit_scoring['education_category'] = credit_scoring['education'].apply(categorize_education)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  credit_scoring['income_cate

Pensando também no que podemos fazer posteriormente, criei outras colunas para nos auxiliar a classificar melhor os clientes nas análises finais. 
- age_category
- education_category
- income_category
- debt_category

Acredito que essas colunas nos ajudarão a encontrar uma média para os valores ausentes em 'total_income' comparando outras informações que temos nas colunas 'dob_years', 'education', 'income_type' e até em 'family_status'.

In [68]:
credit_scoring['age_category'].value_counts()

Adult         8217
Middle-Age    7640
Elderly       4365
Young         1232
Name: age_category, dtype: int64

In [69]:
credit_scoring['education_category'].value_counts()

secondary education    15172
bachelor's degree       5250
primary education       1026
graduate degree            6
Name: education_category, dtype: int64

In [70]:
credit_scoring['income_category'].value_counts()

Middle Income    9170
Low Income       7369
High Income      4915
Name: income_category, dtype: int64

In [71]:
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 17 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   children            21454 non-null  int64  
 1   days_employed       19351 non-null  float64
 2   dob_years           21454 non-null  float64
 3   education           21454 non-null  object 
 4   education_id        21454 non-null  int64  
 5   family_status       21454 non-null  object 
 6   family_status_id    21454 non-null  int64  
 7   gender              21454 non-null  object 
 8   income_type         21454 non-null  object 
 9   debt                21454 non-null  int64  
 10  total_income        19351 non-null  float64
 11  purpose             21454 non-null  object 
 12  purpose_category    21454 non-null  object 
 13  age_category        21454 non-null  object 
 14  education_category  21454 non-null  object 
 15  income_category     21454 non-null  object 
 16  debt

Vou preencher os valores ausentes em 'total_income' utilizando as colunas adicionadas acima.




In [72]:
income_by_factors = credit_scoring.groupby(['age_category', 'education_category', 'income_category', 'debt_category'])['total_income'].mean()
print(income_by_factors.head(50))

age_category  education_category   income_category  debt_category
Adult         bachelor's degree    High Income      In Debt          63931.394567
                                                    No Debt          58453.242616
                                   Low Income       In Debt          14551.716190
                                                    No Debt          15472.679157
                                   Middle Income    In Debt          27812.175773
                                                    No Debt          28643.079501
              graduate degree      Low Income       No Debt          18187.301500
              primary education    High Income      In Debt          60417.160778
                                                    No Debt          50621.846416
                                   Low Income       In Debt          16498.704714
                                                    No Debt          15312.977305
                                

Ao analisar os fatores que podem influenciar a renda de alguém, é importante considerar a distribuição desses fatores e entender como eles podem afetar a renda de forma geral. Alguns dos principais fatores que podem impactar a renda incluem:

- Nível educacional: Pessoas com níveis educacionais mais altos geralmente têm rendas mais elevadas.

- Idade: A idade pode estar correlacionada com a experiência profissional e com a renda.

- Tipo de emprego: Diferentes tipos de emprego podem ter diferentes níveis de remuneração.

- Estado civil: O estado civil pode estar relacionado com o nível de responsabilidades financeiras e, por sua vez, com a renda.

- Dívidas: Pessoas com dívidas significativas podem ter menos renda disponível.

- Sexo: Em algumas regiões, pode haver disparidades salariais entre homens e mulheres.


In [73]:
median_income_by_factors = credit_scoring.groupby(['age_category', 'education_category', 'income_category', 'debt_category'])['total_income'].median()
print(median_income_by_factors.head(50))


age_category  education_category   income_category  debt_category
Adult         bachelor's degree    High Income      In Debt          51080.3625
                                                    No Debt          51215.8090
                                   Low Income       In Debt          14141.8510
                                                    No Debt          15879.2910
                                   Middle Income    In Debt          26425.4760
                                                    No Debt          28176.3150
              graduate degree      Low Income       No Debt          18187.3015
              primary education    High Income      In Debt          47023.2880
                                                    No Debt          46786.8970
                                   Low Income       In Debt          17112.1070
                                                    No Debt          15673.0775
                                   Middle Income    In

Podemos observar que a categoria de idade "Adult" possui a maior média e mediana de renda, seguida pela categoria "Middle-Age" e "Elderly". A categoria "Young" possui os menores valores médios e medianos de renda. A média e a mediana apresentam comportamento semelhante nesta característica.

A categoria de educação "bachelor's degree" apresenta as maiores média e mediana de renda, seguida por "graduate degree" e "some college". A categoria "primary education" possui os menores valores médios e medianos de renda. Novamente, a média e a mediana se alinham na característica.

Debt Category: As categorias de dívida "No Debt" possuem valores médios e medianos de renda mais altos em comparação com a categoria "In Debt". A média e a mediana mostram tendências semelhantes nesta característica.

Com base nisso tanto a média como a mediana podem ser aplicada, porém vamos utilizar a média.

In [74]:
income_by_age_category = credit_scoring.groupby('age_category')['total_income'].mean()

for age_category, income in income_by_age_category.items():
    credit_scoring.loc[(credit_scoring['total_income'].isnull()) & (credit_scoring['age_category'] == age_category), 'total_income'] = income

credit_scoring['total_income'].head(50)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


0      40620.102000
1      17932.802000
2      23341.752000
3      42820.568000
4      25378.572000
5      40922.170000
6      38484.156000
7      21731.829000
8      15337.093000
9      23108.150000
10     18230.959000
11     12331.077000
12     23987.334998
13     20873.317000
14     26420.466000
15     18691.345000
16     46272.433000
17     14465.694000
18      9091.804000
19     38852.977000
20     33528.423000
21     21089.953000
22     23948.983000
23     20522.515000
24     46487.558000
25      8818.041000
26     27668.950032
27     49415.837000
28     30058.118000
29     23987.334998
30     27432.971000
31     44077.710000
32     22249.194000
33     25159.326000
34     16745.672000
35     12448.908000
36     22212.904000
37     24660.621000
38     30759.568000
39    120678.528000
40     22858.493000
41     27668.950032
42     13130.414000
43     43673.141000
44     16124.879000
45     17021.747000
46     29229.194000
47     57004.465000
48     25930.483000
49      7134.689000


In [75]:
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 17 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   children            21454 non-null  int64  
 1   days_employed       19351 non-null  float64
 2   dob_years           21454 non-null  float64
 3   education           21454 non-null  object 
 4   education_id        21454 non-null  int64  
 5   family_status       21454 non-null  object 
 6   family_status_id    21454 non-null  int64  
 7   gender              21454 non-null  object 
 8   income_type         21454 non-null  object 
 9   debt                21454 non-null  int64  
 10  total_income        21454 non-null  float64
 11  purpose             21454 non-null  object 
 12  purpose_category    21454 non-null  object 
 13  age_category        21454 non-null  object 
 14  education_category  21454 non-null  object 
 15  income_category     21454 non-null  object 
 16  debt

In [76]:
credit_scoring['total_income'].describe()

count     21454.000000
mean      26787.188901
std       15656.583019
min        3306.762000
25%       17219.817250
50%       24027.902500
75%       31330.237250
max      362496.645000
Name: total_income, dtype: float64

Não há mais valores ausentes em 'total_income'

In [77]:
total_income_count = credit_scoring['total_income'].count()

other_columns_count = credit_scoring.count()

print("Número de valores na coluna 'total_income':", total_income_count)
print("Número de valores em outras colunas:")
print(other_columns_count)


Número de valores na coluna 'total_income': 21454
Número de valores em outras colunas:
children              21454
days_employed         19351
dob_years             21454
education             21454
education_id          21454
family_status         21454
family_status_id      21454
gender                21454
income_type           21454
debt                  21454
total_income          21454
purpose               21454
purpose_category      21454
age_category          21454
education_category    21454
income_category       21454
debt_category         21454
dtype: int64


###  Restaurar valores em `days_employed`

Para 'days_employed' podemos utilizar a média categorizando também com as colunas 'income_type', 'education', 'family_status' 'gender' e 'education_id'.

In [78]:
gender_dict = {
    'F': 'Female',
    'M': 'Male',
    'XNA' : 'Não definido',
}

children_dict = {
    0: 'No Children',
    1: '1 Child',
    2: '2 Children',
    3: '3 Children',
    4: '4 Children',
    5: '5 Children',
}

credit_scoring['gender_category'] = credit_scoring['gender'].map(gender_dict)
credit_scoring['children_category'] = credit_scoring['children'].map(children_dict)
credit_scoring['family_status_category'] = credit_scoring['family_status_id'].map(family_status_dict)
credit_scoring['education_category'] = credit_scoring['education_id'].map(education_dict)
credit_scoring['income_type_category'] = credit_scoring['income_type'].map(income_type_dict)

print(credit_scoring.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   children                21454 non-null  int64  
 1   days_employed           19351 non-null  float64
 2   dob_years               21454 non-null  float64
 3   education               21454 non-null  object 
 4   education_id            21454 non-null  int64  
 5   family_status           21454 non-null  object 
 6   family_status_id        21454 non-null  int64  
 7   gender                  21454 non-null  object 
 8   income_type             21454 non-null  object 
 9   debt                    21454 non-null  int64  
 10  total_income            21454 non-null  float64
 11  purpose                 21454 non-null  object 
 12  purpose_category        21454 non-null  object 
 13  age_category            21454 non-null  object 
 14  education_category      21454 non-null

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  credit_scoring['gender_category'] = credit_scoring['gender'].map(gender_dict)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  credit_scoring['children_category'] = credit_scoring['children'].map(children_dict)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  credit_scoring['family_status_category'] = 

In [79]:
median_days_employed = credit_scoring.pivot_table(index=['age_category','gender_category', 'children_category', 'family_status_category', 'education_category', 'income_type_category'], values='days_employed', aggfunc='median')

print(median_days_employed.head(50))



                                                                                                                days_employed
age_category gender_category children_category family_status_category education_category  income_type_category               
Adult        Female          1 Child           civil partnership      bachelor's degree   Empregado                  0.170955
                                                                                          Empresário                 0.168940
                                                                                          Funcionário Público        0.321407
                                                                      primary education   Empregado                  0.174135
                                                                                          Empresário                 0.036209
                                                                                          Funcionário Público        0

In [80]:
mean_days_employed = credit_scoring.pivot_table(index=['age_category','gender_category', 'children_category', 'family_status_category', 'education_category', 'income_type_category'], values='days_employed', aggfunc='mean')

print(mean_days_employed.head(50))

                                                                                                                days_employed
age_category gender_category children_category family_status_category education_category  income_type_category               
Adult        Female          1 Child           civil partnership      bachelor's degree   Empregado                  0.239285
                                                                                          Empresário                 0.198242
                                                                                          Funcionário Público        0.354052
                                                                      primary education   Empregado                  0.174135
                                                                                          Empresário                 0.036209
                                                                                          Funcionário Público        0

É importante notar que os valores médios e medianos variam consideravelmente em diferentes categorias. Por exemplo, para a combinação de gender_category = Female, children_category = 1 Child, family_status_category = civil partnership, education_category = bachelor's degree e income_type_category = Empregado, o valor médio de days_employed é 0.239285, enquanto a mediana é 0.170955. Essas diferenças são consistentes em outras categorias também.

As diferenças entre as médias e medianas podem ser explicadas pela presença de valores extremos (outliers) nos dados. Os valores médios são mais afetados pelos outliers, enquanto as medianas são mais robustas a eles.

Diante dessa análise, o melhor é utilizar a mediana para preencher os valores ausentes em days_employed.

In [81]:
def calculate_median_by_categories(dataframe):
    median_by_categories = credit_scoring.groupby(['age_category', 'gender_category', 'children_category', 'family_status_category', 'education_category', 'income_type_category'])['days_employed'].median().to_dict()
    
    return median_by_categories


In [82]:
median_by_categories = calculate_median_by_categories(credit_scoring)
print(median_by_categories)


{('Adult', 'Female', '1 Child', 'civil partnership', "bachelor's degree", 'Empregado'): 0.1709554254577008, ('Adult', 'Female', '1 Child', 'civil partnership', "bachelor's degree", 'Empresário'): 0.1689403573560762, ('Adult', 'Female', '1 Child', 'civil partnership', "bachelor's degree", 'Funcionário Público'): 0.32140668650002246, ('Adult', 'Female', '1 Child', 'civil partnership', 'primary education', 'Empregado'): 0.17413486663830838, ('Adult', 'Female', '1 Child', 'civil partnership', 'primary education', 'Empresário'): 0.03620943253014488, ('Adult', 'Female', '1 Child', 'civil partnership', 'primary education', 'Funcionário Público'): 0.34724316845557845, ('Adult', 'Female', '1 Child', 'civil partnership', 'secondary education', 'Aposentado'): 38.63924406767353, ('Adult', 'Female', '1 Child', 'civil partnership', 'secondary education', 'Empregado'): 0.16073485676327146, ('Adult', 'Female', '1 Child', 'civil partnership', 'secondary education', 'Empresário'): 0.18592878571888588, (

In [83]:
income_type_median = credit_scoring.groupby('income_type_category')['days_employed'].median()



In [84]:
print(income_type_median)


income_type_category
Aposentado                           41.662481
Desempregado                         41.799413
Empreendedor                          0.059417
Empregado                             0.179581
Empresário                            0.176521
Estudante                             0.066022
Funcionário Público                   0.306795
Licença Paternidade / Maternidade     0.376085
Name: days_employed, dtype: float64


In [85]:
credit_scoring.loc[credit_scoring['days_employed'].isnull(), 'days_employed'] = credit_scoring['income_type_category'].map(income_type_median)

credit_scoring['days_employed'].head(50)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(ilocs[0], value, pi)


0      0.962545
1      0.459138
2      0.641504
3      0.470539
4     38.816572
5      0.105657
6      0.328451
7      0.017429
8      0.790539
9      0.249687
10     0.475871
11     0.090429
12    41.662481
13     0.210660
14     0.210467
15     0.110925
16     0.196205
17     0.270363
18    45.662918
19     1.145199
20     0.149624
21     0.028940
22     0.201534
23     0.031141
24    38.621030
25    41.472563
26     0.306795
27     0.060369
28     0.081825
29    41.662481
30    38.282189
31     0.191887
32     0.530448
33     0.176664
34     0.511986
35    44.948788
36     0.020102
37     0.735662
38     0.068205
39     0.074217
40     0.117541
41     0.306795
42     0.143452
43     0.499165
44     0.155378
45     0.118578
46     0.258124
47     0.306769
48     0.381139
49     0.134776
Name: days_employed, dtype: float64

Preenchemos os valores ausents em 'days_employed' com base na mediana.

In [86]:
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   children                21454 non-null  int64  
 1   days_employed           21454 non-null  float64
 2   dob_years               21454 non-null  float64
 3   education               21454 non-null  object 
 4   education_id            21454 non-null  int64  
 5   family_status           21454 non-null  object 
 6   family_status_id        21454 non-null  int64  
 7   gender                  21454 non-null  object 
 8   income_type             21454 non-null  object 
 9   debt                    21454 non-null  int64  
 10  total_income            21454 non-null  float64
 11  purpose                 21454 non-null  object 
 12  purpose_category        21454 non-null  object 
 13  age_category            21454 non-null  object 
 14  education_category      21454 non-null

Todas as colunas ausentes foram preenchidas.

## Categorização de dados

Foi criado 8 categorias que facilitam a compreensão dos dados, permitem uma análise mais detalhada e possibilitam a resposta a perguntas específicas sobre os clientes e suas características financeiras e socioeconômicas. Além disso, essas categorias podem ser usadas para segmentar os clientes e identificar padrões e tendências relevantes para o estudo de crédito e análise de risco.

age_category: Classifica os clientes em grupos etários, como "Young", "Adult", "Middle-Age" e "Elderly", permitindo uma análise mais clara das faixas etárias dos clientes.

education_category: Categoriza o nível de educação dos clientes em "bachelor's degree", "secondary education", "some college", "primary education" e "graduate degree", fornecendo informações sobre o grau de instrução dos clientes.

income_category: Divide a renda total dos clientes em "Low Income", "Middle Income" e "High Income", permitindo uma análise da distribuição de renda dos clientes.

debt_category: Classifica os clientes em "In Debt" ou "No Debt" com base no status de suas dívidas, o que é útil para avaliar o endividamento dos clientes.

gender_category: Categoriza os clientes em "Male" ou "Female", permitindo uma análise da distribuição de gênero na amostra.

children_category: Agrupa os clientes com base no número de filhos, como "No Children", "1 Child", "2 Children" e assim por diante, fornecendo informações sobre a composição familiar.

family_status_category: Classifica o estado civil dos clientes em "married", "civil partnership", "unmarried", "divorced" e "widow / widower", permitindo uma análise das diferentes situações familiares.

income_type_category: Categoriza o tipo de renda dos clientes, como "Empregado", "Empresário", "Aposentado", "Funcionário Público" e outros, fornecendo informações sobre a fonte de renda dos clientes.




In [87]:
print(credit_scoring['age_category'].unique())
print(credit_scoring['education_category'].unique())
print(credit_scoring['income_category'].unique())
print(credit_scoring['debt_category'].unique())
print(credit_scoring['gender_category'].unique())
print(credit_scoring['children_category'].unique())
print(credit_scoring['family_status_category'].unique())
print(credit_scoring['income_type_category'].unique())


['Middle-Age' 'Adult' 'Elderly' 'Young']
["bachelor's degree" 'secondary education' 'some college'
 'primary education' 'graduate degree']
['High Income' 'Low Income' 'Middle Income']
['No Debt' 'In Debt']
['Female' 'Male' 'Não definido']
['1 Child' 'No Children' '3 Children' '2 Children' '4 Children'
 '5 Children']
['married' 'civil partnership' 'unmarried' 'divorced' 'widow / widower']
['Empregado' 'Aposentado' 'Empresário' 'Funcionário Público'
 'Desempregado' 'Empreendedor' 'Estudante'
 'Licença Paternidade / Maternidade']


In [88]:
print(credit_scoring['age_category'].value_counts())

print(credit_scoring['education_category'].value_counts())

print(credit_scoring['income_category'].value_counts())

print(credit_scoring['debt_category'].value_counts())

print(credit_scoring['gender_category'].value_counts())

print(credit_scoring['children_category'].value_counts())

print(credit_scoring['family_status_category'].value_counts())

print(credit_scoring['income_type_category'].value_counts())


Adult         8217
Middle-Age    7640
Elderly       4365
Young         1232
Name: age_category, dtype: int64
secondary education    15172
bachelor's degree       5250
some college             744
primary education        282
graduate degree            6
Name: education_category, dtype: int64
Middle Income    9170
Low Income       7369
High Income      4915
Name: income_category, dtype: int64
No Debt    19713
In Debt     1741
Name: debt_category, dtype: int64
Female          14174
Male             7279
Não definido        1
Name: gender_category, dtype: int64
No Children    14091
1 Child         4855
2 Children      2128
3 Children       330
4 Children        41
5 Children         9
Name: children_category, dtype: int64
married              12339
civil partnership     4151
widow / widower       2810
divorced              1195
unmarried              959
Name: family_status_category, dtype: int64
Empregado                            11084
Empresário                            5078
Aposent

In [89]:
statistics_summary = credit_scoring.describe(include='all')


print(statistics_summary)


            children  days_employed     dob_years            education  \
count   21454.000000   21454.000000  21454.000000                21454   
unique           NaN            NaN           NaN                    5   
top              NaN            NaN           NaN  secondary education   
freq             NaN            NaN           NaN                15172   
mean        0.480563       7.649927     43.475833                  NaN   
std         0.756069      15.879506     12.213940                  NaN   
min         0.000000       0.002754     19.000000                  NaN   
25%         0.000000       0.116776     33.000000                  NaN   
50%         0.000000       0.227723     43.000000                  NaN   
75%         1.000000       0.606966     53.000000                  NaN   
max         5.000000      45.831097     75.000000                  NaN   

        education_id family_status  family_status_id gender income_type  \
count   21454.000000         21454  

 As colunas categóricas parecem estar corretas, com um número razoável de categorias únicas e valores frequentes. Como agumas categorias foram classificadas com nomes e não valores a contagem estatistica ficou como NaN na maioria mas pelo que foi feito até o momento não acredito que isso interfirá no resultado final e podemos prosseguir.

## Verificar as Hipóteses


**Existe uma correlação entre o nível de renda e do pagamento em dia?**

In [90]:
cse = pd.crosstab(credit_scoring['income_category'], credit_scoring['debt_category'], normalize='index')
print(cse)

debt_category     In Debt   No Debt
income_category                    
High Income      0.074059  0.925941
Low Income       0.082508  0.917492
Middle Income    0.083860  0.916140


Podemos observar que, em geral, a proporção de pessoas endividadas é maior em clientes com a renda baixa, enquanto a proporção de pessoas sem dívidas é maior em cliente de renda mais alta. No entanto, as diferenças entre as proporções não são significativas, o que significa que a relação entre a categoria de renda e a probabilidade de estar endividado pode não ser fortemente influenciada pelo nível de renda.

In [91]:
cse = pd.crosstab(credit_scoring['children'], credit_scoring['debt_category'], normalize='index')
print(cse)

debt_category   In Debt   No Debt
children                         
0              0.075438  0.924562
1              0.091658  0.908342
2              0.094925  0.905075
3              0.081818  0.918182
4              0.097561  0.902439
5              0.000000  1.000000


Podemos observar que, no geral a diferença não é significativa, somente para pessoas que não tem filho a diferente de clientes como divída é bem menor que pessoas com 1, 2 e 4 filhos, podemos observar que pessoas com 3 filhos tem um taxa de inadimplência é também signitivamente menor. Em cliente com 5 filhos há uma taxa de 100% em clientes sem divídas porém a quantidade de clientes é de 9 que é um número extremamente baixo em comparação aos outros valores da coluna 'children'. 

**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [92]:
cse_status = pd.crosstab(credit_scoring['family_status_category'], credit_scoring['debt_category'], margins=True, normalize='index')

print(cse_status)

debt_category            In Debt   No Debt
family_status_category                    
civil partnership       0.093471  0.906529
divorced                0.071130  0.928870
married                 0.075452  0.924548
unmarried               0.065693  0.934307
widow / widower         0.097509  0.902491
All                     0.081150  0.918850


Podemos analisar que as categorias "widow / widower" (viúvo/viúva) e "civil partnership" (união civil) têm taxas de inadimplência mais altas em comparação com as outras categorias. Já a categoria "unmarried" (solteiro) tem a menor taxa de inadimplência.

**Existe uma correlação entre o status familiar e o pagamento em dia?**

Analisando os valores em No Debt os valores são relativamente próximos para todas as categorias de status familiar, não podemos afirmar que existe uma correlação forte e direta entre o status familiar e o pagamento em dia.

In [93]:
cse_income = pd.crosstab(credit_scoring['income_category'], credit_scoring['debt_category'], margins=True, normalize='index')

print(cse_income)


debt_category     In Debt   No Debt
income_category                    
High Income      0.074059  0.925941
Low Income       0.082508  0.917492
Middle Income    0.083860  0.916140
All              0.081150  0.918850


**Conclusão**

Analisando com base na classificação que fizemos da renda total, podemos notar claramente que os cliente com Renda alta tem uma média bem inferior aos cliente de Renda Média e Baixa, iclusive podemos notar que pessoas de renda baixa tem um porcentagem  menor que os clientes de média renda. Mas analisando o geral todos tem um percentual similar de clientes com pagamento em dia. 

In [94]:
cse_purpose = pd.crosstab(credit_scoring['purpose_category'], credit_scoring['debt_category'], normalize='index')

print(cse_purpose)

debt_category      In Debt   No Debt
purpose_category                    
car               0.093590  0.906410
education         0.092200  0.907800
house             0.072334  0.927666
wedding           0.080034  0.919966


**Conclusão**

Com base nos percentuais de inadimplência para cada finalidade de crédito (purpose), podemos concluir que os clientes com o propósito 'car' e 'education' tem um indice de inadimplência maior aos cliente com o propósito 'house' e 'wedding'. 


# Conclusão Geral 

Conclusões:

Dados Ausentes: Inicialmente, identificamos que algumas colunas continham valores ausentes, como os campos "days_employed" e "total_income". Para lidar com esses dados faltantes, utilizamos a mediana das respectivas categorias de "income_type" para preencher os valores vazios, garantindo uma abordagem mais robusta.

Dados Duplicados: Identificamos e removemos dados duplicados no conjunto de dados, garantindo maior precisão nas análises e evitando distorções nos resultados.

Categorização de Dados: Realizamos a categorização de algumas variáveis para tornar as análises mais significativas e facilitar a compreensão dos resultados.

Observamos os padrões nos dados e respondemos a algumas perguntas-chave:

Verificamos que a maioria dos clientes que buscaram crédito têm entre 30 e 60 anos.
A maioria dos clientes tem educação de nível médio (secondary education) e são casados.
Cerca 65% dos clientes não possuem filhos, enquanto o restante tem até 5 filhos.
A taxa de inadimplência geral é de aproximadamente 8.12%.
Correlações:

Não observamos uma correlação significativa entre a renda e a probabilidade de inadimplência.
Também não há uma correlação clara entre o status familiar e a inadimplência.
Finalidades do Crédito:

Clientes que buscaram empréstimos para comprar uma casa apresentam a menor taxa de inadimplência (7.23%).
Aqueles que solicitaram crédito para adquirir um carro ou para fins educacionais têm uma taxa de inadimplência ligeiramente mais alta (9.36% e 9.22%, respectivamente).
Empréstimos para casamento têm uma taxa de inadimplência intermediária (8.00%).
Conclusão Geral:
A análise nos forneceu uma visão geral dos clientes que solicitaram crédito e suas características. Podemos inferir que a renda ou o status familiar isoladamente não têm um impacto significativo na probabilidade de inadimplência. No entanto, a finalidade do crédito pode ser um fator relevante na determinação do risco de inadimplência, com empréstimos para compra de casa apresentando menor risco.

Durante o processo de análise, tratamos dados ausentes e duplicados, categorizamos variáveis relevantes e realizamos análises exploratórias para responder às perguntas propostas. Essas conclusões são importantes para apoiar a tomada de decisões de concessão de crédito e gerenciamento de riscos em instituições financeiras.
