# **MÓDULO 17 - Projeto de Credit Score**
## Parte 1 - Processamento dos dados**


O termo "credit score" se refere a uma pontuação numérica que representa a credibilidade de um indivíduo em termos de cumprimento de obrigações financeiras, como pagar contas de empréstimos, cartões de crédito, entre outros. Essa pontuação é calculada com base em diversas informações financeiras e de crédito do indivíduo, como histórico de pagamentos, níveis de endividamento, tempo de crédito, tipos de crédito utilizados, entre outros.

O credit score tem como objetivo prever o risco de um indivíduo se tornar inadimplente com suas obrigações financeiras. Ou seja, o modelo avalia a probabilidade de um indivíduo não cumprir com os pagamentos de empréstimos ou outros compromissos financeiros. Essa previsão é fundamental para instituições financeiras, como bancos e credores, na tomada de decisão sobre a concessão de crédito. Um modelo de credit score eficaz pode ajudar essas instituições a avaliar o risco de emprestar dinheiro a um determinado indivíduo e, assim, tomar decisões mais informadas sobre a aprovação ou negação de crédito, bem como sobre os termos e condições desses empréstimos.

### Objetivo Geral
Organizar a base de dados para o desenvolvimento de modelo de previsão de Credit Score

#### Etapa 1
* Verificar tipos de dados
* Dimensionamento dadas colunas e existencia de dados
* Verifique se temos valores digitados de forma incorreta nas variáveis categóricas que necessitem de tratamento

Legenda dos dados:

*   **Age** : Idade dos nossos clientes.

*   **Income** : Salário Mensal.

*   **Gender** : Gênero.

*   **Education** : Nível de escolaridade dos clientes.

*   **Marital** : Status Civilmente.

*   **Number of Children** : Quantidade de filhos.

*   **Home** : Tipo de residência, alugada ou própria.

*   **Credit Score** : Nossa variável preditora, o score de crédito dos clientes.


In [160]:
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import plotly.express as px

In [161]:
#Lembrem-se sempre de alterar a importação dos dados de acordo com o diretório de vocês.
df = pd.read_csv("CREDIT_SCORE_PROJETO_PARTE1.csv", delimiter=';')
df.head(10)

Unnamed: 0,Age,Gender,Income,Education,Marital Status,Number of Children,Home Ownership,Credit Score
0,25.0,Female,"50.000,00",Bachelor's Degree,Single,0,Rented,High
1,30.0,Male,"100.000,00",Master's Degree,Married,2,Owned,High
2,35.0,Female,"75.000,00",Doctorate,Married,1,Owned,High
3,40.0,Male,"125.000,00",High School Diploma,Single,0,Owned,High
4,45.0,Female,"100.000,00",Bachelor's Degree,Married,3,Owned,High
5,50.0,Male,"150.000,00",Master's Degree,Married,0,Owned,High
6,26.0,Female,"40.000,00",Associate's Degree,Single,0,Rented,Average
7,31.0,Male,"60.000,00",Bachelor's Degree,Single,0,Rented,Average
8,,Female,"80.000,00",Master's Degree,Married,2,Owned,High
9,,Male,"105.000,00",Doctorate,Single,0,Owned,High


### Etapa 1:
>a) Verificar os tipos de dados\
>b) Verifique a existencia de colunas com dados faltantes. Caso existam colunas com dados faltantes faça o tratamento desses dados, excluindo ou substituindo esses valores. Justifique sua escolha\
>c)Verifique se temos valores digitados de forma incorreta nas variáveis categóricas que necessitem de tratamento.

Os tipos e dimensão dos dados são apresentados na tabela x.
```python
print(df.info())
```

| # | Column              | Non-Null Count | Dtype   |
|---|---------------------|----------------|---------|
| 0 | Age                 | 130 non-null   | float64 |
| 1 | Gender              | 164 non-null   | object  |
| 2 | Income              | 164 non-null   | object  |
| 3 | Education           | 164 non-null   | object  |
| 4 | Marital Status      | 164 non-null   | object  |
| 5 | Number of Children  | 164 non-null   | int64   |
| 6 | Home Ownership      | 164 non-null   | object  |
| 7 | Credit Score        | 164 non-null   | object  |

#### **df['Age']**
Todas as colunas do conjunto de dados possuem 164 valores não nulos, com exceção da coluna *'Age'*, que contém 130 valores não nulos. Utilizando a função describe(), avaliamos suas estatísticas descritivas.A média (37.51) e a mediana (36) são valores relativamente próximos, sugerindo uma distribuição aproximadamente centralizada. No entanto, os valores mínimo (25) e máximo (53) não estão perfeitamente equilibrados em torno da média, o que pode indicar a presença de assimetria na distribuição. Além disso, a diferença entre os quartis (Q3 - Q1 = 15) reforça que os dados não seguem uma distribuição perfeitamente simétrica. A Tabela X resume esses valores:

| Estatística | Valor  |
|-------------|--------|
| **Amostra (n)** | 130  |
| **Média (Mean)** | 37.51  |
| **Desvio Padrão (Std)** | 8.50   |
| **Mínimo (Min)** | 25.00  |
| **Mediana (Q2)** | 36.00  |
| **Máximo (Max)** | 53.00  |
| **1º Quartil (Q1)** | 30.00  |
| **3º Quartil (Q3)** | 45.00  |
| **Intervalo Interquartil (IQR = Q3 - Q1)** | 15.00  |

Os dados não nulos representam 79% dos dados válidos. ou seja, 21% dos dados deveriam ser descartatos.Assim, pelos dados se apresentarem ligeiramente próximos a uma distribuição normal, substituiremos valores nulos pela mediana dos dados não-nulos.
#### **df[Income']**
Os dados foram transformados de string to float

Por fim, verificamos que todos os dados categoricos não apresentam erros de digitação ou redundancia de informação.Além disso as colunas *Gender*,*Marital Status*,*Home Ownership* possuem apenas 2 categorias, o que possibilita uma fácil mudança para numeros inteiros através da tecnica Label Encoding. 

In [193]:
df = pd.read_csv("CREDIT_SCORE_PROJETO_PARTE1.csv", delimiter=';')

df.info()
#substituido
df.fillna({'Age': df['Age'].median()}, inplace=True) #NaN -> mediana

#Transformando df['Income'] de string em float
df['Income'] = (
     df['Income']
     .str.replace('.', '', regex=False)  
     .str.replace(',', '.', regex=False)  
      .astype(float))

df.info()
print(df[['Gender', 'Education', 'Marital Status', 'Home Ownership', 'Credit Score']].apply(pd.Series.unique))


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 164 entries, 0 to 163
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Age                 130 non-null    float64
 1   Gender              164 non-null    object 
 2   Income              164 non-null    object 
 3   Education           164 non-null    object 
 4   Marital Status      164 non-null    object 
 5   Number of Children  164 non-null    int64  
 6   Home Ownership      164 non-null    object 
 7   Credit Score        164 non-null    object 
dtypes: float64(1), int64(1), object(6)
memory usage: 10.4+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 164 entries, 0 to 163
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Age                 164 non-null    float64
 1   Gender              164 non-null    object 
 2   Income              164 non-null    fl