# **MÓDULO 17 - Projeto de Credit Score - Parte 1 - Processamento dos dados**


Essa é a primeira etapa do processo de Credit Score que vocês desenvolverão durante nosso curso.
Nessa primeira etapa vocês irão aplicar os passos aprendidos nos módulos de pré processamento para preparar a base de vocês para o desenvolvimento do modelo.

O termo "credit score" se refere a uma pontuação numérica que representa a credibilidade de um indivíduo em termos de cumprimento de obrigações financeiras, como pagar contas de empréstimos, cartões de crédito, entre outros. Essa pontuação é calculada com base em diversas informações financeiras e de crédito do indivíduo, como histórico de pagamentos, níveis de endividamento, tempo de crédito, tipos de crédito utilizados, entre outros.

O objetivo de um modelo de credit score é prever o risco de um indivíduo se tornar inadimplente com suas obrigações financeiras. Em outras palavras, o modelo avalia a probabilidade de um indivíduo não cumprir com os pagamentos de empréstimos ou outros compromissos financeiros. Essa previsão é fundamental para instituições financeiras, como bancos e credores, na tomada de decisão sobre a concessão de crédito. Um modelo de credit score eficaz pode ajudar essas instituições a avaliar o risco de emprestar dinheiro a um determinado indivíduo e, assim, tomar decisões mais informadas sobre a aprovação ou negação de crédito, bem como sobre os termos e condições desses empréstimos.

**Atenção:** Notem que esse projeto é diferente da base que tenho trabalhado com vocês em aula, apesar de se tratar de uma base bancária durante a aula falamos sobre a variável Churn a ser prevista, nesse caso a previsão seria do valor do Score de Crédito.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import plotly.express as px

In [None]:
#Lembrem-se sempre de alterar a importação dos dados de acordo com o diretório de vocês.
df = pd.read_csv("CREDIT_SCORE_PROJETO_PARTE1.csv", delimiter=';')

df.head(10)

Unnamed: 0,Age,Gender,Income,Education,Marital Status,Number of Children,Home Ownership,Credit Score
0,25.0,Female,"50.000,00",Bachelor's Degree,Single,0,Rented,High
1,30.0,Male,"100.000,00",Master's Degree,Married,2,Owned,High
2,35.0,Female,"75.000,00",Doctorate,Married,1,Owned,High
3,40.0,Male,"125.000,00",High School Diploma,Single,0,Owned,High
4,45.0,Female,"100.000,00",Bachelor's Degree,Married,3,Owned,High
5,50.0,Male,"150.000,00",Master's Degree,Married,0,Owned,High
6,26.0,Female,"40.000,00",Associate's Degree,Single,0,Rented,Average
7,31.0,Male,"60.000,00",Bachelor's Degree,Single,0,Rented,Average
8,,Female,"80.000,00",Master's Degree,Married,2,Owned,High
9,,Male,"105.000,00",Doctorate,Single,0,Owned,High


Legenda dos dados:

*   **Age** : Idade dos nossos clientes.

*   **Income** : Salário Mensal.

*   **Gender** : Gênero.

*   **Education** : Nível de escolaridade dos clientes.

*   **Marital** : Status Civilmente.

*   **Number of Children** : Quantidade de filhos.

*   **Home** : Tipo de residência, alugada ou própria.

*   **Credit Score** : Nossa variável preditora, o score de crédito dos clientes.


# Etapa 1: Relize os passos que vimos no módulo 18, de pré processamento dos dados.

**A) Verifique os tipos de dados, fazendo as transformações quando necessário.**


In [None]:
#A) seu código aqui
print(df.dtypes)

**B) Verifique se temos colunas com dados faltantes.
Caso existam colunas com dados faltantes faça o tratamento desses dados, excluindo ou substituindo esses valores. Justifique sua escolha.**

In [None]:
#seu código aqui
from scipy.stats import skew

# Verificando assimetria da idade, uma assimetria leve é indicado preencher os dados nulos com a média
assimetria_age = skew(df['Age'].dropna())
print(f"Assimetria: {assimetria_age:.2f}")

# Assimetria perto de 0 (zero) quer dizer que a distribuição é quase normal, então podemos preencher os valores nulos com a média
media_age = df['Age'].mean()

df.fillna({'Age': media_age}, inplace=True)
print(df['Age'].isnull().sum())

**C) Verifique se temos valores digitados de forma incorreta nas variáveis categóricas que necessitem de tratamento.**

In [None]:
#seu código aqui
print(df[['Gender', 'Education', 'Marital Status', 'Home Ownership', 'Credit Score']].apply(pd.Series.unique))

# Etapa 2: Relize os passos que vimos no módulo 15, de análise.

**A) Realiza a análise univariada, aplique a função describe ao nosso dataframe para verificar os dados das variáveis numéricas, se encontrar a possível presença de outliers analise com gráficos a distribuição dos dados.Traga insights sobre os dados analisados.**

In [None]:
#seu código aqui

print(df.describe())

# Buscando possíveis outliers com o Box Plot
df.boxplot(column='Age')
plt.title('Box Plot Idade')
plt.ylabel('Valores')
plt.show()

df.boxplot(column='Income')
plt.title('Box Plot Income')
plt.ylabel('Valores')
plt.show()

# Outlier encontrado no número de filhos 
df.boxplot(column='Number of Children')
plt.title('Box Plot Filhos')
plt.ylabel('Valores')
plt.show()

# Número de filhos
count_children = df['Number of Children'].value_counts() # Contagem dos valores da coluna número de filhos

# Calculando a porcentagem dos números de filhos
porcent_children = (count_children / count_children.sum()) * 100
ax = porcent_children.plot(kind='bar')
plt.title('Gráfico de barras para a variável número de filhos')
plt.xlabel('Número de filhos')
plt.ylabel('Frequência')
plt.show()

**B) Agora realize a análise univariada para as variaveis categóricas, plote gráficos para entender a distribuição das categorias e tente retirar insights de cada gráfico.**

In [None]:
#seu código aqui

# Analisando as variáveis categóricas

# Genêro
# Os clientes em sua maioria são mulheres, isso pode apresentar uma taxa de análise de crédito maior nas mulheres do que nos homens.
# Calculando a porcentagem 
count_gender = df['Gender'].value_counts()
percent_gender = (count_gender / count_gender.sum()) * 100

ax = count_gender.plot(kind='bar')
# Adicionando porcentagem as barras
for i, v in enumerate(count_gender):
    ax.text(i, v + 1, f'{percent_gender[i]:.2f}%', ha='center')
plt.title('Gráfico de barras para a variável genêro')
plt.xlabel('Genereo')
plt.ylabel('Frequência')
plt.show()

# Educação
# Os clientes em sua maioria possuêm grau de bacharelado, isso pode apresentar uma taxa de análise de crédito maior nas pessoas com nível de bacharelado.
count_edu = df['Education'].value_counts()
percent_edu = (count_edu / count_edu.sum()) * 100

ax = count_edu.plot(kind='bar')
# Adicionando porcentagem as barras
for i, v in enumerate(count_edu):
    ax.text(i, v + 1, f'{percent_edu[i]:.2f}%', ha='center')
plt.title('Gráfico de barras para a variável educação')
plt.xlabel('Grau de Educação')
plt.ylabel('Frequência')
plt.show()

# Status matrimonial
# Os clientes em sua maioria são casados, isso pode apresentar uma taxa de análise de crédito maior nas pessoas casadas.

count_matrial_status = df['Marital Status'].value_counts()
percent_matrial_status = (count_matrial_status / count_matrial_status.sum()) * 100

ax = count_matrial_status.plot(kind='bar')
for i, v in enumerate(count_matrial_status):
    ax.text(i, v + 1, f'{percent_matrial_status[i]:.2f}%', ha='center')
plt.title('Gráfico de barras para o status matrimonial')
plt.xlabel('Status Matrimonial')
plt.ylabel('Frequência')
plt.show()

# Home Ownership
# Os clientes em sua maioria possuem casa prórpia, isso pode apresentar uma taxa de análise de crédito maior nas pessoas que já possuem uma casa própria.

count_ownership = df['Home Ownership'].value_counts()
percent_ownership = (count_ownership / count_ownership.sum()) * 100

ax = count_ownership.plot(kind='bar')
for i, v in enumerate(count_ownership):
    ax.text(i, v + 1, f'{percent_ownership[i]:.2f}%', ha='center')
plt.title('Gráfico de barras para o casa própria')
plt.xlabel('Casa Própria')
plt.ylabel('Frequência')
plt.show()

# Credit Score
# Os clientes em sua maioria possuem um score alto.

count_credit_score = df['Credit Score'].value_counts()
percent_credit_score = (count_credit_score / count_credit_score.sum()) * 100

ax = count_credit_score.plot(kind='bar')
for i, v in enumerate(count_credit_score):
    ax.text(i, v + 1, f'{percent_credit_score[i]:.2f}%', ha='center')
plt.title('Gráfico de barras para score de crédito')
plt.xlabel('Score de Crédito')
plt.ylabel('Frequência')
plt.show()

**C) Você encontrou alguma coluna com outliers?
Se sim realize o tratamento desses casos.**

In [None]:
#seu código aqui

**D) Realize a análise Bivariada.
Tente responder as seguintes perguntas com gráficos seguidos de insights:**



*   Existe relação entre a idade e o status civil?
*   Qual a relação entre o score de crédito e o nível de escolaridade?
*  O salário parece influenciar na idade?
* O salário parece influenciar no Score de Crédito?
* Clientes com casa própria tendem a ter um score mais alto?



In [None]:
#seu código aqui

**E) Que outras perguntas te parecem fazer sentido explorarmos a resposta para conhecermos mais nossa base de dados e o comportamento dos clientes?**

 Elabore mais 3 perguntas e responda utilizando gráficos + insights.

In [None]:
# seu código aqui

# Etapa 3: Relize os passos que vimos no módulo 17, de Correlação, Balanceamento, atributos categóricos e divisão base treino e teste.

**A) Vamos começar pela análise de correlação, plote da forma que achar melhor a análise de correlação, seja pela tabela ou pelo gráfico da matriz.**

In [None]:
#seu código aqui

**B) Você encontrou variáveis que tem uma média ou alta correlação? Se sim, quais? Te parece fazer sentido essas variáveis terem alta correlação? Justifique.**

In [None]:
# sua justificativa aqui

**C) Temos muitos atributos categóricos nessa base, não? Vamos realizar a o tratamento desses atributos utilizando Label Encoder ou one hot. Após, exclua as colunas categóricas.**

In [None]:
#seu código aqui

**D) Vamos plotar novamente a correlação, agora observando com as variáveis categóricas. Identifique se temos novas variáveis com forte correlação.**

In [None]:
#seu código aqui

**F) Faça a separação da base em treino e teste e verifique utilizando shape:**

In [None]:
#seu código aqui

**G) É hora de verificar se nossa coluna de Score de crédito está balanceada, verifique através de um gráfico e traga sua opinião acerca do balanceamento.**

In [None]:
#seu código aqui

**H) Vamos realizar o balancecamento dos dados da coluna de credit score.**
Se lembre que realizazmos apenas para a base de treino.

In [None]:
#seu código aqui