# 1. Introduction

O gerenciamento de riscos de crédito desempenha um papel fundamental no setor financeiro, ajudando as instituições a avaliar a probabilidade de inadimplência de clientes em potencial. Em um contexto onde a análise de dados desempenha um papel cada vez mais importante, a aplicação de algoritmos de aprendizado de máquina torna-se uma ferramenta tima  para prever o comportamento dos tomadores de empréstimos.

Neste projeto de capstone, explorarei o conjunto de dados "German Credit Risk - With Target",disponivel no “Kaggle” que fornece informações sobre clientes de bancos alemães, incluindo características como idade, renda, histórico de crédito e o status de inadimplência em empréstimos anteriores. O objetivo principal é desenvolver e executar um modelo de aprendizado de máquina capaz de prever se um cliente será inadimplente em um empréstimo futuro, com base em suas características individuais.

A metodologia adotada segue uma abordagem de gerenciamento de projetos, priorizando etapas como análise exploratória de dados, pré-processamento de dados, implementação de algoritmos de aprendizado de máquina e apresentação eficaz das descobertas. 
Ao final deste projeto, espero não apenas desenvolver um modelo preditivo robusto, mas também fornecer insights que possam contribuir para uma análise mais precisa e eficaz do risco de crédito, beneficiando tanto as instituições financeiras quanto os clientes em potencial.


# Importing Libraries 

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib as plt 
import matplotlib.pyplot as plt
import statsmodels.api as sm
import scipy.stats as stats
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 2. EDA (Exploratory of Data Analysis)

# Data Preparation 

A etapa de preparação de dados desempenha um papel fundamental no processo de análise de dados e modelagem. Consiste em uma série de procedimentos destinados a garantir que os dados estejam limpos, organizados e prontos para análise. Este resumo destaca as principais atividades realizadas durante a etapa de preparação de dados.

1. Limpeza de Dados:
A limpeza de dados envolve a identificação e o tratamento de valores ausentes, inconsistências e erros nos dados. Isso inclui técnicas como preenchimento de valores ausentes, remoção de outliers e correção de erros de digitação.

2. Transformação de Dados:
A transformação de dados é realizada para converter os dados em um formato mais adequado para análise. Isso pode incluir a conversão de tipos de dados, normalização de variáveis numéricas e codificação de variáveis categóricas.

3. Seleção de Recursos:
A seleção de recursos visa identificar e selecionar os recursos mais relevantes para análise ou modelagem. Isso pode envolver a criação de novas variáveis, remoção de variáveis redundantes ou irrelevantes e dimensionamento de recursos.

4. Exploração de Dados:
A exploração de dados é realizada para entender melhor as características dos dados e identificar padrões ou tendências. Isso pode incluir a criação de gráficos, histogramas e matrizes de correlação.

5. Tratamento de Dados Desequilibrados:
Se houver desequilíbrio entre as classes em problemas de classificação, técnicas específicas podem ser aplicadas para lidar com isso, como oversampling, undersampling ou o uso de algoritmos específicos para dados desequilibrados.

Em resumo, a etapa de preparação de dados é essencial para garantir a qualidade e a adequação dos dados para análise e modelagem. 

In [3]:
dataframe = pd.read_csv("german_credit_data.csv")
df = pd.read_csv("german_credit_data.csv")

In [4]:
df.head()

Unnamed: 0.1,Unnamed: 0,Age,Sex,Job,Housing,Saving accounts,Checking account,Credit amount,Duration,Purpose,Risk
0,0,67,male,2,own,,little,1169,6,radio/TV,good
1,1,22,female,2,own,little,moderate,5951,48,radio/TV,bad
2,2,49,male,1,own,little,,2096,12,education,good
3,3,45,male,2,free,little,little,7882,42,furniture/equipment,good
4,4,53,male,2,free,little,little,4870,24,car,bad


In [6]:
df.shape

(1000, 11)

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Unnamed: 0        1000 non-null   int64 
 1   Age               1000 non-null   int64 
 2   Sex               1000 non-null   object
 3   Job               1000 non-null   int64 
 4   Housing           1000 non-null   object
 5   Saving accounts   817 non-null    object
 6   Checking account  606 non-null    object
 7   Credit amount     1000 non-null   int64 
 8   Duration          1000 non-null   int64 
 9   Purpose           1000 non-null   object
 10  Risk              1000 non-null   object
dtypes: int64(5), object(6)
memory usage: 86.1+ KB
