# **Modelo preditiva para Análise de Crédito**

## Introdução

Este projeto tem como objetivo criar um modelo preditivo destinado à análise de crédito. Os dados necessários para o desenvolvimento do modelo estão disponíveis no site da [UC Irvine Machine Learning Repository
](https://archive.ics.uci.edu/dataset/350/default+of+credit+card+clients).

## Objetivo

Este projeto busca criar um modelo preditivo que classifique a probabilidade de inadimplência de uma conta bancária no próximo mês, com base em dados históricos coletados. O objetivo é fornecer uma previsão precisa e útil para avaliação de riscos financeiros.

## Origem dos dados

Esta pesquisa teve como objetivo o caso dos pagamentos de inadimplência dos clientes em Taiwan e compara a precisão preditiva da probabilidade de inadimplência entre seis métodos de mineração de dados, conforme consta no site: [Default of credit card clients
](https://archive.ics.uci.edu/dataset/350/default+of+credit+card+clients)

## Dicionário dos dados

Esta pesquisa utilizou uma variável binária, pagamento padrão (Sim = 1, Não = 0), como a variável de resposta. Este estudo revisou a literatura e utilizou as seguintes 23 variáveis como variáveis explicativas:
- **X1**: Valor do crédito concedido (em dólar de Taiwan): inclui tanto o crédito individual do consumidor quanto o crédito familiar (suplementar).
- **X2**: Gênero (1 = masculino; 2 = feminino).
- **X3**: Educação (1 = pós-graduação; 2 = universidade; 3 = ensino médio; 4 = outros).
- **X4**: Estado civil (1 = casado; 2 = solteiro; 3 = outros).
- **X5**: Idade (anos).
- **X6 - X11**: Histórico de pagamento passado. Rastreamos os registros mensais de pagamento passado (de abril a setembro de 2005) da seguinte forma: X6 = status de pagamento em setembro de 2005; X7 = status de pagamento em agosto de 2005; ...; X11 = status de pagamento em abril de 2005. A escala de medição para o status de pagamento é: -1 = pagamento em dia; 1 = atraso de pagamento por um mês; 2 = atraso de pagamento por dois meses; ...; 8 = atraso de pagamento por oito meses; 9 = atraso de pagamento por nove meses ou mais.
- **X12-X17**: Valor do extrato da fatura (em dólar de Taiwan). X12 = valor do extrato da fatura em setembro de 2005; X13 = valor do extrato da fatura em agosto de 2005; ...; X17 = valor do extrato da fatura em abril de 2005.
- **X18-X23**: Valor do pagamento anterior (em dólar de Taiwan). X18 = valor pago em setembro de 2005; X19 = valor pago em agosto de 2005; ...; X23 = valor pago em abril de 2005.
- **Y**: Inadimplência no próximo mês


## 1. Bibliotecas

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")
pd.set_option('display.max_columns', None)

## 2. Carregando os dados

In [2]:
url = 'https://archive.ics.uci.edu/static/public/350/data.csv'
df = pd.read_csv(url)

## 3. Conhecendo dataset

### 3.1 Verificando o tamanho da dataset

In [3]:
print(f'Total de linhas: {df.shape[0]}')
print(f'Total de colunas: {df.shape[1]}')

Total de linhas: 30000
Total de colunas: 25


### 3.2 Verificando os dados

In [4]:
df.head()

Unnamed: 0,ID,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,X11,X12,X13,X14,X15,X16,X17,X18,X19,X20,X21,X22,X23,Y
0,1,20000,2,2,1,24,2,2,-1,-1,-2,-2,3913,3102,689,0,0,0,0,689,0,0,0,0,1
1,2,120000,2,2,2,26,-1,2,0,0,0,2,2682,1725,2682,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,3,90000,2,2,2,34,0,0,0,0,0,0,29239,14027,13559,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,4,50000,2,2,1,37,0,0,0,0,0,0,46990,48233,49291,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,5,50000,1,2,1,57,-1,0,-1,0,0,0,8617,5670,35835,20940,19146,19131,2000,36681,10000,9000,689,679,0


### 3.3 Verificando os dados da coluna ID

Podemos verificar que não há ID repetido no conjunto de dados.

In [5]:
df['ID'].nunique()

30000