# Projeto de Machine Learning: Descrição e Tarefas

Neste projeto, cada grupo irá escolher um dos cinco conjuntos de dados abaixo e desenvolver um modelo de aprendizado supervisionado para resolver o problema proposto. O foco estará em todo o ciclo de desenvolvimento de um projeto de Machine Learning, desde a compreensão dos dados até a avaliação final do modelo. Cada etapa será cuidadosamente planejada para garantir que o modelo seja bem-sucedido na tarefa de predição.

Conjuntos de Dados Disponíveis:

1. [Telco Customer Churn](https://www.kaggle.com/datasets/blastchar/telco-customer-churn?select=WA_Fn-UseC_-Telco-Customer-Churn.csv)

2.	[Adult Census Income](https://www.kaggle.com/datasets/uciml/adult-census-income)

3.	[UCI Heart Disease Data](https://www.kaggle.com/datasets/redwankarimsony/heart-disease-data)

4.	[Bank Marketing Dataset](https://www.kaggle.com/datasets/janiobachmann/bank-marketing-dataset)

5.	[Default of Credit Card Clients Dataset](https://www.kaggle.com/datasets/uciml/default-of-credit-card-clients-dataset)

## Estrutura do Projeto

Cada grupo deve seguir as etapas descritas abaixo, adequando o processo ao conjunto de dados escolhido.

### 1. Entendimento do Problema e Definição de Objetivos

•	Tarefa: Analisar o problema proposto pelo conjunto de dados escolhido. Entender a natureza do problema (classificação binária, multiclasse ou regressão) e definir claramente os objetivos do projeto.

•	Exemplo: No caso do `Telco Customer Churn`, o objetivo será prever se um usuario faz parte do churn ou não.

### 2. Coleta e Preparação de Dados

•	Tarefa: Realizar o carregamento do dataset e fazer uma análise exploratória inicial. Isso inclui uma análise detalhada das variáveis, tipos de dados, presença de valores nulos ou inconsistências.

	•	Subtarefas:
	•	Remover ou preencher valores ausentes.
	•	Normalizar e padronizar as variáveis (se necessário).
	•	Codificar variáveis categóricas (se aplicável).

### 3. Análise Exploratória de Dados (EDA)

•	Tarefa: Realizar uma análise exploratória de dados aprofundada para entender as correlações entre as variáveis, distribuições e possíveis padrões.
	•	Subtarefas:
	•	Criar gráficos (distribuição, histogramas, box plots, etc.).
	•	Analisar correlações entre as variáveis.
	•	Identificar variáveis que podem ser eliminadas ou combinadas.


### 4. Divisão dos Dados em Conjuntos de Treinamento e Teste

•	Tarefa: Dividir o dataset em treinamento e teste (usualmente 80%/20%) para garantir a capacidade do modelo de generalizar bem a novos dados.

### 5. Escolha e Implementação de Algoritmos

•	Tarefa: Escolher um ou mais algoritmos de aprendizado supervisionado para treinar o modelo. Testar diferentes algoritmos e ajustar seus hiperparâmetros para melhorar a performance.

•	Algoritmos sugeridos: Logistic Regression, Decision Trees, Random Forest, KNN Classifier/Regression etc.

### 6. Avaliação do Modelo

•	Tarefa: Avaliar o desempenho do modelo usando métricas apropriadas para o tipo de problema.

•	Classificação:
	•	Métricas: Acurácia, Precisão, Revocação, F1-Score, AUC-ROC.
	•	Regressão:
	•	Métricas: RMSE, MAE, R².

### 7. Ajuste de Hiperparâmetros e Tuning do Modelo

•	Tarefa: Utilizar técnicas como `Grid Search` ou `Random Search` para ajustar hiperparâmetros e melhorar o desempenho do modelo.


### 8. Validação Cruzada e Teste Final

•	Tarefa: Aplicar validação cruzada para verificar a robustez do modelo e garantir que ele não esteja superajustado (overfitting). Em seguida, realizar o teste final no conjunto de teste.

### 9. Interpretação dos Resultados e Conclusão

•	Tarefa: Interpretar os resultados do modelo, destacando insights importantes, limitações e sugestões para melhorias futuras.


### 10. Relatório Final

•	Tarefa: Cada grupo deve compilar um relatório que inclua:

•	Descrição do problema.

•	Explicação da preparação e exploração de dados.

•	Justificativa da escolha dos algoritmos.

•	Análise dos resultados e gráficos gerados.

•	Conclusão com possíveis melhorias futuras.

•	Código comentado.

**Nota:** Este relatório pode ser feito no próprio notebook da modelagem

Avaliação

A avaliação do projeto será feita com base nos seguintes critérios:

•	Qualidade e profundidade da análise exploratória.

•	Eficiência e desempenho do modelo criado.

•	Clareza do relatório final e apresentação dos resultados.

•	Qualidade do código desenvolvido.

Boa sorte no desenvolvimento do projeto!

### Inspiração - Algumas ideias para exploração:

1. Como a probabilidade de inadimplência varia de acordo com as categorias de diferentes variáveis ​​demográficas?

2. Quais variáveis ​​são os preditores mais fortes de inadimplência?

# UCI_Credit_Card_Kaggle - Sobre o conjunto de dados

Este conjunto de dados contém informações sobre pagamentos inadimplentes, fatores demográficos, dados de crédito, histórico de pagamentos e extratos de contas de clientes de cartão de crédito em Taiwan, abrangendo o período de abril de 2005 a setembro de 2005.

## Conteúdo do Conjunto de Dados

| Variável                       | Descrição                                                                                                 |
|--------------------------------|-----------------------------------------------------------------------------------------------------------|
| `ID`                           | ID de cada cliente                                                                                        |
| `LIMIT_BAL`                    | Valor do crédito fornecido em dólares NT (inclui crédito individual e familiar/suplementar)               |
| `SEXO`                         | Gênero (1=masculino, 2=feminino)                                                                          |
| `EDUCAÇÃO`                     | Nível educacional (1=pós-graduação, 2=universidade, 3=ensino médio, 4=outros, 5=desconhecido, 6=desconhecido) |
| `CASAMENTO`                    | Estado civil (1=casado, 2=solteiro, 3=outros)                                                            |
| `IDADE`                        | Idade em anos                                                                                             |
| `PAY_0`                        | Situação do pagamento em setembro de 2005 (-1=pagar em dia, 1=atraso no pagamento por um mês, ..., 9=atraso de nove meses ou mais) |
| `PAY_2`                        | Situação do pagamento em agosto de 2005 (mesma escala de PAY_0)                                          |
| `PAY_3`                        | Situação do pagamento em julho de 2005 (mesma escala de PAY_0)                                           |
| `PAY_4`                        | Situação do pagamento em junho de 2005 (mesma escala de PAY_0)                                           |
| `PAY_5`                        | Situação do pagamento em maio de 2005 (mesma escala de PAY_0)                                            |
| `PAY_6`                        | Situação do pagamento em abril de 2005 (mesma escala de PAY_0)                                           |
| `BILL_AMT1`                    | Valor da fatura em setembro de 2005 (dólar NT)                                                           |
| `BILL_AMT2`                    | Valor da fatura em agosto de 2005 (dólar NT)                                                             |
| `BILL_AMT3`                    | Valor da fatura em julho de 2005 (dólar NT)                                                              |
| `BILL_AMT4`                    | Valor da fatura em junho de 2005 (dólar NT)                                                              |
| `BILL_AMT5`                    | Valor da fatura em maio de 2005 (dólar NT)                                                               |
| `BILL_AMT6`                    | Valor da fatura em abril de 2005 (dólar NT)                                                              |
| `PAY_AMT1`                     | Valor do pagamento anterior em setembro de 2005 (dólar NT)                                              |
| `PAY_AMT2`                     | Valor do pagamento anterior em agosto de 2005 (dólar NT)                                                |
| `PAY_AMT3`                     | Valor do pagamento anterior em julho de 2005 (dólar NT)                                                 |
| `PAY_AMT4`                     | Valor do pagamento anterior em junho de 2005 (dólar NT)                                                 |
| `PAY_AMT5`                     | Valor do pagamento anterior em maio de 2005 (dólar NT)                                                  |
| `PAY_AMT6`                     | Valor do pagamento anterior em abril de 2005 (dólar NT)                                                 |
| `default.payment.next.month`   | Inadimplência de Pagamento (1=sim, 0=não)


## Montagem do Drive e Bibliotecas

In [35]:
# bibliotecas de manipulação e visualização
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# algoritmos estimadores de ML
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC

# algoritmos de preprocessamento
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler

# modelos de fitting e predição
from sklearn.model_selection import train_test_split

# algoritmos de métricas
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, classification_report, make_scorer, recall_score, f1_score

# pipeline
from sklearn.pipeline import make_pipeline

# desabilitando os warnings
import warnings
warnings.filterwarnings('ignore')

In [36]:
df = pd.read_csv("db/UCI_Credit_Card.csv", sep=",")
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0


In [37]:
df.shape

(30000, 25)

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   ID                          30000 non-null  int64  
 1   LIMIT_BAL                   30000 non-null  float64
 2   SEX                         30000 non-null  int64  
 3   EDUCATION                   30000 non-null  int64  
 4   MARRIAGE                    30000 non-null  int64  
 5   AGE                         30000 non-null  int64  
 6   PAY_0                       30000 non-null  int64  
 7   PAY_2                       30000 non-null  int64  
 8   PAY_3                       30000 non-null  int64  
 9   PAY_4                       30000 non-null  int64  
 10  PAY_5                       30000 non-null  int64  
 11  PAY_6                       30000 non-null  int64  
 12  BILL_AMT1                   30000 non-null  float64
 13  BILL_AMT2                   300

In [39]:
df.SEX.value_counts(normalize=True)

SEX
2    0.603733
1    0.396267
Name: proportion, dtype: float64

In [40]:
df.EDUCATION.value_counts(normalize=True)

EDUCATION
2    0.467667
1    0.352833
3    0.163900
5    0.009333
4    0.004100
6    0.001700
0    0.000467
Name: proportion, dtype: float64

In [41]:
df.MARRIAGE.value_counts(normalize=True)

MARRIAGE
2    0.532133
1    0.455300
3    0.010767
0    0.001800
Name: proportion, dtype: float64

In [42]:
df.AGE.value_counts(normalize=True)

AGE
29    0.053500
27    0.049233
28    0.046967
30    0.046500
26    0.041867
31    0.040567
25    0.039533
34    0.038733
32    0.038600
33    0.038200
24    0.037567
35    0.037100
36    0.036933
37    0.034700
39    0.031800
38    0.031467
23    0.031033
40    0.029000
41    0.027467
42    0.026467
44    0.023333
43    0.022333
45    0.020567
46    0.019000
22    0.018667
47    0.016700
48    0.015533
49    0.015067
50    0.013700
51    0.011333
53    0.010833
52    0.010133
54    0.008233
55    0.006967
56    0.005933
57    0.004067
58    0.004067
59    0.002767
21    0.002233
60    0.002233
61    0.001867
62    0.001467
64    0.001033
63    0.001033
66    0.000833
65    0.000800
67    0.000533
69    0.000500
70    0.000333
68    0.000167
73    0.000133
75    0.000100
71    0.000100
72    0.000100
79    0.000033
74    0.000033
Name: proportion, dtype: float64

In [43]:
df.isnull().sum()

ID                            0
LIMIT_BAL                     0
SEX                           0
EDUCATION                     0
MARRIAGE                      0
AGE                           0
PAY_0                         0
PAY_2                         0
PAY_3                         0
PAY_4                         0
PAY_5                         0
PAY_6                         0
BILL_AMT1                     0
BILL_AMT2                     0
BILL_AMT3                     0
BILL_AMT4                     0
BILL_AMT5                     0
BILL_AMT6                     0
PAY_AMT1                      0
PAY_AMT2                      0
PAY_AMT3                      0
PAY_AMT4                      0
PAY_AMT5                      0
PAY_AMT6                      0
default.payment.next.month    0
dtype: int64

In [44]:
df.isna().sum()

ID                            0
LIMIT_BAL                     0
SEX                           0
EDUCATION                     0
MARRIAGE                      0
AGE                           0
PAY_0                         0
PAY_2                         0
PAY_3                         0
PAY_4                         0
PAY_5                         0
PAY_6                         0
BILL_AMT1                     0
BILL_AMT2                     0
BILL_AMT3                     0
BILL_AMT4                     0
BILL_AMT5                     0
BILL_AMT6                     0
PAY_AMT1                      0
PAY_AMT2                      0
PAY_AMT3                      0
PAY_AMT4                      0
PAY_AMT5                      0
PAY_AMT6                      0
default.payment.next.month    0
dtype: int64

In [45]:
df.describe()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
count,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,...,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0
mean,15000.5,167484.322667,1.603733,1.853133,1.551867,35.4855,-0.0167,-0.133767,-0.1662,-0.220667,...,43262.948967,40311.400967,38871.7604,5663.5805,5921.163,5225.6815,4826.076867,4799.387633,5215.502567,0.2212
std,8660.398374,129747.661567,0.489129,0.790349,0.52197,9.217904,1.123802,1.197186,1.196868,1.169139,...,64332.856134,60797.15577,59554.107537,16563.280354,23040.87,17606.96147,15666.159744,15278.305679,17777.465775,0.415062
min,1.0,10000.0,1.0,0.0,0.0,21.0,-2.0,-2.0,-2.0,-2.0,...,-170000.0,-81334.0,-339603.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,7500.75,50000.0,1.0,1.0,1.0,28.0,-1.0,-1.0,-1.0,-1.0,...,2326.75,1763.0,1256.0,1000.0,833.0,390.0,296.0,252.5,117.75,0.0
50%,15000.5,140000.0,2.0,2.0,2.0,34.0,0.0,0.0,0.0,0.0,...,19052.0,18104.5,17071.0,2100.0,2009.0,1800.0,1500.0,1500.0,1500.0,0.0
75%,22500.25,240000.0,2.0,2.0,2.0,41.0,0.0,0.0,0.0,0.0,...,54506.0,50190.5,49198.25,5006.0,5000.0,4505.0,4013.25,4031.5,4000.0,0.0
max,30000.0,1000000.0,2.0,6.0,3.0,79.0,8.0,8.0,8.0,8.0,...,891586.0,927171.0,961664.0,873552.0,1684259.0,896040.0,621000.0,426529.0,528666.0,1.0


# Testes com as features


In [46]:
categories = ['LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE']
pay = ['PAY_0', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6']
bill = ['BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6']
pay_amt = ['PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6']

In [47]:
pay_bill = pay + bill
pay_bill

['PAY_0',
 'PAY_2',
 'PAY_3',
 'PAY_4',
 'PAY_5',
 'PAY_6',
 'BILL_AMT1',
 'BILL_AMT2',
 'BILL_AMT3',
 'BILL_AMT4',
 'BILL_AMT5',
 'BILL_AMT6']

In [48]:
df_pay_bill = df[pay_bill]
df_pay_bill

Unnamed: 0,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6
0,2,2,-1,-1,-2,-2,3913.0,3102.0,689.0,0.0,0.0,0.0
1,-1,2,0,0,0,2,2682.0,1725.0,2682.0,3272.0,3455.0,3261.0
2,0,0,0,0,0,0,29239.0,14027.0,13559.0,14331.0,14948.0,15549.0
3,0,0,0,0,0,0,46990.0,48233.0,49291.0,28314.0,28959.0,29547.0
4,-1,0,-1,0,0,0,8617.0,5670.0,35835.0,20940.0,19146.0,19131.0
...,...,...,...,...,...,...,...,...,...,...,...,...
29995,0,0,0,0,0,0,188948.0,192815.0,208365.0,88004.0,31237.0,15980.0
29996,-1,-1,-1,-1,0,0,1683.0,1828.0,3502.0,8979.0,5190.0,0.0
29997,4,3,2,-1,0,0,3565.0,3356.0,2758.0,20878.0,20582.0,19357.0
29998,1,-1,0,0,0,-1,-1645.0,78379.0,76304.0,52774.0,11855.0,48944.0


In [49]:
df_pay_bill.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   PAY_0      30000 non-null  int64  
 1   PAY_2      30000 non-null  int64  
 2   PAY_3      30000 non-null  int64  
 3   PAY_4      30000 non-null  int64  
 4   PAY_5      30000 non-null  int64  
 5   PAY_6      30000 non-null  int64  
 6   BILL_AMT1  30000 non-null  float64
 7   BILL_AMT2  30000 non-null  float64
 8   BILL_AMT3  30000 non-null  float64
 9   BILL_AMT4  30000 non-null  float64
 10  BILL_AMT5  30000 non-null  float64
 11  BILL_AMT6  30000 non-null  float64
dtypes: float64(6), int64(6)
memory usage: 2.7 MB


# Preprocessamento

In [50]:
df_prep = df.drop('ID', axis=1)
df_prep

Unnamed: 0,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,20000.0,2,2,1,24,2,2,-1,-1,-2,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,120000.0,2,2,2,26,-1,2,0,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,90000.0,2,2,2,34,0,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,50000.0,2,2,1,37,0,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,50000.0,1,2,1,57,-1,0,-1,0,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29995,220000.0,1,3,1,39,0,0,0,0,0,...,88004.0,31237.0,15980.0,8500.0,20000.0,5003.0,3047.0,5000.0,1000.0,0
29996,150000.0,1,3,2,43,-1,-1,-1,-1,0,...,8979.0,5190.0,0.0,1837.0,3526.0,8998.0,129.0,0.0,0.0,0
29997,30000.0,1,2,2,37,4,3,2,-1,0,...,20878.0,20582.0,19357.0,0.0,0.0,22000.0,4200.0,2000.0,3100.0,1
29998,80000.0,1,3,1,41,1,-1,0,0,0,...,52774.0,11855.0,48944.0,85900.0,3409.0,1178.0,1926.0,52964.0,1804.0,1


## Com OneHotEncoder

In [51]:
categories = ['SEX', 'EDUCATION', 'MARRIAGE']
encoder = OneHotEncoder(sparse_output=False)
encoded_data = encoder.fit_transform(df_prep[categories])
print(encoded_data)

[[0. 1. 0. ... 1. 0. 0.]
 [0. 1. 0. ... 0. 1. 0.]
 [0. 1. 0. ... 0. 1. 0.]
 ...
 [1. 0. 0. ... 0. 1. 0.]
 [1. 0. 0. ... 1. 0. 0.]
 [1. 0. 0. ... 1. 0. 0.]]


In [52]:
# Contruindo um dataset com as colunas preprocessadas
encoded_df = pd.DataFrame(encoded_data, columns=encoder.get_feature_names_out(categories))
encoded_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   SEX_1        30000 non-null  float64
 1   SEX_2        30000 non-null  float64
 2   EDUCATION_0  30000 non-null  float64
 3   EDUCATION_1  30000 non-null  float64
 4   EDUCATION_2  30000 non-null  float64
 5   EDUCATION_3  30000 non-null  float64
 6   EDUCATION_4  30000 non-null  float64
 7   EDUCATION_5  30000 non-null  float64
 8   EDUCATION_6  30000 non-null  float64
 9   MARRIAGE_0   30000 non-null  float64
 10  MARRIAGE_1   30000 non-null  float64
 11  MARRIAGE_2   30000 non-null  float64
 12  MARRIAGE_3   30000 non-null  float64
dtypes: float64(13)
memory usage: 3.0 MB


In [53]:
# Removendo colunas originais
df_prep = df_prep.drop(columns=categories)

# Concatenando com o df_prep original
df_processed = pd.concat([df_prep, encoded_df], axis=1)

In [54]:
print(df_processed)

       LIMIT_BAL  AGE  PAY_0  PAY_2  PAY_3  PAY_4  PAY_5  PAY_6  BILL_AMT1  \
0        20000.0   24      2      2     -1     -1     -2     -2     3913.0   
1       120000.0   26     -1      2      0      0      0      2     2682.0   
2        90000.0   34      0      0      0      0      0      0    29239.0   
3        50000.0   37      0      0      0      0      0      0    46990.0   
4        50000.0   57     -1      0     -1      0      0      0     8617.0   
...          ...  ...    ...    ...    ...    ...    ...    ...        ...   
29995   220000.0   39      0      0      0      0      0      0   188948.0   
29996   150000.0   43     -1     -1     -1     -1      0      0     1683.0   
29997    30000.0   37      4      3      2     -1      0      0     3565.0   
29998    80000.0   41      1     -1      0      0      0     -1    -1645.0   
29999    50000.0   46      0      0      0      0      0      0    47929.0   

       BILL_AMT2  ...  EDUCATION_1  EDUCATION_2  EDUCATION_3  E

## Preprocessamento com o StandartScale

In [55]:
df_processed.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 34 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   LIMIT_BAL                   30000 non-null  float64
 1   AGE                         30000 non-null  int64  
 2   PAY_0                       30000 non-null  int64  
 3   PAY_2                       30000 non-null  int64  
 4   PAY_3                       30000 non-null  int64  
 5   PAY_4                       30000 non-null  int64  
 6   PAY_5                       30000 non-null  int64  
 7   PAY_6                       30000 non-null  int64  
 8   BILL_AMT1                   30000 non-null  float64
 9   BILL_AMT2                   30000 non-null  float64
 10  BILL_AMT3                   30000 non-null  float64
 11  BILL_AMT4                   30000 non-null  float64
 12  BILL_AMT5                   30000 non-null  float64
 13  BILL_AMT6                   300

In [56]:
X = df_processed.drop('default.payment.next.month', axis=1)
y = df_processed['default.payment.next.month']
X.shape, y.shape

((30000, 33), (30000,))

In [57]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, stratify=y)

In [58]:
X_train.shape, y_train.shape

((24000, 33), (24000,))

In [59]:
X_test.shape, y_test.shape

((6000, 33), (6000,))

In [60]:
scaler = StandardScaler().fit(X_train)
standardized_X = scaler.transform(X_train)
standardized_X_test = scaler.transform(X_test)

In [61]:
standardized_X.shape, standardized_X_test.shape

((24000, 33), (6000, 33))

In [62]:
standardized_X, standardized_X_test

(array([[ 0.55406918, -0.48827362,  1.79555753, ...,  1.09159547,
         -1.06511582, -0.10259784],
        [-1.13454178, -1.24622428,  0.01796113, ..., -0.91609028,
          0.93886503, -0.10259784],
        [ 0.40055909,  0.05311971,  0.90675933, ...,  1.09159547,
         -1.06511582, -0.10259784],
        ...,
        [-1.13454178, -1.35450294,  0.01796113, ...,  1.09159547,
         -1.06511582, -0.10259784],
        [ 0.247049  , -0.05515896, -0.87083707, ..., -0.91609028,
          0.93886503, -0.10259784],
        [ 1.78214987,  0.05311971, -0.87083707, ...,  1.09159547,
         -1.06511582, -0.10259784]]),
 array([[ 0.247049  , -0.70483095, -1.75963527, ..., -0.91609028,
          0.93886503, -0.10259784],
        [ 0.17029396, -0.37999495, -1.75963527, ..., -0.91609028,
          0.93886503, -0.10259784],
        [-1.21129682,  1.35246369,  0.90675933, ..., -0.91609028,
          0.93886503, -0.10259784],
        ...,
        [ 1.4751297 , -0.48827362, -1.75963527, ...,  

## Modelo Fitting e Predições

In [63]:
model = LogisticRegression()
model.fit(standardized_X, y_train)

In [64]:
y_pred = model.predict(standardized_X_test)

In [65]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.82      0.97      0.89      4673
           1       0.73      0.24      0.36      1327

    accuracy                           0.81      6000
   macro avg       0.78      0.61      0.63      6000
weighted avg       0.80      0.81      0.77      6000



## Realvaliação utilizando apenas PAY, BILL, PAY_AMT

In [66]:
pay = ['PAY_0', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6']
bill = ['BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6']
pay_amt = ['PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6']
revised = bill + pay + pay_amt
revised

['BILL_AMT1',
 'BILL_AMT2',
 'BILL_AMT3',
 'BILL_AMT4',
 'BILL_AMT5',
 'BILL_AMT6',
 'PAY_0',
 'PAY_2',
 'PAY_3',
 'PAY_4',
 'PAY_5',
 'PAY_6',
 'PAY_AMT1',
 'PAY_AMT2',
 'PAY_AMT3',
 'PAY_AMT4',
 'PAY_AMT5',
 'PAY_AMT6']

In [67]:
X_revised = df_processed[revised]
y_revised = df_processed['default.payment.next.month']
X_revised.shape, y_revised.shape

((30000, 18), (30000,))

In [68]:
print(X_revised)

       BILL_AMT1  BILL_AMT2  BILL_AMT3  BILL_AMT4  BILL_AMT5  BILL_AMT6  \
0         3913.0     3102.0      689.0        0.0        0.0        0.0   
1         2682.0     1725.0     2682.0     3272.0     3455.0     3261.0   
2        29239.0    14027.0    13559.0    14331.0    14948.0    15549.0   
3        46990.0    48233.0    49291.0    28314.0    28959.0    29547.0   
4         8617.0     5670.0    35835.0    20940.0    19146.0    19131.0   
...          ...        ...        ...        ...        ...        ...   
29995   188948.0   192815.0   208365.0    88004.0    31237.0    15980.0   
29996     1683.0     1828.0     3502.0     8979.0     5190.0        0.0   
29997     3565.0     3356.0     2758.0    20878.0    20582.0    19357.0   
29998    -1645.0    78379.0    76304.0    52774.0    11855.0    48944.0   
29999    47929.0    48905.0    49764.0    36535.0    32428.0    15313.0   

       PAY_0  PAY_2  PAY_3  PAY_4  PAY_5  PAY_6  PAY_AMT1  PAY_AMT2  PAY_AMT3  \
0          2      

In [69]:
print(y_revised)

0        1
1        1
2        0
3        0
4        0
        ..
29995    0
29996    0
29997    1
29998    1
29999    1
Name: default.payment.next.month, Length: 30000, dtype: int64


In [70]:
X_train, X_test, y_train, y_test = train_test_split(X_revised, y_revised, test_size = 0.2, stratify=y)

In [71]:
X_train.shape, y_train.shape

((24000, 18), (24000,))

In [72]:
X_test.shape, y_test.shape

((6000, 18), (6000,))

In [73]:
scaler = StandardScaler().fit(X_train)
standardized_X = scaler.transform(X_train)
standardized_X_test = scaler.transform(X_test)

In [74]:
standardized_X.shape, standardized_X_test.shape

((24000, 18), (6000, 18))

In [75]:
model_revised = LogisticRegression()
model_revised.fit(standardized_X, y_train)

In [76]:
y_pred_revised = model_revised.predict(standardized_X_test)

In [77]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.78      0.93      0.85      4673
           1       0.26      0.09      0.13      1327

    accuracy                           0.74      6000
   macro avg       0.52      0.51      0.49      6000
weighted avg       0.67      0.74      0.69      6000



## Pipeline

In [78]:
clf = make_pipeline(StandardScaler(),
                    LinearSVC(random_state=0, tol=1e-5))
clf.fit(standardized_X, y_train)

In [79]:
print(clf.named_steps['linearsvc'].coef_)

[[-0.11996531  0.04262259  0.00744578  0.00022558  0.00186924  0.01090487
   0.22076926  0.05589612  0.021419    0.0150662   0.00982374  0.00416537
  -0.04732495 -0.03121656 -0.0151858  -0.01357144 -0.00949976 -0.00990353]]


In [80]:
print(clf.named_steps['linearsvc'].intercept_)
print(clf.predict(standardized_X_test))

[-0.56602627]
[0 0 0 ... 0 0 0]


In [81]:
print(classification_report())

TypeError: missing a required argument: 'y_true'

## LinearSVC para estimadores de classificação

