# Modelo de aprendizado de máquina para classificar dados relacionados a crédito

## Importações

In [73]:
import mysql.connector as mysql
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pymysql import connect
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

## Leitura do banco de dados

In [5]:
data_base = connect(host='localhost',
                         user = 'root',
                         passwd = 'rootroot',
                    database = 'statlog')

In [11]:
query = "SELECT * FROM germancredit"
my_data = pd.read_sql(query, data_base)
display(my_data.head())

Unnamed: 0,id,laufkont,laufzeit,moral,verw,hoehe,sparkont,beszeit,rate,famges,...,verm,jahre,weitkred,wohn,bishkred,beruf,pers,telef,gastarb,kredit
0,1,1,18,4,2,1049,1,2,4,2,...,2,21,3,1,1,3,2,1,2,1
1,2,1,9,4,0,2799,1,3,2,3,...,1,36,3,1,2,3,1,1,2,1
2,3,2,12,2,9,841,2,4,2,2,...,1,23,3,1,1,2,2,1,2,1
3,4,1,12,4,0,2122,1,3,3,3,...,1,39,3,1,2,2,1,1,1,1
4,5,1,12,4,0,2171,1,3,4,3,...,2,38,1,2,2,2,2,1,1,1


## Separação das variáveis de entrada e saída

In [49]:
X = np.array(my_data.drop(['id', 'kredit'],axis=1)).reshape(-1, 20)
y = np.array(my_data.kredit).reshape(-1, 1).reshape(-1)

In [50]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

In [51]:
print("shape of original dataset :", my_data.shape)
print("shape of input - training set", X_train.shape)
print("shape of output - training set", y_train.shape)
print("shape of input - testing set", X_test.shape)
print("shape of output - testing set", y_test.shape)

shape of original dataset : (1000, 22)
shape of input - training set (800, 20)
shape of output - training set (800,)
shape of input - testing set (200, 20)
shape of output - testing set (200,)


## Criação do modelo de classificação

In [56]:
clf = Perceptron(tol=1e-3, random_state=0)
clf.fit(X, y)

Perceptron()

## Métricas de avaliação

In [162]:
y_train_pred = clf.predict(X_train)

print("Pontuação de classificação de precisão (quantidade de amostras de treinamento classificadas corretamente)")
accuracy_score(y_train, y_train_pred, normalize = False)

Pontuação de classificação de precisão (quantidade de amostras de treinamento classificadas corretamente)

Relatório de texto mostrando as principais métricas de classificação das amostras de treinamento
              precision    recall  f1-score   support

     class 0       0.30      1.00      0.46       238
     class 1       1.00      0.00      0.00       562

    accuracy                           0.30       800
   macro avg       0.65      0.50      0.23       800
weighted avg       0.79      0.30      0.14       800



In [90]:
print("Relatório de texto mostrando as principais métricas de classificação das amostras de treinamento")
target_names = ['class 0', 'class 1']
print(classification_report(y_train, y_train_pred, target_names = target_names, zero_division = 1))

Relatório de texto mostrando as principais métricas de classificação das amostras de treinamento
              precision    recall  f1-score   support

     class 0       0.30      1.00      0.46       238
     class 1       1.00      0.00      0.00       562

    accuracy                           0.30       800
   macro avg       0.65      0.50      0.23       800
weighted avg       0.79      0.30      0.14       800



In [91]:
y_test_pred = clf.predict(X_test)

print("Pontuação de classificação de precisão (quantidade de amostras de teste classificadas corretamente)")
accuracy_score(y_test, y_test_pred, normalize = False)

Pontuação de classificação de precisão (quantidade de amostras de teste classificadas corretamente)


62

In [92]:
print("Relatório de texto mostrando as principais métricas de classificação das amostras de teste")

target_names = ['class 0', 'class 1']
print(classification_report(y_test, y_test_pred, target_names = target_names, zero_division = 1))

Relatório de texto mostrando as principais métricas de classificação das amostras de teste
              precision    recall  f1-score   support

     class 0       0.31      1.00      0.47        62
     class 1       1.00      0.00      0.00       138

    accuracy                           0.31       200
   macro avg       0.66      0.50      0.24       200
weighted avg       0.79      0.31      0.15       200



In [142]:
user_data = np.array([
    int(input("laufkont:")),
    int(input("laufzeit:")),
    int(input("moral:")),
    int(input("verw:")),
    int(input("hoehe:")),
    int(input("sparkont:")),
    int(input("beszeit:")),
    int(input("rate:")),
    int(input("famges:")),
    int(input("buerge:")),
    int(input("wohnzeit:")),
    int(input("verm:")),
    int(input("jahre:")),
    int(input("weitkred:")),
    int(input("wohn:")),
    int(input("bishkred:")),
    int(input("beruf:")),
    int(input("pers:")),
    int(input("telef:")),
    int(input("gastarb:"))
])

laufkont:1
laufzeit:18
moral:4
verw:2
hoehe:1049
sparkont:1
beszeit:2
rate:4
famges:2
buerge:1
wohnzeit:4
verm:2
jahre:21
weitkred:3
wohn:1
bishkred:1
beruf:3
pers:2
telef:1
gastarb:2


In [160]:
user_data_pred = clf.predict([user_data])
if user_data_pred == 0:
    print("Risco de crédito ruim!")
else:
    print("Risco de crédito bom!")

Risco de crédito ruim!
