# Modelo de aprendizado de máquina para classificar dados relacionados a crédito

## Importações

In [None]:
import mysql.connector as mysql
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pymysql import connect
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

## Leitura do banco de dados

In [None]:
data_base = connect(host='localhost',
                         user = 'root',
                         passwd = 'rootroot',
                    database = 'statlog')

In [None]:
query = "SELECT * FROM germancredit"
my_data = pd.read_sql(query, data_base)
display(my_data.head())

## Separação das variáveis de entrada e saída

In [None]:
X = np.array(my_data.drop(['id', 'kredit'],axis=1)).reshape(-1, 20)
y = np.array(my_data.kredit).reshape(-1, 1).reshape(-1)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

In [None]:
print("shape of original dataset :", my_data.shape)
print("shape of input - training set", X_train.shape)
print("shape of output - training set", y_train.shape)
print("shape of input - testing set", X_test.shape)
print("shape of output - testing set", y_test.shape)

## Criação do modelo de classificação

In [None]:
clf = Perceptron(tol=1e-3, random_state=0)
clf.fit(X, y)

## Métricas de avaliação

### - Conjunto de treinamento

In [None]:
y_train_pred = clf.predict(X_train)

- #### Pontuação de classificação de precisão (quantidade de amostras de treinamento classificadas corretamente):

In [None]:
accuracy_score(y_train, y_train_pred, normalize = False)

- #### Relatório de texto mostrando as principais métricas de classificação das amostras de treinamento:

In [None]:
target_names = ['class 0', 'class 1']
print(classification_report(y_train, y_train_pred, target_names = target_names, zero_division = 1))

### - Conjunto de teste

In [None]:
y_test_pred = clf.predict(X_test)

- #### Pontuação de classificação de precisão (quantidade de amostras de teste classificadas corretamente):

In [None]:
accuracy_score(y_test, y_test_pred, normalize = False)

- #### Relatório de texto mostrando as principais métricas de classificação das amostras de teste:

In [None]:
target_names = ['class 0', 'class 1']
print(classification_report(y_test, y_test_pred, target_names = target_names, zero_division = 1))

## Classificar nova análise de crédito

In [None]:
user_data = np.array([
    int(input("laufkont:")),
    int(input("laufzeit:")),
    int(input("moral:")),
    int(input("verw:")),
    int(input("hoehe:")),
    int(input("sparkont:")),
    int(input("beszeit:")),
    int(input("rate:")),
    int(input("famges:")),
    int(input("buerge:")),
    int(input("wohnzeit:")),
    int(input("verm:")),
    int(input("jahre:")),
    int(input("weitkred:")),
    int(input("wohn:")),
    int(input("bishkred:")),
    int(input("beruf:")),
    int(input("pers:")),
    int(input("telef:")),
    int(input("gastarb:"))
])

In [None]:
user_data_pred = clf.predict([user_data])
if user_data_pred == 0:
    print("Risco de crédito ruim!")
else:
    print("Risco de crédito bom!")