###### ** **Descrição** **

* **id_cliente**  : Número de identificação única do cliente
* **inad**        : Índice de inadimplência do cliente
* **Saldo_contas**: Índice referente aos saldos das contas corrente, poupança e aplicações do cliente
* **Class_Renda** : Índice referente à classificação do cliente de acordo com sua renda.
* **Anotações**   : Índice referente às anotações externas à empresa, tais como anotações SERASA / SPC / BACEN
* **Risco**       : Risco do Cliente atribuído dadas as variáveis de análise do cliente

In [1]:
# Importando Bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
%matplotlib inline

In [32]:
dataset = pd.read_csv('/content/risco.csv')

In [None]:
dataset.head()

In [None]:
# Informação sobre os dados do dataset
dataset.info()

In [None]:
#Verifica as dimensões do dataset
dataset.shape

In [None]:
#Estatísticas descritivas das variáveis numéricas
dataset.describe()

In [None]:
# Tabela de Frequência da Variável Alvo
dataset['Risco'].value_counts()


In [None]:
# Visualização gráfica variáves alvo
sns.countplot(dataset['Risco']);

In [None]:
# Verificação de dados ausentes
dataset.isna().sum()

In [35]:
# Eliminação de dados não relavantes
dataset = dataset.drop(columns=['id_cliente'])

In [None]:
dataset

In [None]:
# Identificação de outliers
from matplotlib import pyplot
dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)
pyplot.show()

In [None]:
# Visualizando a distribuição dos dados
dataset.hist()
plt.show()

In [None]:
# Criando visualização gráfica de dispersão (scatter)
sns.pairplot(dataset, hue='Risco', kind="reg");

In [None]:
# Criação do Gráfico de dispersão sem agregar pelo TARGET
sns.pairplot(dataset,kind="reg");

In [23]:
# Separando as Variáveis de Entrada e Saída do Modelo
X = dataset.iloc[:,:-1].values  #variáveis independentes
y = dataset.iloc[:,-1].values  #Target/labe/class/vairável dependente

In [None]:
# Imprimindo as variáveis X e Y
print("\nVariáveis de Entrada da avaliação:\n\n", X[:3])
print("\nRisco - Variável a ser Predita :\n\n", y[:3])

In [None]:
X

In [None]:
y

In [26]:
# Dividindo os dados em dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X ,y, test_size=0.2, random_state = 1)

In [None]:
print("Dados de Treino :\n----------------\n")
print("X = \n", X_train[:2])
print("y = \n", y_train[:2])

print("\n\nDados de Teste :\n----------------\n")
print("X = \n",X_test[:2])
print("y = \n", y_test[:2])

In [44]:
#Redimensionando os dados - PADRONIZAÇÂO - Feature scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()

X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [None]:
X_train

In [None]:
X_test

In [48]:
# Importando a Biblioteca KNN
from sklearn.neighbors import KNeighborsClassifier
model_knn = KNeighborsClassifier(n_neighbors=30)

In [49]:
# Treinando o modelo com os dados de treino
model_knn = model_knn.fit(X_train,y_train)

In [None]:
# Fazendo Previsões com os dados de teste
y_pred = model_knn.predict(X_test)
y_pred

In [None]:
# Avaliando a Acurácia do modelo
from sklearn import metrics
print("Acurácia do modelo = ", metrics.accuracy_score(y_test, y_pred)*100)

In [None]:
# Comparando dado Real e dado Predito
print("\n Dado_real vs Dados_redito \n------------------------------\n")
error_df = pd.DataFrame({" Dado_real" : y_test,
                         " Dado_predito" : y_pred})

error_df.head(5)

In [None]:
#Usando a confusion matrix  e o classification report para avaliar a acurácia e demais indicadores
from sklearn.metrics import confusion_matrix, classification_report
from sklearn import metrics

print("Acurácia do modelo = ", metrics.accuracy_score(y_test, y_pred)*100)
cm = confusion_matrix(y_test,y_pred)
cr = classification_report(y_test, y_pred)
print(cm)
print(cr)

In [55]:
# Importando a Biblioteca
from sklearn.svm import SVC
model_svc = SVC(kernel='linear',
                 gamma= 1e-5  ,
                 C=10,
                 random_state=1)

In [None]:
# Treinando o modelo
model_svc.fit(X_train,y_train)

In [None]:
#Fazendo novas previsões com os dados de teste
y_pred = model_svc.predict(X_test)

y_pred

In [None]:
# Calculando a Acurácia do modelo
from sklearn import metrics
print("Prediction Accuracy = ", metrics.accuracy_score(y_test, y_pred)*100)

# Comparando dado Real e dado Predito
print("\n Dado_real vs Dado_predito  \n------------------------------\n")
error_df = pd.DataFrame({"Dado_real" : y_test,
                         "Dado_predito" : y_pred})

error_df.head(5)

In [63]:

# Usando a confusion matrix e o classification report para avaliar o modelo
from sklearn.metrics import confusion_matrix, classification_report

cm = confusion_matrix(y_test,y_pred)
cr = classification_report(y_test, y_pred)

In [None]:
# Imprimindo a Confusion Matrix e o Classification Report
print(cm)
print(cr)