## Testes com Algoritmos de Classificação

In [1]:
# Bibliotecas
import pandas as pd
import numpy as np
from scipy import stats
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [2]:
# Base de dados
ds = pd.read_csv('.././Labs/Amostragem/credit_data.csv')
ds.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


In [3]:
# Limpando as NAs
ds.dropna(inplace=True)
ds.shape

(1997, 5)

In [4]:
# Criando as variáveis de classificação e previsores 
X = ds.iloc[:,1:4].values
y = ds.iloc[:, 4].values
X

array([[6.61559251e+04, 5.90170151e+01, 8.10653213e+03],
       [3.44151540e+04, 4.81171531e+01, 6.56474502e+03],
       [5.73171701e+04, 6.31080495e+01, 8.02095330e+03],
       ...,
       [4.43114493e+04, 2.80171669e+01, 5.52278669e+03],
       [4.37560566e+04, 6.39717958e+01, 1.62272260e+03],
       [6.94365796e+04, 5.61526170e+01, 7.37883360e+03]])

In [5]:
# Criação dos Algoritmos de Machine Learning
resultados_naive_bayes = []
resultados_logistica = []
resultados_forest = []
for i in range(30):
    X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(
        X, y, test_size = 0.2, stratify = y, random_state = i
    )
    naive_bayes = GaussianNB()
    naive_bayes.fit(X_treinamento, y_treinamento)
    resultados_naive_bayes.append(accuracy_score(y_teste, naive_bayes.predict(X_teste)))

    logistica = LogisticRegression()
    logistica.fit(X_treinamento, y_treinamento)
    resultados_logistica.append(accuracy_score(y_teste, logistica.predict(X_teste)))

    random_forest = RandomForestClassifier()
    random_forest.fit(X_treinamento, y_treinamento)
    resultados_forest.append(accuracy_score(y_teste, random_forest.predict(X_teste)))

In [6]:
# Visualizando o maior accuracy_score do naive bayes
print(max(resultados_naive_bayes))

0.9425


In [7]:
# Visualizando o maior accuracy_score de regressão logística  
print(max(resultados_logistica))

0.9525


In [8]:
# Visualizando o maior accuracy_score do árvores de decisão 
print(max(resultados_forest))

0.995


In [9]:
# Transformando listas em array do numpy
resultados_naive_bayes = np.array(resultados_naive_bayes)
resultados_logistica = np.array(resultados_logistica)
resultados_forest = np.array(resultados_forest)

### Média

In [10]:
# Visualizando a média 
resultados_naive_bayes.mean(), resultados_logistica.mean(), resultados_forest.mean()

(0.92425, 0.9145, 0.9839166666666667)

### Moda

In [11]:
# Visualizando a moda
stats.mode(resultados_naive_bayes, keepdims=True), stats.mode(resultados_logistica, keepdims=True), stats.mode(resultados_forest, keepdims=True)

(ModeResult(mode=array([0.9175]), count=array([5])),
 ModeResult(mode=array([0.9075]), count=array([4])),
 ModeResult(mode=array([0.9875]), count=array([7])))

### Mediana

In [12]:
# Visualizando a mediana
np.median(resultados_naive_bayes), np.median(resultados_logistica), np.median(resultados_forest) 

(0.925, 0.9125, 0.985)

### Variância

In [13]:
# Calculando a Variância
np.set_printoptions(suppress=True)
np.var(resultados_naive_bayes), np.var(resultados_logistica), np.var(resultados_forest)

(8.756250000000001e-05, 0.00020933333333333337, 3.778472222222232e-05)

In [14]:
# Visualizando o menor valor de erro
np.min([8.756250000000001e-05, 0.00020933333333333337, 2.8638888888888994e-05])

2.8638888888888994e-05

In [15]:
# Visualizando o maior valor de erro
np.max([8.756250000000001e-05, 0.00020933333333333337, 2.8638888888888994e-05])

0.00020933333333333337

### Desvio Padrão

In [16]:
# Visualizando o desvio Padrão
np.std(resultados_naive_bayes), np.std(resultados_logistica), np.std(resultados_forest)

(0.00935748363610645, 0.014468356276140472, 0.006146927868636683)

### Coeficiente de Variação

In [17]:
# Visualizando o Coeficiente de Variação
stats.variation(resultados_naive_bayes) * 100, stats.variation(resultados_logistica) * 100, stats.variation(resultados_forest) * 100

(1.0124407504578252, 1.5821056616884057, 0.6247406997852138)