# Algoritmos de classificação
Serão feitos testes com três algoritmos de classificação. Serão 30 testes, para atender a um procedimento comum na comunidade de ciência de dados. 

In [28]:
import pandas as pd
import numpy as np

In [3]:
path_dataset = r'../data/raw_data/credit_data.csv'

In [4]:
dataset = pd.read_csv(path_dataset)

In [5]:
dataset.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


In [6]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   i#clientid  2000 non-null   int64  
 1   income      2000 non-null   float64
 2   age         1997 non-null   float64
 3   loan        2000 non-null   float64
 4   c#default   2000 non-null   int64  
dtypes: float64(3), int64(2)
memory usage: 78.3 KB


Há dados faltantes em idade. Removendo todo o registro de todos os dados faltantes

In [11]:
dataset.dropna(inplace=True)

In [12]:
dataset.shape

(1997, 5)

In [13]:
dataset.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


## Separando dados e alvo

In [15]:
X = dataset.iloc[:,1:4].values
X

array([[6.61559251e+04, 5.90170151e+01, 8.10653213e+03],
       [3.44151540e+04, 4.81171531e+01, 6.56474502e+03],
       [5.73171701e+04, 6.31080495e+01, 8.02095330e+03],
       ...,
       [4.43114493e+04, 2.80171669e+01, 5.52278669e+03],
       [4.37560566e+04, 6.39717958e+01, 1.62272260e+03],
       [6.94365796e+04, 5.61526170e+01, 7.37883360e+03]])

In [16]:
y = dataset.iloc[:,4].values
y

array([0, 0, 0, ..., 1, 0, 0], dtype=int64)

## Importando pacotes de classificação

In [19]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

## Loop com 30 testes

In [20]:
resultados_naive_bayes = []
resultados_logistica = []
resultados_forest = []

for i in range(30):
    X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X, y, test_size=0.2, 
                                                                     stratify=y, random_state=i)
    naive_bayes = GaussianNB()
    naive_bayes.fit(X_treinamento, y_treinamento)
    resultados_naive_bayes.append(accuracy_score(y_teste, naive_bayes.predict(X_teste)))

    logistica = LogisticRegression()
    logistica.fit(X_treinamento, y_treinamento)
    resultados_logistica.append(accuracy_score(y_teste, logistica.predict(X_teste)))

    random_forest = RandomForestClassifier()
    random_forest.fit(X_treinamento, y_treinamento)
    resultados_forest.append(accuracy_score(y_teste, random_forest.predict(X_teste)))

In [21]:
print(resultados_naive_bayes)

[0.925, 0.925, 0.9325, 0.925, 0.92, 0.905, 0.9175, 0.9175, 0.9125, 0.9325, 0.9225, 0.9125, 0.935, 0.9175, 0.925, 0.9175, 0.9275, 0.92, 0.9325, 0.92, 0.93, 0.905, 0.9175, 0.9325, 0.9425, 0.9375, 0.94, 0.92, 0.935, 0.925]


In [22]:
print(resultados_logistica)

[0.9325, 0.9275, 0.9375, 0.94, 0.94, 0.95, 0.955, 0.9425, 0.935, 0.955, 0.945, 0.9325, 0.95, 0.935, 0.9425, 0.9425, 0.9525, 0.9475, 0.96, 0.9425, 0.9575, 0.9375, 0.9525, 0.97, 0.94, 0.9475, 0.955, 0.9625, 0.9575, 0.945]


In [23]:
print(resultados_forest)

[0.9775, 0.985, 0.985, 0.9925, 0.9775, 0.9875, 0.9825, 0.98, 0.9775, 0.985, 0.9825, 0.9775, 0.975, 0.985, 0.98, 0.9775, 0.9875, 0.9775, 0.99, 0.985, 0.98, 0.975, 0.98, 0.9825, 0.985, 0.995, 0.9875, 0.9825, 0.99, 0.985]


In [25]:
resultados_naive_bayes = np.array(resultados_naive_bayes)
resultados_logistica = np.array(resultados_logistica)
resultados_forest = np.array(resultados_forest)

## Média

In [27]:
print(resultados_naive_bayes.mean())
print(resultados_logistica.mean())
print(resultados_forest.mean())

0.92425
0.9463333333333334
0.983


## Moda

In [29]:
from scipy import stats

In [30]:
print(stats.mode(resultados_naive_bayes))
print(stats.mode(resultados_logistica))
print(stats.mode(resultados_forest))

ModeResult(mode=0.9175, count=5)
ModeResult(mode=0.9425, count=4)
ModeResult(mode=0.985, count=7)


## Mediana

In [31]:
print(np.median(resultados_naive_bayes))
print(np.median(resultados_logistica))
print(np.median(resultados_forest))

0.925
0.945
0.9825


## Variância

In [33]:
print(np.var(resultados_naive_bayes))
print(np.var(resultados_logistica))
print(np.var(resultados_forest))

8.756250000000001e-05
9.738888888888882e-05
2.5583333333333333e-05


Menor valor é melhor. Mostra que não há muita variância

## Desvio padrão

In [34]:
print(np.std(resultados_naive_bayes))
print(np.std(resultados_logistica))
print(np.std(resultados_forest))

0.00935748363610645
0.009868580895391638
0.00505799696849784


## Coeficiente de variação

In [37]:
print(stats.variation(resultados_naive_bayes)* 100)
print(stats.variation(resultados_logistica)* 100)
print(stats.variation(resultados_forest)* 100)

1.0124407504578252
1.042822919555298
0.5145469957780101


O último valor dá um coeficiente de variação de 0.5%, ou seja, os valores estão distânte da média em torno de 0.5%, que é o menor valor, comparado aos outros.