### Avaliação de algoritmos de machine learning

O intuito desse pequeno Projeto é comparar a eficiência dos 3 algoritmos: Naive bayes, Regressão logística e Random forests. Os algoritmos vão fezer previsões na base de dados `credit_data` e será feita uma comparação dos resultados usando medidas de posição e dispersão.

In [1]:
import pandas as pd 
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import numpy as np 
import stats
import statistics

In [3]:
df  = pd.read_csv('./data/credit_data.csv')
df.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


In [5]:
df.dropna(inplace=True)
df.shape

(1997, 5)

In [6]:
X = df.iloc[:, 1:4].values
X

array([[6.61559251e+04, 5.90170151e+01, 8.10653213e+03],
       [3.44151540e+04, 4.81171531e+01, 6.56474502e+03],
       [5.73171701e+04, 6.31080495e+01, 8.02095330e+03],
       ...,
       [4.43114493e+04, 2.80171669e+01, 5.52278669e+03],
       [4.37560566e+04, 6.39717958e+01, 1.62272260e+03],
       [6.94365796e+04, 5.61526170e+01, 7.37883360e+03]])

In [7]:
y = df['c#default'].values
y

array([0, 0, 0, ..., 1, 0, 0])

São armazenados a acurácia de cada modelo para 30 testes que vão usar valores diferentes para treinar os modelos na base de dados, esses resultados serão usados para comparar qual algoritmo foi mais eficiente.

In [8]:
resultados_naive_bayes = []
resultados_logistica = []
resultado_forest =[]
for i in range(30):
    X_treinamento, X_test, y_treinamento, y_test = train_test_split(X, y, test_size=0.2,
    stratify=y, random_state=i)

    naive_bayes = GaussianNB()
    naive_bayes.fit(X_treinamento, y_treinamento)
    resultados_naive_bayes.append(accuracy_score(y_test, naive_bayes.predict(X_test)))

    logistica = LogisticRegression()
    logistica.fit(X_treinamento, y_treinamento)
    resultados_logistica.append(accuracy_score(y_test, logistica.predict(X_test)))

    random_forest = RandomForestClassifier()
    random_forest.fit(X_treinamento, y_treinamento)
    resultado_forest.append(accuracy_score(y_test, random_forest.predict(X_test)))
    

In [9]:
print(f'Naive Bayes: {resultados_naive_bayes}\n')
print(f'Regreção Logistica: {resultados_logistica}\n')
print(f'Random forest: {resultado_forest}\n')

Naive Bayes: [0.925, 0.925, 0.9325, 0.925, 0.92, 0.905, 0.9175, 0.9175, 0.9125, 0.9325, 0.9225, 0.9125, 0.935, 0.9175, 0.925, 0.9175, 0.9275, 0.92, 0.9325, 0.92, 0.93, 0.905, 0.9175, 0.9325, 0.9425, 0.9375, 0.94, 0.92, 0.935, 0.925]

Regreção Logistica: [0.9325, 0.91, 0.9125, 0.9225, 0.9075, 0.89, 0.91, 0.9075, 0.8775, 0.915, 0.9175, 0.9, 0.925, 0.9175, 0.9025, 0.9125, 0.9525, 0.91, 0.9225, 0.9075, 0.925, 0.905, 0.9075, 0.945, 0.9225, 0.9275, 0.9225, 0.9175, 0.91, 0.9]

Random forest: [0.975, 0.99, 0.9825, 0.995, 0.9775, 0.9825, 0.9775, 0.9925, 0.975, 0.99, 0.9825, 0.9775, 0.975, 0.9875, 0.98, 0.98, 0.9875, 0.98, 0.9925, 0.9875, 0.975, 0.9725, 0.98, 0.985, 0.9875, 0.9925, 0.9925, 0.9775, 0.9875, 0.985]



Convertendo os resultados para np.array para calcular as medidas de posição e dispersão

In [10]:
resultados_naive_bayes = np.array(resultados_naive_bayes)
resultados_logistica = np.array(resultados_logistica)
resultado_forest = np.array(resultado_forest)

### Média

In [11]:
resultados_naive_bayes.mean(), resultados_logistica.mean(), resultado_forest.mean()

(0.92425, 0.9145, 0.9834166666666667)

### Moda

In [12]:
statistics.mode(resultados_naive_bayes), statistics.mode(resultados_logistica), statistics.mode(resultado_forest)

(0.925, 0.91, 0.9875)

### Mediana

In [13]:
np.median(resultados_naive_bayes), np.median(resultados_logistica), np.median(resultado_forest)

(0.925, 0.9125, 0.9825)

### Variância

In [14]:
np.set_printoptions(suppress=True)
np.var(resultados_naive_bayes), np.var(resultados_logistica), np.var(resultado_forest)


(8.756250000000001e-05, 0.00020933333333333337, 4.103472222222237e-05)

In [15]:
np.min([8.756250000000001e-05, 0.00020933333333333337, 4.320138888888897e-05])

4.320138888888897e-05

### Desvio padrão

In [16]:
np.std(resultados_naive_bayes), np.std(resultados_logistica), np.std(resultado_forest)

(0.00935748363610645, 0.014468356276140472, 0.0064058350136592165)

Como pode ser notado o algoritmo de random forest se saiu melhor em todas as comparações

Esse projeto foi feito no curso de [Estatística para Ciência de Dados e Machine Learning ](https://www.udemy.com/course/estatistica-para-ciencia-de-dados-machine-learning/)