# Comparando Split tradicional
# X
# Validacao Cruzada (K-Fold Cross Validation)

O objetivo deste exercício é aplicar a validação cruzada e comparar os resultados com a abordagem de treinamento e teste do sklearn 'train_test_split'. Acesse [aqui](https://scikit-learn.org/stable/modules/cross_validation.html) a documentação do sklearn para entender melhor sobre a implementação do K-Fold.

In [1]:
# Import Biblioteca
import pandas as pd
import numpy as np
from scipy import stats
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.model_selection import KFold

In [2]:
# Import Arquivo
df = pd.read_csv('credit_data.csv')
df.dropna(inplace=True)
df

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


In [3]:
# Criacao das variaveis x e y
x = df.drop(['i#clientid','c#default'],axis=1).values
y = df['c#default'].values

# Split tradicional

In [4]:
# Treinamento dos Modelos (30 vezes cada modelo)
resultados_Naive_bayes = []
resultados_logistic = []
resultados_forest = []
for i in range(30):
    x_train, x_test, y_train, y_test = train_test_split(x,y,
                                                       test_size = 0.2,
                                                       stratify = y, random_state = i)
    
    naive_bayes = GaussianNB()
    naive_bayes.fit(x_train, y_train)
    resultados_Naive_bayes.append(accuracy_score(y_test, naive_bayes.predict(x_test)))
    
    logistic = LogisticRegression()
    logistic.fit(x_train, y_train)
    resultados_logistic.append(accuracy_score(y_test, logistic.predict(x_test)))
    
    forest = RandomForestClassifier()
    forest.fit(x_train, y_train)
    resultados_forest.append(accuracy_score(y_test, forest.predict(x_test)))

In [5]:
# Criando array dos resultados para aplicacao e verificacao da medias
resultados_Naive_bayes = np.array(resultados_Naive_bayes)
resultados_logistic = np.array(resultados_logistic)
resultados_forest = np.array(resultados_forest)

## Posicao

In [6]:
# Media Aritmetica dos treinamentos de cada modelo
print('Media acuracia dos resultados do Naive Bayes: ',resultados_Naive_bayes.mean(), 
      '\nMedia acuracia dos resultados da Regressao logistica: ', resultados_logistic.mean(), 
      '\nMedia acuracia dos resultados da Floresta aleatoria: ',resultados_forest.mean())

Media acuracia dos resultados do Naive Bayes:  0.92425 
Media acuracia dos resultados da Regressao logistica:  0.9145 
Media acuracia dos resultados da Floresta aleatoria:  0.9838333333333332


In [7]:
# Moda dos treinamentos
print('Moda acuracia e frequencia dos resultados do Naive Bayes: ',stats.mode(resultados_Naive_bayes),
      '\nModa acuracia e frequencia dos resultados da Regressao logistica: ', stats.mode(resultados_logistic), 
      '\nModa acuracia e frequencia dos resultados da Floresta aleatoria: ',stats.mode(resultados_forest))

Moda acuracia e frequencia dos resultados do Naive Bayes:  ModeResult(mode=array([0.9175]), count=array([5])) 
Moda acuracia e frequencia dos resultados da Regressao logistica:  ModeResult(mode=array([0.9075]), count=array([4])) 
Moda acuracia e frequencia dos resultados da Floresta aleatoria:  ModeResult(mode=array([0.985]), count=array([6]))


In [8]:
# Mediana dos mesmos
print('Mediana acuracia dos resultados do Naive Bayes: ',np.median(resultados_Naive_bayes),
      '\nMediana acuracia dos resultados da Regressao logistica: ', np.median(resultados_logistic), 
      '\nMediana acuracia dos resultados da Floresta aleatoria: ',np.median(resultados_forest))

Mediana acuracia dos resultados do Naive Bayes:  0.925 
Mediana acuracia dos resultados da Regressao logistica:  0.9125 
Mediana acuracia dos resultados da Floresta aleatoria:  0.985


## Distribuicao

In [9]:
# Variancia
print('Variancia do Naive Bayes: ',np.var(resultados_Naive_bayes), 
      '\nVariancia da Regressao Logistica: ',np.var(resultados_logistic), 
      '\nVariancia da Floresta aleatoria: ',np.var(resultados_forest))
print("\n\nDestas apresentadas, o algoritimo que possui menor variancia e' o Random Forest com: ",min(np.var(resultados_Naive_bayes), np.var(resultados_logistic), np.var(resultados_forest)))

Variancia do Naive Bayes:  8.756250000000001e-05 
Variancia da Regressao Logistica:  0.00020933333333333337 
Variancia da Floresta aleatoria:  3.613888888888892e-05


Destas apresentadas, o algoritimo que possui menor variancia e' o Random Forest com:  3.613888888888892e-05


In [10]:
# Desvio Padrao
print('Desvio Padrao do Naive Bayes: ',np.std(resultados_Naive_bayes), 
      '\nDesvio Padrao da Regressao Logistica: ',np.std(resultados_logistic), 
      '\nDesvio Padrao da Floresta aleatoria: ',np.std(resultados_forest))

Desvio Padrao do Naive Bayes:  0.00935748363610645 
Desvio Padrao da Regressao Logistica:  0.014468356276140472 
Desvio Padrao da Floresta aleatoria:  0.006011562932290481


In [11]:
# Coeficiente de Variacao
print('Coeficiente de Variacao do Naive Bayes: ',stats.variation(resultados_Naive_bayes)*100, 
      '\nCoeficiente de Variacao da Regressao Logistica: ',stats.variation(resultados_logistic)*100, 
      '\nCoeficiente de Variacao da Floresta aleatoria: ',stats.variation(resultados_forest)*100)

Coeficiente de Variacao do Naive Bayes:  1.0124407504578252 
Coeficiente de Variacao da Regressao Logistica:  1.5821056616884057 
Coeficiente de Variacao da Floresta aleatoria:  0.611034687341062


# Validacao Cruzada

In [12]:
# Treinamento dos Modelos (30 vezes cada modelo)
resultados_Naive_bayes_cv = []
resultados_logistic_cv = []
resultados_forest_cv = []
for i in range(30):
    kFold = KFold(n_splits = 10, shuffle = True, random_state = i)
    
    naive_bayes = GaussianNB()
    scores = cross_val_score(naive_bayes,x,y,cv = kFold)
    resultados_Naive_bayes_cv.append(scores.mean())
    
    logistic = LogisticRegression()
    scores = cross_val_score(logistic,x,y,cv = kFold)
    resultados_logistic_cv.append(scores.mean())
    
    forest = RandomForestClassifier()
    scores = cross_val_score(forest,x,y,cv = kFold)
    resultados_forest_cv.append(scores.mean())

In [13]:
# Comparando
print('Coeficiente de Variacao do Naive Bayes Split: ',stats.variation(resultados_Naive_bayes)*100, 
      '\nCoeficiente de Variacao do Naive Bayes Valid. Cruzada: ',stats.variation(resultados_Naive_bayes_cv)*100,
      '\n\nCoeficiente de Variacao da Regressao Logistica Split: ',stats.variation(resultados_logistic)*100, 
      '\nCoeficiente de Variacao da Regressao Logistica Valid. Cruzada: ',stats.variation(resultados_logistic_cv)*100, 
      '\n\nCoeficiente de Variacao da Floresta aleatoria Split: ',stats.variation(resultados_forest)*100,
      '\nCoeficiente de Variacao da Floresta aleatoria Valid. Cruzada: ',stats.variation(resultados_forest_cv)*100)

Coeficiente de Variacao do Naive Bayes Split:  1.0124407504578252 
Coeficiente de Variacao do Naive Bayes Valid. Cruzada:  0.08641071566366061 

Coeficiente de Variacao da Regressao Logistica Split:  1.5821056616884057 
Coeficiente de Variacao da Regressao Logistica Valid. Cruzada:  0.38801026116292653 

Coeficiente de Variacao da Floresta aleatoria Split:  0.611034687341062 
Coeficiente de Variacao da Floresta aleatoria Valid. Cruzada:  0.1472123579609125


Observe que com o metodo de validacao cruzada a varianca caiu significativamente, portanto, e' a melhor solucao quando se busca uma solucao mais acertiva (com menor variancia).