In [10]:
import os
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, f1_score
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV

TRAINING_FILE = '../data/caracteristicas/GABOR/GABOR_[03-PATCHES]_[10-CLASSES].csv'

############## SEPARANDO ENTRE DADOS DE TREINO E TESTE ##############

# Pega as duas primeiras colunas (key, nome_arquivo) do arquivo LBP.csv
df = pd.read_csv(TRAINING_FILE, usecols=[0, 1])

# Remove as linhas onde há um nome_arquivo repetido
df = df.drop_duplicates(subset=['nome_arquivo'])

# Coloca a coluna key em uma lista chamada classes e a coluna nome_arquivo em uma lista chamada arquivos
classes = df['key'].tolist()
arquivos = df['nome_arquivo'].tolist()

# Cria o objeto skf que divide os dados em 10 partes
skf = StratifiedKFold(n_splits=10)
acc = []
f1s = []

for train_index, test_index in skf.split(arquivos, classes):
  # Separe quais arquivos serão usados para treino e quais serão usados para teste
  arquivos_treino, arquivos_teste = np.array(arquivos)[train_index], np.array(arquivos)[test_index]
  classes_treino, classes_teste = np.array(classes)[train_index], np.array(classes)[test_index]

  # Carregar o arquivo de treino
  data = pd.read_csv(TRAINING_FILE)

  # Selecionar apenas as linhas que estão nos arquivos de treino
  data_treino = data[data['nome_arquivo'].isin(arquivos_treino)]

  # Selecionar apenas as linhas que estão nos arquivos de teste
  data_teste = data[data['nome_arquivo'].isin(arquivos_teste)]

  # Separa entre y_treino e x_treino
  y_treino = data_treino['key']
  x_treino = data_treino.drop(['key', 'nome_arquivo'], axis=1)

  # Separa entre y_teste e x_teste
  y_teste = data_teste['key']
  x_teste = data_teste.drop(['key', 'nome_arquivo'], axis=1)

  # Normaliza os dados
  scaler = StandardScaler()
  scaler.fit(x_treino)
  x_treino = scaler.transform(x_treino)
  x_teste = scaler.transform(x_teste)

  # Tratando os valores NaN
  x_treino = np.nan_to_num(x_treino)
  x_teste = np.nan_to_num(x_teste)

  print(x_treino)

[[ 0.82957725 -0.00704382  0.65902026 ...  0.41052222  0.29097541
   0.31588928]
 [ 0.82957725 -0.00704382  0.20765283 ...  0.17290051  0.314182
   0.15784544]
 [ 0.82957725 -0.00704382  0.30767931 ...  0.43505215  0.30616242
   0.43657407]
 ...
 [-0.35609316  3.31544124 -0.05780603 ... -0.55104305 -0.55403408
  -0.53236761]
 [-0.35609316  3.31544124 -0.25574187 ... -0.58844071 -0.58252393
  -0.57793955]
 [-0.35609316  3.31544124 -0.26152543 ... -0.59784406 -0.58698346
  -0.5926718 ]]
[[ 0.33225358 -0.17496829 -0.38074871 ...  0.72069807  0.32920435
   0.66160626]
 [ 0.33225358 -0.17496829 -0.39949545 ...  0.78929417  0.43057442
   0.77959161]
 [ 0.33225358 -0.17496829 -0.39871781 ...  0.84485523  0.41759451
   0.88073102]
 ...
 [-0.35220536  3.29829345 -0.05362031 ... -0.54456548 -0.55384219
  -0.52587894]
 [-0.35220536  3.29829345 -0.25200654 ... -0.58204281 -0.58275154
  -0.57155439]
 [-0.35220536  3.29829345 -0.25780327 ... -0.59146619 -0.58727673
  -0.58632011]]
[[ 0.32478807 -0.1