# Análise da base de dados

Para conseguir rodar este notebook em minha máquina, precisei reduzir bastante o tamanho da base de dados, ficando em torno de 1.500 imagens por classe. Pois com a quantidade original, estava estourando o limite de memória. Sem utilizar o pca, como é apresentado no arquivo *knn-sem-pca.ipynb*, consegui utilizar todas as 25.000 imagens, no entanto neste notebook não consegui, precisei reduzir a quantidade. 

A estrutura de arquivos da base de dados foi um pouco modificada para esta implementação, utilizando como base a base de dados da kaggle disponível neste link: https://www.kaggle.com/c/dogs-vs-cats/data. Esta modificação facilita um pouco mais o processamento das imagens. A estrutura final segue a seguinte ordem:

- dogscats
  - train
     - cats
     - dogs
  - valid
     - cats
     - dogs

In [1]:
import cv2
import os
import numpy as np
from sklearn.decomposition import PCA
from sklearn.utils import shuffle
from sklearn.neighbors import KNeighborsClassifier

In [2]:
dataset_path = "./dogscats"
train_dir = dataset_path + "/train"
val_dir =dataset_path + "/valid"
size = 100

In [3]:
#train
directory = os.listdir(train_dir + '/dogs')
train_dogs = []
train_dogs_labels = []
for img in directory:
    try:#Tive que fazer isso porque algumas imagens corromperam
        y = cv2.imread(train_dir + '/dogs/' + img)
        x = cv2.resize(y, (size, size))
        x = np.array(x)
        x = x.flatten()
        train_dogs.append(x)
        train_dogs_labels.append(1)
    except:
        print(train_dir + '/dogs/' + img)
    
train_dogs = np.array(train_dogs)
train_dogs_labels = np.array(train_dogs_labels)


directory = os.listdir(train_dir + '/cats')
train_cats = []
train_cats_labels = []
for img in directory:
    try:
        train_cats.append(cv2.resize(cv2.imread(train_dir + '/cats/' + img), (size, size)).reshape(-1))
        train_cats_labels.append(0)
    except:
        print(train_dir + '/cats/' + img)

train_cats = np.array(train_cats)
train_cats_labels = np.array(train_cats_labels)
  
# validation set
  
directory = os.listdir(val_dir + '/dogs')
val_dogs = []
val_dogs_labels = []
for img in directory:
    try:
        val_dogs.append(cv2.resize(cv2.imread(val_dir + '/dogs/' + img), (size, size)).reshape(-1))
        val_dogs_labels.append(1)
    except:
        print(val_dir + '/dogs/' + img)
    
val_dogs = np.array(val_dogs)
val_dogs_labels = np.array(val_dogs_labels)
  
directory = os.listdir(val_dir + '/cats')
val_cats = []
val_cats_labels = []
for img in directory:
    try:
        val_cats.append(cv2.resize(cv2.imread(val_dir + '/cats/' + img), (size, size)).reshape(-1))
        val_cats_labels.append(0)
    except:
        print(val_dir + '/cats/' + img)

val_cats = np.array(val_cats)
val_cats_labels = np.array(val_cats_labels)

x_train = np.concatenate((train_dogs, train_cats))
y_train = np.concatenate((train_dogs_labels, train_cats_labels))
  
x_test = np.concatenate((val_dogs, val_cats))
y_test = np.concatenate((val_dogs_labels, val_cats_labels))

x_train, y_train = shuffle(x_train, y_train, random_state=123)
x_test, y_test = shuffle(x_test, y_test, random_state=123)

x_train = x_train.astype('float32') / 255.
x_test = x_test.astype('float32') / 255.
  
pca = PCA(n_components=200)
pca.fit(x_train)

x_train = pca.transform(x_train)
x_test = pca.transform(x_test)

./dogscats/train/dogs/dog.75.jpg
./dogscats/train/dogs/dog.757.jpg
./dogscats/train/dogs/dog.761.jpg
./dogscats/train/dogs/dog.762.jpg
./dogscats/train/dogs/dog.763.jpg
./dogscats/train/dogs/dog.764.jpg
./dogscats/train/dogs/dog.765.jpg
./dogscats/train/dogs/dog.767.jpg
./dogscats/train/dogs/dog.781.jpg
./dogscats/train/dogs/dog.803.jpg
./dogscats/train/dogs/dog.81.jpg
./dogscats/train/dogs/dog.810.jpg
./dogscats/train/dogs/dog.811.jpg
./dogscats/train/dogs/dog.812.jpg
./dogscats/train/dogs/dog.813.jpg
./dogscats/train/dogs/dog.814.jpg
./dogscats/train/dogs/dog.815.jpg
./dogscats/train/dogs/dog.816.jpg
./dogscats/train/dogs/dog.817.jpg
./dogscats/train/dogs/dog.818.jpg
./dogscats/train/dogs/dog.819.jpg
./dogscats/train/dogs/dog.82.jpg
./dogscats/train/dogs/dog.820.jpg
./dogscats/train/dogs/dog.821.jpg
./dogscats/train/dogs/dog.822.jpg
./dogscats/train/dogs/dog.823.jpg
./dogscats/train/dogs/dog.825.jpg
./dogscats/train/dogs/dog.826.jpg
./dogscats/train/dogs/dog.827.jpg
./dogscats/train/

In [7]:
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(x_train, y_train)
score_knn = knn.score(x_test, y_test)
print("accuracy: {:.2f}%".format(score_knn * 100))

accuracy: 75.00%


# Resultado

Claramente a redução da base de dados afetou completamente a acurácia, principalmente se levarmos em consideração os resultados obtidos com as 25.000 imagens no arquivo *knn-sem-pca.ipynb*, onde o knn é utilizado, porém sem a redução de dimensionalidade e obtém acurácia de 100% de acerto. Portanto, atribuo a baixa acurácia ao número menor de exemplos na base de dados. Caso o resultado da implementação vigente neste arquivo utilizasse as 25.000 imagens e ainda assim obtivesse uma acurácia com discrepância inferior muito alta, isso poderia significar que o pca não conseguiu extrair as caracteristicas mais importantes.  