In [61]:
import numpy as np
import cv2
from sklearn import svm
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.cluster import MiniBatchKMeans

import matplotlib.pyplot as plt

In [86]:
def clusters(imagenes,nclusters):
    """
    clusteriza los histogramas de los descriptores extraidos de las imagenes. 
    parametros:
    imagenes es una lista con las rutas a las imagenes que se usaran
    nclusters es el numero de clusters que usara kmeans para clusterizar los dato 
    """
    sift_keypoints = []
    for archivo in imagenes:
        #print(archivo)
        keypoints = []
        image = cv2.imread(archivo,1)
        image =cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)
        orb = cv2.ORB_create()
        keypoints = orb.detect(image,None)
        keypoints, descriptors = orb.compute(image, keypoints)
        sift_keypoints.append(descriptors)
    #nclusters = int(np.sqrt(len(sift_keypoints)/len(imagenes)))
    sift_keypoints=np.asarray(sift_keypoints)
    sift_keypoints=np.concatenate(sift_keypoints, axis=0)  
    kmeans = MiniBatchKMeans(n_clusters=nclusters, random_state=0).fit(sift_keypoints)

    return kmeans

In [87]:
def histogramas(imagenes, modelo,nclusters):
    """
    predice a que categorias pertenecen los descriptores de una imagen con el modelo(kmeans para este caso) 
    y crea un histograma de los mismos para usar como features en el SVC
    imagenes es una lista con las rutas a las imagenes que se usaran
    modelo es el modelo kmenas con el cluster para decidir como estan distribuidos los descriptores
    nclusters es el numero de clusters que usara kmeans para clusterizar los datos 
    """
    
    feature_vectors = []
    keypoints = []
    for archivo in imagenes:
        #print(archivo)
        image = cv2.imread(archivo,1)
        image =cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)
        
        orb = cv2.ORB_create()
        keypoints = orb.detect(image,None)
        keypoints, descriptors = orb.compute(image, keypoints)
        
        predict_kmeans=modelo.predict(descriptors)
        #nclusters = int(np.sqrt(len(descriptors)))
        hist, bin_edges=np.histogram(predict_kmeans,bins=nclusters)
        feature_vectors.append(hist)
    feature_vectors=np.asarray(feature_vectors)

    return feature_vectors

In [88]:
#cargamos rutas de las imagenes (aviones y motos)
im_aviones = np.loadtxt('aviones.txt',dtype='str')
im_motos = np.loadtxt('motos.txt',dtype='str')
#generamos labels (0 para avion y 1 para moto)
labels = len(im_aviones)*[0]+len(im_motos)*[1]
imagenes = np.concatenate((im_aviones,im_motos))
#separamos los datos en train y test
X_train,X_test,y_train,y_test = train_test_split(imagenes, labels, test_size=0.25)


In [89]:
#entrenamos un suport vector clasifier (que debe luego ajustarse para mejor precision)
#con los histogramas extraidos del kmeans de los descriptores
nclusters = 1000 
kmeans = clusters(X_train,nclusters)
histograma_train = histogramas(X_train,kmeans,nclusters)
clf = svm.SVC()
#clf.fit(histograma_train, np.asarray(y_train))


  init_size=init_size)


In [90]:
clf.fit(histograma_train, y_train)



SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
  kernel='rbf', max_iter=-1, probability=False, random_state=None,
  shrinking=True, tol=0.001, verbose=False)

In [93]:
#test de precision sobre los conjuntos train y test para inferir overfiting, underfiting ....
histograma_test = histogramas(X_test,kmeans,nclusters)
histograma_train = histogramas(X_train,kmeans,nclusters)
predict_test=clf.predict(histograma_test)
predict_train=clf.predict(histograma_train)
score_train =  accuracy_score(y_train, predict_train)
score_test = accuracy_score(y_test, predict_test)
print('precision train = ' +str(score_train))
print('precision test = ' +str(score_test))

precision train = 0.9816360601001669
precision test = 0.86
