# Reto 2: Problema multiclase

Este reto consiste en aprender a clasificar 4 tipos diferentes de vehículos utilizando cualquiera de los clasificadores o técnicas estudiadas hasta el momento. Esto incluye:
+ clasificación lineal
+ transformaciones no lineales seguido de un clasificador lineal
+ Support Vector Machines (SVM)
+ Decision Tree (DT)

Además se pueden aplicar técnicas de preprocesado como:
+ escalado de las características
+ *grid search* para búsqueda de hiperparámetros
+ validación cruzada

El conjunto de datos, *vehiculos_reto2.csv*, consiste en 592 muestras de vehículos; cada uno de ellos representado por 18 características.

Para evaluar las propuestas se utilizará un conjunto de datos que se mantendrá oculto hasta después de la entrega

### Requisitos
+ La entrega se realiza **sólo** a través de la tarea habilitada para ello en la pestaña de *Evaluación* del Aula Virtual.
+ Se debe entregar un cuaderno Jupyter con el nombre de los participantes.<br>
  *Por ejemplo*:   **Cuesta_LeCunn.ipynb**
+ El cuaderno entregado debe seguir la estructura y reglas de este cuaderno

### Competición
+ Todos los cuadernos entregados se subirán al repo de GitHub y se ejecutarán en Binder, donde ya estará en conjunto de test que permanecía oculto.
+ El número de aciertos respecto del número de ejemplos será la puntuación del reto.
+ **Importante** Es muy fácil asegurarte de que tu código funcionará bien. Para ello:
    1. Agrupa todo tu código en una única celda
    2. En el cuaderno del reto que hay en Binder: elimina las celdas que hay entre la verde y la roja, y copia tu celda entre ellas.
    3. Ejecuta ese cuaderno de Binder. 
    
### Plazo: lunes 26 de oct. de 2020 a las 6 am.
Es decir, incluye toda la noche del domingo 25 de oct.


---
    [ES] Código de Alfredo Cuesta Infante para 'Reconocimiento de Patrones'
       @ Master Universitario en Visión Artificial, 2020, URJC (España)
    [EN] Code by Alfredo Cuesta-Infante for 'Pattern Recognition'
       @ Master of Computer Vision, 2020, URJC (Spain)

    alfredo.cuesta@urjc.es

In [1]:
# Conjunto distribuido para el reto

Challange_filename = '../../Datasets/vehiculos_reto2.csv'

In [2]:
# Conjunto NO distribuido para evaluar los clasificadores entregados

Test_filename = '../../Datasets/vehiculos_test.csv' #<-- este nombre cambiará después del plazo de entrega

In [3]:
#-[1]. Load data from CSV and put all in a single dataframe 'FullSet'

import numpy  as np
import pandas as pd
from matplotlib import pyplot as plt
import sys
sys.path.append('../../MyUtils/')
import MyUtils as my
seed = 1234 #<- random generator seed (comment to get randomness)

#-[2]. Load data from CSV and put all in a single dataframe 'FullSet'

FullSet = pd.read_csv(Challange_filename, header=0)
FullX = FullSet.drop('Class', axis=1)
FullY = FullSet[['Class']]

<table style="width:100%;"> 
 <tr style='background:lime'>
  <td style="text-align:left">
      <h2>Tu código debe empezar a partir de aquí y puede tener tantas celdas como quieras</h2>
      <p> Si quieres, puedes borrar (o convertir en RawNBConvert) las celdas de ejemplo
      <h3>Importante:</h3>
      <p>Tu código debe producir las siguientes variables: </p>
      <p> $\quad \bullet$ <b>clf:</b> el clasificador final con el que se realizará el test<br>
       $\quad \bullet$ <b>X_test:</b> el conjunto de test listo para ser usado por el método <b>predict</b><br>
       $\quad \bullet$ <b>Y_test:</b> es el vector de etiquetas del conjunto de X_test listo para ser usado por el método <b>confusion_matrix</b>
      </p>
  </td>
 </tr>
</table>

<table style="width:100%;">
 <tr style='background:white'>
  <td style="text-align:left">
      <h2>Fuerza bruta antes y después</h2>
      <p>Esta implementación intenta maximizar el número de aciertos, por lo que se selecciona el clasificador que mejor
      clasifica el conjunto de test.</p>
      <p>Por lo que para no alargar demasiado el tiempo de ejecución se establece el objetivo de tener una ejecución no superior
       a 5 min</p>
      <h3>Primero</h3>
      <p> Apliqué un algoritmo de <b>fuerza bruta</b> para todas las combinaciones posibles del conjunto y probando
      distintos hiperparámetros de los clasificadores especificados en el reto, incorporando además
      el clasificador <b>NuSVC</b>.</p>
      <p> Premiando con +1 a la combinación de características que más hits consiguieran y <b>guardando en caché las 28 mejores</b>,
      iterando únicamente sobre estas combinaciones posteriormente.</p>
      <h3>Después</h3>
      <p>Partí en <b>50 conjuntos distintos los datos</b>, donde el 20% de cada conjunto se destinaba a test. Realizando un ranking de nuevo con los
      clasificadores. Iterando sobre las combinaciones de características guardadas anteriormente, puntuaba con un +1 al
      mejor clasificador. Como resultado, me quedé con los <b>2 mejores clasficadores (NuSVC y SVC)</b>.</p>
      <h3>Por último</h3>
      <p>Reducí el muestreo para los rangos de hiperparámetros poco seleccionados como candidatos.</p>
  </td>
 </tr>
</table>

In [4]:
nombres = ["Javier Albaráñez Martínez"]

In [5]:
# -- Imports, methods and variables init --
from sklearn.preprocessing import MinMaxScaler
from sklearn.svm import NuSVC, SVC
from sklearn.metrics import confusion_matrix
import time, copy

def getXs(X_train, X_test):
    # Genera conjuntos de entrenamiento y test con las combinaciones de características preseleccionadas.
    featuresSelected = [[0, 1, 2, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17],
                        [0, 1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17],
                        [0, 1, 2, 3, 4, 5, 6, 7, 9, 10, 11, 13, 14, 15, 16, 17],
                        [1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 16, 17],
                        [1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 16, 17],
                        [1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 17],
                        [0, 1, 2, 5, 6, 7, 8, 9, 10, 11, 12, 13, 17], [1, 2, 3, 4, 5, 7, 8, 9, 11, 12, 13, 16, 17],
                        [0, 1, 2, 5, 6, 7, 8, 9, 10, 11, 12, 13, 16],
                        [0, 1, 5, 6, 7, 8, 9, 10, 11, 12, 13, 16], [0, 1, 5, 6, 8, 9, 10, 11, 12, 13, 16],
                        [0, 1, 2, 5, 6, 7, 8, 9, 11, 12, 13], [0, 1, 2, 5, 7, 8, 9, 11, 12, 13, 17],
                        [0, 1, 2, 5, 6, 7, 8, 11, 12, 13], [0, 1, 2, 5, 6, 8, 11, 12, 13, 17],
                        [0, 1, 2, 6, 7, 8, 11, 12, 13, 17], [0, 1, 2, 7, 8, 11, 12, 13, 17],
                        [0, 1, 2, 6, 7, 8, 12, 13, 17], [0, 2, 6, 8, 9, 11, 12, 13, 17],
                        [1, 6, 7, 8, 11, 12, 13, 17],
                        [0, 1, 2, 5, 6, 7, 8, 13], [0, 6, 7, 8, 9, 12, 13, 17],
                        [6, 8, 9, 12, 13, 17], [1, 6, 7, 8, 12, 13, 17], [0, 6, 7, 8, 9, 12, 17],
                        [1, 6, 8, 9, 12, 13, 17], [5, 6, 8, 12, 16],
                        [1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]]
    # X transform
    X_trains = []
    X_tests = []
    for i in range(len(featuresSelected)):
        X_trains.append(X_train[:, featuresSelected[i]])
        X_tests.append(X_test[:, featuresSelected[i]])
    return X_trains, X_tests


def buildCLFs(seed):
    # Genera los distintos clasificadores preseleccionados con los rangos de hiperparámetros más prometedores
    clfs = []
    Cs = np.concatenate((np.linspace(50, 500, 30), np.linspace(500, 1500, 12)))
    gammas = np.concatenate((np.linspace(0.01, 0.5, 5), np.linspace(0.5, 5, 4)))
    # Support Vector
    clfs.append(NuSVC(kernel='rbf', gamma="auto", random_state=seed))
    for gamma in gammas:
        clfs.append(NuSVC(kernel='rbf', gamma=gamma, random_state=seed))
        for C in Cs:
            clfs.append(SVC(kernel='rbf', C=C, gamma=gamma, random_state=seed))
    return clfs

def getBest(clfs, X, Y, X_test, Y_test, bestCLF, bestHits):
    # Devuelve el clasificador que mejor clasifica este conjunto y si no supera a otro conjunto probado lo desecha
    isBetter = 0 # 0: no es candidato, 1: es candidato, 2: tiene la máxima puntuacion
    bar = 0
    total = len(clfs)*0.1
    print(f'-- CLFS: ', end='')
    for i in range(len(clfs)):
        # Progresion
        if i/total > bar:
            bar = bar + 1
            print('|', end='')
        #Pruebas
        clfs[i].fit(X, Y)
        Y_pred = clfs[i].predict(X_test)
        conf_mat = confusion_matrix(Y_test, Y_pred)
        hits = np.trace(conf_mat)
        if bestHits <= hits: # Coge el último para que la salida de la celda sea más "entretenida"
            bestCLF = copy.deepcopy(clfs[i])
            bestHits = hits
            isBetter = 1
            if hits == Y_pred.shape[0]:
                isBetter = 2
                break
    return bestCLF, bestHits, isBetter

In [6]:
start_time = time.time()
scaler = MinMaxScaler(feature_range=(0, 100))
X = scaler.fit_transform(FullX)
Y = FullY.values.ravel()

# conjunto de test
FullSet = pd.read_csv(Test_filename, header=0)
X_test = scaler.fit_transform(FullSet.drop('Class', axis=1))
Y_test = FullSet[['Class']].values.ravel()

# clasificadores y conjuntos candidatos
clf_all = buildCLFs(seed=seed)
[X_all, Xtest_all] = getXs(X, X_test)

# selección del clasificador
clf = None
bestHits = 0
X_id = None
for i in range(0, len(X_all)):
    # Progresion
    print(f'Sets: {int(i*100 / len(X_all))}%')
    [clf, bestHits, isBetter] = getBest(clf_all, X_all[i], Y, Xtest_all[i], Y_test, clf, bestHits)
    if isBetter > 0:
        X_id = i
        if isBetter > 1: break # maxima puntuacion
    print(f' Temporal best: {clf} - hits: {bestHits}')

# 1º clasificador ganador
clf = clf.fit(X_all[X_id], Y)
print(clf)
X_test = Xtest_all[X_id]

    
# tiempo transcurrido
print(f'\nTiempo total = {int((time.time() - start_time)*1.66)*100} min')
    

Sets: 0%
-- CLFS: |||||||||| Temporal best: SVC(C=1500.0, gamma=5.0, random_state=1234) - hits: 65
Sets: 3%
-- CLFS: |||||||||| Temporal best: SVC(C=1500.0, gamma=5.0, random_state=1234) - hits: 65
Sets: 7%
-- CLFS: |||||||||| Temporal best: SVC(C=1500.0, gamma=5.0, random_state=1234) - hits: 65
Sets: 10%
-- CLFS: |||||||||| Temporal best: SVC(C=1500.0, gamma=0.01, random_state=1234) - hits: 67
Sets: 14%
-- CLFS: |||||||||| Temporal best: SVC(C=1500.0, gamma=0.01, random_state=1234) - hits: 67
Sets: 17%
-- CLFS: |||||||||| Temporal best: SVC(C=1500.0, gamma=0.01, random_state=1234) - hits: 67
Sets: 21%
-- CLFS: |||||||||| Temporal best: SVC(C=1500.0, gamma=0.01, random_state=1234) - hits: 86
Sets: 25%
-- CLFS: |||||||||| Temporal best: SVC(C=1500.0, gamma=0.01, random_state=1234) - hits: 86
Sets: 28%
-- CLFS: |||||||||| Temporal best: SVC(C=1500.0, gamma=0.01, random_state=1234) - hits: 92
Sets: 32%
-- CLFS: |||||||||| Temporal best: SVC(C=1500.0, gamma=0.01, random_state=1234) - hits:

<table style="width:100%;"> 
 <tr style='background:pink'>
  <td style="text-align:left">
      <h2>A partir de aquí ya no se pueden modificar las celdas</h2>
          <h3>Comprueba que:</h3>
          <p> $\quad \bullet$ tu clasificador está almacenado en la variable <b>clf</b><br>
              $\quad \bullet$ tienes el conjunto de test correctamente almacenado en la variable <b>X_test</b><br>
              $\quad \bullet$ tienes las etiquetas del conjunto de test correctamente almacenadas en la variable <b>Y_test</b><br>
          </p>
      
  </td>
 </tr>
</table>

## Test

In [7]:
from sklearn.metrics import confusion_matrix

Y_hat = clf.predict(X_test)
conf_mat = confusion_matrix(Y_test , Y_hat)
N_success  = np.trace(conf_mat)
N_fails = Y_test.shape[0]-N_success
#-------------------------------
print (nombres,"\n")
print("Confusion matrix:\n")
print(conf_mat,"\n")
print("Outcome:\n")
strlog = "  :) HIT  = %d, (%0.2f%%)"%(N_success, 100*N_success/(N_success+N_fails))
print(strlog)
strlog = "  :( FAIL = %d, (%0.2f%%)"%(N_fails, 100*N_fails/(N_success+N_fails))
print(strlog)


['Javier Albaráñez Martínez'] 

Confusion matrix:

[[40 17  2  6]
 [ 4 36 23  1]
 [ 5 24 35  1]
 [ 1  9  4 46]] 

Outcome:

  :) HIT  = 157, (61.81%)
  :( FAIL = 97, (38.19%)
