<a href="https://colab.research.google.com/github/loxalibre/Aprendizaje-Autom-tico/blob/main/ReglasAsociacion_AlgoritmoApriori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="Universidad Nacional de Loja logo" height="140px" src="https://pbs.twimg.com/profile_images/1049739254631452673/EeXZTWRj_400x400.jpg" align="left" hspace="10px" vspace="0px"></p>

<h1> Universidad Nacional de Loja</h1>

---


Carrera de Ingeniería en Sistemas (mayo-septiembre 2021)

---
Inteligencia Artificial

---

Estudiante: Maria Encalada

---

Créditos: Tomado de: https://colab.research.google.com/github/jmbanda/BigDataProgramming_2019/blob/master/Class21_Basic_Data_Mining_Using_Python.ipynb

# Minería de reglas de asociación con el algoritmo Apriori

In [None]:
!pip install apyori  #Esto instala el paquete Apyori para utilizar el algoritmo Apriori de minería de asociación

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from apyori import apriori



In [None]:
filepath = "https://raw.githubusercontent.com/loxalibre/Aprendizaje-Autom-tico/main/store_data.csv"
store_data = pd.read_csv(filepath, header=None)

Llamar a la función head() para ver el aspecto del conjunto de datos:

In [None]:
store_data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,


Si se observan cuidadosamente los datos, podemos ver que la cabecera es en realidad la primera transacción. Cada fila corresponde a una transacción y cada columna corresponde a un artículo comprado en esa transacción específica. El NaN nos indica que el artículo representado por la columna no se compró en esa transacción específica.



## Procesamiento de datos

La librería Apriori que vamos a utilizar requiere que nuestro conjunto de datos tenga la forma de una lista de listas, donde todo el conjunto de datos es una lista grande y cada operación en el conjunto de datos es una lista interior dentro de la lista grande exterior. Actualmente tiene los datos en forma de dataframe de pandas. Para convertir el dataframe de pandas en una lista de listas, ejecute el siguiente script:

In [None]:
records = []
for i in range(0, 7501):
    records.append([str(store_data.values[i,j]) for j in range(0, 20)])

## Aplicación de Apriori

El siguiente paso es aplicar el algoritmo Apriori sobre el conjunto de datos. Para ello, podemos utilizar la clase apriori que hemos importado de la biblioteca apyori.

La clase apriori requiere algunos valores de parámetros para funcionar. El primer parámetro es la lista de la que se quieren extraer las reglas. El segundo parámetro es el parámetro min_support. Este parámetro se utiliza para seleccionar los elementos con valores de soporte mayores que el valor especificado por el parámetro. A continuación, el parámetro min_confidence filtra las reglas que tienen una confianza mayor que el umbral de confianza especificado por el parámetro. Del mismo modo, el parámetro min_lift especifica el valor mínimo de elevación para las reglas de la lista corta. Por último, el parámetro min_length especifica el número mínimo de elementos que se desea incluir en las reglas.

Supongamos que queremos reglas sólo para los artículos que se compran al menos 5 veces al día, o 7 x 5 = 35 veces en una semana, ya que nuestro conjunto de datos corresponde a un período de una semana. El apoyo a estos artículos puede calcularse como 35/7500 = 0,0045. La confianza mínima para las reglas es del 20% o 0,2. Del mismo modo, especificamos que el valor de la elevación es 3 y, por último, la longitud mínima es 2, ya que queremos que haya al menos dos productos en nuestras reglas. Estos valores son en su mayoría elegidos arbitrariamente, por lo que puede jugar con estos valores y ver la diferencia que hace en las reglas que se obtiene de nuevo.


In [None]:
association_rules = apriori(records, min_support=0.0045, min_confidence=0.2, min_lift=3, min_length=2)
association_results = list(association_rules)

En la segunda línea aquí convertimos las reglas encontradas por la clase apriori en una lista ya que es más fácil ver los resultados de esta forma.

## Visualización de los resultados

Primero encontremos el número total de reglas extraídas por la clase apriori. Ejecute el siguiente script:

In [None]:
print(len(association_results))

El script anterior debería devolver 48. Cada elemento corresponde a una regla.

Vamos a imprimir el primer elemento de la lista association_rules para ver la primera regla. Ejecute el siguiente script:

In [None]:
print(association_results[0])

El primer elemento de la lista es una lista en sí misma que contiene tres elementos. El primer elemento de la lista muestra los artículos de alimentación de la norma.

Por ejemplo, en el primer elemento podemos ver que la nata líquida y el pollo suelen comprarse juntos. Esto tiene sentido, ya que las personas que compran nata líquida tienen cuidado con lo que comen, por lo que es más probable que compren pollo, es decir, carne blanca, en lugar de carne roja, es decir, ternera. También podría significar que la nata ligera se utiliza habitualmente en las recetas de pollo.

El valor de apoyo de la primera regla es 0,0045. Este número se calcula dividiendo el número de transacciones que contienen nata ligera entre el número total de transacciones. El nivel de confianza de la regla es de 0,2905, lo que indica que de todas las transacciones que contienen nata líquida, el 29,05% de las transacciones también contienen pollo. Por último, la elevación de 4,84 nos indica que es 4,84 veces más probable que los clientes que compran crema ligera compren pollo en comparación con la probabilidad por defecto de la venta de pollo.

El siguiente script muestra la regla, el apoyo, la confianza y la elevación de cada regla de forma más clara:

In [None]:
for item in association_results:

    # first index of the inner list
    # Contains base item and add item
    pair = item[0] 
    items = [x for x in pair]
    print("Rule: " + items[0] + " -> " + items[1])

    #second index of the inner list
    print("Support: " + str(item[1]))

    #third index of the list located at 0th
    #of the third index of the inner list

    print("Confidence: " + str(item[2][0][2]))
    print("Lift: " + str(item[2][0][3]))
    print("=====================================")

La segunda regla establece que la salsa de crema de champiñones y el escalope se compran con frecuencia. El apoyo para la salsa de crema de champiñones es de 0,0057. La confianza para esta regla es de 0,3006, lo que significa que de todas las transacciones que contienen champiñones, es probable que el 30,06% de las transacciones también contengan escalope. Por último, la elevación de 3,79 muestra que es 3,79 más probable que el escalope sea comprado por los clientes que compran salsa de crema de champiñones, en comparación con su venta por defecto.

# kNN - k-Nearest Neighbors (vecinos más cercanos)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
%matplotlib inline

## Leer el conjunto de datos

Utilizaremos el método pandas .read_csv() para leer el conjunto de datos (knnDataset.csv de iCollege). Luego utilizaremos el método .head() para observar las primeras filas de los datos, para entender mejor la información. En nuestro caso, las cabeceras de las características (columnas) nos dicen bastante poco. Esto está bien porque simplemente estamos tratando de obtener información a través de la clasificación de nuevos puntos de datos haciendo referencia a sus elementos vecinos.

In [None]:
# Use pandas .read_csv() method to read in classified dataset
# index_col -> argument assigns the index to a particular column
df = pd.read_csv('https://raw.githubusercontent.com/loxalibre/Aprendizaje-Autom-tico/main/knnDataset.csv', index_col=0)
# Use the .head() method to display the first few rows
df.head()

## Estandarizar (normalizar) la escala de datos para preparar el algoritmo KNN

Como la distancia entre pares de puntos juega un papel crítico en la clasificación, es necesario normalizar los datos para minimizarla. Esto generará una matriz de valores. De nuevo, el KNN depende de la distancia entre cada característica.

In [None]:
# Import module to standardize the scale
from sklearn.preprocessing import StandardScaler
# Create instance (i.e. object) of the standard scaler
scaler = StandardScaler()
# Fit the object to all the data except the Target Class
# use the .drop() method to gather all features except Target Class
# axis -> argument refers to columns; a 0 would represent rows
scaler.fit(df.drop('TARGET CLASS', axis=1))

# Use scaler object to conduct a transforms
scaled_features = scaler.transform(df.drop('TARGET CLASS',axis=1))
# Review the array of values generated from the scaled features process
scaled_features

Aquí tenemos el conjunto de datos normalizado, menos la columna de destino

In [None]:
df_feat = pd.DataFrame(scaled_features, columns=df.columns[:-1])
df_feat.head()

## Dividir los datos normalizados en conjuntos de entrenamiento y de prueba

Este paso es necesario para prepararnos para el ajuste (es decir, el entrenamiento) del modelo más adelante. La variable "X" es una colección de todas las características. La variable "y" es la etiqueta objetivo que especifica la clasificación de 1 o 0. Nuestro objetivo será identificar en qué categoría debe entrar el nuevo punto de datos.

In [None]:
# Import module to split the data
from sklearn.model_selection import train_test_split
# Set the X and ys
X = df_feat
y = df['TARGET CLASS']
# Utilizar el método train_test_split() para dividir los datos en los respectivos conjuntos
# test_size -> el argumento se refiere al tamaño del subconjunto de prueba
# random_state -> argumento que garantiza que la salida de la Ejecución 
# 1 será igual a la salida de la Ejecución 2, es decir, su división será siempre la misma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

Esto permite utilizar para entrenar nuestro modelo en el conjunto de entrenamiento y evaluar el modelo construido contra el conjunto de prueba para identificar los errores.

## Crear y entrenar el modelo

Aquí creamos un objeto KNN y utilizamos el método .fit() para entrenar el modelo. Al finalizar el modelo deberíamos recibir la confirmación de que el entrenamiento se ha completado.

In [None]:
# Import module for KNN
from sklearn.neighbors import KNeighborsClassifier
# Create KNN instance
# n_neighbors -> argument identifies the amount of neighbors used to ID classification
knn = KNeighborsClassifier(n_neighbors=1)
# Fit (i.e. traing) the model
knn.fit(X_train, y_train)

## Hacer predicciones

Aquí revisamos dónde nuestro modelo fue preciso y dónde clasificó mal los elementos.

In [None]:
# Use the .predict() method to make predictions from the X_test subset
pred = knn.predict(X_test)
# Review the predictions
pred

## Evaluar las predicciones

Evalúe el modelo revisando el informe de clasificación o la matriz de confusión. Al revisar estas tablas, podemos evaluar la precisión de nuestro modelo con nuevos valores.

In [None]:
# Import classification report and confusion matrix to evaluate predictions
from sklearn.metrics import classification_report, confusion_matrix

# Print out classification report and confusion matrix
print(classification_report(y_test, pred))

## Matriz de confusión

In [None]:
# Print out confusion matrix
cmat = confusion_matrix(y_test, pred)
#print(cmat)
print('TP - True Negative {}'.format(cmat[0,0]))
print('FP - False Positive {}'.format(cmat[0,1]))
print('FN - False Negative {}'.format(cmat[1,0]))
print('TP - True Positive {}'.format(cmat[1,1]))
print('Accuracy Rate: {}'.format(np.divide(np.sum([cmat[0,0],cmat[1,1]]),np.sum(cmat))))
print('Misclassification Rate: {}'.format(np.divide(np.sum([cmat[0,1],cmat[1,0]]),np.sum(cmat))))

## Evaluar valores K alternativos para obtener mejores predicciones

Para simplificar el proceso de evaluación de múltiples casos de valores k, creamos una función para derivar el error utilizando la media cuando nuestras predicciones no eran iguales a los valores de prueba.

In [None]:
# Generate function to add error rates of KNN with various k-values
# error_rate -> empty list to gather error rates at various k-values
# for loop -> loops through k values 1 to 39
# knn -> creates instance of KNeighborsClassifier with various k
# knn.fit -> trains the model
# pred_i -> conducts predictions from model on test subset
# error_rate.append -> adds error rate of model with various k-value, using the average where prediction not
# equal to the test values
error_rate = []
for i in range(1,40):
    
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(X_train, y_train)
    pred_i = knn.predict(X_test)
    error_rate.append(np.mean(pred_i != y_test))

## Taza de error de trazo

In [None]:
# Configure and plot error rate over k values
plt.figure(figsize=(10,4))
plt.plot(range(1,40), error_rate, color='blue', linestyle='dashed', marker='o', markerfacecolor='red', markersize=10)
plt.title('Error Rate vs. K-Values')
plt.xlabel('K-Values')
plt.ylabel('Error Rate')

Aquí vemos que la tasa de error sigue disminuyendo a medida que aumentamos el valor k. Una imagen dice más que mil palabras. O al menos aquí podemos entender qué valor de k conduce a un modelo óptimo. El valor de k de 15 parece dar una tasa de error decente sin demasiado ruido, como vemos con valores de k de 25 y mayores.

## Ajustar el valor de K por las evaluaciones de la tasa de error

Esto es sólo un ajuste fino de nuestro modelo para aumentar la precisión. Tendremos que volver a entrenar nuestro modelo con el nuevo valor k.

In [None]:
# Retrain model using optimal k-value
knn = KNeighborsClassifier(n_neighbors=15)
knn.fit(X_train, y_train)
pred = knn.predict(X_test)
# Print out classification report and confusion matrix
print(classification_report(y_test, pred))

In [None]:
# Print out confusion matrix
cmat = confusion_matrix(y_test, pred)
#print(cmat)
print('TP - True Negative {}'.format(cmat[0,0]))
print('FP - False Positive {}'.format(cmat[0,1]))
print('FN - False Negative {}'.format(cmat[1,0]))
print('TP - True Positive {}'.format(cmat[1,1]))
print('Accuracy Rate: {}'.format(np.divide(np.sum([cmat[0,0],cmat[1,1]]),np.sum(cmat))))
print('Misclassification Rate: {}'.format(np.divide(np.sum([cmat[0,1],cmat[1,0]]),np.sum(cmat))))

# Máquinas de vectores de apoyo

Las máquinas de vectores de apoyo (SVM) son una clase particularmente potente y flexible de algoritmos supervisados tanto para la clasificación como para la regresión.

Comenzando con las importaciones estándar:

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# use seaborn plotting defaults
import seaborn as sns; sns.set()

## Motivación de las máquinas de vectores de apoyo

En nuestra discusión sobre la clasificación bayesiana, aprendimos un modelo simple que describe la distribución de cada clase subyacente, y utilizamos estos modelos generativos para determinar probabilísticamente las etiquetas de los nuevos puntos.
Ese fue un ejemplo de *clasificación generativa*; aquí consideraremos en cambio la *clasificación discriminativa*: en lugar de modelar cada clase, simplemente encontramos una línea o curva (en dos dimensiones) o colector (en múltiples dimensiones) que divide las clases entre sí.

Como ejemplo de esto, consideremos el caso simple de una tarea de clasificación, en la que las dos clases de puntos están bien separadas:


In [None]:
from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_samples=50, centers=2,
                  random_state=0, cluster_std=0.60)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn');

Un clasificador lineal discriminativo intentaría trazar una línea recta que separara los dos conjuntos de datos, y así crear un modelo de clasificación.
Para datos bidimensionales como los mostrados aquí, esta es una tarea que podríamos hacer a mano.
Pero inmediatamente vemos un problema: ¡hay más de una línea divisoria posible que puede discriminar perfectamente entre las dos clases!

Podemos dibujarlas de la siguiente manera:

In [None]:
xfit = np.linspace(-1, 3.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
plt.plot([0.6], [2.1], 'x', color='red', markeredgewidth=2, markersize=10)

for m, b in [(1, 0.65), (0.5, 1.6), (-0.2, 2.9)]:
    plt.plot(xfit, m * xfit + b, '-k')

plt.xlim(-1, 3.5);

Se trata de tres separadores *muy* diferentes que, sin embargo, discriminan perfectamente estas muestras.
Dependiendo de cuál elijamos, un nuevo punto de datos (por ejemplo, el marcado por la "X" en este gráfico) tendrá una etiqueta diferente.
Evidentemente, nuestra simple intuición de "trazar una línea entre clases" no es suficiente, y tenemos que pensar un poco más profundamente.

## Support Vector Machines: Maximizando el *Margen*

Las máquinas de vectores de apoyo ofrecen una forma de mejorar esto.
La intuición es la siguiente: en lugar de simplemente dibujar una línea de ancho cero entre las clases, podemos dibujar alrededor de cada línea un *margen* de cierta anchura, hasta el punto más cercano.
He aquí un ejemplo de cómo podría ser esto:

In [None]:
xfit = np.linspace(-1, 3.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')

for m, b, d in [(1, 0.65, 0.33), (0.5, 1.6, 0.55), (-0.2, 2.9, 0.2)]:
    yfit = m * xfit + b
    plt.plot(xfit, yfit, '-k')
    plt.fill_between(xfit, yfit - d, yfit + d, edgecolor='none',
                     color='#AAAAAA', alpha=0.4)

plt.xlim(-1, 3.5);

En las máquinas de vectores de apoyo, la línea que maximiza este margen es la que elegiremos como modelo óptimo.
Las máquinas de vectores de apoyo son un ejemplo de este tipo de estimador de *máximo margen*.

### Ajuste de una máquina de vectores de soporte

Veamos el resultado de un ajuste real a estos datos: utilizaremos el clasificador de vectores de soporte de Scikit-Learn para entrenar un modelo SVM en estos datos.
Por el momento, utilizaremos un kernel lineal y estableceremos el parámetro ``C`` a un número muy grande (discutiremos el significado de estos en más profundidad momentáneamente).

In [None]:
from sklearn.svm import SVC # "Support vector classifier"
model = SVC(kernel='linear', C=1E10)
model.fit(X, y)

Para visualizar mejor lo que está sucediendo aquí, vamos a crear una función de conveniencia rápida que trazará los límites de decisión SVM para nosotros:




In [None]:
def plot_svc_decision_function(model, ax=None, plot_support=True):
    """Plot the decision function for a 2D SVC"""
    if ax is None:
        ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()
    
    # create grid to evaluate model
    x = np.linspace(xlim[0], xlim[1], 30)
    y = np.linspace(ylim[0], ylim[1], 30)
    Y, X = np.meshgrid(y, x)
    xy = np.vstack([X.ravel(), Y.ravel()]).T
    P = model.decision_function(xy).reshape(X.shape)
    
    # plot decision boundary and margins
    ax.contour(X, Y, P, colors='k',
               levels=[-1, 0, 1], alpha=0.5,
               linestyles=['--', '-', '--'])
    
    # plot support vectors
    if plot_support:
        ax.scatter(model.support_vectors_[:, 0],
                   model.support_vectors_[:, 1],
                   s=300, linewidth=1, facecolors='none');
    ax.set_xlim(xlim)
    ax.set_ylim(ylim)

In [None]:
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
plot_svc_decision_function(model);

Esta es la línea divisoria que maximiza el margen entre los dos conjuntos de puntos.
Fíjate en que algunos de los puntos de entrenamiento apenas tocan el margen: están indicados por los círculos negros en esta figura.
Estos puntos son los elementos pivotantes de este ajuste, y se conocen como los *vectores de soporte*, y dan nombre al algoritmo.
En Scikit-Learn, la identidad de estos puntos se almacena en el atributo ``support_vectors_`` del clasificador:


In [None]:
model.support_vectors_

Una de las claves del éxito de este clasificador es que, para el ajuste, sólo importa la posición de los vectores de soporte; ¡los puntos más alejados del margen que estén en el lado correcto no modifican el ajuste!
Técnicamente, esto se debe a que estos puntos no contribuyen a la función de pérdida utilizada para ajustar el modelo, por lo que su posición y número no importan mientras no crucen el margen.

Podemos ver esto, por ejemplo, si trazamos el modelo aprendido a partir de los primeros 60 puntos y los primeros 120 puntos de este conjunto de datos:

In [None]:
def plot_svm(N=10, ax=None):
    X, y = make_blobs(n_samples=200, centers=2,
                      random_state=0, cluster_std=0.60)
    X = X[:N]
    y = y[:N]
    model = SVC(kernel='linear', C=1E10)
    model.fit(X, y)
    
    ax = ax or plt.gca()
    ax.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
    ax.set_xlim(-1, 4)
    ax.set_ylim(-1, 6)
    plot_svc_decision_function(model, ax)

fig, ax = plt.subplots(1, 2, figsize=(16, 6))
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1)
for axi, N in zip(ax, [60, 120]):
    plot_svm(N, axi)
    axi.set_title('N = {0}'.format(N))

En el panel de la izquierda, vemos el modelo y los vectores de apoyo para 60 puntos de entrenamiento.
En el panel de la derecha, hemos duplicado el número de puntos de entrenamiento, pero el modelo no ha cambiado: los tres vectores de apoyo del panel de la izquierda siguen siendo los vectores de apoyo del panel de la derecha.
Esta insensibilidad al comportamiento exacto de los puntos distantes es uno de los puntos fuertes del modelo SVM.

### Más allá de los límites lineales: Kernel SVM

Donde la SVM se vuelve extremadamente potente es cuando se combina con *kernels*.

Para motivar la necesidad de los núcleos, veamos algunos datos que no son linealmente separables:

In [None]:
from sklearn.datasets.samples_generator import make_circles
X, y = make_circles(100, factor=.1, noise=.1)

clf = SVC(kernel='linear').fit(X, y)

plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
plot_svc_decision_function(clf, plot_support=False);

Está claro que ninguna discriminación lineal podrá *nunca* separar estos datos. Así que ahora tenemos que pensar en cómo podríamos proyectar los datos en una dimensión más alta, de manera que un separador lineal *sería* suficiente.

Por ejemplo, una proyección sencilla que podríamos utilizar sería calcular una *función de base radial* centrada en el grupo central:

In [None]:
r = np.exp(-(X ** 2).sum(1))

Podemos visualizar esta dimensión extra de los datos mediante una tridimensionalidad:

In [None]:
ax = plt.subplot(projection='3d')
ax.scatter3D(X[:, 0], X[:, 1], r, c=y, s=50, cmap='autumn')
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_zlabel('r')

Podemos ver que con esta dimensión adicional, los datos se vuelven trivialmente separables linealmente, dibujando un plano de separación en, digamos, *r*=0,7.

Aquí tuvimos que elegir y afinar cuidadosamente nuestra proyección: si no hubiéramos centrado nuestra función de base radial en el lugar correcto, no habríamos visto resultados tan limpios y linealmente separables.
En general, la necesidad de hacer tal elección es un problema: nos gustaría encontrar de alguna manera automática las mejores funciones de base a utilizar.

Una estrategia para este fin es calcular una función de base centrada en *todos* los puntos del conjunto de datos, y dejar que el algoritmo SVM tamice los resultados.
Este tipo de transformación de la función base se conoce como *transformación del núcleo*, ya que se basa en una relación de similitud (o núcleo) entre cada par de puntos.

Un problema potencial de esta estrategia -proyectar $N$ puntos en $N$ dimensiones- es que podría ser muy intensiva en términos de computación a medida que $N$ crece.
Sin embargo, gracias a un pequeño procedimiento conocido como el [*truco del núcleo*] (https://en.wikipedia.org/wiki/Kernel_trick), se puede realizar un ajuste en los datos transformados por el núcleo de forma implícita, es decir, ¡sin construir nunca la representación completa de $N$ dimensiones de la proyección del núcleo!
Este truco del kernel está incorporado en la SVM, y es una de las razones por las que el método es tan poderoso.

En Scikit-Learn, podemos aplicar SVM kernelizado simplemente cambiando nuestro kernel lineal a un kernel RBF (función de base radial), utilizando el hiperparámetro del modelo ``kernel``:

In [None]:
clf = SVC(kernel='rbf', C=1E6, gamma='auto')
clf.fit(X, y)

In [None]:
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
plot_svc_decision_function(clf)
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1],
            s=300, lw=1, facecolors='none');

Utilizando esta máquina de vectores de soporte kernelizada, aprendemos un límite de decisión no lineal adecuado.
Esta estrategia de transformación del núcleo se utiliza a menudo en el aprendizaje automático para convertir los métodos lineales rápidos en métodos no lineales rápidos, especialmente para los modelos en los que se puede utilizar el truco del núcleo.

## Ejemplo práctico: Reconocimiento de caras

Como ejemplo de máquinas de vectores soporte en acción, veamos el problema del reconocimiento facial.
Utilizaremos el conjunto de datos Labeled Faces in the Wild, que consiste en varios miles de fotos cotejadas de diversas figuras públicas.
En Scikit-Learn se ha incorporado un recuperador para el conjunto de datos:

In [None]:
from sklearn.datasets import fetch_lfw_people
faces = fetch_lfw_people(min_faces_per_person=60)
print(faces.target_names)
print(faces.images.shape)

Vamos a trazar algunas de estas caras para ver con qué estamos trabajando:

In [None]:
fig, ax = plt.subplots(3, 5)
for i, axi in enumerate(ax.flat):
    axi.imshow(faces.images[i], cmap='bone')
    axi.set(xticks=[], yticks=[],
            xlabel=faces.target_names[faces.target[i]])

Cada imagen contiene [62×47] o casi 3.000 píxeles.
Podríamos proceder simplemente utilizando el valor de cada píxel como una característica, pero a menudo es más eficaz utilizar algún tipo de preprocesador para extraer características más significativas; aquí vamos a utilizar un análisis de componentes principales (véase [En profundidad: Análisis de componentes principales](05.09-Principal-Component-Analysis.ipynb)) para extraer 150 componentes fundamentales para alimentar nuestro clasificador de máquina de vectores de apoyo.

Podemos hacer esto de la manera más directa empaquetando el preprocesador y el clasificador en una sola tubería:

In [None]:
from sklearn.svm import SVC
from sklearn.decomposition import PCA as RandomizedPCA
from sklearn.pipeline import make_pipeline

pca = RandomizedPCA(n_components=150, whiten=True, random_state=42)
svc = SVC(kernel='rbf', class_weight='balanced')
model = make_pipeline(pca, svc)

Para probar el resultado de nuestro clasificador, dividiremos los datos en un conjunto de entrenamiento y otro de prueba:

In [None]:
from sklearn.model_selection import train_test_split
Xtrain, Xtest, ytrain, ytest = train_test_split(faces.data, faces.target,
                                                random_state=42)

Por último, podemos utilizar una validación cruzada de búsqueda en cuadrícula para explorar combinaciones de parámetros.
Aquí ajustaremos ``C`` (que controla la dureza del margen) y ``gamma`` (que controla el tamaño del núcleo de la función de base radial), y determinaremos el mejor modelo:

In [None]:
from sklearn.model_selection import GridSearchCV
param_grid = {'svc__C': [1, 5, 10, 50],
              'svc__gamma': [0.0001, 0.0005, 0.001, 0.005]}
grid = GridSearchCV(model, param_grid, cv=5)

%time grid.fit(Xtrain, ytrain)
print(grid.best_params_)

Los valores óptimos caen hacia el centro de nuestra cuadrícula; si cayeran en los bordes, querríamos ampliar la cuadrícula para asegurarnos de que hemos encontrado el verdadero óptimo.

Ahora, con este modelo validado de forma cruzada, podemos predecir las etiquetas de los datos de prueba, que el modelo aún no ha visto:

In [None]:
model = grid.best_estimator_
yfit = model.predict(Xtest)

Veamos algunas de las imágenes de prueba junto con sus valores previstos:

In [None]:
fig, ax = plt.subplots(4, 6)
for i, axi in enumerate(ax.flat):
    axi.imshow(Xtest[i].reshape(62, 47), cmap='bone')
    axi.set(xticks=[], yticks=[])
    axi.set_ylabel(faces.target_names[yfit[i]].split()[-1],
                   color='black' if yfit[i] == ytest[i] else 'red')
fig.suptitle('Predicted Names; Incorrect Labels in Red', size=14);

De esta pequeña muestra, nuestro estimador óptimo sólo etiquetó mal una cara (la de Bush de Bush, en la fila inferior, fue etiquetada erróneamente como Blair).

Podemos hacernos una mejor idea del rendimiento de nuestro estimador utilizando el informe de clasificación, que enumera las estadísticas de recuperación etiqueta por etiqueta:

In [None]:
from sklearn.metrics import classification_report
print(classification_report(ytest, yfit,
                            target_names=faces.target_names))

También podríamos mostrar la matriz de confusión entre estas clases:

In [None]:
from sklearn.metrics import confusion_matrix
mat = confusion_matrix(ytest, yfit)
sns.heatmap(mat.T, square=True, annot=True, fmt='d', cbar=False,
            xticklabels=faces.target_names,
            yticklabels=faces.target_names)
plt.xlabel('true label')
plt.ylabel('predicted label');

Esto nos ayuda a tener una idea de qué etiquetas pueden ser confundidas por el estimador.

Para una tarea de reconocimiento facial en el mundo real, en la que las fotos no vienen previamente recortadas en bonitas cuadrículas, la única diferencia en el esquema de clasificación facial es la selección de características: habría que utilizar un algoritmo más sofisticado para encontrar las caras, y extraer características que sean independientes de la pixelación.

Para este tipo de aplicaciones, una buena opción es hacer uso de [OpenCV](http://opencv.org), que, entre otras cosas, incluye implementaciones preentrenadas de herramientas de extracción de características de última generación para imágenes en general y rostros en particular.

## Resumen de las máquinas de vectores de soporte

Hemos visto aquí una breve introducción intuitiva a los principios en los que se basan las máquinas de vectores de soporte.
Estos métodos son un potente método de clasificación por varias razones:

- Su dependencia de relativamente pocos vectores de soporte significa que son modelos muy compactos, y ocupan muy poca memoria.
- Una vez entrenado el modelo, la fase de predicción es muy rápida.
- Como sólo se ven afectados por los puntos cercanos al margen, funcionan bien con datos de alta dimensión, incluso con datos con más dimensiones que muestras, lo que constituye un régimen difícil para otros algoritmos.
- Su integración con métodos kernel los hace muy versátiles, capaces de adaptarse a muchos tipos de datos.

Sin embargo, las SVM también tienen varias desventajas:

- El escalado con el número de muestras $N$ es $\mathcal{O}[N^3]$ en el peor de los casos, o $\mathcal{O}[N^2]$ para implementaciones eficientes. Para un gran número de muestras de entrenamiento, este coste computacional puede ser prohibitivo.
- Los resultados dependen en gran medida de una elección adecuada del parámetro de suavización $C$. Este parámetro debe elegirse cuidadosamente mediante validación cruzada, lo que puede resultar caro a medida que los conjuntos de datos aumentan de tamaño.
- Los resultados no tienen una interpretación probabilística directa. Puede estimarse mediante una validación cruzada interna (véase el parámetro ``probabilidad`` de ``SVC``), pero esta estimación adicional es costosa.

Teniendo en cuenta estos rasgos, generalmente sólo recurro a las SVM cuando otros métodos más sencillos, más rápidos y con menos ajustes han demostrado ser insuficientes para mis necesidades.
No obstante, si tiene los ciclos de CPU necesarios para entrenar y validar de forma cruzada una SVM en sus datos, el método puede dar excelentes resultados.

# Sources:

https://stackabuse.com/association-rule-mining-via-apriori-algorithm-in-python/

https://medium.com/@kbrook10/day-11-machine-learning-using-knn-k-nearest-neighbors-with-scikit-learn-350c3a1402e6

This notebook contains an excerpt from the [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) by Jake VanderPlas