# Proyecto Final Statistical Learning I: Parte 3

Esta sección corresponde a la parte final del proyecto, en la que se incluyen un Ensayo sobre Support Vector Machine, una investigación sobre la técnica K-Fold Cross Validation y una investigación sobre métodos de deploy y export con TensorFlow.

## Ensayo SVM

SVM se refiere al algoritmo Support Vector Machines muy útil en problemas de clasificación lineal y no lineal, también puede aplicarse a regresión y detección de outliers. SVM busca separar las clases por una frontera de decisión que se encuentre a la distancia máxima entre los puntos más cercanos de las clases. 

Por ejemplo, en la siguiente imagen puede observarse que la línea que mejor separa las clases y previene casos ambiguos es la línea roja para este caso en particular. Los puntos que definen el ancho del gap son llamados vectores de soporte o 'Support Vectors' (de ahí el nombre). El 'gap' es llamado también **margen grande de clasificación**.

<img src="https://miro.medium.com/max/1400/0*INqwwHXgTabQx7wM.png" alt="alt text" width="400"/>
<center> Créditos: Shubhang Agrawal



### Hipótesis

La hipótesis de SVM está relacionada a la de la regresión logística. 

$$h_Θ(x) = g(Θ^Tx) = \frac{1}{1+e^{-Θ^Tx}} $$

Si $y=1$, queremos que $h_Θ(x) ≈ 1$, o que $$Θ^Tx >> 0$$
Si $y=0$, queremos que $h_Θ(x) ≈ 0$, o que $$Θ^Tx << 0$$

La gran diferencia es que la regresión logística arroja resultados probabilísticos, mientras que la hipótesis de SVM solo indica 0 o 1.

$$h_Θ(x) =\left\{
    \begin{array}{lr}
    1 \text{ si } Θ^Tx >= 0\\
    0 \text{ en } otros puntos\\
    \end{array}
\right.
$$

### Función de costo

La función de costo es:
<img src="https://www.freecodecamp.org/news/content/images/2020/02/SOhv2jZ.png" alt="alt text" width="400"/>

Y en realidad es muy similar a la función de costo de regresión logística. La gran diferencia está en la pendiente de las curvas:

<img src="https://raw.githubusercontent.com/alexeygrigorev/wiki-figures/master/legacy/svm-vs-lr-cost.png" alt="alt text" width="400"/>
<center> Créditos: Alexey Grigorev
    
La función de costo se usa para entrenar el modelo. El objetivo, como siempre, es minimizar el costo. En la ecuación cost1 y cost0 se refieren al costo donde y=1 y al costo donde y=0 en cierto ejemplo específico. ***C*** es un parámetro de regularización (hyper-parameter) y es equivalente al inverso de lambda.      

### Ventas y desventajas

**Ventajas**
* SVM funciona relativamente bien cuando existe un claro margen de separación entre clases.
* Es efectivo cuando el número de dimensiones es mayor que el número de muestras.
* Es relativamente eficiente en términos de uso de memoria.

**Desventajas**
* No es adecuado para datasets demasiado grandes.
* En los casos donde existe ruido o las clases se traslapan, SVM no tiene buen rendimiento.
* Si el número de features de cada observación excede el número de muestras de entrenamiento, SVM tampoco tiene buen rendimiento. 
* El modelo no tiene mucha explicabilidad ya que funciona por colocar puntos arriba y debajo del hiperplano de clasificación. 

### Kernel Trick

Cuando los datos no son linealmente separables se hace necesario aplicar transformaciones a las features de manerea que sean linealmente separables, normalmente estas transformaciones llevan los datos a dimensiones más altas en las cuales si son separables. El problema es que muchas veces, este incremento dimensional implica combinaciones polinomiales y de otro tipo que son imprácticos y computacionalmente ineficientes. Para resolver este problema, se utiliza el kernel trick.

Este truco consiste en aplicar una función kernel, la cual tiene una propiedad especial para entrenar los vectores de soporte. El truco se basa en representar los datos a través de un conjunto de comparaciones de de pares de observaciones, sin aplicar las transformaciones y luego representar las coordenadas transformadas en las dimensiones superiores.En términos simples la función kernel es un producto punto modificado. 

Algunos kernels comunes son:
* Kernel Polinomial: se utiliza mucho en procesamiento de imágenes.
* Kernel Gaussiano: se utiliza en aplicaciones de uso general.
* Kernel RBF: Radial Basis Function, también para aplicaciones de uso general.
* Kernel RBF Laplace: se utiliza en aplicaciones de uso general.
* Kernel de Tangente Hiperbólica: se usa en redes neuronales.
* Kernel Sigmoid: se utiliza como un "proxy" en redes neuronales.

Un ejemplo de implementación de SVM usando sci-kit learn puede ser:

In [7]:
from sklearn import datasets
cancer = datasets.load_breast_cancer()

# Exploramos los datos
print(cancer.feature_names)
print(cancer.target_names)

['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']
['malignant' 'benign']


En este data set se proveen muchas características de un tumor y las variables target son dos: si es maligno o benigno.

In [8]:
# Separamos los datos
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.2,random_state=2021)

In [18]:
from sklearn import svm

# generamos el modelo svm con un kernel lineal
clf = svm.SVC(C = 0.5, kernel='linear')

# lo entrenamos con los datos de entrenamiento
clf.fit(X_train, y_train)

# realizamos una prediccion
y_hat = clf.predict(X_test)

La función svm.SVC permite ingresar como parámetro el valor de C (el inverso del parámetro de regularización), el kernel y otros parámetros que varían en función del kernel utilizado. 

In [19]:
y_hat

array([1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1,
       0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1,
       1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1,
       1, 1, 0, 1])

Luego de haber entrenado y hecho las predicciones, podemos medir el accuracy del modelo para ver que tan exacto es:

In [20]:
from sklearn import metrics
print("Accuracy:",metrics.accuracy_score(y_test, y_hat)*100)

Accuracy: 93.85964912280701


***

## K-Fold Cross Validation

Validación cruzada K-Fold es un método estadístico para medir el performance de un modelo. La idea principal de K-fold consiste en utilizar diferentes subsets para el entrenamiento del modelo y diferentes subsets para la validación, calculando la métrica de performance en cada "fold" para finalmente calcular la métrica promedio sobre los k-folds realizados. 

<img src="https://www.googleapis.com/download/storage/v1/b/kaggle-forum-message-attachments/o/inbox%2F4788946%2F82b5a41b6693a313b246f02d79e972d5%2FK%20FOLD.png?generation=1608195745131795&alt=media" alt="alt text" width="500"/>
<center> Créditos: Yash Khandelwal

Compo se observa en la imagen, se realizan 5 folds y en cada fold se utilizan ciertos subsets para el entrenamiento y ciertos subsets (en menor proporción) para la validación. La métrica de performance (error, accuracy, etc.) se calcula en cada fold y finalmente, la métrica de performance general es el promedio de los performance en cada fold. 

Los pasos a seguir para aplicar k-fold cross validation son:

* Mezclar de forma aleatoria el dataset.
* Dividirlo en k secciones. 
* Para cada sección k: 
 + Tomar un grupo como dataset de pruebas.
 + Tomar el resto de datos como dataset de entrenamiento.
* Entrenar el modelo con los grupos de entrenamiento y evaluarlo en los grupos de prueba.
* Retener la métrica de evaluación y descargar el modelo de cada k sección.
* Resumir la métrica de performance con promedio. 
* Probar el modelo de nuevo en todos los datos. 



### Aplicación en el proyecto

Para el proyecto k-fold cross validation podría implementarse utilizando **cross_val_score** de scikit learn en el caso de los modelos de sklearn. 

Esta función tiene varios parámetros pero los básicos son, estimator en que se define el modelo a validar, X que se refiere a las features, y son los datos de salida y cv que se refiere al método de validación cruzada, en el caso de ser None se crean por default 5 folds. En el siguiente ejemplo se muestra como podría aplicarse en el proyecto en el caso del modelo SVM:

El siguiente paso consistiría en calcular el promedio de scores para tener la métrica final del modelo. En código equivaldría a hacer lo siguiente:

El parámetro de evaluación o de performance puede modificarse de acuerdo a las métricas disponibles entre ellas: f1, accuracy, mse, recall, precision, etc.
***

## Métodos de deploy y export en TensorFlow

Los métodos de export y deploy en TensorFlow tienen como objetivo desplegar modelos ya entrenados y listos para utilizarse en nuevos ambientes. En el caso del proyecto, la idea es simular cómo se puede desplegar el modelo de regresión logística realizado en TensorFlow en un Jupyter notebook nuevo.

El proceso puede resumirse en los siguientes pasos:
* Crear una función
* Exportarla a un archivo py (como un módulo de Python)
* Invocarla en un nuevo notebook donde se desea implementar

TensorFlow tiene su propio sistema de despliege llamado **TensorFlow Serving**

In [None]:
# guardar el modelo
model.save('my_model/1') 

In [None]:
# importar y cargar el modelo
from tensorflow.keras.models import load_model

# se indica el path o directorio de donde está el modelo a cargar
loaded_model = load_model('my_model/1/')

# el modelo puede utilizarse para predecir nuevos datos
loaded_model.predict(test_images[0:1])

# Referencias

Agrawal, S. (2021, January 20). Introduction to Support Vector Machine(SVM) - Artificial Intelligence in Plain English. Medium. https://ai.plainenglish.io/introduction-to-support-vector-machine-svm-cd0759098471

freeCodeCamp.org. (2021, April 28). SVM Machine Learning Algorithm Explained. https://www.freecodecamp.org/news/support-vector-machines/

sklearn.svm.SVC — scikit-learn 0.24.2 documentation. (n.d.). Scikit-Learn. Retrieved July 5, 2021, from https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

Wilimitis, D. (2019, February 21). The Kernel Trick in Support Vector Classification - Towards Data Science. Medium. https://towardsdatascience.com/the-kernel-trick-c98cdbcaeb3f

Cross Validation and its types! | Data Science and Machine Learning. (n.d.). Kaggle. Retrieved July 5, 2021, from https://www.kaggle.com/general/204878

Preparing the Dump Data of a TensorFlow Model - Atlas Intelligent Edge Solution V100R020C00 Development Auxiliary Tool Guide 01 - Huawei. (n.d.). Huawei. Retrieved July 5, 2021, from https://support.huawei.com/enterprise/en/doc/EDOC1100150947/86e94d01/preparing-the-dump-data-of-a-tensorflow-model