# **10. Support Vector Machine**

### Objetivos
Que la o el estudiante aprenda a utilizar el algoritmo Support Vector Machine dentro de la biblioteca Sklearn.

### Descripción del procedimiento a seguir
- Se construye un clasificador Naive Bayes desde cero para clasificar el conjunto de datos Iris.
- Se utiliza la clase de Sklearn.
- Se comparan tres clasificadores distintos para un problema de clasificación.
- Se deja como ejercicio comparar clasificadores para un problema de regresón.


### Datos
**Profesora**: Dra. Jessica Beltrán Márquez<br>
Maestría en Ciencia de Datos y Optimización<br>
Centro de Investigación en Matemáticas Aplicadas <br>
Universidad Autónoma de Coahuila


### Bibliografía
1. http://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
2. https://raw.githubusercontent.com/JoaquinAmatRodrigo/Estadistica-machine-learning-python/master/data/Boston.csv



## **1. Importar bibliotecas**

In [1]:
#Importamos las bibliotecas que vamos a utilizar
import math
import random
import pandas as pd
import numpy as np

#Datasets
from sklearn.datasets import load_iris

#Model selection
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score, StratifiedKFold, KFold

#Metrics
from sklearn.metrics import accuracy_score

#Classfier
from sklearn import svm
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import CategoricalNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier

#Preprocessing
from sklearn.preprocessing import MinMaxScaler, StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer

#Pipeline
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.compose import ColumnTransformer

## **2. Uso de SVM para clasificar el conjunto de datos Iris**

### **2.1 Carga y separación del conjunto de datos Iris**
- Leemos los datos
- Separamos en X y y
- Separamos en datos de entrenamiento y de prueba

In [2]:
# Nombre del archivo csv con el conjunto de datos
dataset_filename = '/content/iris.data.csv'
# Cargar los datos a un dataframe pandas
df = pd.read_csv(dataset_filename)
df.head()

Unnamed: 0,5.1,3.5,1.4,0.2,Iris-setosa
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa


In [3]:
X = df.iloc[:,:-1]
y= df.iloc[:,-1]

X_train,X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, random_state=10, stratify=y)

#Obtener las clases de flores a partir de la última columna
classes = y.unique()
print(classes)

['Iris-setosa' 'Iris-versicolor' 'Iris-virginica']


### **2.2 Instanciar un clasificador SVM lineal**


In [4]:
#Create a SVM classifier
clf = svm.SVC(kernel='linear')

### **2.3 Ajustar el clasificador a los datos**

In [5]:
clf.fit(X_train,y_train)

### **2.4 Predecir los targets del conjunto de prueba**

In [6]:
y_pred = clf.predict(X_test)

### **2.5 Obtener la exactitud de la clasificación en el conjunto de prueba**

In [7]:
test_accuracy = accuracy_score(y_test,y_pred)
print(test_accuracy)

1.0


## **3. Comparar varios algoritmos de clasificación sobre el Titanic dataset**

- Se comparan los modelos:
  - Naive Bayes
  - KNN
  - Árboles de decisión
  - SVM

Asimismo, en esta sección se definen Pipelines y se prueban hiperparámetros para cada modelo.

### **3.1 Carga y separación de datos**

In [11]:
# Load the Titanic dataset (replace the path with your actual file path)
titanic_data = pd.read_csv('/content/titanic.csv')

# Drop irrelevant columns
titanic_data = titanic_data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)

# Separate features and target variable
X = titanic_data.drop('Survived', axis=1)
y = titanic_data['Survived']

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)



FileNotFoundError: [Errno 2] No such file or directory: '/content/titanic.csv'

### **3.2 Definición de Pipeline para preprocesamiento de datos numéricos y categóricos**

In [None]:
# Define numerical and categorical features
numerical_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# Create preprocessing steps for numerical and categorical features
numerical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', MinMaxScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Create column transformer to apply transformations to numerical and categorical columns
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_features),
        ('cat', categorical_transformer, categorical_features)
    ])


### **3.3 Instanciamiento de los 4 clasificadores**

In [None]:
# each of these models will take a turn as the second Pipeline step
clf1 = CategoricalNB()
clf2 = KNeighborsClassifier()
clf3 = DecisionTreeClassifier()
clf4 = svm.SVC()

### **3.4 Creación de Pipeline con preprocesamiento y clasificador**
NOTA: Se deja un clasificador como *placeholder*, pero esto se sobreescribe con los parámetros definindos.

In [None]:
# create the Pipeline
pipe = Pipeline([('preprocessor', preprocessor), ('classifier', clf1)])

### **3.5 Se definen diccionarios de hiperparámetros para cada modelo**

In [None]:
# create the parameter dictionary for clf1
params1 = {}
params1['classifier__alpha'] = [1.0, 2.0]
params1['classifier'] = [clf1]

# create the parameter dictionary for clf2
params2 = {}
params2['classifier__n_neighbors'] =  [3, 5, 7]
params2['classifier__weights'] = ['uniform', 'distance']
params2['classifier'] = [clf2]

# create the parameter dictionary for clf2
params3 = {}
params3['classifier__criterion'] = ['gini', 'entropy']
params3['classifier__max_depth'] = [None, 5, 10, 15]
params3['classifier'] = [clf3]

params4 = {}
params4['classifier__kernel']= ['linear', 'rbf', 'poly']
params4['classifier__C'] = [0.1,1,10]
params4['classifier__gamma']= ['scale', 'auto']
params4['classifier__degree']= [2,3,4]
params4['classifier'] = [clf4]

### **3.6 Creación de lista de diccionarios de parámetros**

In [None]:
# create a list of parameter dictionaries
params = [params1, params2, params3, params4]

### **3.7 Busqueda de mejores modelos con *GridSearchCV***

In [None]:
# this will search every parameter combination within each dictionary
grid = GridSearchCV(pipe, params)
grid.fit(X_train, y_train)
grid.best_params_
print(grid.best_params_)

{'classifier': SVC(C=10, degree=2), 'classifier__C': 10, 'classifier__degree': 2, 'classifier__gamma': 'scale', 'classifier__kernel': 'rbf'}


### **3.8 Acceso al mejor modelo y evaluación en conjunto de prueba**

In [None]:
# Access the best model (best estimator) directly
best_model = grid.best_estimator_
best_model_name = best_model.named_steps['classifier'].__class__.__name__
# Now you can use the best_model for further analysis or evaluation
best_predictions = best_model.predict(X_test)
best_accuracy = accuracy_score(y_test, best_predictions)

print(f"Best Model Test Accuracy: {best_accuracy}")

print(f"Best Model: {best_model_name}")
print(f"Best Model parameters: {best_model['classifier'].get_params()}")


Best Model Test Accuracy: 0.7932960893854749
Best Model: SVC
Best Model parameters: {'C': 10, 'break_ties': False, 'cache_size': 200, 'class_weight': None, 'coef0': 0.0, 'decision_function_shape': 'ovr', 'degree': 2, 'gamma': 'scale', 'kernel': 'rbf', 'max_iter': -1, 'probability': False, 'random_state': None, 'shrinking': True, 'tol': 0.001, 'verbose': False}


## **4. Ejercicio: Regresión con SVM**

Usar SVM para regresión para predecir el valor incluido en 'MEDV' en el conjunto de datos Boston house.
NOTA: Ya tienes la mayoría de estos pasos en la práctica de Trees and Overfitting.

Pasos
- Leer los datos y separarlos correctamente
- Definir un pipeline haciendo uso de ColumnTransformer. Identifica las columnas numéricas y define un imputador con estrategia de media y un escalador Standard.
- Importar la clase correspondiente a árboles de decisión para regresión
- Hacer los cambios necesarios para trabajar con problemas de regresión, incluyendo no usar estratificación en la separación de datos y revisar las métricas.
- Define un espacio de búsqueda de hiperparámetros de la SVM para regresión. Kernels: linear y rbf, valor C: 0.1,1,10,100
- Haz la búsqueda de hiperparámetros con GridSearchCV. Usa la métrica MSE.
- Evalúa en el conjunto de prueba.


- http://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
- https://raw.githubusercontent.com/JoaquinAmatRodrigo/Estadistica-machine-learning-python/master/data/Boston.csv