# SVM
L'algorithme SVM, ou Support Vector Machine, est une technique d'apprentissage supervisé utilisée pour résoudre des problèmes de classification et de régression. L'idée principale de l'algorithme SVM est de trouver une frontière, appelée hyperplan, qui sépare au mieux les différentes classes dans l'espace des données. Cela implique la maximisation de la marge, c'est-à-dire la distance entre l'hyperplan et les points de données les plus proches de chaque classe. Ces points, appelés vecteurs de support, sont essentiels pour déterminer la position et l'orientation de l'hyperplan.
### Séparation des classes de données
On distingue deux cas de figure: 
- Données linéairement séparables: Si les classes de données sont linéairement séparables, c'est-à-dire qu'il existe un hyperplan qui peut parfaitement séparer les différentes classes.
- Données non linéairement séparables: Si les classes de données ne peuvent pas être séparées de manière linéaire, l'algorithme SVM utilise des techniques de noyau pour les transformer dans un espace de grande dimension où elles peuvent être séparées.

## Importing necessary libraries

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_squared_error

## Loading the dataset

In [2]:
# Load the dataset from url
import pandas as pd

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/00325/Sensorless_drive_diagnosis.txt'
data = pd.read_csv(url, header=None, sep=' ')

In [3]:
dir(data)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__dataframe__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__reduce__',
 '__reduce_ex_

In [4]:
#DataSet Dimensions
print(data.shape)

(58509, 49)


## Preparing training and testing datasets

In [5]:
## Separate features and target
#La variable X contient toutes les colonnes sauf la dernière de la dataframe "data". Cela correspond aux caractéristiques ou variables d'entrée du modèle.
X = data.iloc[:, :-1]

#La variable Y contient la dernière colonne de la dataframe "data", qui représente la cible ou la variable à prédire.
Y = data.iloc[:, -1]


# Normalisation des données caractéristiques
scaler = StandardScaler()
X = scaler.fit_transform(X)

## Split the data into training and test sets
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)
#Cela spécifie que 20% des données seront utilisées comme ensemble de test, tandis que 80% seront utilisées comme ensemble d'entraînement.
#La division des données se fera de la même manière dans chaque execution

##  Evaluate the model (MSE, Execution time) considering default parameters

### Paramètres de l’algorithme SVM
les principaux paramètres de l'algorithme svm sont: 
- C (pénalité de régularisation): contrôle le compromis entre la marge d'erreur et la classification correcte des données d'entraînement.
- kernel (noyau): Le choix du noyau détermine comment les données sont transformées pour permettre une séparation non linéaire. 
- gamma: influence la forme de la frontière de décision. Une valeur plus élevée de gamma indique que les points doivent être très proches les uns des autres pour être considérés comme une classe. 

### Paramètres par défaut
- C (pénalité de régularisation) : La valeur par défaut est 1.0. 
- kernel (noyau) : La valeur par défaut est 'rbf' (Radial Basis Function).
- gamma : La valeur par défaut est 'scale'.


In [6]:
import time
# Create and train the SVM model
start_time = time.time()
model = SVC()
model.fit(X_train, Y_train)
end_time = time.time()

In [7]:
# Calculate the execution time
execution_time = end_time - start_time
print("Execution time:", execution_time, "seconds")

Execution time: 91.0583713054657 seconds


In [38]:
# Make predictions on the test set
predictions_ = model.predict(X_test)
print(predictions_)

[11  1  2 ...  3  7 10]


In [9]:
# calculer l'erreur quadratique moyenne entre les vraies étiquettes de classe et les prédictions sur l'ensemble de test.
train_mse = mean_squared_error(Y_train, model.predict(X_train))
test_mse = mean_squared_error(Y_test, model.predict(X_test))

print("Training MSE : ", train_mse)
print("Testing MSE : ", test_mse)

Training MSE :  0.6936355673296729
Testing MSE :  0.9741069902580756


> le MSE sur l'ensemble de test est nettement plus élevé que le MSE sur l'ensemble d'entraînement, cela peut indiquer un problème de surapprentissage, où le modèle est trop spécifique aux données d'entraînement et ne se généralise pas bien aux nouvelles données.

In [40]:
from sklearn.metrics import accuracy_score

# Calculate the training accuracy
test_accuracy = accuracy_score(Y_test, predictions_)
print("Accuracy:", test_accuracy)

Accuracy: 0.9631686891129722


##  Evaluate the model (MSE, RMSE, Execution time) considering optimal parameters

In [11]:
# Define the parameter grid
param_grid = {
    'C': [0.1, 1, 10],
    'kernel': ['linear', 'rbf'],
    'gamma': [0.1, 1, 10]
}

In [12]:
import multiprocessing

num_cores = multiprocessing.cpu_count()
print("Number of CPU cores:", num_cores)


Number of CPU cores: 8


In [13]:
from sklearn.model_selection import GridSearchCV

#Perform grid search cross-validation
#Déterminer les paramètres optimaux
grid_search = GridSearchCV(model, param_grid, cv=5, n_jobs=num_cores)
print("Grid search is executing...")
grid_search.fit(X_train, Y_train)

# Print the best parameters
print("Best parameters: ", grid_search.best_params_)

Grid search is executing...
Best parameters:  {'C': 10, 'gamma': 0.1, 'kernel': 'rbf'}


In [56]:
# Réentraîner le modèle avec les meilleurs paramètres sur l'ensemble des données d'entraînement
start_time_optimal = time.time()
best_model = SVC(**grid_search.best_params_)
best_model.fit(X_train, Y_train)
end_time_optimal = time.time() 

In [57]:
# Calculate the execution time with optimal parameters
execution_time = end_time_optimal - start_time_optimal
print("Execution time with optimal parameters:", execution_time, "seconds")

Execution time with optimal parameters: 80.3690915107727 seconds


In [16]:
# Calculate training and testing MSE for optimal parameters
train_mse = mean_squared_error(Y_train, best_model.predict(X_train))
test_mse = mean_squared_error(Y_test, best_model.predict(X_test))

print("Training MSE : ", train_mse)
print("Testing MSE : ", test_mse)

Training MSE :  0.0005341081462174461
Testing MSE :  1.0502478208853188


> Concernant le training MSE:
Dans le cas des paramètres par défaut, une erreur relativement élevée sur les données d'entraînement est obtenu.
Avec les paramètres optimaux, la valeur a considérablement diminué pour atteindre 0.0005, ce qui indique une meilleure adéquation du modèle aux données d'entraînement. Cela suggère que le modèle est capable de capturer les relations entre les caractéristiques d'entrée et les étiquettes de sortie de manière plus précise.
> Concernant le testing MSE:
La valeur a augmenté; Le modèle avec les paramètres optimaux est peut-être moins susceptible de surajuster les données d'entraînement. 

In [35]:
# Make predictions on the test set
predictions = best_model.predict(X_test)
print(predictions)

[11  1  2 ...  3  7 10]


In [41]:
# Calculate accuracy
#Accuracy = (Number of Correct Predictions) / (Total Number of Predictions)
accuracy_opt = accuracy_score(Y_test, predictions)
print("Accuracy with optimal parameters:", accuracy_opt)

Accuracy with optimal parameters: 0.9709451375833191


On constate une légère augmentation de la précision du modèle SVM, et donc une meilleure généralisation du modèle sur les données de test. 

# Comparison between SVM and RN
- Temps d'exécution: le SVM est plus rapide pour entrainer que le RN.
- Le RN a une mielleure précision que le SVM. 

# LASSO et RIDGE
Lasso et Ridge sont des techniques de régularisation utilisées avec SVM (Support Vector Machines) pour réduire le surapprentissage (overfitting) et améliorer la performance du modèle. 

In [46]:
######LASSO et RIDGE
from sklearn.svm import LinearSVC


start_time = time.time()
#LinearSVC pour l'implémentation de SVM linéaire pour la classification
#paramètre l1 pour effectuer la régulation Lasso (L1 Regularization)
svm_lasso = LinearSVC(penalty='l1', dual=False,C=0.1)
svm_lasso.fit(X_train, Y_train)
end_time = time.time()

#Temps pour entrainer le SVM avec la régularisation Lasso (L1) 
print("Lasso time ", end_time - start_time)
#paramètre l2 pour effectuer la régulation Ridge (L2 Regularization)
start_time2 = time.time()
svm_ridge = LinearSVC(penalty='l2', dual=False,C=0.1)
svm_ridge.fit(X_train, Y_train)
end_time2 = time.time()

#Temps pour entrainer le SVM avec la régularisation Ridge (L2)
print("Ridge time ", end_time2 - start_time2)



Lasso time  142.8544762134552
Ridge time  230.92606496810913




In [58]:
# Calcul du MSE pour le modèle Lasso
y_train_pred_lasso = svm_lasso.predict(X_train)
mse_train_lasso = mean_squared_error(Y_train, y_train_pred_lasso)
print("Training MSE (Lasso):", mse_train_lasso)

y_test_pred_lasso = svm_lasso.predict(X_test)
mse_test_lasso = mean_squared_error(Y_test, y_test_pred_lasso)
print("Testing MSE (Lasso):", mse_test_lasso)

# Calcul du MSE pour le modèle Ridge
y_train_pred_ridge = svm_ridge.predict(X_train)
mse_train_ridge = mean_squared_error(Y_train, y_train_pred_ridge)
print("Training MSE (Ridge):", mse_train_ridge)

y_test_pred_ridge = svm_ridge.predict(X_test)
mse_test_ridge = mean_squared_error(Y_test, y_test_pred_ridge)
print("Testing MSE (Ridge):", mse_test_ridge)


Training MSE (Lasso): 0.6090798384856966
Testing MSE (Lasso): 0.5804734233464365
Training MSE (Ridge): 0.5895635268229111
Testing MSE (Ridge): 0.5573662621774056


# Parallelization using Apache Spark

In [21]:
!pip install pyspark




[notice] A new release of pip available: 22.3.1 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [48]:
from pyspark import SparkContext
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import LinearSVC
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.sql import SparkSession

# Initialisation de Spark
spark = SparkSession.builder \
    .appName("SVM Example") \
    .getOrCreate()

start_time_with_spark = time.time()
svm_with_spark = SVC()
svm_with_spark.fit(X_train, Y_train)
end_time_with_spark = time.time()

# Arrêt de Spark
spark.stop()



In [49]:
# Calculate the execution time with spark apache
execution_time_with_spark = end_time_with_spark - start_time_with_spark
print("Execution time avec Spark:", execution_time_with_spark, "seconds")

Execution time avec Spark: 63.77378487586975 seconds


On constate une dimunition du temps d'exécution en utilisant la parrallélisation avec spark. 