# Multiclass SVM
Unter der Verwendung des *One to Rest Approaches*

https://www.baeldung.com/cs/svm-multiclass-classification

In [1]:
import glob
import os
import cv2
import numpy as np
from sklearn.preprocessing import StandardScaler

In [2]:
def getAllData(data_type, dim, print_summary=False):
    images = []
    labels = []

    # Basispfad für das Verzeichnis der Daten
    base_path = "frutis_360/fruits-360-original-size/fruits-360-original-size/"

    # Funktion, um alle Unterordner (Datenkategorien) zu erhalten
    def get_categories(path):
        return [d for d in os.listdir(path) if os.path.isdir(os.path.join(path, d))]

    categories = get_categories(os.path.join(base_path, data_type))
    total_images = 0  # Gesamtzahl der Bilder zählen

    for i, category in enumerate(categories):
        category_path = os.path.join(base_path, data_type, category)
        for image_path in glob.glob(os.path.join(category_path, "*.jpg")):
            image = cv2.imread(image_path, cv2.IMREAD_COLOR)
            image = cv2.resize(image, (dim, dim))
            image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
            images.append(image)
            labels.append(i)
            total_images += 1

    if print_summary:
        print(f"Found {total_images} images belonging to {len(categories)} classes.")

    images = np.array(images)
    labels = np.array(labels)
    return images, labels

In [3]:
# Setzen Sie die Bildgröße fest
dim = 100

# Rufen Sie die Daten für Training und Test ab, mit der Zusammenfassung
print("Training: ")
X_train, y_train = getAllData('Training', dim, print_summary=True)
print("Test: ")
X_test, y_test = getAllData('Test', dim, print_summary=True)

Training: 
Found 6231 images belonging to 24 classes.
Test: 
Found 3110 images belonging to 24 classes.


In [4]:
#Scale Data Images
scaler = StandardScaler()
X_train = scaler.fit_transform([i.flatten() for i in X_train])
X_test = scaler.fit_transform([i.flatten() for i in X_test])

## SVM - One-to-Rest
In the One-to-Rest approach, the classifier can use *m* SVMs. Each SVM would predict membership in one of the $m$ classes.

In the One-to-One approach, the classifier can use: $\frac{m (m-1)}{2}$ SVMs.

In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import RandomizedSearchCV
from sklearn.metrics import classification_report, accuracy_score, f1_score

Initialisieren des SVM-Klassifikatoren:

In [None]:
# Initialisieren des SVM-Klassifikators
# Der Standardkernel ist 'rbf', aber Sie können ihn je nach Bedarf ändern
svm_classifier = SVC(decision_function_shape='ovr')

Definieren des Parameterbereich für die Grid-Suche:
- **C**: Dies ist der Regularisierungsparameter. Der Wert von **C** gibt an, wie stark die Optimierung auf das Finden einer Entscheidungsgrenze mit kleinem Fehler auf den Trainingsdaten fokussieren soll. Ein kleiner Wert von **C** macht die Entscheidungsoberfläche glatt, während ein hoher Wert von **C** darauf abzielt, alle Trainingsdaten korrekt zu klassifizieren, indem er die Kosten für eine Fehlklassifizierung erhöht. Ein hoher Wert für **C** kann zu einem Overfitting führen, weil das Modell versucht, alle Trainingsproben korrekt zu klassifizieren. Ein niedrigerer Wert fördert eine größere Toleranz für Fehler und kann zu einem robusteren Modell führen, das besser generalisiert.
- **gamma**: Der gamma-Parameter definiert, wie weit der Einfluss eines einzelnen Trainingsbeispiels reicht. Mit anderen Worten, er bestimmt die Krümmung der Entscheidungsgrenze. Wenn **gamma** groß ist, ist der Einfluss eines Trainingsbeispiels nur in seiner unmittelbaren Umgebung groß, was zu einer kurvigeren Entscheidungsgrenze führt. Ein kleiner **gamma**-Wert bedeutet, dass der Einfluss weit reicht, was zu einer glatteren Entscheidungsgrenze führt. Der **gamma**-Parameter ist nur für nichtlineare Kernel wie 'rbf', 'poly' und 'sigmoid' relevant.

In [None]:
param_grid = {
    'C': [0.1, 1, 10],  # Werte für den Regularisierungsparameter
    'gamma': [1, 0.1, 0.01],  # Werte für den Gamma-Parameter (für nichtlineare Kerne)
    'kernel': ['poly']  # Kernelvarianten
}

Definieren des Parameterbereich für die Grid-Suche:


- **param_grid** ist das Wörterbuch der Parameter, die Sie optimieren möchten.
- **cv** steht für Cross-Validation. Sie können die Anzahl der Folds hier angeben.
- **verbose** steuert die Ausgabe während der Suche (höhere Zahlen geben detailliertere Ausgaben).

In [None]:
random_search = RandomizedSearchCV(svm_classifier, param_distributions=param_grid, n_iter=10, cv=3, verbose=2, random_state=42)

Trainieren des Grid-Search-Modell mit den Trainingsdaten:

In [None]:
random_search.fit(X_train, y_train)

In [None]:
print("Beste Parameter:", random_search.best_params_)
best_model = random_search.best_estimator_

In [None]:
y_pred = best_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_pred)
print("Testgenauigkeit:", test_accuracy)

In [None]:
print("Classification Report:\n", classification_report(y_test, y_pred))
poly_accuracy = accuracy_score(y_test, y_pred)
poly_f1 = f1_score(y_test, y_pred, average='weighted')
print('Accuracy (Polynomial Kernel): {:.2f}%'.format(poly_accuracy*100))
print('F1 (Polynomial Kernel): {:.2f}'.format(poly_f1*100))

----

## Export the trained model

In [15]:
from joblib import dump

In [16]:
dump(best_model, 'svm_multi_classifier.joblib')

['svm_multi_classifier.joblib']