In [3]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import minimize

# Abschlussprojekt Konvexe Optimierung

## Support-Vektor-Maschine

##### Beschreibung:
Ziel dieses Projekts ist es, einen Solver für eine Support-Vektor-Machine (SVM) für Klassifikation zu implementieren.
In den bisherigen Übungsaufgaben waren die Beispiele hauptsächlich Regressionsbeispiele, nun geht es um Klassifikation. 

Als Eingabe gibt es eine Menge von $k$ zweidimensionalen Punkten $P = \{x_1, x_2, \dots, x_k\}$ mit $x_i \in \mathbb{R}^2$. jeder dieser Punkte hat ein Label $y_i$ (rot oder blau) bzw. $y_i \in \{+1, -1\}$, das angibt, zu welcher Klasse der Punkt gehört. Ziel ist es eine Gerade zu finden, die beide Klassen von Punkten möglichst gut separiert. Das nennt man Klassifikation und die dazugehörige Gerade Klassifikationsgerade. Natürlich kann es auch passieren, dass die Eingabepunkte nicht linear trennbar sind. Die beste Klassifikationsgerade erhält man als Lösung eines konvexen Optimierungsproblems.
Jede Gerade in der Ebene kann dargestellt werden als
\begin{align*}
\{x \in \mathbb{R}^2|w^Txb = 0\}
\end{align*}
wobei $w \in \mathbb{R}^2$ der Normalenvektor und $b \in \mathbb{R}$ der Offset der Geraden darstellt (s. Hesse-Normalform). Der Vektor $w$ muss in der Darstellung nicht normiert sein.
Das dazugehoerige Optimierungsproblem ist das folgende:

\begin{align*}
\min_{w,b} \quad&\frac{1}{2}w^Tw+c\sum^k_{i=1}\xi_i\\
s.t. \quad& y_i(w^Tx_i+b)\geq 1 - \xi_i\\
& \xi_i \ge 0,
\end{align*}

wobei $c \in \mathbb{R}$ ein fest vorgegebener Parameter (Regularisierungsparameter) ist und $\xi_i \in \mathbb{R}$ der
Klassifikationsfehler des Punktes $x_i$.

Man kann hier wiederum den Klassifikationsfehler unterschiedlich bestrafen. Eine Variante bestraft den Fehler linear, eine zweite Variante bestraft den Fehler quadratisch und eine dritte Variante logistisch. Sie sollen alle drei Varianten implementieren.

#### Linearer Fehler:
Hier wird der Klassifikationsfehler $\xi_i$ linear bestraft. Dies heißt $L^1$-Loss SVM.Das dazugehörige Optimierungsproblem ist das folgende:
\begin{equation}
\tag{P1}\min_{w,b} \frac{1}{2}w^Tw + c \cdot \sum^k_{i=1}\max\{0, 1 - y_i (w^Tx_i+b)\}
\end{equation}
Bestimmt man von dem Optimierungsproblem  (P1) die optimale Lösung $(w^*, b^*)$, dann ist die beste Klassifikationsgerade gegeben durch Gleichung (*) und der dazugehörige Klassifikator für einen Punkt $x_i$ als
$
sign((w^*)^Tx+b^*)
$
##### Vektorisierung
\begin{gather}
\frac{1}{2}w^Tw + c \cdot \sum^k_{i=1}\max\{0, 1 - y_i (w^Tx_i+b)\}
= \frac{1}{2}z^TAz + c \cdot \sum^k_{i=1}\max\{0, 1 - y_i \langle u_i, z \rangle\} \\
\text{mit
$\quad A =  \begin{pmatrix}
0 & 0 & 0 \\ 
0 & 1 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}$,$\quad z =  \begin{pmatrix} 
b \\
w_1 \\
w_2 
\end{pmatrix}\quad$ und $\quad u_i = \begin{pmatrix} 
1 \\
x_{1,i} \\
x_{2,i}
\end{pmatrix}$}
\end{gather}
Das zueghoerige Optimierungsproblem ist nun:
\begin{equation}
\min_z \frac{1}{2}\langle z,z \rangle_A + c \cdot \sum^k_{i=1}\max\{0, 1 - y_i \langle u_i, z \rangle\}
\end{equation}
bzw. Zielfunktion:
\begin{equation}
f(z) =\frac{1}{2}\langle z,z \rangle_A + c \cdot \sum^k_{i=1}\max\{0, 1 - y_i \langle u_i, z \rangle\}
\end{equation}

##### Ableitung der Zielfunktion:
\begin{align*}
h_i(z) &= \max\{0, 1 - y_i \langle u_i, z \rangle\}\\
g_i(z) &= 1 - y_i \langle u_i, z \rangle\\
\nabla g_i(z) &= - y_iu_i \\
\nabla h_i(z) &= 
\begin{cases}
\nabla g_i(z) &\quad\text{if}\quad g_i(z) > 0\\
t\cdot \nabla g_i(z), t\in[0,1] &\quad\text{if}\quad g_i(z) = 0\\
0 &\quad\text{sonst}
\end{cases}\\
\nabla f(z) & =  Az + c \cdot \sum^k_{i=1} \nabla h_i(z)\\
\end{align*}


In [4]:
def f_linloss(z, **kwargs):
    A = kwargs.get("A",np.array([[1, 0, 0],[0, 1, 0],[0, 0, 0]]))
    u = kwargs.get("design_mat",np.array([0]))
    y = kwargs.get("y",np.array([0]))
    c = kwargs.get("c",10)
    result = 0.5 * z.T.dot(A).dot(z)
    sum_e = 0
    for i in range(0, len(y)):
        sum_e += max(0, 1 - y[i] * np.array([u[i]]).dot(z))
    result += c * sum_e
    return result
        
def df_linloss(z, **kwargs):
    A = kwargs.get("A",np.array([[1, 0, 0],[0, 1, 0],[0, 0, 0]]))
    u = kwargs.get("design_mat",np.array([0]))
    y = kwargs.get("y",np.array([0]))
    c = kwargs.get("c",10)
    result = A.dot(z)
    sum_e = np.zeros(3).reshape(z.shape)
    for i in range(0, len(y)):
        if 1 - y[i] * np.array([u[i]]).dot(z) > 0:
            sum_e -= y[i] * np.array([u[i]]).T       
    result += c * sum_e
    return result

#### Quadratischer Fehler
Hier wird der Klassifikationsfehler $\xi_i$ quadratisch bestraft. Dies heißt $L^2$-Loss SVM. Das dazugehörige Optimierungsproblem ist das folgende:
\begin{align*}
\tag{P2}\min_{w,b} \frac{1}{2}w^Tw + c \cdot \sum^k_{i=1}\left[\max\{0, 1 - y_i (w^Tx_i+b)\}^2\right]
\end{align*}

##### Vektorisierung
\begin{gather}
\frac{1}{2}w^Tw + c \cdot \sum^k_{i=1}\max\{0, 1 - y_i (w^Tx_i+b)\}^2
= \frac{1}{2}z^TAz + c \cdot \sum^k_{i=1}\max\{0, 1 - y_i \langle u_i, z \rangle\}^2 \\
\text{mit
$\quad A =  \begin{pmatrix}
0 & 0 & 0 \\ 
0 & 1 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}$,$\quad z =  \begin{pmatrix} 
b \\
w_1 \\
w_2 
\end{pmatrix}\quad$ und $\quad u_i = \begin{pmatrix} 
1 \\
x_{1,i} \\
x_{2,i}
\end{pmatrix}$}
\end{gather}
Das zueghoerige Optimierungsproblem ist nun:
\begin{equation}
\min_z \frac{1}{2}\langle z,z \rangle_A + c \cdot \sum^k_{i=1}\max\{0, 1 - y_i \langle u_i, z \rangle\}^2
\end{equation}
bzw. Zielfunktion:
\begin{equation}
f(z) =\frac{1}{2}\langle z,z \rangle_A + c \cdot \sum^k_{i=1}\max\{0, 1 - y_i \langle u_i, z \rangle\}^2
\end{equation}

##### Ableitung
\begin{gather}
\frac{\partial f(z)}{\partial z} &= \frac{\partial}{\partial z} \left[\frac{1}{2}\langle z,z \rangle_A + c \cdot \sum^k_{i=1}\max\{0, 1 - y_i \langle u_i, z \rangle\}^2\right]\\
&=  Az + c \cdot \sum^k \left[ 2 \cdot \max\{0, 1 - y_i \langle u_i, z \rangle\} \cdot \left( -y_i u_i\right)\right]
\end{gather}

In [6]:
def f_quadloss(z, **kwargs):
    A = kwargs.get("A",np.array([[1, 0, 0],[0, 1, 0],[0, 0, 0]]))
    u = kwargs.get("design_mat",np.array([0]))
    y = kwargs.get("y",np.array([0]))
    c = kwargs.get("c",10)
    result = 0.5 * z.T.dot(A).dot(z)
    sum_e = 0
    for i in range(0, len(y)):
        sum_e += max(0, 1 - y[i] * np.array([u[i]]).dot(z))**2
    result += c * sum_e
    return result
        
def df_quadloss(z, **kwargs):
    A = kwargs.get("A",np.array([[1, 0, 0],[0, 1, 0],[0, 0, 0]]))
    u = kwargs.get("design_mat",np.array([0]))
    y = kwargs.get("y",np.array([0]))
    c = kwargs.get("c",10)
    result = A.dot(z)
    sum_e = np.zeros(3).reshape(z.shape)
    for i in range(0, len(y)):
        temp = 1 - y[i] * np.array([u[i]]).dot(z)
        if temp > 0:
            sum_e -= 2*temp*y[i] * np.array([u[i]]).T       
    result += c * sum_e
    return result

#### Logistischer Fehler:
Hier wird der Klassifikationsfehler $\xi_i$ durch die logistische Funktion bestraft. Dies heißt Logistic Regression SVM. Das dazugehörige Optimierungsproblem ist das folgende:
\begin{align*}
\tag{P2}\min_{w,b} \frac{1}{2}w^Tw + c \cdot \sum^k_{i=1}\left[\ln(1 + e^{-y_i(w^Tx_i+b)})\right]
\end{align*}

##### Vektorisierung
\begin{align*}
\frac{1}{2}w^Tw + c \cdot \sum^k_{i=1}\left[\ln(e^{-y_i(w^Tx_i+b)})\right] = \frac{1}{2}\langle z, z\rangle_A + c \cdot \sum^k_{i=1}\left[\ln(1 + e^{-y_i\langle u_i, z \rangle})\right]\\
\text{mit
$\quad A =  \begin{pmatrix}
0 & 0 & 0 \\ 
0 & 1 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}$,$\quad z =  \begin{pmatrix} 
b \\
w_1 \\
w_2 
\end{pmatrix}\quad$ und $\quad u_i = \begin{pmatrix} 
1 \\
x_{1,i} \\
x_{2,i}
\end{pmatrix}$}
\end{align*}

##### 1te Ableitung

\begin{align*}
\nabla f(z)&= \frac{1}{2}\langle z, z\rangle_A + c \cdot \sum^k_{i=1}\left[\ln(1 + e^{-y_i\langle u_i, z \rangle})\right]\\
&=  Az + c \cdot \sum^k_{i=1}\left[\frac{1}{1 + e^{-y_i\langle u_i, z \rangle }} \cdot e^{-y_i\langle u_i, z \rangle } \cdot -y_iu_i \right]\\
\end{align*}

##### 2te Ableitung

\begin{align*}
\nabla^2 f(z) &= \nabla \left[ Az + c \cdot \sum^k_{i=1}\left[\frac{1}{1 + e^{-y_i\langle u_i, z \rangle }} \cdot e^{-y_i\langle u_i, z \rangle } \cdot -y_iu_i \right]\right]\\
&= A^T + c \cdot \sum^k_{i=1}-y_iu_i \left[\frac{-y_iu_i}{1 + e^{-y_i\langle u_i, z \rangle }} \cdot e^{-y_i\langle u_i, z \rangle} + \frac{y_iu_i}{(1 + e^{-y_i\langle u_i, z \rangle })^2} \cdot e^{-y_i\langle u_i, z \rangle} \cdot (1+ e^{-y_i\langle u_i, z \rangle})\right]\\
&= A^T = A\\
\end{align*}

In [7]:
def f_logloss(z, **kwargs):
    A = kwargs.get("A",np.array([[1, 0, 0],[0, 1, 0],[0, 0, 0]]))
    u = kwargs.get("design_mat",np.array([0]))
    y = kwargs.get("y",np.array([0]))
    c = kwargs.get("c",10)
    result = 0.5 * z.T.dot(A).dot(z)
    sum_e = 0
    for i in range(0, len(y)):
        sum_e += max(0, 1 - y[i] * np.array([u[i]]).dot(z))**2
    result += c * sum_e
    return result
        
def df_logloss(z, **kwargs):
    A = kwargs.get("A",np.array([[1, 0, 0],[0, 1, 0],[0, 0, 0]]))
    u = kwargs.get("design_mat",np.array([0]))
    y = kwargs.get("y",np.array([0]))
    c = kwargs.get("c",10)
    result = A.dot(z)
    sum_e = np.zeros(3).reshape(z.shape)
    for i in range(0, len(y)):
        temp = 1 - y[i] * np.array([u[i]]).dot(z)
        if temp > 0:
            sum_e -= 2*temp*y[i] * np.array([u[i]]).T       
    result += c * sum_e
    return result

#####  Aufgabe:
Schreiben Sie SVM-Solver für alle drei beschriebenen Fehler. 

- Ihr Programm sollte als erstes die Punkte von der Grafikoberfläche in zwei Gruppen einlesen. 
- Danach sollen dann, abhängig vom Fehler (linearer Fehler, quadratischer Fehler oder logistischer Fehler), alle drei entsprechenden Optimierungsprobleme gelöst werden. 
- Danach soll dann die Klassifikationsgerade dargestellt werden. Den Regularisierungsparameter $c$ können Sie in allen drei Varianten fest auf den Wert 10 setzen.
- Beachten Sie, dass die drei verschiedenen Optimierungsprobleme in unterschiedliche Klassen von Funktionen fallen (stetig sind sie alle, konvex auch). Benutzen Sie also für jedes Optimierungsproblem einen jeweils effizienten Algorithmus. Die normale Subgradienten-Methode klappt natürlich immer, da sie die wenigsten Voraussetzungen an das Optimierungsproblem stellt. Nur ist diese nicht immer am effizientesten.
- Sie sollen außerdem die passenden Algorithmen allgemeingültig implementieren, so dass sie auch für beliebige andere Funktionen wiederverwendet werden können. Die passenden Funktionen, (Sub-)gradienten oder zweiten Ableitungen sollen jeweils als Funktionshandle übergeben werden.
- Die Optimierungsalgorithmen sollen pro Iteration die bisherige Gesamtzahl der Funktionsorakelanfragen, die Schrittlänge $\sigma_k$, Informationen über den aktuellen Funktionswert und die $\mathcal{l}_\infty$-norm des Gradienten ausgeben.
- Des Weiteren sollen Ihre Optimierungsalgorithmen passende numerische Tests für Gradienten und Hesse-Matrizen beinhalten.

In [8]:
def sub_gradient(d_func, x_k, **kwargs):
    x_list = list()
    eps = kwargs.get('eps',0.01)
    max_k = kwargs.get('max_k',100)
    exit = 1
    gradient_k = d_func(x_k, **kwargs)
    d_k = -gradient_k/np.linalg.norm(gradient_k, ord = 2)
    k = 0
    sigma = 1
    while gradient_k.any():
        x_list.append(x_k)
        sigma_k =  sigma/(k+1)**(1/2)
        x_k1 = x_k + sigma_k * d_k
        if k == max_k:
            exit = 2
            break
        elif np.linalg.norm(x_k1 - x_k, ord = 2)\
            <= eps * np.maximum(1, np.linalg.norm(x_k, ord = 2)):
            exit = 3
            break
        elif np.linalg.norm(gradient_k, ord = 2) <= eps:
            exit = 4
            break
        gradient_k1 = d_func(x_k1, **kwargs)
        d_k = -gradient_k1/np.linalg.norm(gradient_k1, ord = 2)
        gradient_k = gradient_k1
        x_k = x_k1
        k += 1
    return (x_list, k, x_k, exit)

In [9]:
def armijo(func, dfunc, x_k, **kwargs):
    # 1.Schritt
    sigma = kwargs.get('a_sigma_o',1)
    k = 0
    delta = kwargs.get('a_delta',0.001)
    beta_1 = kwargs.get('a_beta_2',0.5)
    beta_2 = kwargs.get('a_beta_1',0.5)
    max_k = kwargs.get('max_k',1000)
    fk = func(x_k, **kwargs)
    gradient_k = dfunc(x_k, **kwargs)
    d_k = -gradient_k
    sigma = 1
    fk1 = func(x_k+sigma*d_k, **kwargs)
    # 2.Schritt
    condition = delta * gradient_k.T.dot(d_k)
    while fk1 > fk + condition * sigma and k < max_k:
        # 3.Schritt
        sigma *= beta_1
        fk1 = func(x_k + sigma * d_k, **kwargs)
        # 4.Schritt
        k = k+1
    return sigma  

def gradient(func, d_func, x_k, **kwargs):
    x_list = list()
    eps_1 = kwargs.get('eps',0.0001)
    max_k = kwargs.get('max_k',1000)
    exit = 1
    eps_2 = np.sqrt(eps_1)
    eps_3 = np.sqrt(eps_1)
    f_k = func(x_k, **kwargs)
    k = 0 #Schritt 1 (Startpunkt wird der Funktion mitgegeben)
    gradient_k = d_func(x_k, **kwargs)
    while gradient_k.any(): # Schritt 2
        #Schritt 3
        x_list.append(x_k)
        gradient_k = d_func(x_k, **kwargs)
        d_k = -gradient_k
        sigma_k = armijo(func, d_func, x_k, **kwargs)
        x_k1 = x_k + sigma_k * d_k    
        
        # Weitere Abrruchkriterien
        f_k1 = func(x_k1, **kwargs)
        if k == max_k:
            exit = 2
            break
        if np.fabs(f_k - f_k1)\
            <= eps_1 * np.maximum(1, np.fabs(f_k)):
            exit = 3
            break
        elif np.linalg.norm(x_k1 - x_k, ord = 2)\
            <= eps_2 * np.maximum(1, np.linalg.norm(x_k, ord = 2)):
            exit = 4
            break
        elif np.linalg.norm(gradient_k)\
            <= eps_3 * np.maximum(1, np.fabs(f_k)):
            exit = 5
            break

        x_k = x_k1 
        f_k = f_k1
        #Schritt 4
        k += 1
    return (x_list, k, x_k, exit)

In [10]:
x1_lab1 = np.array([-10,-1,-30,-20])
x2_lab1 = np.array([1,3,4,2])

x1_lab2 = np.array([1,30,60,20])
x2_lab2 = np.array([6,3,3,1])
y = np.array([1,1,1,1,-1,-1,-1,-1])
    
   

In [11]:

x1 = np.concatenate((x1_lab1,x1_lab2))
x2 = np.concatenate((x2_lab1,x2_lab2))
print(x1)
x_offset = np.ones(len(x1)) 
x = np.array([x1,x2,x_offset])
x0 = np.zeros(3).reshape(3,1)
ret = sub_grad(x0, df_linloss, design_mat = x.T, y=y, c=1*1e-20)
w = np.array([ret[0],ret[1]])
b = ret[2]
t = np.arange(-20,20,1)
plt.plot(x1_lab1,x2_lab1,'ro')
plt.plot(x1_lab2,x2_lab2,'bo')

x0 = np.zeros(3).reshape(3,1)
ret = sub_grad(x0, df_linloss, design_mat = x.T, y=y, c=10)
w = np.array([ret[0],ret[1]])
b = ret[2]

plt.plot(t,-w[0]/w[1]*t-b/w[1],'b')


x0 = np.zeros(3).reshape(3,1)
ret = sub_gradient(df_linloss, x0, design_mat = x.T, y=y, c=10)
w = np.array([ret[2][0],ret[2][1]])
b = ret[2][2]

plt.plot(t,-w[0]/w[1]*t-b/w[1],'purple')
plt.ylim( (-10,10) )
plt.xlim( (-5,15) )
plt.show()


x1 = np.concatenate((x1_lab1,x1_lab2))
x2 = np.concatenate((x2_lab1,x2_lab2))
x_offset = np.ones(len(x1)) 
x = np.array([x1,x2,x_offset])
x0 = np.zeros(3).reshape(3,1)
w = np.array([ret[0],ret[1]])
b = ret[2]
t = np.arange(-20,20,1)
plt.plot(x1_lab1,x2_lab1,'ro')
plt.plot(x1_lab2,x2_lab2,'bo')

x0 = np.zeros(3).reshape(3,1)
ret = sub_grad(x0, df_linloss, design_mat = x.T, y=y, c=10)
w = np.array([ret[0],ret[1]])
b = ret[2]

plt.plot(t,-w[0]/w[1]*t-b/w[1],'b')


x0 = np.zeros(3).reshape(3,1)
ret = gradient(f_quadloss, df_quadloss, x0, design_mat = x.T, y=y, c=0.01)
w = np.array([ret[2][0],ret[2][1]])
b = ret[2][2]
plt.plot(t,-w[0]/w[1]*t-b/w[1],'yellow')
plt.ylim( (-10,10) )
plt.xlim( (-5,15) )
plt.show()

[-10  -1 -30 -20   1  30  60  20]


NameError: name 'sub_grad' is not defined