## Escuela de Ingeniería en Computación, ITCR 

## Aprendizaje automático


### Clasificación con modelos lineales

---

Autor: Saúl Calderón, Juan Esquivel, Luis-Alexander Calvo-Valverde

# Clasificación con modelos lineales
En este documento se abordará el problema de
clasificación utilizando únicamente modelos lineales. De esta forma, el estudiante podrá estudiar su comportamiento y limitaciones. Los modelos a estudiar implementan el **enfoque discriminativo de clasificación** (una muestra pertenece o no pertenece a una clase), prescindiendo de una definición probabilística de pertenencia, la cual separa las etapas de inferencia y de toma de decisiones. Los modelos lineales de clasificación suponen que los datos son linealmente separables, es decir, es posible trazar una superficie de decisión lineal que clasifique correctamente todas las muestras.

## Modelos lineales para clasificación en dos clases

Anteriormente se exploró el problema de regresión lineal donde un
conjunto de datos a la entrada y salida de un fenómeno $\mathcal{D}=\{\vec{x},\vec{t}\}$
se utilizó para aproximar un modelo específico $y(x,\vec{w})$.
Con tal modelo es posible predecir la salida del fenómeno estudiado
frente a nuevas muestras $\vec{x}'$. 


El objetivo de la clasificación consiste en tomar una muestra de dimensión
$D$, $\vec{m'}=[m_{1},\ldots,m_{D}]^{t}$ y asignarle una etiqueta
$k$ de las $k=1,\ldots,K$ clases posibles. El espacio de las entradas
de dimensión $D$ es dividido en **regiones de decisión**, cuyos
límites se denominan superficies de decisión o límites de decisión.
Para los clasificadores con modelos lineales, las superficies de decisión
se definen como una función lineal respecto a la muestra a evaluar
$\vec{m}$, tal función es refererida como **función de activación**
$f$: 

\begin{equation}
y(\vec{m})=f\left(\vec{w'}^{T}\vec{m}'\mathbf{+}w_{0}\right)=f\left(y(\vec{m})\right)
\end{equation}

con lo que la posición de la muestra $\vec{m'}$ respecto al hiperplano
definido por $y(\vec{m})$ define la clasificación (etiqueta $k$)
de la muestra $\vec{m'}$. La dimensionalidad del vector de pesos,
en este caso, es la misma que los datos, por lo que $\vec{w'}\in\mathbb{R}^{D}$.
La función $y(\vec{m'})$ es lineal respecto a $\vec{m'}$.

Haciendo la analogía respecto al problema de regresión, las muestras
de entrada $\vec{x}$ son comparables con el conjunto de muestras
de entrada $M'=\left\{ \vec{m'}_{1},\vec{m'}_{2},\ldots,\vec{m'}_{N}\right\} $
para construir el modelo de clasificación, y por cada muestra a la
salida real del fenómeno $t$ es comparable con la etiqueta a asignar
por muestra $\vec{q}$. El problema de la clasificación se puede enfocar
entonces como la **discretización del problema de ajuste de
curvas**, donde la salida $t$ pasa a tener un número finito de valores
$K$. Por ejemplo, si el objetivo es clasificar en $K=2$ clases el
conjunto de muestras $M'$, $\vec{q}\in\{0,1\}$. Si $K>2$, la codificación
de la etiqueta puede implementarse usando un esquema 1-de-*K* el cual define a

\begin{equation}
\vec{q}=\left[q_{0},q_{1},\ldots,q_{K}\right],
\end{equation}

poniendo en uno el valor $q_{j}$ de la etiqueta $j$ a representar
y en cero los demás como un vector de largo $K$.

Por ejemplo, si la muestra $\vec{m}_{i}$ corresponde a la clase $k=3$
de $K=5$, se tiene que: 

\begin{equation}
\vec{q}=\left[0,0,1,0,0\right],
\end{equation}
 

Para el problema de clasificación en 2 clases, la función lineal discriminante
más sencilla es dada por:

\begin{equation}
y(\vec{m})=\vec{w}'^{T}\vec{m'}+w_{0}
\end{equation}

donde $\vec{w}$ es el vector de pesos, y $w_{0}$ **es el sesgo
o su negativo es también llamado umbral**. Un vector de entrada $\vec{m}$
es asignado a la clase $\mathcal{C}_{1}$ si $y\left(\vec{m'}\right)\geq0$
y a la clase $\mathcal{C}_{2}$ de otro modo. Lo anterior se resume
como:

\begin{equation}
\begin{array}[t]{ccc}
y\left(\vec{m'}\right)\geq0 & \vec{m'}\in\mathcal{C}_{1} & k=0\\
y\left(\vec{m}'\right)<0 & \vec{m'}\in\mathcal{C}_{2} & k=1,
\end{array}
\end{equation}

donde $k$ corresponde a la etiqueta de la clase. Como se puede observar
en la siguiente Figura, el vector de pesos $\vec{w}'$ define la orientación del límite de decisión, y el negativo del sesgo $w_{0}$, la distancia respecto al origen. La superficie de decisión con $D=2$ está definida por $y\left(\vec{m'}\right)=\vec{w}'^{T}\vec{m'}+w_{0}$,
con $\mathbf{\mbox{x}}=\vec{m'}$ a partir de las ecuaciones de proyección
y del hecho de que para los puntos en la superficie de decisión $y(\mathbf{x})=0$

![](https://drive.google.com/uc?export=view&id=1DThUicIRQbntw4XqejcKIhOx3MSRhf3N)


Tomando en cuenta como **los dos puntos** $\vec{m}_{1}$ y $\vec{m}_{2}$
están sobre la superficie de decisión, por lo que entonces

\begin{equation}
y\left(\vec{m'}_{1}\right)=y\left(\vec{m'}_{2}\right)=0\Rightarrow\vec{w}'^{T}\vec{m'_{1}}+w_{0}-\vec{w}'^{T}\vec{m'_{2}}-w_{0}=0
\end{equation}

\begin{equation}
\Rightarrow\vec{w}^{T}\left(\vec{m'_{1}}-\vec{m'_{2}}\right)=0
\end{equation}

lo cual significa que el vector $\vec{w}$ es perpendicular a todos
los vectores paralelos o sobre la superficie de decisión, y además
define la orientación de tal superficie, **como lo muestra el vector verde en la Figura.** 

De forma similar, si $\vec{m'}_{1}$ es un punto sobre la superficie
de decisión, se tiene que:

\begin{equation}
y\left(\vec{m'}_{1}\right)=\vec{w}'^{T}\vec{m'}_{1}+w_{0}=0
\end{equation}

Para **simplificar la notación**, se incluye el sesgo, con un
valor neutro $m_{o}=1$, definiendo entonces $\vec{w}=\left[w_{0},\vec{w}\right]^{T}$
y $\vec{m}=\left(m_{0},\vec{m'}\right)$. Por ello, $\vec{w},\vec{m}\in\mathbb{R}^{D+1}$.
Es necesario entonces aumentar la dimensionalidad de las entradas
a $D+1$ para utilizar esta notación. Así entonces la expresión simplificada,
la ecuación se escribe como sigue:

\begin{equation}
y\left(\vec{m}\right)=\vec{w}^{T}\vec{m}
\end{equation}

### Mínimos cuadrados para la clasificación en dos clases

Anteriormente se analizó el enfoque de mínimos cuadrados para el ajuste
de curvas, el cual proponía una solución analítica cerrada a partir
de la derivada de la función de error. Para el problema de clasificación
en dos clases, la minimización del error cuadrático se hace respecto
a los $N$ pares ordenados de entrenamiento $\mathcal{D}=\{M,T\}$,
con $M=\{\vec{m}_{1},\ldots,\vec{m}_{N}\}$ y $T=\{t_{1},\ldots,t_{N}\}$,
pues recordemos que $t_{j}\in\{0,1\}$ en el caso de la clasificación
por dos clases $K=2$.


Generalizando para la matriz de muestras $M\in\mathbb{R}^{N\times\left(D+1\right)}$
y $\vec{w}\in\mathbb{R}^{\left(D+1\right)\times1}$, donde los valores
de cada muestra $\vec{m}_{j}$ se representan en la fila $j$ de tal
matriz a la ecuación en la sección anterior, se obtiene:

\begin{equation}
y\left(M\right)=M\,\vec{w}.
\end{equation}

\begin{equation}
\Rightarrow y\left(M\right)=\begin{bmatrix}- & \vec{m}_{1} & -\\
\vdots & \vdots & \vdots\\
- & \vec{m}_{N} & -
\end{bmatrix}\begin{bmatrix}w_{0}\\
\vdots\\
w_{D}
\end{bmatrix}.
\end{equation}

Así, respecto a la matriz con todos los valores conocidos de pertenencia
de clase $\vec{t}=\begin{bmatrix}t_{1} & \ldots & t_{N}\end{bmatrix}^{T}$,
con $t_{j}\in\{0,1\}$, el error cuadrático en forma matricial se
expresa como sigue:

\begin{equation}
E\left(\vec{w}\right)=\frac{1}{2}\left\Vert M\,\vec{w}-\vec{t}\right\Vert ^{2}=\frac{1}{2}\left\{ \left(M\,\vec{w}-\vec{t}\right)^{T}\left(M\,\vec{w}-\vec{t}\right)\right\} 
\end{equation}

La función gradiente respecto al vector de pesos $\vec{w}$ de esta
función de error igualada a cero, viene dada por (según
lo demostrado para el caso de la regresión):

\begin{equation}
\frac{\partial E(\vec{w})}{\partial\vec{w}}=M^{T}M\,\vec{w}-M^{T}\vec{t}=0
\end{equation}

y despejando $\vec{w}$ para obtener el vector de pesos que logra el error mínimo:

\begin{equation}
\vec{w}=\left(M^{T}M\right)^{-1}M^{T}\vec{t}
\end{equation}

donde, si no existe la inversa de $\left(M^{T}M\right)^{-1}$,
los tres factores se reemplazan por la pseudo inversa $\left(M^{T}M\right)^{-1}M^{T}=M^{+}$.
Así, la clasificación de una nueva muestra $\vec{h}\in\mathbb{R}^{D+1}$
viene dada por:

\begin{equation}
y\left(\vec{h}\right)=\vec{h}\:\left(\left(M^{T}M\right)^{-1}M^{T}\vec{t}\right).
\end{equation}


Para simplificar la clasificación en dos clases, la superficie de
decisión queda definida por $y\left(\vec{m}\right)=w_{0}$, por lo
que si $y\left(\vec{m}\right)\geq w_{0}$, $\vec{m}\in\mathcal{C}_{1}$,
de lo contrario $\vec{m}\in\mathcal{C}_{2}$.


Para el caso específico de la clasificación en un espacio $\mathbb{R}^{2}$,
($D=2$) , se tiene que cada muestra está dada por $\vec{m}=\begin{bmatrix}m_{0}=1 & m_{1} & m_{2}\end{bmatrix}^{T}$
y el modelo está compuesto por los pesos $\vec{w}=\begin{bmatrix}w_{0} & w_{1} & w_{2}\end{bmatrix}^{T}$,
por lo que entonces el modelo está dado por: 

\begin{equation}
y\left(\vec{m}\right)=w_{0}+w_{1}m_{1}+w_{2}m_{2}
\end{equation}

lo cual es un plano en $\mathbb{R}^{2}$, para lo cual es necesario
graficar la curva de nivel, para lo cual se toma el valor en $y\left(\vec{m}\right)=0$,
con lo que:

\begin{equation}
-w_{0}=w_{1}m_{1}+w_{2}m_{2}
\end{equation}

y para la graficación de la curva, es necesario entonces despejar
alguna de las variables: 
\begin{equation}
\frac{-w_{0}-w_{1}m_{1}}{w_{2}}=m_{2}
\end{equation}

La clasificación por mínimos cuadrados presenta una **importante
debilidad**: al castigar la distancia euclidiana de las muestras respecto
al modelo, la exactitud de tal modelo es perjudicada cuando se presentan
sesgos en las muestras, es decir, muestras muy desviadas del comportamiento
usual de la clase. Incluso si estos sesgos son *muy correctos*
(muestras muy alejadas de los montículos principales), el modelo es
afectado, como se observa en la Figura.

![](https://drive.google.com/uc?export=view&id=13I0hNftkuYkFs0r95L-eoq53TeF4P6IJ)

Ej: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression

### Recordemos la fórmula de mínimos cuadrados
El problema de los mínimos cuadrados se define para dada la matriz $A\in\mathbb{R}^{m\times n}$ y el vector $\vec{b}\in\mathbb{R}^{m\times1},$
encontrar el vector $\vec{x}\in\mathbb{R}^{n\times1}$ más cercano al **espacio de columnas** de la matriz $A$, el cual recordamos es denotado como $\mathcal{C}\left(A\right)$ y corresponde al espacio generado por las columnas de la matriz $A$, combinadas linealmente por los componentes $x_{i}$ del vector $\vec{x}$: 

\begin{equation}
\mathcal{C}\left(A\right)=\left\{ \vec{v}\in\mathbb{R}^{m}:\vec{v}=A\,\vec{x},\;\vec{x}\in\mathbb{R}^{n},\:A\in\mathbb{R}^{m\times n}\right\} 
\end{equation}

Asumiendo que $A$ es de rango completo y que $n<m$ se tiene que la proyección del vector $\vec{b}\in\mathbb{R}^{m\times1}$ **al cuadrado para simplificar su minimización** en el espacio de columnas
de la matriz $A$ está dado por: 

\begin{equation}
\textrm{proy}\left(\vec{b};A\right)=\textrm{argmin}_{\vec{v}\in\mathcal{C}\left(A\right)}\left\Vert \vec{v}-\vec{b}\right\Vert _{2}^{2}=\textrm{argmin}_{\vec{x}}\left(A\:\vec{x}-\vec{b}\right)\cdotp\left(A\:\vec{x}-\vec{b}\right)
\end{equation}

Entonces se calculará **el gradiente de tal producto y se igualará a cero**, para encontrar su punto mínimo y despejando.  

\begin{equation}
\Rightarrow\vec{x}=A^{+}\,\vec{b}
\end{equation}


### Datos utilizados en el ejemplo
Los datos se extrajeron de imágenes que se tomaron de especímenes 
similares a billetes genuinos y falsificados. La herramienta
Wavelet Transform se utilizó para extraer características de las imágenes. Más información en https://archive.ics.uci.edu/ml/datasets/banknote+authentication

In [1]:
import numpy as np
from sklearn import linear_model
from numpy import genfromtxt


my_data = genfromtxt('../../Data/data_banknote_authentication.csv', delimiter=';',filling_values=0.0,skip_header=1)
X = my_data[:,0:-1]
cantidad_muestras = len(my_data)
y = my_data[:,-1]
print("X: ", len(X))
print(X[0:4])
print("y: ", len(y))
print(y[0:4])


X:  1372
[[ 3.6216   8.6661  -2.8073  -0.44699]
 [ 4.5459   8.1674  -2.4586  -1.4621 ]
 [ 3.866   -2.6383   1.9242   0.10645]
 [ 3.4566   9.5228  -4.0112  -3.5944 ]]
y:  1372
[0. 0. 0. 0.]


In [2]:
from sklearn.preprocessing import RobustScaler
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html#sklearn.preprocessing.RobustScaler

transformer = RobustScaler().fit(X)
print( RobustScaler() )
X = transformer.transform(X)
bias = np.ones((cantidad_muestras,1))
X = np.append(bias,X, axis=1)

print("X: ", len(X))
print(X[0:4])
print("y: ", len(y))
print(y[0:4])

RobustScaler()
X:  1372
[[ 1.          0.68025618  0.74464159 -0.72018678  0.04973186]
 [ 1.          0.88143259  0.68612813 -0.64684149 -0.31174108]
 [ 1.          0.7334505  -0.58172613  0.27503326  0.24680763]
 [ 1.          0.64434348  0.84515991 -0.97341417 -1.07103687]]
y:  1372
[0. 0. 0. 0.]


In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)   
print("Train: ", len(X_train))
print("Test: ", len(X_test))



Train:  960
Test:  412


In [4]:
print("\n")
print( "OLSR")
reg = linear_model.LinearRegression(normalize=False).fit(X_train, y_train)
print("Atributos X: ", X.size)
print( "Score: ", reg.score(X, y) )
print( "Coeficientes: ", reg.coef_ )
print( "Intersección: ", reg.intercept_ )
print("Predicción")
result = reg.predict(X_test)
print(result[0:10])



OLSR
Atributos X:  6860
Score:  0.8646952440209418
Coeficientes:  [ 0.         -0.64967539 -0.66692304 -0.47970371 -0.0097394 ]
Intersección:  0.4775155514191671
Predicción
[ 0.09768026  0.51292752  0.44837712 -0.1923766   0.04452557  0.09503343
  0.05940325 -0.05336919  0.044103   -0.03861586]




In [5]:
from sklearn.metrics import accuracy_score
# https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score

result_new = []
print( result[0:5])
print( y_test[0:5])
for x in result:
    if x >= 0:
        result_new.append( 1 )
    else:
        result_new.append( 0 )
print(result_new[0:10])
print(accuracy_score(result_new, y_test))

[ 0.09768026  0.51292752  0.44837712 -0.1923766   0.04452557]
[0. 0. 0. 0. 0.]
[1, 1, 1, 0, 1, 1, 1, 0, 1, 0]
0.6747572815533981
