# Aprendizaje Automático -Clasificación

---



---



Autor: Saúl Calderón, Juan Esquivel, Luis-Alexander Calvo-Valverde

### El perceptrón

Videos relacionados:
- https://www.youtube.com/watch?v=MRIv2IwFTPg&list=PL-Ogd76BhmcB9OjPucsnc2-piEE96jJDQ&index=1

Sobre el conjunto de datos:
- https://www.kaggle.com/datasets/jacksonharper/data_banknote_authentication

El algoritmo del perceptrón es uno de los algoritmos de clasificación que marcó el desarrollo
del reconocimiento de patrones, sirviendo de fundamento para el área
de aprendizaje automático por redes neuronales. El perceptrón se basa
en la abstracción matemática de una **neurona a nivel biológico**.
Una neurona tiene una serie de entradas $\vec{m}=\begin{bmatrix}m_{0} & \ldots & m_{D}\end{bmatrix}^{T}$
las cuales son combinadas linealmente por un vector de pesos o de
**enlaces sinápticos** $\vec{w}=\begin{bmatrix}w_{0} & \ldots & w_{D}\end{bmatrix}^{T}$
en la **función de red**:

\begin{equation}
\varUpsilon\left(\vec{m}\right)=\sum_{i=0}^{D}m_{i}w_{i}=\vec{w}^{T}\vec{m}.
\end{equation}

Lo cual anteriormente correspondía a la función $y=\varUpsilon$.
Una neurona es excitada según una **función de activación** $f(\varUpsilon)$,
que recibe como entrada el resultado de la función de red $\varUpsilon$,
y puede corresponder por ejemplo a una función de tipo escalón:

\begin{equation}
f\left(\vec{m}\right)=\begin{cases}
+1 & \varUpsilon\left(\vec{m}\right)\geq0\\
-1 & \varUpsilon\left(\vec{m}\right)<0
\end{cases}.
\end{equation}

Para el problema de clasificación en dos clases, las etiquetas de
las clases $\mathcal{C}_{1}$ y $\mathcal{C}_{2}$ corresponderían
a la salida de la función de excitación $t=y(\vec{m})$, por lo que
entonces

\begin{equation}
t\in\{-1,1\}
\end{equation}

, con $t=1$ si $t\in\mathcal{C}_{1}$ y $t=-1$ si $t\in\mathcal{C}_{2}$.
El perceptrón es un algoritmo supervisado de clasificación, en el
que debe estar especificado para el conjunto $M$ de $N$ muestras
de entrenamiento

\begin{equation}
M=\begin{bmatrix}- & \vec{m}_{1} & -\\
\vdots & \vdots & \vdots\\
- & \vec{m}_{N} & -
\end{bmatrix},
\end{equation}

sus etiquetas de pertenencia de clase correspondientes

\begin{equation}
\vec{t}=\begin{bmatrix}t_{1}\\
\vdots\\
t_{N}
\end{bmatrix}.
\end{equation}

 La siguiente figura ilustra el concepto del perceptrón.

 ![](https://drive.google.com/uc?export=view&id=1L6xDQTiKPwXFju8s0SwvhudvxycOGVeK)

Para la determinación de los pesos $\vec{w}$, se utiliza el **criterio
del perceptrón**, el cual establece que una muestra $\vec{m}_{j}$
de dimensionalidad $N$ es correctamente clasificada si cumple que:

\begin{equation}
\varUpsilon\left(\vec{m}_{j}\right)\,t_{j}=\vec{w}^{T}\vec{m}_{j}\,t_{j}>0,
\end{equation}

donde $t_{j}$ es la etiqueta correcta de la muestra (pertenencia
a la clase), previamente conocida. El criterio del perceptrón especifica
que el error total toma en cuenta únicamente las muestras incorrectamente
clasificadas ($\vec{w}^{T}\vec{m}_{j}\,t_{j}\leq0$) las cuales están
contenidas en el conjunto de muestras incorrectamente clasificadas
$\mathcal{U}$, como lo muestra la función de error $E_{P}\left(\vec{w}\right)$:

\begin{equation}
E_{P}\left(\vec{w}\right)=-\sum_{\vec{m}_{j}\in\mathcal{U}}\left(\vec{w}^{T}\vec{m}_{j}\,t_{j}\right).
\end{equation}

De este modo, si todas las muestras son correctamente clasificadas,
entonces $E_{P}\left(\vec{w}\right)=0$.

El algoritmo de entrenamiento usa el criterio del perceptrón para
evaluar el error $E_{P}\left(\vec{w}\right)$ en $P$ iteraciones,
donde por cada iteración $\tau$, se evalúa el error para todas las
muestras $\vec{m}_{j}$ en las clases $C_{1}$ y $C_{2}$, y se modifica
el vector de pesos $\vec{w}$ como sigue:

\begin{equation}
\vec{w}(\tau+1)^{T}=\vec{w}(\tau)^{T}-\alpha\,\nabla E_{P}\left(\vec{w}\right)=\vec{w}(\tau)^{T}+\alpha\begin{cases}
\sum_{\vec{m}_{j}\in\mathcal{U}}\vec{m}_{j}\,t_{j} & \vec{m}_{j}\in\mathcal{U}\\
0 & \vec{m}_{j}\notin\mathcal{U}
\end{cases}.
\end{equation}

El coeficiente $\alpha$ es referido como el **coeficiente de
aprendizaje**, y define la tasa de cambio del vector de pesos $\vec{w}$,
entre las iteraciones $\tau$ y $\tau+1$. **El teorema de la
convergencia** del perceptrón establece que el vector de pesos $\vec{w}$
**converge** después de un número finito de iteraciones,
aún cuando un cambio en tal vector involucre uno o más nuevos errores
en muestras clasificadas correctamente en iteraciones anteriores únicamente
si el conjunto de muestras a clasificar es **linealmente separable**.

El proceso de entrenamiento del perceptrón puede interpretarse en
el espacio vectorial como el corrimiento gradual del hiper-plano $\vec{w}$
según las muestras incorrectamente clasificadas, como se observa en
la Figura.

![](https://drive.google.com/uc?export=view&id=1mMZ7jDNQa8ekPQO_PJ3P3XqNapNXZJ_V)

Con tal interpretación vectorial
es posible apreciar el **impacto del valor inicial del vector
de pesos** $\vec{w}\left(1\right)$ en los valores finales al final
del entrenamiento y la cantidad de iteraciones $P$ necesarias para
lograr la convergencia del algoritmo.

**El algoritmo del perceptrón tiene la ventaja respecto al enfoque
de mínimos cuadrados de ser menos sensible a las muestras muy lejanas,
datos aislados u** ***outliers.***

Ej: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html

#### Ejemplo de ejecución del perceptrón

Tómese un ejemplo con coeficiente de aprendizaje $\alpha=1$ en el
que existen las siguientes muestras para la clase 1:

\begin{equation}
\begin{array}{cc}
\vec{x}_{1}=\begin{bmatrix}1 & 7.0639 & 3.9717\end{bmatrix}^{T} & t_{1}=-1\\
\vec{x}_{2}=\begin{bmatrix}1 & 10.4392 & 4.7711\end{bmatrix}^{T} & t_{2}=-1
\end{array}
\end{equation}

y para la clase 2:
\begin{equation}
\begin{array}{cc}
\vec{x}_{3}=\begin{bmatrix}1 & 6.3433 & 8.7337\end{bmatrix}^{T} & t_{3}=1\\
\vec{x}_{4}=\begin{bmatrix}1 & 1.0321 & 7.1919\end{bmatrix}^{T} & t_{4}=1
\end{array}
\end{equation}

Para la primer iteración, se inicializa el vector de pesos como (usualmente
se inicializa aleatoriamente), incluyendo la concatenación del valor
básico:

\begin{equation}
w\left(1\right)=\begin{bmatrix}1 & 1 & 1\end{bmatrix}^{T}
\end{equation}

Por lo que entonces, para **la iteración** $\tau=2$ se recorren
todas las muestras, primero evaluando la función de red:

- Para la muestra $\vec{x}_{1}$:
\begin{equation}
\gamma\left(\vec{x}_{1}\right)=x_{1,0}w_{0}+x_{1,1}w_{1}+x_{1,2}w_{2}=1+7.0639+3.9717=12.0356
\end{equation}
revisando la condición de preservación de los pesos:
\begin{equation}
\gamma\left(\vec{x}_{1}\right)\,t_{1}>0\Rightarrow ¿12.0356\cdot\left(-1\right)>0?
\end{equation}
verificamos que no se cumple, por lo que se actualizan los pesos haciendo:
\begin{equation}
\vec{w}(\tau+1)^{T}=\vec{w}(\tau)^{T}+\alpha\vec{m}_{j}\,t_{j}
\end{equation}
\begin{equation}
\Rightarrow\vec{w}(\tau+1)^{T}=\begin{bmatrix}1\\
1\\
\text{1}
\end{bmatrix}+1\begin{bmatrix}1\\
7.0639\\
\text{3.9717}
\end{bmatrix}\left(-1\right)=\begin{bmatrix}0\\
-6.0639\\
-2.9717
\end{bmatrix}.
\end{equation}

- Para la muestra $\vec{x}_{2}$:
\begin{equation}
\gamma\left(\vec{x}_{2}\right)=x_{2,0}w_{0}+x_{2,1}w_{1}+x_{2,2}w_{2}=0+\left(-6.0639\right)\left(10.4392\right)+\left(-2.9717\right)\left(4.7711\right)=-77.4805
\end{equation}

y verificando la condición de preservación de los pesos:

\begin{equation}
\gamma\left(\vec{x}_{2}\right)\,t_{2}>0\Rightarrow ¿-77.4805\cdot\left(-1\right)>0?
\end{equation}

se cumple, por lo que el vector de pesos se preserva.

- Para la muestra $\vec{x}_{3}$:
\begin{equation}
\gamma\left(\vec{x}_{3}\right)=x_{3,0}w_{0}+x_{3,1}w_{1}+x_{3,2}w_{2}=0+\left(-6.0639\right)\left(6.3433\right)+\left(-2.9717\right)\left(8.7337\right)=-64.4191
\end{equation}

revisando la condición de preservación de los pesos:

\begin{equation}
\gamma\left(\vec{x}_{3}\right)\,t_{3}>0\Rightarrow ¿-64.4191\cdot\left(1\right)>0 ?
\end{equation}

observamos que no se cumple tal condición, por lo que nos disponemos
a cambiar el arreglo de pesos haciendo:

\begin{equation}
\vec{w}(\tau+1)^{T}=\vec{w}(\tau)^{T}+\alpha\vec{m}_{j}\,t_{j}
\end{equation}

\begin{equation}
\Rightarrow\vec{w}(\tau+1)^{T}=\begin{bmatrix}0\\
-6.0639\\
-2.9717
\end{bmatrix}+1\begin{bmatrix}1\\
6.3433\\
8.7337
\end{bmatrix}\left(1\right)=\begin{bmatrix}1\\
0.2794\\
5.7621
\end{bmatrix}.
\end{equation}

- Para la muestra $\vec{x}_{4}$:
\begin{equation}
\gamma\left(\vec{x}_{4}\right)=x_{4,0}w_{0}+x_{4,1}w_{1}+x_{4,2}w_{2}=1+0.2794\cdot1.0321+5.7621\cdot7.1919=42.7288
\end{equation}

revisando la condición de preservación de los pesos:

\begin{equation}
\gamma\left(\vec{x}_{4}\right)\,t_{4}>0\Rightarrow ¿42.7288\cdot\left(1\right)>0?
\end{equation}

se cumple, por lo que el vector de pesos se preserva. Para esta iteración
acabamos con el arreglo:

\begin{equation}
\Rightarrow\vec{w}(2)^{T}=\begin{bmatrix}1\\
0.2794\\
5.7621
\end{bmatrix}.
\end{equation}


Nos disponemos a realizar **la iteración** $\tau=3$:

- Para la muestra $\vec{x}_{1}$:
\begin{equation}
\gamma\left(\vec{x}_{1}\right)=x_{1,0}w_{0}+x_{1,1}w_{1}+x_{1,2}w_{2}=1+0.2794\cdot7.0639+5.7621\cdot3.9717=25.8589
\end{equation}

revisando la condición de preservación de los pesos:

\begin{equation}
\gamma\left(\vec{x}_{1}\right)\,t_{1}>0\Rightarrow ¿25.8589\left(-1\right)>0?
\end{equation}

verificamos que no se cumple, por lo que se actualizan los pesos haciendo:

\begin{equation}
\vec{w}(\tau+1)^{T}=\vec{w}(\tau)^{T}+\alpha\vec{m}_{j}\,t_{j}
\end{equation}

\begin{equation}
\Rightarrow\vec{w}(\tau+1)^{T}=\begin{bmatrix}1\\
0.2794\\
5.7621
\end{bmatrix}+1\begin{bmatrix}1\\
7.0639\\
3.9717
\end{bmatrix}\left(-1\right)=\begin{bmatrix}0\\
-6.7844\\
1.7904
\end{bmatrix}.
\end{equation}

- Para la muestra $\vec{x}_{2}$:
\begin{equation}
\gamma\left(\vec{x}_{2}\right)=x_{2,0}w_{0}+x_{2,1}w_{1}+x_{2,2}w_{2}=0+-6.7844*10.4392+1.7904*4.7711=-62.2824
\end{equation}

y verificando la condición de preservación de los pesos:

\begin{equation}
\gamma\left(\vec{x}_{2}\right)\,t_{2}>0\Rightarrow ¿-62.2824\left(-1\right)>0?
\end{equation}

se cumple, por lo que el vector de pesos se preserva.

- Para la muestra $\vec{x}_{3}$:

\begin{equation}
\gamma\left(\vec{x}_{3}\right)=x_{3,0}w_{0}+x_{3,1}w_{1}+x_{3,2}w_{2}=0+-6.7844*6.3433+1.7904*8.7337=-27.3991
\end{equation}

revisando la condición de preservación de los pesos:

\begin{equation}
\gamma\left(\vec{x}_{3}\right)\,t_{3}>0\Rightarrow ¿-27.3991\cdot\left(1\right)>0?
\end{equation}

observamos que no se cumple tal condición, por lo que nos disponemos
a cambiar el arreglo de pesos haciendo:

\begin{equation}
\vec{w}(\tau+1)^{T}=\vec{w}(\tau)^{T}+\alpha\vec{m}_{j}\,t_{j}
\end{equation}

\begin{equation}
\Rightarrow\vec{w}(\tau+1)^{T}=\begin{bmatrix}0\\
-6.7844\\
1.7904
\end{bmatrix}+1\begin{bmatrix}1\\
6.3433\\
8.7337
\end{bmatrix}\left(1\right)=\begin{bmatrix}1\\
-0.4412\\
10.5241
\end{bmatrix}.
\end{equation}

- Para la muestra $\vec{x}_{4}$:
\begin{equation}
\gamma\left(\vec{x}_{4}\right)=x_{4,0}w_{0}+x_{4,1}w_{1}+x_{4,2}w_{2}=1+\left(-0.4412\right)\cdot1.0321+\left(10.5241\right)\cdot7.1919=42.7288
\end{equation}

revisando la condición de preservación de los pesos:
\begin{equation}
\gamma\left(\vec{x}_{4}\right)\,t_{4}>0\Rightarrow ¿42.7288\cdot\left(1\right)>0?
\end{equation}

se cumple, por lo que el vector de pesos se preserva. Para esta iteración
acabamos con el arreglo:

\begin{equation}
\Rightarrow\vec{w}(2)^{T}=\begin{bmatrix}1\\
-0.4412\\
10.5241
\end{bmatrix}.
\end{equation}

Notas adicionales:
Ej: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html

Para conocer el caso de más de dos clases al usar el perceptrón, puede ver: https://jermwatt.github.io/machine_learning_refined/notes/7_Linear_multiclass_classification/7_3_Perceptron.html

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
import numpy as np
from sklearn import linear_model
from numpy import genfromtxt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
tPrimeros = 3

# https://archive.ics.uci.edu/ml/datasets/banknote+authentication
my_data = genfromtxt('/content/drive/MyDrive/2024-7-Curso_AA/data_banknote_authentication.csv', delimiter=';',filling_values=0.0,skip_header=1)
X = my_data[:,0:-1]
cantidad_muestras = len(my_data)
print("Cantidad de muestras: ", cantidad_muestras)
y = my_data[:,-1]
print("Prmeros y: ", y[0:tPrimeros])
print("Primeros X: ", X[0:tPrimeros])

# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html?highlight=split#sklearn.model_selection.train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, shuffle=True,
                                                    random_state=10)
print("\nTamaño del train: ", len(X_train))
print("\nTamaño del test: ", len(X_test))

from sklearn.preprocessing import RobustScaler
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html#sklearn.preprocessing.RobustScaler

# Escalar datos
transformer = RobustScaler().fit(X_train)
X_train = transformer.transform( X_train)
X_test = transformer.transform( X_test)
print("Primeros X_train: ", X_train[0:tPrimeros])
print("Primeros X_test: ", X_test[0:tPrimeros])


Cantidad de muestras:  1372
Prmeros y:  [0. 0. 0.]
Primeros X:  [[ 3.6216   8.6661  -2.8073  -0.44699]
 [ 4.5459   8.1674  -2.4586  -1.4621 ]
 [ 3.866   -2.6383   1.9242   0.10645]]

Tamaño del train:  960

Tamaño del test:  412
Primeros X_train:  [[ 0.39388783  0.96778553 -0.84575746 -1.47569339]
 [ 0.80044348 -0.66942539  0.63783557  0.59686803]
 [ 0.46693085 -0.82783859  1.19883225  0.21284117]]
Primeros X_test:  [[ 3.45280306e-01 -1.05922371e+00  1.63504807e+00 -1.37165471e-03]
 [ 2.12718311e-01  1.51453552e-01  5.68535863e-01  3.84946488e-01]
 [ 2.54761408e-01  2.18660558e-01 -1.05489778e+00 -6.35320374e-01]]


In [4]:
from sklearn.linear_model import Perceptron
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html

clf = Perceptron(tol=1e-3, random_state=0)
clf.fit(X_train, y_train)
result = clf.predict(X_test)
print(result[0:tPrimeros])
print(accuracy_score(y_test, result))


[0. 0. 1.]
0.9951456310679612
