# **Reconocimiento de Patrones - Proyecto final**
# Reconocimiento de letras del alfabeto inglés
# Ing. Daniel Kohkemper

________________________________________________________________________________________________

## 1. Introducción

El archivo de datos de este proyecto fue creado en 1991 por David Slate [1]. El mismo consiste en un conjunto de valores estadísticos obtenidos de imágenes rectangulares en blanco y negro de las 26 letras del alfabeto inglés y cada imagen fue levemente distorsionada. Los datos no presentan valores faltantes y vienen en formato numérico (no existen valores categóricos), lo cual facilita mucho el preprocesamiento de los mismos. 

Existen 20.000 muestras del alfabeto inglés, lo cual da un promedio de 769 muestras por letra. Se utilizaron 20 tipos de fuente diferentes, con 5 tipos diferentes de trazo y 6 tipos diferentes de letras, generados de manera aleatoria siguiendo una distribución uniforme.

En 1991, este problema se consideraba uno difícil, debido a ''la amplia diversidad de fuentes y la naturaleza primitiva de los datos''. En el trabajo de Slate [2] se encuentra el proceso de obtención de los datos de manera más detallada, el cual en la actualidad se puede describir como un trabajo de la rama del Procesamiento de Imágenes. Un ejemplo de las letras utilizadas se puede observar en la siguiente figura:

![Título](fig/letras_ex.png)

Para cada imagen, se obtuvieron diferentes métricas y estadísticas, las cuales fueron normalizadas en un rango de 0 a 15 descritas a continuación. 

1.	lettr	Letra mayúscula	(26 valores de A a Z) 
2.	x-box	posición horizontal de la imagen
3.	y-box	posición vertical de la imagen
4.	width	ancho de la imagen en pixeles
5.	high    alto de la imagen en pixeles
6.	onpix	# total de pixeles en el caracter
7.	x-bar	media horizontal (x) de pixeles encendidos
8.	y-bar	media vertical (y) de pixeles encendidos
9.	x2bar	media cuadrática horizontal de 7.
10.	y2bar	media cuadrática vertical de 8.
11.	xybar	media de correlación x y
12.	x2ybr	media de x * x * y 
13.	xy2br	media de x * y * y
14.	x-ege	valor medio de bordes de izq a der
15.	xegvy	correlación de bordes en x con y	
16.	y-ege	valor medio de bordes de abajo hacia arriba
17.	yegvx	correlación de bordes en y con x

El conjunto de datos fue utilizado en un estudio realizado por D. Slate, que utiliza un sistema de clasificación adaptativa basado en aquel de J.H. Holland, el cual consiste en la creación de una lista de reglas condición-acción (clasificadores) que son aplicadas en paralelo a un conjunto de mensajes (entradas).

El sistema consiste en los siguientes pasos:

1. Un algoritmo de desempeño que compara las reglas con los mensajes para determinar cuáles reglas deben ser activadas.
2. Un algoritmo de reforzamiento que modifica el puntaje o fuerza de cada regla.
3. Un algoritmo que crea reglas que generaliza ejemplares o combina reglas para crear nuevas.

El aprendizaje del sistema se realizó mediante la separación del set de datos de 20.000 en 16.000 datos de entrenamiento y 4.000 de prueba, lo que representa un porcentaje de 80%-20%. El programa se corrió 5 veces con el set de entrenamiento (se presupone una cross-validación) en lo que se crearon nuevas reglas, se descartaron las insatisfactorias y se modificaron las estadísticas respectivamente de cada regla. De esta manera se logró expandir el conjunto de pruebas a 80.000. La sexta pasada se realizó sin generar nuevas reglas, y aquellas que no lograron cumplir los niveles de desempeño pre-establecidos fueron descartadas. Finalmente, se estimuló el sistema con el set de prueba para determinar el nivel global de desempeño del sistema, en el cual no se generaron ni modificaron reglas, sino que se obtuvieron las métricas de desempeño finales.

El sistema de clasificación se describe a continuación:

1. Comparar el vector de atributos de un ítem de prueba (muestra) con los atributos especificados para cada clasificador en la regla actual.
2. Seleccionar un set que se ajuste [M] que consiste en todos los clasificadores cuyas condiciones son satisfechas por el vector de atributos de la muestra.
3. Calcular un puntaje (o apuesta) para cada clasificador del set M. Asignar la categoría asociada con el puntaje máximo como salida del sistema.
4. Si se está en fase de aprendizaje, modificar las estadísticas de desempeño de uno o más clasificadores como es especificado por el sistema de puntajes.
5. Si se está en la fase de aprendizaje, descartar las reglas débiles y crear nuevas reglas de acuerdo al algoritmo de creación de reglas.
6. Seleccionar el siguiente ítem de prueba (muestra) y repetir el proceso.

De manera resumida, el sistema de codificación de atributos utiliza tres métodos distintos: binario (BIN), codificación Gray (GRA) y entero (INT). El sistema de creación de reglas se realiza por medio de varios métodos: aleatorio (RAN), híbrido (HYB), 
mutación (MUT), combinación de dos reglas (CROSS) y generalización basada en ejemplos (EXM). Una explicación más detallada de estos procedimientos además del sistema de puntaje puede revisarse en [2].

La investigación reporta un porcentaje de correcta clasificación de muestras de la siguiente manera:

1. Binario:   43,2% - 54,7%
2. Gray Code: 45,9& - 59,3%
3. Entero:    70,4% - 80,0%

### Aprendizaje de máquina basado en reglas

Esta rama abarca cualquier método que identifica, aprende o evoluciona un conjunto de reglas. El conocimiento completo del sistema se basa en las relaciones que se puedan hacer entre los datos de entrada con sus salidas por medio del conjunto de reglas. Estos sistemas dependen de conocimiento contextual de la semántica de los datos, por lo que su uso no es universal y aplica dentro del propio significa de los datos. Típicamente, las reglas se generan en la forma IF ... THEN, es decir, condición y resultado.

Estos sistemas tienen alguna semejanza con los árboles de decisión, así como también poseen varias diferencias. En los sistemas basados en reglas, se puede hacer un enfoque top-down o bottom-up con el que se puede llegar a una clasificación de lo general a lo particular o viceversa. Los árboles de búsqueda siguen más bien una direción top-down. Por otro lado, en un sistema de reglas, estas son generadas por un humano, mientras que en un árbol se generan a partir de las propiedades estadísticas y la distribución de los datos. Usualmente se decide usar la última cuando el sistema es muy complejo de entender para poder crear las reglas de manera manual, las cuales dependen de la habilidad del diseñador de poder describir enteramente el problema.

### Conclusiones preliminares sobre el estudio

Se observa que este estudio tiene casi 30 años de haberse realizado, lapso en el cual las metodologías y tecnologías de reconocimiento de patrones y aprendizaje supervisado han avanzado bastante. El método de clasificación por reglas es poco utilizado actualmente, con lo que sería un buen caso de estudio probar el set de datos con métodos más utilizados recientemente, e incluso por medio de redes neuronales.


## Preprocesamiento

Aunque se indicó anteriormente que el set de datos es bastante íntegro y no posee valores faltantes, se utiliza el código para eliminar datos faltantes. Se cargan además las bibliotecas básicas y se asignan los nombres de los atributos del set de datos así como la variable de salida.

In [1]:
# Import necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Se apagan los warnings para evitar las alertas de posibles cambios de versión en Python3
import warnings
warnings.filterwarnings('ignore', category=UserWarning, append=True)

# URL address of data set
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/letter-recognition.data"

# Define header of dataset, obtain this information from dataset information
header = ['letter', 'x_box', 'y_box', 'width','high','onpix','x_bar','y_bar','x2bar','y2bar','xybar','x2ybr','xy2br','x_ege','xegvy','y_ege', 'yegvx']

# load dataset as csv file
df = pd.read_csv("data/letter_recognition.data",header=None,names=header)

# if dataset has '?' in it, convert these into NaN
df = df.replace('?', np.nan)
# drop the NaN
df = df.dropna(axis=0, how="any")

# Print some values of the data set
df.head(10)


Unnamed: 0,letter,x_box,y_box,width,high,onpix,x_bar,y_bar,x2bar,y2bar,xybar,x2ybr,xy2br,x_ege,xegvy,y_ege,yegvx
0,T,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8
1,I,5,12,3,7,2,10,5,5,4,13,3,9,2,8,4,10
2,D,4,11,6,8,6,10,6,2,6,10,3,7,3,7,3,9
3,N,7,11,6,6,3,5,9,4,6,4,4,10,6,10,2,8
4,G,2,1,3,1,1,8,6,6,6,6,5,9,1,7,5,10
5,S,4,11,5,8,3,8,8,6,9,5,6,6,0,8,9,7
6,B,4,2,5,4,4,8,7,6,6,7,6,6,2,8,7,10
7,A,1,1,3,2,1,8,2,2,2,8,2,8,1,6,2,7
8,J,2,2,4,4,2,10,6,2,6,12,4,8,1,6,1,7
9,M,11,15,13,9,7,13,2,6,2,12,1,9,8,1,1,8


Para facilitar el manejo y graficación de los datos, se reducirá el set de datos temporalmente a las 5 vocales del alfabeto.

In [2]:
df = df[(df.letter == 'A') | (df.letter == 'E') | (df.letter == 'I') | (df.letter == 'O') | (df.letter == 'U')]
df.head(10)

Unnamed: 0,letter,x_box,y_box,width,high,onpix,x_bar,y_bar,x2bar,y2bar,xybar,x2ybr,xy2br,x_ege,xegvy,y_ege,yegvx
1,I,5,12,3,7,2,10,5,5,4,13,3,9,2,8,4,10
7,A,1,1,3,2,1,8,2,2,2,8,2,8,1,6,2,7
11,O,6,13,4,7,4,6,7,6,3,10,7,9,5,9,5,8
16,O,3,4,4,3,2,8,7,7,5,7,6,8,2,8,3,8
23,O,6,11,7,8,5,7,6,9,6,7,5,9,4,8,5,5
36,O,4,7,5,5,3,7,7,8,6,7,6,8,3,8,3,8
39,E,3,4,3,6,2,3,8,6,10,7,6,15,0,8,7,8
41,E,3,7,4,5,4,7,7,5,8,8,8,9,3,9,6,9
62,E,6,9,4,4,2,7,7,4,7,10,6,10,1,9,7,9
67,E,2,3,3,2,2,7,7,5,7,7,6,8,2,8,5,10


In [40]:
from sklearn import preprocessing

# Make a list of features only
features = ['x_box', 'y_box', 'width','high','onpix','x_bar','y_bar','x2bar','y2bar','xybar','x2ybr','xy2br','x_ege','xegvy','y_ege', 'yegvx']

# Separate features from class(es)
input_features = df.loc[:,features].values
output_class   = df.loc[:,['letter']].values
# Squeeze output into one single column
output_class = output_class.ravel()

le = preprocessing.LabelEncoder()
output_class[:] = le.fit_transform(output_class[:])

output_class

from sklearn.model_selection import train_test_split

# Separate data intro training and test sets
x_train, x_test, y_train, y_test = train_test_split(input_features, output_class, test_size=0.20, random_state=50)

output_class


array([2, 0, 3, ..., 3, 1, 0], dtype=object)

## Análisis explotorio de datos

Antes de proceder con el aprendizaje automático, se realiza un análisis exploratorio de los datos por medio de gráficas y aprendizaje no supervisado para poder tener más información y sentido del set de datos.

In [None]:
%matplotlib inline
plt.style.use('ggplot')
pd.DataFrame.hist(df, figsize = [20,20]);

## Aprendizaje con Tensorflow

In [48]:
# Import Numpy, TensorFlow, TFLearn, and MNIST data
import numpy as np
import tensorflow as tf
import tflearn

In [49]:
input_features

array([[ 5, 12,  3, ...,  8,  4, 10],
       [ 1,  1,  3, ...,  6,  2,  7],
       [ 6, 13,  4, ...,  9,  5,  8],
       ...,
       [ 4,  3,  5, ...,  8,  4,  8],
       [ 4,  9,  5, ...,  8,  5,  5],
       [ 4,  9,  6, ...,  7,  2,  8]], dtype=int64)

In [50]:
output_class

array([2, 0, 3, ..., 3, 1, 0], dtype=object)

In [51]:
from sklearn.model_selection import train_test_split

# Separate data intro training and test sets
x_train, x_test, y_train, y_test = train_test_split(input_features, output_class, test_size=0.20, random_state=50)


In [52]:
tf.reset_default_graph()

# Build neural network
net = tflearn.input_data(shape=[None, 16])
net = tflearn.fully_connected(net, 32)
net = tflearn.fully_connected(net, 32)
net = tflearn.fully_connected(net, 5, activation='softmax')
net = tflearn.regression(net, optimizer='sgd', learning_rate=0.1, loss='categorical_crossentropy')
# Define model
model = tflearn.DNN(net)

In [53]:
# Training
model.fit(x_train, y_train, validation_set=0.1, show_metric=True, batch_size=10, n_epoch=2)

---------------------------------
Run id: X5ITMT
Log directory: /tmp/tflearn_logs/
INFO:tensorflow:Summary name Accuracy/ (raw) is illegal; using Accuracy/__raw_ instead.
---------------------------------
Training samples: 2791
Validation samples: 311
--


ValueError: Cannot feed value of shape (10,) for Tensor 'TargetsData/Y:0', which has shape '(?, 5)'

In [42]:
import numpy as np
import tflearn

# Download the Titanic dataset
from tflearn.datasets import titanic
titanic.download_dataset('titanic_dataset.csv')

# Load CSV file, indicate that the first column represents labels
from tflearn.data_utils import load_csv
data, labels = load_csv('titanic_dataset.csv', target_column=0,
                        categorical_labels=True, n_classes=2)

In [43]:
# Preprocessing function
def preprocess(data, columns_to_ignore):
    # Sort by descending id and delete columns
    for id in sorted(columns_to_ignore, reverse=True):
        [r.pop(id) for r in data]
    for i in range(len(data)):
      # Converting 'sex' field to float (id is 1 after removing labels column)
      data[i][1] = 1. if data[i][1] == 'female' else 0.
    return np.array(data, dtype=np.float32)

# Ignore 'name' and 'ticket' columns (id 1 & 6 of data array)
to_ignore=[1, 6]

# Preprocess data
data = preprocess(data, to_ignore)

In [44]:
data

array([[  1.    ,   1.    ,  29.    ,   0.    ,   0.    , 211.3375],
       [  1.    ,   0.    ,   0.9167,   1.    ,   2.    , 151.55  ],
       [  1.    ,   1.    ,   2.    ,   1.    ,   2.    , 151.55  ],
       ...,
       [  3.    ,   0.    ,  26.5   ,   0.    ,   0.    ,   7.225 ],
       [  3.    ,   0.    ,  27.    ,   0.    ,   0.    ,   7.225 ],
       [  3.    ,   0.    ,  29.    ,   0.    ,   0.    ,   7.875 ]],
      dtype=float32)

In [45]:
labels

array([[0., 1.],
       [0., 1.],
       [1., 0.],
       ...,
       [1., 0.],
       [1., 0.],
       [1., 0.]])

In [28]:
tf.reset_default_graph()

# Build neural network
net = tflearn.input_data(shape=[None, 6])
net = tflearn.fully_connected(net, 32)
net = tflearn.fully_connected(net, 32)
net = tflearn.fully_connected(net, 2, activation='softmax')
net = tflearn.regression(net)

In [30]:
# Define model
model = tflearn.DNN(net)
# Start training (apply gradient descent algorithm)
model.fit(data, labels, n_epoch=1, batch_size=2, show_metric=True)

Training Step: 654  | time: 3.165s
| Adam | epoch: 001 | loss: 0.00000 - acc: 0.0000 -- iter: 1308/1309
Training Step: 655  | time: 3.170s
| Adam | epoch: 001 | loss: 0.00000 - acc: 0.0000 -- iter: 1309/1309
--


## Referencias

[1] [Letter Recognition Data Set](https://archive.ics.uci.edu/ml/datasets/Letter+Recognition)

[2] [Letter Recognition Using Holland-Style Adaptive Classifiers](http://www.cs.uu.nl/docs/vakken/mpr/Frey-Slate.pdf)