Reconocimiento de texto usando SVM --- 3:59 min
===

* 3:59 min | Ultima modificación: Abril 14, 2021 | [YouTube](https://youtu.be/dv0QoSHfoXk)

En esta lección se realiza el reconocimiento de letras mayúsculas a partir de las características de cada letra.

## Definición del problema

En los problemas de OCR (optical character recognition), el reconocimiento se realizar mediante la división del documento en una malla tal que cada caracter es aislado en una celda. El problema real consiste en identificar el caracter aislado. La dificultad radica que un mismo caracter puede variar en tamaño, forma de escritura, grosor y orientación; véase la figura de abajo. Se desea construir una herramienta que permita el reconocimiento automático de caracteres.  

Se tiene una base de 20.000 ejemplos de 16 atributos, la cual fue construida con las 26 letras mayúsculas del alfabeto ingles, impresas en blanco y negro distorsionadas y escaladas. Los atributos son los siguientes:

1.  lettr --- capital letter --- (26 values from A to Z) 
2.  x-box --- horizontal position of box --- (integer) 
3.  y-box --- vertical position of box --- (integer) 
4.  width --- width of box --- (integer) 
5.  high  --- height of box --- (integer) 
6.  onpix --- total # on pixels --- (integer) 
7.  x-bar --- mean x of on pixels in box --- (integer) 
8.  y-bar --- mean y of on pixels in box --- (integer) 
9.  x2bar --- mean x variance --- (integer) 
10. y2bar --- mean y variance --- (integer) 
11. xybar --- mean x y correlation --- (integer) 
12. x2ybr --- mean of x * x * y --- (integer) 
13. xy2br --- mean of x * y * y --- (integer) 
14. x-ege --- mean edge count left to right --- (integer) 
15. xegvy --- correlation of x-ege with y --- (integer) 
16. y-ege --- mean edge count bottom to top --- (integer) 
17. yegvx --- correlation of y-ege with x --- (integer)


## Solución

In [1]:
import pandas as pd

df = pd.read_csv(
    "https://raw.githubusercontent.com/jdvelasq/datalabs/master/datasets/letterdata.csv"
)

df.head()

Unnamed: 0,letter,xbox,ybox,width,height,onpix,xbar,ybar,x2bar,y2bar,xybar,x2ybar,xy2bar,xedge,xedgey,yedge,yedgex
0,T,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8
1,I,5,12,3,7,2,10,5,5,4,13,3,9,2,8,4,10
2,D,4,11,6,8,6,10,6,2,6,10,3,7,3,7,3,9
3,N,7,11,6,6,3,5,9,4,6,4,4,10,6,10,2,8
4,G,2,1,3,1,1,8,6,6,6,6,5,9,1,7,5,10


In [2]:
#
# Tamaño del dataframe
#
df.shape

(20000, 17)

## Entrenamiento del modelo

In [3]:
df.index

RangeIndex(start=0, stop=20000, step=1)

In [4]:
df_train = df[0:16000]
df_test = df[16000:]

In [5]:
from sklearn.svm import SVC

clf = SVC(kernel="linear")

In [6]:
clf.fit(df_train[df.columns[1:]], df_train["letter"].ravel())

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='linear',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

## Pronóstico

In [7]:
y_test = clf.predict(df_test[df.columns[1:]])

y_test[0:10]

array(['U', 'N', 'V', 'I', 'N', 'H', 'E', 'Y', 'G', 'E'], dtype=object)

## Evaluación

In [8]:
from sklearn import metrics

metrics.confusion_matrix(y_test, df_test["letter"].ravel())

array([[144,   0,   0,   0,   0,   1,   0,   0,   0,   1,   0,   0,   0,
          1,   2,   0,   5,   0,   1,   1,   1,   0,   1,   0,   0,   0],
       [  0, 121,   0,   5,   2,   0,   2,   2,   0,   0,   1,   1,   2,
          0,   0,   2,   2,   5,   3,   0,   0,   2,   0,   1,   0,   0],
       [  0,   0, 121,   0,   5,   1,  11,   1,   1,   0,   1,   3,   0,
          0,   3,   0,   1,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  1,   2,   0, 156,   0,   0,   2,   9,   4,   3,   4,   2,   0,
          6,   5,   3,   1,   3,   0,   0,   0,   0,   0,   2,   3,   0],
       [  0,   0,   5,   0, 126,   2,   1,   0,   0,   0,   3,   5,   0,
          0,   0,   0,   2,   0,   9,   1,   0,   0,   0,   1,   0,   3],
       [  0,   0,   0,   0,   0, 137,   2,   3,   6,   0,   0,   0,   0,
          0,   0,  16,   0,   0,   5,   2,   0,   2,   0,   2,   2,   0],
       [  1,   1,   2,   1,   9,   1, 123,   3,   0,   0,   0,   2,   1,
          0,   1,   2,   8,   1,   4,   2,   

**Ejercicio.---** Use el kernel rbf y compare la precisión de los dos modelos.

**Ejercicio.---** Repita el proceso usando crossvalidation.