# Reconocimiento de Dígitos Manuscritos
## Algoritmos de Clasificación
Aplicación de OCR (Optical Character Recognition)

Conjunto de Datos: incluido en scikit-learn
Fuente: UCI ML hand-written digits datasets

<img src="../images/digits_classification.png" align="middle" style="width:550px;height:360px;"/>

# Importar las librerías

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn import metrics

# Importar los datos

In [None]:
digits = datasets.load_digits()

# Explorar y visualizar los datos

In [None]:
dir(digits)

In [None]:
#digits.DESCR

## Imágenes

In [None]:
digits.images.shape

In [None]:
type(digits.images)

In [None]:
digits.images[0]

## Datos Preparados

In [None]:
digits.data.shape

In [None]:
digits.data[0]

## Valores Objetivo Etiquetados

In [None]:
digits.target.shape

In [None]:
digits.target

## Nombres Valores Objetivo

In [None]:
digits.target_names

# Dividir los datos para Entrenar y Evaluar el Modelo de Aprendizaje

In [None]:
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, 
                                                    random_state=2)
print(X_train.shape, X_test.shape)
print(y_train.shape, y_test.shape)

## Crear el Modelo de Clasificación

### Decision Tree

In [None]:
#number_clas = DecisionTreeClassifier(max_leaf_nodes=10, random_state=0)

### Logistic Regression
A pesar del nombre es un modelo de clasificación

In [None]:
number_clas = LogisticRegression()

# Fase de Entrenamiento
El algoritmo de aprendizaje usa los datos de entrenamiento para ajustar los parámetros del modelo.

**model.fit(X_train, y_train)**


In [None]:
number_clas.fit(X_train, y_train)

In [None]:
type(number_clas)

# Fase de Evaluación
El modelo se aplica sobre los datos de evaluación para validar su funcionamiento

**model.predict(X_test)**

In [None]:
y_pred = number_clas.predict(X_test)

In [None]:
y_pred[:10]

In [None]:
y_test[:10]

# Evaluar el Modelo


## Calcular la precisión del modelo
Se comparan los valores de test con los valores de la predicción.

**accuracy_score(y_test, y_pred)**

In [None]:
metrics.accuracy_score(y_test, y_pred)

In [None]:
correct_pred = np.sum(y_test == y_pred)
total_pred = len(y_test)
print("{0} / {1} predicciones correctas".format(correct_pred, total_pred))

## Utilizar la matriz de confusión

In [None]:
print(metrics.confusion_matrix(y_test, y_pred))

In [None]:
plt.imshow(metrics.confusion_matrix(y_test, y_pred),
          cmap='Blues', interpolation='nearest')
plt.grid(False)
plt.ylabel('y_test')
plt.xlabel('y_predicted')

## Visualizar los datos y las predicciones

In [None]:
fig, axes = plt.subplots(10, 10, figsize=(8,8))
fig.subplots_adjust(hspace=0.1, wspace=0.1)

for i, ax in enumerate(axes.flat):
    ax.imshow(X_test[i].reshape(8, 8), cmap='binary')
    ax.text(0.05, 0.05, str(y_pred[i]),
            transform=ax.transAxes,
            color='green' if (y_test[i] == y_pred[i]) else 'red')
    ax.set_xticks([])
    ax.set_yticks([])