# Digit recognizer

<img src="digit-recognizer.png" height="400" width="400">

El objetivo de esta competencia es tomar una imagen de un digito escrito a mano, y determinar cual es el digito.

Los datos para esta competencia fueron tomados del dataset MNIST. El dataset MNIST es un clásico en la comunidad de aprendizaje automático que ha sido extensivamente estudiado. Más detalles sobre el dataset, incluyendo los algoritmos de aprendizaje automático que han sido probados y sus distintos niveles de éxito, pueden encontrarse en http://yann.lecun.com/exdb/mnist/index.html.

## Resolución con red convolucional

#### Instalación de paquetes necesarios

In [1]:
list.of.packages <- c('mxnet')

new.packages <- list.of.packages[!(list.of.packages %in% installed.packages()[,"Package"])]
if(length(new.packages)) install.packages(new.packages, repos = "https://cran.r-project.org")

library(mxnet)

## Carga de datos

In [2]:
train <- read.csv('data/train.csv', header=TRUE)
test <- read.csv('data/test.csv', header=TRUE)
train <- data.matrix(train)
test <- data.matrix(test)

train.x <- train[,-1]
train.y <- train[,1]

Cada imagen se representa como una fila en el dataset de entramiento/prueba. La escala de grises de cada imagen se representa con un entero entre [0, 255].

Para trabajar con redes neuronales es conveniente primero escalar estos valores.

In [3]:
train.x <- t(train.x/255)
test <- t(test/255)

Debemos transponer la matrix de entrada a npixeles x nejemplos, que es el formato de columnas aceptado por MXNet (y la convención de R).

Teniendo en cuenta la clase, el numero de digitos está distribuido bastante uniforme.

In [4]:
table(train.y)

train.y
   0    1    2    3    4    5    6    7    8    9 
4132 4684 4177 4351 4072 3795 4137 4401 4063 4188 

## Configuración de la red

In [5]:
# Entrada
data <- mx.symbol.Variable('data')

# Primera convolucion
conv1 <- mx.symbol.Convolution(data=data, kernel=c(5,5), num_filter=20)
tanh1 <- mx.symbol.Activation(data=conv1, act_type="tanh")
pool1 <- mx.symbol.Pooling(data=tanh1, pool_type="max",
                          kernel=c(2,2), stride=c(2,2))
# Segunda convolucion
conv2 <- mx.symbol.Convolution(data=pool1, kernel=c(5,5), num_filter=50)
tanh2 <- mx.symbol.Activation(data=conv2, act_type="tanh")
pool2 <- mx.symbol.Pooling(data=tanh2, pool_type="max",
                          kernel=c(2,2), stride=c(2,2))

flatten <- mx.symbol.Flatten(data=pool2)
fc1 <- mx.symbol.FullyConnected(data=flatten, num_hidden=500)
tanh3 <- mx.symbol.Activation(data=fc1, act_type="tanh")

fc2 <- mx.symbol.FullyConnected(data=tanh3, num_hidden=10)

lenet <- mx.symbol.SoftmaxOutput(data=fc2)

Luego debemos transformar las matrices a vectores.

In [6]:
train.array <- train.x
dim(train.array) <- c(28, 28, 1, ncol(train.x))
test.array <- test
dim(test.array) <- c(28, 28, 1, ncol(test))

Queremos comparar velocidades de entrenamiento en diferentes dispositivos:

In [7]:
n.gpu <- 1
device.cpu <- mx.cpu()
device.gpu <- lapply(0:(n.gpu-1), function(i) {
  mx.gpu(i)
})

Podemos pasar una lista de dispositivos para solicitar a MXNet que entrene sobre multiples GPU (puedes hacerlo para CPU, pero porque los cómputos internos del CPU ya son multihilos, hay menos ganancia que usar GPU).

Comencemos entrenando en el CPU primero. Corremos una sola iteración porque sino tomará mucho tiempo.

##### Entrenamiento en CPU

In [None]:
mx.set.seed(0)
tic <- proc.time()
model <- mx.model.FeedForward.create(lenet, X=train.array, y=train.y,
                                    ctx=device.cpu, num.round=10, array.batch.size=100,
                                    learning.rate=0.05, momentum=0.9, wd=0.00001,
                                    eval.metric=mx.metric.accuracy,
                                    epoch.end.callback=mx.callback.log.train.metric(100))
print(proc.time() - tic)

##### Entrenamiento en GPU

In [12]:
mx.set.seed(0)
tic <- proc.time()
model <- mx.model.FeedForward.create(lenet, X=train.array, y=train.y,
                                    ctx=device.gpu, num.round=5, array.batch.size=100,
                                    learning.rate=0.05, momentum=0.9, wd=0.00001,
                                    eval.metric=mx.metric.accuracy,
                                      epoch.end.callback=mx.callback.log.train.metric(100))
 print(proc.time() - tic)

Start training with 1 devices


ERROR: Error in mx.nd.internal.empty.array(shape, ctx): [14:53:12] src/storage/storage.cc:78: Compile with USE_CUDA=1 to enable GPU usage


Usando el GPU incrementamos la velocidad de entrenamiento.

## Predicciones y envío

In [None]:
preds <- predict(model, test.array)
pred.label <- max.col(t(preds)) - 1

submission <- data.frame(ImageId=1:ncol(test), Label=pred.label)
write.csv(submission, file='submission.csv', row.names=FALSE, quote=FALSE)

    El puntaje obtenido al enviar las predicciones fue de 

Fuente: http://mxnet.io/tutorials/r/mnistCompetition.html