In [5]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf

# MAC0460/5832 - Lista 3: Redes Neurais - MNIST

### Data de Entrega: 23h55m do dia 23/06/2017

##### Classificação de dígitos
Os dataset para esta tarefa foi tirado da competição do kaggle de reconhecimento de dígitos (https://www.kaggle.com/c/digit-recognizer) e está disponível em http://vision.ime.usp.br/~caiomr/mac0460_5832/train.csv.gz. O dataset está sob a licença Creative Commons Attribution-Share Alike 3.0 license (https://creativecommons.org/licenses/by-sa/3.0/). O dataset foi zipado, mas os dados estão inalterados. Cada linha (amostra) do arquivo contém 785 colunas: a primeira informa o label da amostra e as outras 784 são os valores dos pixels da imagem (28 x 28) que representa o dígito.

Q1. Projete uma rede neural para resolver o problema de classificação de dígitos. Baixe o arquivo train.csv.gz (link acima) e dezipe-o para a pasta data/. Verifique que as células abaixo executam com sucesso e exibem o resultado esperado. Utilize os pacotes de python tensorflow (https://www.tensorflow.org/) ou theano (http://deeplearning.net/software/theano/) para implementar sua rede neural. Escolha o que preferir/tiver mais familiaridade - ou o quiser passar a ter mais familiaridade :) - para definir sua rede neural. Usem a arquitetura 3-layer NN 300+100 hidden units (erro 3.05%), como descrito no site http://yann.lecun.com/exdb/mnist/index.html.


Façam os três seguintes experimentos:

1. Imagem original.
2. Imagem amostrada com passo 1, isto é, reduz a imagem para 1/4 do número total de pixels.
3. Imagem amostrada com passo 2, isto é, reduz a imagem para 1/16 do número total de pixels.


Em cada experimento, execute os seguintes procedimentos:
1. Compute a curva experimental de aprendizado (N = 5000, N = 10000, N = 15000, ... N = 35000), estimar o $E_{out}$ a partir das 7000 amostras não usadas.
2. Para N = 35000 (isto é, separe 7000 amostras para validação), calcule o valor da precisão $\epsilon = E_{out} - E_{in}$.
3. Adote o valor de $\epsilon$ calculado em 2; repita dez vezes o experimento de aprendizado para $N = 35000$ e 7000 amostras de validação (em cada experimento, escolha aleatoriamente entre as 42000 amostras 7000 para formar o conjunto de validação e as restantes para treinamento); calcule o $E_{out}$ para cada um dos experimentos; a partir dos $E_{out}$ calculados, estime o valor do parâmetro $\delta$.
4. Comente os resultados obtidos.

Adote *learning rate* $\eta = 0.001$.
Para o item 3, lembre da equação $P(|E_{out}(h_{opt}) - E_{in}(h_{opt})| < \epsilon) > 1 - \delta$.

In [6]:
data = np.genfromtxt('data/train.csv', delimiter=',', skip_header=1).astype(np.dtype('uint8'))
print(data.shape)

(42000, 785)


In [4]:
sample = data[0]
print("Label: ", sample[0])
plt.imshow(sample[1:].reshape((28,28)), cmap='gray')
plt.show()

sample = data[1]
print("Label: ", sample[0])
plt.imshow(sample[1:].reshape((28,28)), cmap='gray')
plt.show()

sample = data[20]
print("Label: ", sample[0])
plt.imshow(sample[1:].reshape((28,28)), cmap='gray')
plt.show()

Label:  1
Label:  0
Label:  8


In [24]:
input_size = 784
label_size = 10
layer1_size = 300
layer2_size = 100
learning_rate = 0.001
batch_size = 100
training_size = 35000
display = 5000

In [25]:
labels_t = np.zeros((data.shape[0], 10))
labels_t[np.arange(data.shape[0]), data[:, 0].flatten()] = 1

In [27]:
input1 = tf.placeholder(tf.float32, shape=[None, input_size])
label = tf.placeholder(tf.float32, shape=[None, label_size])

def model(input1, input_size, label_size, layer1_size, layer2_size):
    W0 = tf.Variable(tf.truncated_normal([input_size,layer1_size], stddev=0.1))
    b0 = tf.Variable(tf.truncated_normal([layer1_size], stddev=0.1))
    W1 = tf.Variable(tf.truncated_normal([layer1_size, layer2_size], stddev=0.1))
    b1 = tf.Variable(tf.truncated_normal([layer2_size], stddev=0.1))
    W2 = tf.Variable(tf.truncated_normal([layer2_size, label_size], stddev=0.1))
    b2 = tf.Variable(tf.truncated_normal([label_size], stddev=0.1))
    
    layer1 = tf.add(tf.matmul(input1, W0), b0)
    layer1 = tf.nn.relu(layer1)
    layer2 = tf.add(tf.matmul(layer1, W1), b1)
    layer2 = tf.nn.relu(layer2)
    
    output = tf.matmul(layer2, W2) + b2
    return output

apply_model = model(input1, input_size, label_size, layer1_size, layer2_size)
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=apply_model, labels=label))
optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)
correct_prediction = tf.equal(tf.argmax(apply_model, 1), tf.argmax(label, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))


n_batches = training_size//batch_size

init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)

    for i in range(n_batches):
        _, c = sess.run([optimizer, cost], feed_dict={input1: data[i*batch_size:(i + 1)*batch_size, 1:],
                                                          label: labels_t[i*batch_size:(i + 1)*batch_size, :]})
        if (i*batch_size)%display == 0:
            correct_input = sess.run(accuracy, feed_dict={input1: data[:training_size, 1:],
                                                          label: labels_t[:training_size, :]})
            correct_val = sess.run(accuracy, feed_dict={input1: data[training_size:, 1:],
                                                          label: labels_t[training_size:, :]})
            
            print(correct_input, " ", correct_val)

0.136   0.148714
0.833029   0.831286
0.868943   0.867143
0.876857   0.871714
0.909886   0.899143
0.909743   0.898143
0.909714   0.894857


Q2. O método de aprendizado adotado na questão anterior inclui regularização? Caso afirmativo, como? Caso negativo, como formularia a inclusão da regularização e porque esse procedimento melhoraria o resultado?

In [None]:


data[]