# Classificação básica usando TensorFlow


Este é um examplo de como realizar classificação de um simples conjunto de dados (datasets) em TensorFlow. Basicamente, este algoritmo desenvolve um modelo para ajudar aqueles que tem interesse em comprar uma casa. O modelo se baseia-se na área da casa e no número de banheiros como entrada, e como saída temos a predição se é uma compra boa ou não. Com base neste exemplo você poderá alterar o número de features para uso em problemas reais e mais complexos.

| Área (sq ft) (x1) | Banheiro (x2) | Etiqueta (y) |
 | --- | --- | --- |
 | 2,104 |  3 | Good |
 | 1,600 |  3 | Good |
 | 2,400 |  3 | Good |
 | 1,416 | 	2 | Bad |
 | 3,000 | 	4 | Bad |
 | 1,985 | 	4 | Good |
 | 1,534 | 	3 | Bad |
 | 1,427 | 	3 | Good |
 | 1,380 | 	3 | Good |
 | 1,494 | 	3 | Good |
 
 
 
 Vamos iniciar as bibliotecas

In [168]:
%matplotlib inline               
import pandas as pd              # Lib para trabalhar com tabelas
import numpy as np               # Lib para algebra linear
import matplotlib.pyplot as plt  # Lib para gráficos
import tensorflow as tf          # Lib insana que faz uso de redes neurais


Primeiramente vamos carregar os dados do arquivo texto CSV. Pandas e uma lib (biblioteca de funções) que nos traz uma grande flexibilidade para lidar com datos em formatos de tabela. Vamos carregar as tables em estruturas chamadas dataframes, que nos permite processar os dados de forma fácil e tranquila.

In [165]:
dataframe = pd.read_csv("data.csv") # Lendo dados para o dataset
dataframe = dataframe.drop(["index", "price", "sq_price"], axis=1) # Removendo colunas que não vai fazer parte do exemplo.
dataframe = dataframe[0:10] # Vamos usar somente as 10 primeiras linhas do dataset neste exemplo.
dataframe # Verificando o conteúdo do dataset

Unnamed: 0,area,bathrooms
0,2104.0,3.0
1,1600.0,3.0
2,2400.0,3.0
3,1416.0,2.0
4,3000.0,4.0
5,1985.0,4.0
6,1534.0,3.0
7,1427.0,3.0
8,1380.0,3.0
9,1494.0,3.0


Dataframe foi carregado com nossas features. Agora vamos preparar os dados para serem trabalhados, este processo chamamos de labeling. Neste caso vamos criar labels y1 e y2.

In [120]:
dataframe.loc[:, ("y1")] = [1, 1, 1, 0, 0, 1, 0, 1, 1, 1] # Esta lista de casas que gostamos.
                                                          # 1 = Compra Boa, 0 = Compra Ruim
dataframe.loc[:, ("y2")] = dataframe["y1"] == 0           # y2 é a negação de y1
dataframe.loc[:, ("y2")] = dataframe["y2"].astype(int)    # Inverte Verdadeiro/Falso para os valores 1/0
# y2 significa as casas que não gostamos
# (Sim, isto é redundante, mas aprender com isto é o caminho que abre as portas da Classificação Multiclasses)
dataframe # Como nosso dataframe se parece agora. 

Unnamed: 0,area,bathrooms,y1,y2
0,2104.0,3.0,1,0
1,1600.0,3.0,1,0
2,2400.0,3.0,1,0
3,1416.0,2.0,0,1
4,3000.0,4.0,0,1
5,1985.0,4.0,1,0
6,1534.0,3.0,0,1
7,1427.0,3.0,1,0
8,1380.0,3.0,1,0
9,1494.0,3.0,1,0


Agora que temos nosso dataframe pronto para ser trabalhado, we precisamos formatá-lo como matriz para o TensorFlow.

In [126]:
inputX = dataframe.loc[:, ['area', 'bathrooms']].as_matrix()
inputY = dataframe.loc[:, ["y1", "y2"]].as_matrix()

Agora nossa matrix de entrada ficou assim:

In [127]:
inputX

array([[  2.10400000e+03,   3.00000000e+00],
       [  1.60000000e+03,   3.00000000e+00],
       [  2.40000000e+03,   3.00000000e+00],
       [  1.41600000e+03,   2.00000000e+00],
       [  3.00000000e+03,   4.00000000e+00],
       [  1.98500000e+03,   4.00000000e+00],
       [  1.53400000e+03,   3.00000000e+00],
       [  1.42700000e+03,   3.00000000e+00],
       [  1.38000000e+03,   3.00000000e+00],
       [  1.49400000e+03,   3.00000000e+00]])

E a matrix de etiquetas, ficou assim:

In [128]:
inputY

array([[1, 0],
       [1, 0],
       [1, 0],
       [0, 1],
       [0, 1],
       [1, 0],
       [0, 1],
       [1, 0],
       [1, 0],
       [1, 0]])

Agora vamos preparar alguns parametros iniciais para o TensorFlow realizar o processo de treinamento.

In [164]:
# Parameters
learning_rate = 0.000001
training_epochs = 2000
display_step = 50
n_samples = inputY.size

E agora vamos definir as operações do TensorFlow. Observe que as declarações deste passo informam o TensorFlow como a predição será calculada.

In [155]:
x = tf.placeholder(tf.float32, [None, 2])   # Ok Tensorflow , nos vamos agora passar a Matrix de exemplos. Cada exemplo
                                            # será uma matrix de 2 elementos float.
                                            # "None"  significa que você pode preencher com qualquer número de exemplos.
                                            # Porém, observe que não carregamos nenhum valor até o momento.
            
W = tf.Variable(tf.zeros([2, 2]))           # Atribuir matrix 2 x 2 float para carregar os Pesos (W) que nós iremos atualizar.
                                            # através do processo de treinamento. (Todos os pesos (W) iniciariam com zero)
    
b = tf.Variable(tf.zeros([2]))              # Atribuir dois valores para bias

y_values = tf.add(tf.matmul(x, W), b)       # O primeiro passo para calcular a predição será por multiplicação
                                            # das entradas da matrix pelo peso e então adicionar as bias
    
y = tf.nn.softmax(y_values)                 # Então usamos softmax com uma "função de ativação" para traduzir
                                            # os valores de saída da camada anterior em um forma de probabilidade
    
y_ = tf.placeholder(tf.float32, [None,2])   # Para treinamento, atribuimos a matrix para as labels

Vamos atribuir nossa Cost Function and o Gradient Descent

In [156]:

# Cost function: Mean squared error
cost = tf.reduce_sum(tf.pow(y_ - y, 2))/(2*n_samples)
# Gradient descent
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)


In [161]:
# Iniciando Tensorflow sessions
init = tf.initialize_all_variables()
sess = tf.Session()
sess.run(init)

E agora o valor para treinamento

In [162]:
for i in range(training_epochs):  

    # Executando o passo do gradient descent step usando as entradas e as labels
    sess.run(optimizer, feed_dict={x: inputX, y_: inputY}) 

    # Feito! O resto da celula é somente para informações de debug 
    # Exibe logs por passos
    if (i) % display_step == 0:
        cc = sess.run(cost, feed_dict={x: inputX, y_:inputY})
        print "Training step:", '%04d' % (i), "cost=", "{:.9f}".format(cc) #, \"W=", sess.run(W), "b=", sess.run(b)

print "Otimização realizada"
training_cost = sess.run(cost, feed_dict={x: inputX, y_: inputY})
print "Training cost=", training_cost, "W=", sess.run(W), "b=", sess.run(b), '\n'


Training step: 0000 cost= 0.114958666
Training step: 0050 cost= 0.109539941
Training step: 0100 cost= 0.109539881
Training step: 0150 cost= 0.109539807
Training step: 0200 cost= 0.109539732
Training step: 0250 cost= 0.109539673
Training step: 0300 cost= 0.109539606
Training step: 0350 cost= 0.109539531
Training step: 0400 cost= 0.109539464
Training step: 0450 cost= 0.109539405
Training step: 0500 cost= 0.109539330
Training step: 0550 cost= 0.109539248
Training step: 0600 cost= 0.109539196
Training step: 0650 cost= 0.109539129
Training step: 0700 cost= 0.109539054
Training step: 0750 cost= 0.109538987
Training step: 0800 cost= 0.109538913
Training step: 0850 cost= 0.109538853
Training step: 0900 cost= 0.109538779
Training step: 0950 cost= 0.109538712
Training step: 1000 cost= 0.109538652
Training step: 1050 cost= 0.109538577
Training step: 1100 cost= 0.109538510
Training step: 1150 cost= 0.109538436
Training step: 1200 cost= 0.109538376
Training step: 1250 cost= 0.109538302
Training ste

Agora que o treinamento foi realizado. Tensorflow já possui o nosso modelo de treinamento. (Que basicamente define as operações, mais as variáveis W e b como resultado do processo de treinamento.)

In [159]:
sess.run(y, feed_dict={x: inputX })

array([[ 0.71125221,  0.28874779],
       [ 0.66498977,  0.33501023],
       [ 0.73657656,  0.26342347],
       [ 0.64718789,  0.35281211],
       [ 0.78335613,  0.2166439 ],
       [ 0.70069474,  0.29930523],
       [ 0.65866327,  0.34133676],
       [ 0.64828628,  0.35171372],
       [ 0.64368278,  0.35631716],
       [ 0.65480113,  0.3451989 ]], dtype=float32)

Então aparentemente são casas boas para compra. 7/10 estão correctas. Resultado satisfatório para um modelo com apenas 10 elementos. 

Por outro lado, como se calcula os valores de softmax.

In [163]:
sess.run(tf.nn.softmax([1., 2.]))

array([ 0.26894143,  0.7310586 ], dtype=float32)