# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Deep Learning I</font>

# Deep Neural Networks com TensorFlow 
## Classificação

![TensorFlow](images/tensorflow.png "TensorFlow")

TensorFlow é uma biblioteca de software de código aberto para aprendizagem de máquinas em vários tipos de tarefas de compreensão de percepção e linguagem. Atualmente, ele é usado tanto para pesquisa quanto para produção por diferentes equipes em muitos produtos comerciais do Google, como reconhecimento de fala, Gmail, Google Photos e pesquisas, muitas das quais anteriormente utilizaram seu antecessor DistBelief. O TensorFlow foi originalmente desenvolvido pela equipe do Google Brain para fins de pesquisa e produção do Google e posteriormente lançado sob a licença de código aberto Apache 2.0 em 9 de novembro de 2015.

* [TensorFlow Homepage](https://www.tensorflow.org/)
* [TensorFlow GitHub](https://github.com/tensorflow/tensorflow)

In [1]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

In [2]:
# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [3]:
# Imports
import tensorflow as tf
import numpy as np
import pandas as pd
import keras
import sklearn

Using TensorFlow backend.


In [4]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

keras      2.3.1
tensorflow 2.1.0
pandas     1.0.3
sklearn    0.22.2
numpy      1.18.2
Data Science Academy


# Usando TensorFlow

TensorFlow é uma API de matemática de baixo nível, semelhante ao [Numpy] (http://www.numpy.org/). No entanto, ao contrário de Numpy, TensorFlow é construído para aprendizagem profunda. O TensorFlow funciona permitindo que você defina grafos de computação com o Python. O TensorFlow compila esses grafos de computação em um código C ++ / [CUDA] (https://developer.nvidia.com/cuda-zone) altamente eficiente.

Neste exercício, seu trabalho é criar as camadas da rede neural, necessárias para construir o modelo de classificação, usando TensorFlow e Keras. Usaremos o dataset iris.csv e nosso objetivo é prever a categoria (ou classe) a qual pertencem as plantas. 

### Funções de Transformação (função de apoio para construção do modelo)

In [5]:
# Encode dos valores de texto (i.e. [1],[2],[3] para vermelho, verde e azul).
from sklearn import preprocessing
def encode_text_index(df, name):
    le = preprocessing.LabelEncoder()
    df[name] = le.fit_transform(df[name])
    return le.classes_

# Função para preencher os valores NA
def missing_median(df, name):
    med = df[name].median()
    df[name] = df[name].fillna(med)
    
# Converte um dataframe do Pandas para inputs x,y que TensorFlow precisa
def to_xy(df, target):
    result = []
    for x in df.columns:
        if x != target:
            result.append(x)
    
    # Descubrindo o tipo da coluna de destino.  
    target_type = df[target].dtypes
    target_type = target_type[0] if hasattr(target_type, '__iter__') else target_type
    
    # Codificação. TensorFlow gosta de 32 bits.
    if target_type in (np.int64, np.int32):
        # Classification
        dummies = pd.get_dummies(df[target])
        return df.values.astype('float32'), dummies.values.astype('float32')
    else:
        # Regression
        return df.values.astype('float32'), df[target].astype(np.float32)

In [6]:
import pandas as pd
import io
import os
import requests
import numpy as np
from sklearn import metrics
from keras.models import Sequential
from keras.layers.core import Dense, Activation
from keras.callbacks import EarlyStopping
path = "./data"

# Carrega o dataset
filename_read = os.path.join(path,"iris.csv")

# Preenche com o valor NA quando não houver dados na coluna
df = pd.read_csv(filename_read, na_values = ['NA','?'])

# Encode das classes
species = encode_text_index(df,"species")

# Converte para o formato x,y requerido pelo TensorFlow
x,y = to_xy(df,"species")

# Cria a rede neural
model = Sequential()
model.add(Dense(10, input_dim=x.shape[1], kernel_initializer = 'normal', activation = 'relu'))
model.add(Dense(1, kernel_initializer = 'normal'))
model.add(Dense(y.shape[1],activation = 'softmax'))
model.compile(loss = 'categorical_crossentropy', optimizer = 'adam')
model.fit(x, y, verbose = 2, epochs = 100)

Epoch 1/100
 - 0s - loss: 1.0991
Epoch 2/100
 - 0s - loss: 1.0985
Epoch 3/100
 - 0s - loss: 1.0982
Epoch 4/100
 - 0s - loss: 1.0977
Epoch 5/100
 - 0s - loss: 1.0973
Epoch 6/100
 - 0s - loss: 1.0970
Epoch 7/100
 - 0s - loss: 1.0966
Epoch 8/100
 - 0s - loss: 1.0961
Epoch 9/100
 - 0s - loss: 1.0956
Epoch 10/100
 - 0s - loss: 1.0951
Epoch 11/100
 - 0s - loss: 1.0947
Epoch 12/100
 - 0s - loss: 1.0939
Epoch 13/100
 - 0s - loss: 1.0932
Epoch 14/100
 - 0s - loss: 1.0924
Epoch 15/100
 - 0s - loss: 1.0915
Epoch 16/100
 - 0s - loss: 1.0905
Epoch 17/100
 - 0s - loss: 1.0895
Epoch 18/100
 - 0s - loss: 1.0885
Epoch 19/100
 - 0s - loss: 1.0873
Epoch 20/100
 - 0s - loss: 1.0861
Epoch 21/100
 - 0s - loss: 1.0849
Epoch 22/100
 - 0s - loss: 1.0832
Epoch 23/100
 - 0s - loss: 1.0816
Epoch 24/100
 - 0s - loss: 1.0799
Epoch 25/100
 - 0s - loss: 1.0783
Epoch 26/100
 - 0s - loss: 1.0762
Epoch 27/100
 - 0s - loss: 1.0740
Epoch 28/100
 - 0s - loss: 1.0719
Epoch 29/100
 - 0s - loss: 1.0695
Epoch 30/100
 - 0s - lo

<keras.callbacks.callbacks.History at 0x7fc9f8ce51d0>

In [7]:
# Classes encontradas
print(species)

['Iris-setosa' 'Iris-versicolor' 'Iris-virginica']


Agora que você tem uma rede neural treinada, vamos usá-la. O código a seguir usa nossa rede neural. Exatamente como antes, vamos gerar prédições. Observe que 3 valores voltam para cada uma das 150 flores da íris. Havia 3 tipos de íris (Iris-setosa, Iris-versicolor e Iris-virginica).

In [8]:
pred = model.predict(x)
print("Shape: {}".format(pred.shape))
print(pred)

Shape: (150, 3)
[[8.21242869e-01 1.63537543e-03 1.77121729e-01]
 [7.77298331e-01 4.19433974e-03 2.18507394e-01]
 [7.97637403e-01 2.77770264e-03 1.99584857e-01]
 [7.73500741e-01 4.51184111e-03 2.21987337e-01]
 [8.26987684e-01 1.42364728e-03 1.71588659e-01]
 [8.23831975e-01 1.53710437e-03 1.74630985e-01]
 [7.98079133e-01 2.75178859e-03 1.99169144e-01]
 [8.05938780e-01 2.32139672e-03 1.91739857e-01]
 [7.58428037e-01 5.96042257e-03 2.35611513e-01]
 [7.87278056e-01 3.44240805e-03 2.09279552e-01]
 [8.34276557e-01 1.18661928e-03 1.64536849e-01]
 [7.96132803e-01 2.86742439e-03 2.00999707e-01]
 [7.83731759e-01 3.69641371e-03 2.12571830e-01]
 [7.95166731e-01 2.92622834e-03 2.01907143e-01]
 [8.72680664e-01 3.94710311e-04 1.26924664e-01]
 [8.70021760e-01 4.29900771e-04 1.29548356e-01]
 [8.45739126e-01 8.77519720e-04 1.53383374e-01]
 [8.14204514e-01 1.92759489e-03 1.83867916e-01]
 [8.27906370e-01 1.39188673e-03 1.70701787e-01]
 [8.30332279e-01 1.31067901e-03 1.68357044e-01]
 [7.99852729e-01 2.64961

In [9]:
# Desliga a opção de notação científica para imprimir os resultados.
np.set_printoptions(suppress = True)

In [10]:
# Normalmente, a coluna (pred) com maior previsão é considerada a predição da rede neural. 
# A função argmax encontra o índice da previsão máxima para cada linha.
predict_classes = np.argmax(pred,axis=1)
expected_classes = np.argmax(y,axis=1)
print("Valores Previstos: {}".format(predict_classes))
print("Valores Esperados: {}".format(expected_classes))

Valores Previstos: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 2 2 0 2 0 1 2 2 2
 2 2 0 0 0 2 1 2 2 2 0 2 2 2 1 2 2 0 1 2 1 0 2 2 2 0 2 2 2 0 2 0 2 0 2 2 2
 0 2]
Valores Esperados: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [11]:
# É muito fácil transformar esses índices de volta em espécies de íris. 
# Nós apenas usamos a lista de espécies que criamos anteriormente.
print(species[predict_classes[1:10]])

['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa'
 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa']


In [12]:
# A precisão pode ser uma métrica de erro mais fácil de entender. 
# É essencialmente uma pontuação de teste. Para todas as previsões da íris, que porcentagem estava correta? 
# A desvantagem é que não considera a confiança na rede neural em cada previsão.
from sklearn.metrics import accuracy_score
correct = accuracy_score(expected_classes, predict_classes)
print("Acurácia: {}".format(correct))

Acurácia: 0.8666666666666667


O código abaixo executa duas previsões ad hoc. A primeira previsão é simplesmente uma única flor de íris. O segundo prediz duas flores de íris. Observe que o argmax na segunda predição requer **eixo = 1**? Uma vez que temos um array 2D agora, devemos especificar qual eixo levar o argmax. O valor **axis = 1** especifica que queremos o índice de coluna max para cada linha.

In [13]:
tf.compat.v1.logging.set_verbosity(tf.compat.v1.logging.ERROR)

# Previsão ad-hoc
sample_flower = np.array( [[5.0,3.0,4.0,2.0,1]], dtype=float)
pred = model.predict(sample_flower)
pred = np.argmax(pred)
print("\nPrevendo que\n {} é: {}".format(sample_flower,species[pred]))

# predict two sample flowers
sample_flower = np.array( [[5.0,3.0,4.0,2.0,1],[5.2,3.5,1.5,0.8,1]], dtype=float)
pred = model.predict(sample_flower)
pred = np.argmax(pred,axis=1)
print("\nPrevendo que\n {} é: {}".format(sample_flower,species[pred]))


Prevendo que
 [[5. 3. 4. 2. 1.]] é: Iris-versicolor

Prevendo que
 [[5.  3.  4.  2.  1. ]
 [5.2 3.5 1.5 0.8 1. ]] é: ['Iris-versicolor' 'Iris-setosa']


# Fim