## Criando um modelo no Keras e publicando através de uma API

Este notebook define o modelo utilizado no treinamento da base do Titanic disponível no Kaggle. Esta base foi escolhida por ter fácil compreensão e por ter sido utilizada como introdução ao aprendizado de Machine Learning.

Na célula abaixo, nós importamos as bibliotecas que serão utilizadas ao longo do experimento. Observe que utilizamos o pandas, numpy, keras e sklearn. Procure concentrar suas importações no começo do seu notebook.

### Importando as bibliotecas e carregando os arquivos

In [1]:
import pandas as pd
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Dropout
from sklearn.model_selection import train_test_split
from IPython.display import clear_output
from keras.callbacks import Callback

from keras.models import model_from_json

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


Após a inclusão de todas as bibliotecas necessárias para o experimento, armazenaremos o conteúdo dos arquivos em memória, através de DataFrames do Pandas. Já fiz uma introdução dos conceitos do Pandas [neste artigo](https://labs.bawi.io/introdu%C3%A7%C3%A3o-ao-pandas-ea6c532470d5). Se preferir, aproveite para completar os desafios que propus lá, antes de prosseguir com este nosso estudo.

In [2]:
train = pd.read_csv('train.csv')
train, test = train_test_split(train, test_size=.2)
toPredict  = pd.read_csv('toPredict.csv')

Aqui, a novidade é a função **train_test_split** que, como o próprio nome sugere, dividiu um DataFrame em duas partes, a de treino e a de teste, sendo que a de teste possui 20% do tamanho total da base de treino original. Os outros 80% foi definido como a nova base de treino. Veja só:

In [3]:
tamanho_treinamento = len(train)
tamanho_teste = len(test)
tamanho_total = tamanho_treinamento + tamanho_teste

print('Treinamento:', tamanho_treinamento / tamanho_total)
print('Teste:', tamanho_teste / tamanho_total)

Treinamento: 0.7991021324354658
Teste: 0.20089786756453423


### Analisando e corrigindo os dados da base

Uma fase importante do nosso experimento, e de outros que você possa realizar, será a limpeza e organização dos dados. Veja na base de treinamento que os campos **Age** e **Cabin** possuem valores não preenchidos. Outras colunas também não foram preenchidas nas outras bases.

In [4]:
train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 844 to 669
Data columns (total 12 columns):
PassengerId    712 non-null int64
Survived       712 non-null int64
Pclass         712 non-null int64
Name           712 non-null object
Sex            712 non-null object
Age            574 non-null float64
SibSp          712 non-null int64
Parch          712 non-null int64
Ticket         712 non-null object
Fare           712 non-null float64
Cabin          165 non-null object
Embarked       711 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 72.3+ KB


In [5]:
test.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 179 entries, 183 to 98
Data columns (total 12 columns):
PassengerId    179 non-null int64
Survived       179 non-null int64
Pclass         179 non-null int64
Name           179 non-null object
Sex            179 non-null object
Age            140 non-null float64
SibSp          179 non-null int64
Parch          179 non-null int64
Ticket         179 non-null object
Fare           179 non-null float64
Cabin          39 non-null object
Embarked       178 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 18.2+ KB


In [6]:
toPredict.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
PassengerId    418 non-null int64
Pclass         418 non-null int64
Name           418 non-null object
Sex            418 non-null object
Age            332 non-null float64
SibSp          418 non-null int64
Parch          418 non-null int64
Ticket         418 non-null object
Fare           417 non-null float64
Cabin          91 non-null object
Embarked       418 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


De maneira simples, apenas preencheremos com a média nos campos numéricos e criaremos uma categoria **'I'** para o campo **Embarked**. Estes ajustes podem ser realizados de forma mais precisa, talvez agregando os valores de grupos mais próximos ao invés de uma média geral.

In [7]:
train.Age.fillna(train.Age.mean(), inplace=True)
test.Age.fillna(test.Age.mean(), inplace=True)
toPredict.Age.fillna(toPredict.Age.mean(), inplace=True)

train.Embarked.fillna('I', inplace=True)
test.Embarked.fillna('I', inplace=True)
toPredict.Embarked.fillna('I', inplace=True)

train.Fare.fillna(train.Fare.mean(), inplace=True)
test.Fare.fillna(test.Fare.mean(), inplace=True)
toPredict.Fare.fillna(toPredict.Fare.mean(), inplace=True)

### Seleção das características e preparação para o treinamento

Agora, de fato, selecionaremos apenas as colunas que utilizaremos durante o treinamento. Nas colunas categóricas, aplicamos uma técnica conhecida como One-Hot Encoding, através da função **[pd.get_dummies()](http://pandas.pydata.org/pandas-docs/version/0.17.0/generated/pandas.get_dummies.html)**. Tem um conteúdo muito bom sobre este assunto [aqui](https://www.kaggle.com/dansbecker/using-categorical-data-with-one-hot-encoding).

In [8]:
X_cols = ['Pclass', 'Sex', 'Age', 'SibSp',
       'Parch', 'Fare', 'Embarked']
y_cols = ['Survived']
OneHot_cols = ['Pclass', 'Sex', 'Embarked']

X_train, y_train = train[X_cols], train[y_cols]
X_test, y_test = test[X_cols], test[y_cols]
X_toPredict = toPredict[X_cols]

X_train = pd.get_dummies(X_train, columns=OneHot_cols)
X_test = pd.get_dummies(X_test, columns=OneHot_cols)
X_toPredict = pd.get_dummies(X_toPredict, columns=OneHot_cols)

Nas células abaixo, observe como as colunas ficaram. A coluna sexo, que antes apresentava valores **female** e **male** foi transformada em duas colunas **Sex_male** e **Sex_female**, com inteiros 0 e 1 indicando seus valores. Exemplo de One-Hot Encoding aplicada em uma base de dados:

**Base original**

| Fruta | Cor |
| --- | --- |
| Banana | Amarelo |
| Limão | Verde |
| Morango | Vermelho |

**Base com a aplicação de One-Hot Encoding na coluna Cor**

| Fruta | Cor_Amarelo | Cor_Verde | Cor_Vermelho |
| --- | --- | --- | --- |
| Banana | 1 | 0 | 0 |
| Limão | 0 | 1 | 0 |
| Morango | 0 | 0 | 1 |

In [9]:
X_train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 712 entries, 844 to 669
Data columns (total 13 columns):
Age           712 non-null float64
SibSp         712 non-null int64
Parch         712 non-null int64
Fare          712 non-null float64
Pclass_1      712 non-null uint8
Pclass_2      712 non-null uint8
Pclass_3      712 non-null uint8
Sex_female    712 non-null uint8
Sex_male      712 non-null uint8
Embarked_C    712 non-null uint8
Embarked_I    712 non-null uint8
Embarked_Q    712 non-null uint8
Embarked_S    712 non-null uint8
dtypes: float64(2), int64(2), uint8(9)
memory usage: 34.1 KB


In [10]:
X_toPredict.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
Age           418 non-null float64
SibSp         418 non-null int64
Parch         418 non-null int64
Fare          418 non-null float64
Pclass_1      418 non-null uint8
Pclass_2      418 non-null uint8
Pclass_3      418 non-null uint8
Sex_female    418 non-null uint8
Sex_male      418 non-null uint8
Embarked_C    418 non-null uint8
Embarked_Q    418 non-null uint8
Embarked_S    418 non-null uint8
dtypes: float64(2), int64(2), uint8(8)
memory usage: 16.4 KB


É importante notar outra coisa: observe os campos **Embarked**, tanto da base de treinamento quando da base para predição. Veja que no treinamento temos **Embarked_I**, que está ausente na base para predição. Isto aconteceu porque não existia nenhum registro na base para predição cujo valor era **I**. Para que todas as bases tenham as mesmas colunas, faremos um alinhamento delas com a base de treinamento.

In [11]:
X_test, _ = X_test.align(X_train, join='right', fill_value=0, axis=1)
X_toPredict, _ = X_toPredict.align(X_train, join='right', fill_value=0, axis=1)

O Pandas fornece a função **[df.align()](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.align.html)**. É bem simples de entender, vamos lá! Ela sempre retornará os dois dataframes, o que invocou a função e o que foi passado como argumento. Os dois, respectivamente, serão chamados de esquerda e direita. No nosso caso, queremos que o DataFrame da esquerda possua as mesmas colunas que o da direita. Então, a partir do DataFrame de teste (à esquerda) invocamos a função **align()** passando o DataFrame de treinamento (à direita) com o parâmetro **join='right'**, o que significa dizer que as colunas do DataFrame da direita serão utilizadas no alinhamento. O parâmetro possui outras variações, implicando na mudança da posição dos termos à direita e à esquerda.

In [12]:
print('X_train.shape', X_train.shape)
print('y_train.shape', y_train.shape)
print('X_test.shape', X_test.shape)
print('y_test.shape', y_test.shape)
print('X_toPredict.shape', X_toPredict.shape)

X_train.shape (712, 13)
y_train.shape (712, 1)
X_test.shape (179, 13)
y_test.shape (179, 1)
X_toPredict.shape (418, 13)


Por fim, todas as bases possuem 13 colunas, sendo equivalentes.

### Treinamento

O nosso modelo será construído no Keras, com algumas camadas. Também adicionaremos uma função de *callback* para que a saída seja limpa após o término de cada **epoch**, e evitar que apareça aquela barra de rolagem. Ainda vou pesquisar se tem um jeito mais simples de fazer isto, mas esta do *callback* foi a mais divertida ¯\\_(ツ)_/¯

In [13]:
class ClearOutputWhenEpochEnds(Callback):
    def __init__(self):
        self.epochs_history = []
        
    def on_epoch_end(self, epoch, logs={}):
        clear_output()
        new_epoch = {
            'number': epoch + 1,
            'logs': logs,
        }
        self.epochs_history.append(new_epoch)
        self.print_last_epochs(5)
    
    def print_last_epochs(self, quantity):
        for epoch in self.epochs_history[-quantity:]:
            number = epoch['number']
            loss = epoch['logs']['loss']
            accuracy = epoch['logs']['acc']
            print('Epoch #%03d -> loss: %.4f, accuracy: %.4f' % (number, loss, accuracy))

In [14]:
clearOutput = ClearOutputWhenEpochEnds()

units = 256

model = Sequential()
model.add(Dense(units, input_dim=X_train.shape[1], activation='relu'))
model.add(Dense(units, activation='relu'))
model.add(Dense(units, activation='relu'))
model.add(Dense(units, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='rmsprop',
              metrics=['accuracy'])

model.fit(X_train, y_train,
          epochs=150,
          batch_size=64,
         callbacks=[clearOutput])
score = model.evaluate(X_test, y_test)

Epoch #146 -> loss: 0.3314, accuracy: 0.8511
Epoch #147 -> loss: 0.3715, accuracy: 0.8483
Epoch #148 -> loss: 0.3296, accuracy: 0.8624
Epoch #149 -> loss: 0.3309, accuracy: 0.8427
Epoch #150 -> loss: 0.3442, accuracy: 0.8553


In [15]:
print(list(zip(model.metrics_names, score)))

[('loss', 0.48109352455458826), ('acc', 0.8268156431240743)]


O treinamento acabou após 150 epochs (até que foi bem rápido). Alcançou uma precisão de cerca de 80% nos dados de teste.

A função [zip](https://docs.python.org/3.3/library/functions.html#zip) é vida ¯\\_(ツ)_/¯

Agora que temos um modelo treinado, salvaremos ele em dois arquivos: no arquivo \*.json ficará a arquitetura do nosso modelo, e no arquivo \*.h5 serão armazenados os pesos.

In [16]:
with open('model.json', 'w') as arquivo:
    arquivo.write(model.to_json())

model.save_weights("weights.h5")

Agora que temos o modelo e os pesos salvos em dois arquivos, vamos voltar lá pro passo 3 no [artigo](https://www.google.com) pra dar sequência nos estudos. Até mais!