### Colocando um modelo em produção

Após gerado o modelo é importante ter uma forma de serializar o modelo e os componentes acessórios para migrá-los para o local de destino, como um servidor que ficará executando mediante demanda ou para um embarcado que o rodará na ponta da rede.

In [2]:
from sklearn.decomposition import PCA
from sklearn import datasets

wine = datasets.load_wine()
X = wine.data
y = wine.target

In [4]:
import pandas as pd

df = pd.DataFrame(X,columns=wine.feature_names)
df.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


## Utilizando joblib

In [6]:
!pip3 install joblib

You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [7]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from joblib import dump, load

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

model = KNeighborsClassifier(n_neighbors=1)
model.fit(X_train_scaled, y_train)

persistence = {}
persistence['scaler'] = scaler
persistence['model']  = model

dump(persistence, 'persist.joblib')

['persist.joblib']

In [8]:
persistence = load('persist.joblib')

scaler = persistence['scaler']
model = persistence['model']

X_test_scaled = scaler.transform(X_test)

y_pred = model.predict(X_test_scaled)

from sklearn.metrics import accuracy_score

print('Acurácia:', accuracy_score(y_test, y_pred))

Acurácia: 0.9661016949152542


## Exercício

Uma boa prática é utilizar todo o dado disponível para treino e retreinar o modelo depois de encontrar os melhores parâmetros, antes de colocar em produção. Nesse sentido, realize as seguintes etapas:

1 - Separe os dados em treino e teste (70 - 30).

2 - Na parcela de treino, use todos os dados (70% aplicando GridSearchCV) para encontrar os melhores parâmetros.

3 - Em seguida, retreine o modelo utilizando todos os dados de treino utilizando essa configuração.

4 - Salve o modelo.

5 - Recarregue o modelo e verifique o desempenho no conjunto de teste separado inicialmente.