<a href="https://colab.research.google.com/github/Andrea68A/Puc_Ciencia_Dados/blob/main/C%C3%B3pia_de_implantacao_pickle.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Engenharia de Software para Ciência de Dados - PUC-Rio

### Persistindo e Carregando Modelos Treinados com Pickle

Marcos Kalinowski

## Pickle
https://docs.python.org/2/library/pickle.html

É a maneira padrão de serializar objetos em Python, sendo possível serializar modelos de aprendizado de máquina e salvar o formato serializado em um arquivo. Posteriormente, é possível pode carregar esse arquivo para desserializar o modelo e usá-lo para fazer novas previsões.

In [6]:
import pandas as pd
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from pickle import dump
from pickle import load

In [7]:
# Carrega arquivo csv usando Pandas usando uma URL

# Informa a URL de importação do dataset
url = "https://raw.githubusercontent.com/tatianaesc/datascience/main/diabetes.csv"

# Informa o cabeçalho das colunas
colunas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

# Lê o arquivo utilizando as colunas informadas
dataset = pd.read_csv(url, names=colunas, skiprows=1, delimiter=',')

# Pega apenas os dados do dataset e guardando em um array
array = dataset.values

# Separa o array em variáveis preditoras (X) e variável target (Y)
X = array[:,0:8]
Y = array[:,8]

In [12]:
# Divide os dados em treino e teste
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=7)

# Cria o modelo
modelo = LogisticRegression(solver='liblinear')

# Treina o modelo
modelo.fit(X_train, Y_train)

# Avalia o modelo

result = modelo.score(X_test, Y_test)
print("Acurácia: %.3f%%" % (result*100.0))




Acurácia: 75.591%


In [9]:
# Salva o modelo no disco
filename = 'model.pkl'
dump(modelo, open(filename, 'wb'))

In [16]:
# Algum tempo depois...
# Carrega o modelo do disco
loaded_model = load(open(filename, 'rb'))
# Informa a acurácia do modelo
result = loaded_model.score(X_test, Y_test)
print("Acurácia: %.5f%%" % (result*100.0))

Acurácia: 75.59055%


In [17]:
# Salvando o modelo treinado em um arquivo
import pickle
pickle_out = open('classifier.pkl', 'wb')
pickle.dump(modelo, pickle_out)
pickle_out.close()

In [21]:
# usando a inferência de um modelo a partir de um arquivo
import pickle
# carregando o modelo treinado
pickle_in = open('classifier.pkl', 'rb')
# classifier = pickle.load(pickle_in)
modelo = pickle.load(open('classifier.pkl', 'rb'))
pickle_in.close()

# Utilizando o modelo para fazer uma predição
predicao = modelo.predict([[5, 166, 72, 19, 175, 25.8, 0.587, 51]])
prediction2 = modelo.predict([[6, 148, 72, 35, 0, 33.6, 0.627, 50]])
predict3 = modelo.predict([[1, 85, 66, 29, 0, 26.6, 0.351, 31]])
print(predicao)
print(prediction2)
print(predict3)

[1.]
[1.]
[0.]
