# STREAMLIT

César Macieira

![](https://blog.streamlit.io/content/images/2023/09/st-status-transparency.gif)

# O que é streamlit?
Streamlit é uma biblioteca de código aberto para Python que torna a criação de aplicativos da web interativos e visualizações de dados em Python mais fácil e rápida.

**Site com a documentação:** https://streamlit.io/

# Instalação

In [1]:
#pip install streamlit

Após a instalação, para carregar a biblioteca executamos o comando:

In [2]:
import streamlit as st

É mais complexo a criação de um app via jupyter notebook, portanto o ideal é usar um ambiente de desenvolvimento Python com terminal para esta tarefa. 

Opções:
* Pycharm
* **Visual Studio Code (VSCode)**
* Sublime Text; entre outras.

Para construir e mostrar o funcionamento de um aplicativo, vamos construir um modelo de machine learning e salvar como um arquivo.

# Bibliotecas

In [3]:
import pandas as pd
import numpy as np
import random
from sklearn.model_selection import train_test_split, TimeSeriesSplit, KFold, StratifiedKFold
import xgboost as xgb
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from skopt import BayesSearchCV, gp_minimize
from skopt.callbacks import DeadlineStopper, DeltaYStopper
from skopt.space import Real, Categorical, Integer
from sklearn.metrics import make_scorer
from functools import partial
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error
from sklearn.metrics import mean_squared_log_error

# Qualidade das bobinas
Os dados das bobinas contêm informações de 948 bobinas produzidas com o status de aceitação/rejeição.

## Objetivo
Prever o comportamento da qualidade das bobinas.

## Variáveis
* LE: limite de escoamento;
* STATUS: se a bobina foi aceita = 0 ou rejeitada =1;
* ESP_ENSAIO_TR: espessura da bobina (mm);
* LARG: largura da bobina;
* C: carbono;
* AL: alumínio;
* DESENF: desenfornamento;
* ACAB: Acabamento;
* BOB: Bobinamento;
* TIPO_CP: tipo de corpo de prova (D, R ou Y);
* REV: revestimento (GI ou GA).

**Dados simulados!**

In [4]:
dados = pd.read_excel("Dados completos.xlsx", sheet_name='Sheet1')

In [5]:
dados['TIPO_CP'] = [random.choice(['D', 'R', 'Y']) for _ in range(len(dados))]
dados['REV'] = [random.choice(['GI', 'GA']) for _ in range(len(dados))]
dados['STATUS_0_1'] = np.where(dados['STATUS'] == 'Aceitável', 0, 1)
dados.loc[:29, 'STATUS_0_1'] = 1

In [6]:
# Codificar variáveis categóricas usando One-Hot Encoding
df = pd.get_dummies(dados, columns=['TIPO_CP','REV'], dtype=int)
df.head()

Unnamed: 0,LE,STATUS,ESP_ENSAIO_TR,LARG,C,AL,DESENF,ACAB,BOB,STATUS_0_1,TIPO_CP_D,TIPO_CP_R,TIPO_CP_Y,REV_GA,REV_GI
0,455.623612,Aceitável,1.22,930,17.2,32.225,1214.0,878,638,1,1,0,0,1,0
1,452.593579,Aceitável,1.1,700,17.87,40.6,1222.0,898,645,1,1,0,0,1,0
2,489.328749,Aceitável,1.04,980,19.79,33.18,1226.0,888,629,1,0,1,0,1,0
3,446.450584,Aceitável,1.01,980,17.738,39.75,1224.0,882,637,1,1,0,0,1,0
4,478.647081,Aceitável,1.11,700,20.3,36.2,1219.0,887,633,1,1,0,0,0,1


In [7]:
# Divide o banco de dados em 80% para treinamento e 20% para teste
treino, teste = train_test_split(df, stratify = df[['STATUS','TIPO_CP_D','TIPO_CP_R','TIPO_CP_Y','REV_GA','REV_GI']], test_size=0.20, random_state=13)

X_treino = treino[['ESP_ENSAIO_TR','LARG','C','AL','DESENF','ACAB','BOB','TIPO_CP_D','TIPO_CP_R','TIPO_CP_Y','REV_GA','REV_GI']]
X_teste = teste[['ESP_ENSAIO_TR','LARG','C','AL','DESENF','ACAB','BOB','TIPO_CP_D','TIPO_CP_R','TIPO_CP_Y','REV_GA','REV_GI']]
Y_treino, Y_teste = treino[['STATUS_0_1']], teste[['STATUS_0_1']]
Y_treino_num, Y_teste_num = treino[['LE']], teste[['LE']]

In [8]:
X_teste.to_excel('X_teste.xlsx', index=False)

# Modelo categórico

In [9]:
xgb_mod = xgb.XGBClassifier(random_state=13, booster='gbtree', objective='binary:logistic', eval_metric = 'auc',
                            importance_type = 'gain', gamma = 0, gpu_id = -1, interaction_constraints = '', min_child_weight = 1)
scoring = make_scorer(accuracy_score)
search_spaces = {'learning_rate': Real(0.01, 0.3, 'uniform'), 'max_depth': np.arange(1, 10, 1),
                 'subsample': Real(0.1, 1.0, 'uniform'), 'colsample_bytree': Real(0.1, 1.0, 'uniform'),
                 'colsample_bylevel': Real(0.1, 1.0, 'uniform'), 'reg_lambda': Real(1e-9, 100, 'uniform'),
                 'reg_alpha': Real(1e-9, 100, 'uniform'), 'n_estimators': Integer(1, X_treino.shape[0]-1)}
cv_mod, num_bins = 10, 10
skf = StratifiedKFold(n_splits = 10, shuffle = True, random_state=13)
y_stratified = pd.cut(Y_treino['STATUS_0_1'].rank(method='first'), bins=num_bins, labels=False)
cv_strategy = list(skf.split(X_treino, y_stratified))
opt_xgb = BayesSearchCV(estimator=xgb_mod, search_spaces=search_spaces, scoring=scoring,
                        cv=cv_strategy, n_iter=10, n_points=1, n_jobs=-1, return_train_score=False, 
                        refit=False, random_state=13).fit(X_treino, Y_treino)
best_params_xgb = opt_xgb.best_params_
modelo_XGB_cat = xgb.XGBClassifier(random_state=13, **best_params_xgb).fit(X_treino,Y_treino) 

In [10]:
def get_metrics(Y_true, Y_pred):
    cm = confusion_matrix(Y_true, Y_pred)
    sensibilidade = cm[1, 1] / (cm[1, 0] + cm[1, 1])
    especificidade = cm[0, 0] / (cm[0, 0] + cm[0, 1])
    acuracia = (cm[0, 0] + cm[1, 1]) / cm.sum()
    precisao = cm[1, 1] / (cm[0, 1] + cm[1, 1])
    f1_score = 2 * (precisao * sensibilidade) / (precisao + sensibilidade)
    metrics = pd.DataFrame({'Sensibilidade': [sensibilidade], 'Especificidade': [especificidade], 'Acurácia': [acuracia], 'Precisão': [precisao],
        'Recall': [sensibilidade], 'F1 Score': [f1_score]})
    return metrics
get_metrics(Y_teste, modelo_XGB_cat.predict(X_teste))

Unnamed: 0,Sensibilidade,Especificidade,Acurácia,Precisão,Recall,F1 Score
0,0.931373,1.0,0.963158,1.0,0.931373,0.964467


# Modelo numérico

In [11]:
xgb_mod_num = xgb.XGBRegressor(random_state=13, booster='gbtree', objective='reg:squarederror', eval_metric = 'rmse',
                               importance_type = 'gain', gamma = 0, gpu_id = -1, interaction_constraints = '',
                               min_child_weight = 1)
scoring_num = make_scorer(partial(mean_squared_error, squared=False), greater_is_better=False)
search_spaces_num = {'learning_rate': Real(0.01, 0.3, 'uniform'), 'max_depth': np.arange(1, 15, 1),
                     'subsample': Real(0.1, 1.0, 'uniform'), 'colsample_bytree': Real(0.1, 1.0, 'uniform'),
                     'colsample_bylevel': Real(0.1, 1.0, 'uniform'), 'reg_lambda': Real(1e-9, 100, 'uniform'),
                     'reg_alpha': Real(1e-9, 100, 'uniform'), 'n_estimators': Integer(1, X_treino.shape[0]-1)}
opt_xgb_num = BayesSearchCV(estimator=xgb_mod_num, search_spaces=search_spaces_num, scoring=scoring_num,
                            cv=cv_strategy, n_iter=10, n_points=1, n_jobs=-1, return_train_score=False,
                            refit=False, random_state=13).fit(X_treino, Y_treino_num)
best_params_num = opt_xgb_num.best_params_
modelo_XGB_num = xgb.XGBRegressor(base_score=0.5, eval_metric='rmse', importance_type='gain', booster='gbtree', gamma=0,
                                  gpu_id=-1, interaction_constraints='', **best_params_num).fit(X_treino, Y_treino_num)



In [12]:
import bz2
import pickle

In [13]:
arquivo_XGB_cat = bz2.BZ2File("./modelos/modelo_cat",'wb')
pickle.dump(modelo_XGB_cat,arquivo_XGB_cat)
arquivo_XGB_cat.close()
arquivo_XGB_num = bz2.BZ2File("./modelos/modelo_num",'wb')
pickle.dump(modelo_XGB_num,arquivo_XGB_num)
arquivo_XGB_num.close()

In [14]:
with bz2.BZ2File("modelo_cat", 'rb') as arquivo:
    modelo_cat = pickle.load(arquivo)

# Estrutura do aplicativo para esse projeto

1. Tela que constrói uma análise descritiva.
2. Tela para simular bobinas individualmente (resultados de forma numérica e categórica).
3. Tela para inserir um arquivo e obter predições para um conjunto de dados.