# 09. Deployment - PySpark

## 09.1. Importação das bibliotecas

### 09.1.1. Importando as bibliotecas nativas do Python

In [1]:
import sys

### 09.1.2. Importando as bibliotecas de terceiros

In [2]:
import joblib

### 09.1.3. Importando os módulos locais do projeto

In [3]:
sys.path.append('..')
import params.consts as consts

## 09.2. Modelo de machine learning

### 09.2.1. Carregando o grid search

In [4]:
grid_search_classification = joblib.load(consts.GRID_SEARCH_CLASSIFICATION_PYSPARK_JOBLIB) 

### 09.2.2. Carregando o modelo

In [5]:
model_classification = joblib.load(consts.MODEL_CLASSIFICATION_PYSPARK_JOBLIB) 

### 09.2.3. Verificando os hiperparâmetros testados

In [6]:
grid_search_classification.param_grid

{'feature_selection__k': [10, 15, 20, 25],
 'models__C': array([1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02, 1.e+03]),
 'models__solver': ['liblinear', 'lbfgs', 'saga'],
 'models__penalty': ['l1', 'l2', 'elasticnet', 'none']}

### 09.2.4. Verificando os melhores hiperparâmetros selecionados

In [7]:
grid_search_classification.best_params_

{'feature_selection__k': 25,
 'models__C': np.float64(1.0),
 'models__penalty': 'l2',
 'models__solver': 'lbfgs'}

### 09.2.5. Verificando o pipeline de treinamento do modelo

In [8]:
grid_search_classification.best_estimator_

In [9]:
model_classification.named_steps 

{'pre_processing': ColumnTransformer(transformers=[('one_hot_encoder', OneHotEncoder(),
                                  ['Education', 'Marital_Status', 'AgeGroup',
                                   'Children', 'HasChildren', 'Complain',
                                   'Years_Since_Enrolled', 'AcceptedCmpTotal',
                                   'HasAcceptedCmp', 'Cluster']),
                                 ('standard_scaler', StandardScaler(),
                                  ['Income', 'Age']),
                                 ('power_transformer', PowerTransformer(),
                                  ['NumDealsPurchases', 'NumWebVisitsMonth',
                                   'NumTotalPurchases', 'MntRegularProds',
                                   'MntGoldProds', 'MntTotal']),
                                 ('min_max_scaler', MinMaxScaler(),
                                  ['Recency', 'Dt_Customer_Month',
                                   'Dt_Customer_Quarter',
     

### 09.2.6. Verificando os pré processamentos realizados nas colunas

In [10]:
model_classification.named_steps['pre_processing'].get_feature_names_out()

array(['one_hot_encoder__Education_2n Cycle',
       'one_hot_encoder__Education_Basic',
       'one_hot_encoder__Education_Graduation',
       'one_hot_encoder__Education_Master',
       'one_hot_encoder__Education_PhD',
       'one_hot_encoder__Marital_Status_Partner',
       'one_hot_encoder__Marital_Status_Single',
       'one_hot_encoder__AgeGroup_18-30',
       'one_hot_encoder__AgeGroup_31-45',
       'one_hot_encoder__AgeGroup_46-60', 'one_hot_encoder__AgeGroup_61+',
       'one_hot_encoder__Children_0', 'one_hot_encoder__Children_1',
       'one_hot_encoder__Children_2', 'one_hot_encoder__Children_3',
       'one_hot_encoder__HasChildren_0', 'one_hot_encoder__HasChildren_1',
       'one_hot_encoder__Complain_0', 'one_hot_encoder__Complain_1',
       'one_hot_encoder__Years_Since_Enrolled_0',
       'one_hot_encoder__Years_Since_Enrolled_1',
       'one_hot_encoder__AcceptedCmpTotal_0',
       'one_hot_encoder__AcceptedCmpTotal_1',
       'one_hot_encoder__AcceptedCmpTotal_2',


### 09.2.7. Verificando as melhores features selecionadas 

In [11]:
model_classification.named_steps['pre_processing'].get_feature_names_out()[
    model_classification.named_steps['feature_selection'].get_support()
]

array(['one_hot_encoder__Education_PhD',
       'one_hot_encoder__Marital_Status_Partner',
       'one_hot_encoder__Marital_Status_Single',
       'one_hot_encoder__Children_0', 'one_hot_encoder__Children_1',
       'one_hot_encoder__HasChildren_0', 'one_hot_encoder__HasChildren_1',
       'one_hot_encoder__Years_Since_Enrolled_0',
       'one_hot_encoder__Years_Since_Enrolled_1',
       'one_hot_encoder__AcceptedCmpTotal_0',
       'one_hot_encoder__AcceptedCmpTotal_1',
       'one_hot_encoder__AcceptedCmpTotal_2',
       'one_hot_encoder__AcceptedCmpTotal_3',
       'one_hot_encoder__AcceptedCmpTotal_4',
       'one_hot_encoder__HasAcceptedCmp_0',
       'one_hot_encoder__HasAcceptedCmp_1', 'one_hot_encoder__Cluster_1',
       'one_hot_encoder__Cluster_2', 'standard_scaler__Income',
       'power_transformer__NumTotalPurchases',
       'power_transformer__MntRegularProds',
       'power_transformer__MntGoldProds', 'power_transformer__MntTotal',
       'min_max_scaler__Recency', 'min_

## 09.3. Implementação do modelo

### 09.3.1. Realizando o deploy do modelo em formato ipynb

1. Crie um arquivo conforme o modelo, renome-o para **"dataset_deploy.csv"** e coloque-o na pasta **"deploys"** desse projeto
2. Na pasta **"deploys"**, abra o arquivo **"classification_notebook.ipynb"** e execute-o
3. Pronto, as previsões foram feitas. Para acessá-las é só abrir o novo arquivo criado na pasta **"deploys"** chamado **"dataset_deployed.csv"**

### 09.3.2. Realizando o deploy do modelo em formato py

1. Crie um arquivo conforme o modelo, renome-o para **"dataset_deploy.csv"** e coloque-o na pasta **"deploys"** desse projeto
2. No **terminal**, digite **cd + "caminho da pasta"** (o caminho deve estar entre aspas) e dê enter para entrar na pasta pelo terminal. Para copiar o caminho da pasta basta navegar até o arquivo no explorador de arquivos, clicar no caminho exibido na barra de navegação e copiar 
3. Agora digite **python classification_python.py** e dê enter
4. Pronto, as previsões foram feitas. Para acessá-las é só abrir o novo arquivo criado na pasta **"deploys"** chamado **"dataset_deployed.csv"**

### 09.3.3. Realizando o deploy do modelo em um arquivo executável

Nesse projeto, não será utilizado o deploy do modelo em um arquivo executável devido a ter a necessidade de se criar um ambiente virtual para que esse arquivo executável possa ser executado em qualquer local. A principal justificativa para isso é que em um ambiente virtual é preciso instalar todas as bibliotecas usadas durante o projeto, o que tornaria o arquivo muito grande e portanto, inviável para subir no Github.

### 09.3.4. Realizando o deploy do modelo em Streamlit (.py)

1. No **terminal**, digite **cd + "caminho da pasta"** (o caminho deve estar entre aspas) e dê enter para entrar na pasta pelo terminal. Para copiar o caminho da pasta basta navegar até o arquivo no explorador de arquivos, clicar no caminho exibido na barra de navegação e copiar 
2. Agora digite **streamlit run classification_streamlit.py** e dê enter
3. Pronto, as previsões foram feitas. A resposta do modelo é exibida na própria tela ao preencher todos os campos