# PLANEJAMENTO DA SOLUÇÃO (IOT)

## Input - Entrada

1. Problema de negócio
    - Selecionar os clientes mais valiosos para integrar um programa de Fidelização
    
2. Conjunto de dados
    - Vendas de um e-commerce online, durante o período de um ano.

## Output - Saída

1. A indicação das pessoas que farão parte do programa de Insiders
    - Lista: client_id | is_insider
                10323  | yes/1
                32413  | no/1
                
2. Relatório com as respostas das perguntas de negócio

    - Quem são as pessoas elegíveis para participar do programa de Insiders ?
    - Quantos clientes farão parte do grupo?
    - Quais as principais características desses clientes ?
    - Qual a porcentagem de contribuição do faturamento, vinda do Insiders ?
    - Qual a expectativa de faturamento desse grupo para os próximos meses ?
    - Quais as condições para uma pessoa ser elegível ao Insiders ?
    - Quais as condições para uma pessoa ser removida do Insiders ?
    - Qual a garantia que o programa Insiders é melhor que o restante da base ?
    - Quais ações o time de marketing pode realizar para aumentar o faturamento?

## Tasks - Tarefas

1. Quem são as pessoas elegíveis para participar do programa de Insiders ?
    - O que é ser elegível? O que são cliente de maior "valor" ?
    - Faturamento:
        - Alto Ticket Médio ( MÉDIA dos preços dos produtos adquiridos )
        - Alto LTV ( Lifetime Value - SOMA de tudo que o cliente gastou )
        - Baixo Recência ( O tempo desde a última compra )
        - Alto Basket size ( Tamanho da cesta de compras )
        - Baixa probabilidade de Churn ( É o período que o cliente passa sem comprar com a empresa / Depende da frequência do negócio | Modelo externo? )
        - Alta Previsão de LTV ( Modelo externo ? )
        - Alta propensão de compra ( Modelo externo ? )
           
    - Custo:
        - Baixa taxa de devolução ( Entra no Business Plan da empresa como taxa% de devolução )
        
    - Experiência de compra:
        - Média alta das avaliações


2. Quantos clientes farão parte do grupo?
    - Número total de clientes
    - % do grupo Insiders
    
3. Quais as principais características desses clientes ?
    - Escrever características do cliente: ( prospectar clientes que são parecidos para marketing, look a like )
        - Idade
        - Localização
    
    - Caraterísticas do consumo
        - Atributos da clusterização
        
4. Qual a porcentagem de contribuição do faturamento, vinda do Insiders ?
    - Faturamento total do ano
    - Faturamento do grupo Insiders
    
5. Qual a expectativa de faturamento desse grupo para os próximos meses ?
    - LTV do grupo Insiders ( Faturamento através do tempo e criar previsão para entendimento do futuro e planejamento )
    - Análise de Cohort ( Marcação do cliente no tempo/produto/grupos/localização - Como o grupo de pessoas marcadas se comportam no período - Planejamento de ações )
        
6. Quais as condições para uma pessoa ser elegível ao Insiders ?
    - Definir a periodicidade ( Qual a periodicidade do modelo, para avaliação grupo Insiders ? | 1 mês, 3 meses )
    - A pessoa precisa ser similar ou parecida com uma pessoa do grupo
    
7. Quais as condições para uma pessoa ser removida do Insiders ?
    - Definir a periodicidade ( Qual a periodicidade do modelo, para avaliação grupo Insiders ? | 1 mês, 3 meses )
    - A pessoa precisa ser desimilar ou não-parecida com uma pessoa do grupo
    
8. Qual a garantia que o programa Insiders é melhor que o restante da base ?
    - Teste A/B
    - Teste A/B Baysiano
    - Teste de hipóteses
    
9. Quais ações o time de marketing pode realizar para aumentar o faturamento?
    - Desconto
    - Preferência de compra
    - Frete
    - Visita a empresa
    - Avaliar com Time de Marketing

## Benchmark de soluções
 - Desk Reserch ( Pesquisa de soluções )

#### RFM MODEL

    1. Recency
        - Tempo desde a última compra
        - Métrica de Responsividade das ações da empresa no cliente
        
    2. Frequency
        - Quantidade de produtos o cliente compra em um certo período
        - Métrica de Engajamento do cliente
        
    3. Monetary
        - Total de gasto, faturamento
        - High-Value purchases

#### RFM MODEL - STEPS


1. RECENCY SCORE

Step 1
- Ordenar os clientes pela coluna Recency, do menor para o maior

Step 2
- Dividire a base de clientes de acordo com as notas.
        i.  Notas de 1-5 ( 5 notas )
        ii. 5 grupos de 20%

---

2. FREQUENCY SCORE

Step 03 
- Ordenar os clientes por frequency
    
Step 04
- Dar as notas

---

3. MONETARY SCORE

Step 05
- Ordenar os clientes por monetary
    
Step 06
- Dar as notas

---

4. RFM SCORE

Step 07
- Calcular a média das notas para R, F, M

---

5. RFM SEGMENTATION

- R - EIXO TEMPO ( x )
- F - EIXO TEMPO ( y )
- M - VALUES - ( cor - segmentação )


6. RFM ANÁLISE

a. Champions
- Compras Recentes, frequentes com alto valor gasto.
- Prêmios para esses clientes

b. Potencial Loyalists
- Compra recentes, boa frequência e bom valor gasto
- Programa de fideizaçção e Upsell

c. New Customers
- Compra recente, baixa frequência
- Construção de relacionamento, ofertas especiais

d. At Risk Customer
- "Faz tempo que não compra"
- Campanhas de reativação, ofertas, produtos

e. Can't lose them
- "Faz tempo que não compra e não visita o site

---

ENTENDIMENTO

1. QUEM SÃO SEUS MELHRORES CLIENTES?
2. QUAIS CLIENTES ESTÃO PRÓXIMOS DO CHURN?
3. QUAIS OS POTENCIAIS CLIENTES PARA ENTRAR NO PROGRAMA DE FIDELIZAÇÃO?
4. QUAIS CLIENTES PRECISAM SER RETIDOS?
5. QUAIS CLIENTES MAIS PROVÁVEIS DE RESPONDER AS CAMPANHAS DE MARKETING?

# 0.0. IMPORTS

In [None]:
!pip install inflection



In [None]:
import pickle

import pandas as pd
import numpy  as np

import seaborn    as sns
#import scikitplot as skplt

from matplotlib import pyplot as plt

from sklearn import preprocessing  as pp
from sklearn import model_selection as ms
from sklearn import ensemble       as en
from sklearn import neighbors      as nh
from sklearn import linear_model   as lm


## 0.1. Helper Functions

In [None]:
def jupiter_settings():
    %matplotlib inline
    %pylab inline
    
    plt.style.use( 'bmh' )
    plt.rcParams['figure.figsize'] = [25, 12]
    plt.rcParams['font.size'] = 24
    
    display( HTML( '<style>.container { width:100% !important; }</style>') )
    pd.options.display.max_columns = None
    pd.options.display.max_rows = None
    pd.set_option( 'display.expand_frame_repr', False )
    
    sns.set()

## 0.2. Loading Data

In [None]:
df1_raw = pd.read_csv( '../input/health-insurance-cross-sell-prediction/train.csv', low_memory=False )

FileNotFoundError: ignored

# 1.0. Data Description

In [None]:
df1 = df1_raw.copy()

## 1.1. Rename Columns

In [None]:
cols_new = ['id', 'gender', 'age', 'driving_license', 'region_code', 'previously_insured', 'vehicle_age', 'vehicle_damage', 
            'annual_premium', 'policy_sales_channel', 'vintage', 'response']

# snakecase = lambda x: inflection.underscore( x )

# cols_new = list( map( snakecase, cols_old) )

df1.columns = cols_new

## 1.2. Data Dimensions

In [None]:
print( 'Number of Rows: {}'.format(df1.shape[0] ) )
print( 'Number of Columns: {}'.format(df1.shape[1] ) )

## 1.3. Data Types

In [None]:
# No need Change Data
df1.dtypes

## 1.4. Check NA

In [None]:
# No need Change NA
df1.isna().sum()

## 1.5. FillOut NA

In [None]:
# No Values NA

## 1.6. Change Data Types

In [None]:
# No need Change Data Types

## 1.7. Descriptive Statistics

In [None]:
num_attributes = df1.select_dtypes( include = ['int64', 'float64'] )
cat_attributes = df1.select_dtypes( exclude = ['int64', 'float64', 'datetime64[ns]'] )

### 1.7.1. Numerical Atributes

In [None]:
# Central Tendency - mean, median
ct1 = pd.DataFrame( num_attributes.apply( np.mean ) ).T
ct2 = pd.DataFrame( num_attributes.apply( np.median ) ).T

# Dispersion - std, min, max, range, skew, kurtosis
d1 = pd.DataFrame( num_attributes.apply( np.std ) ).T
d2 = pd.DataFrame( num_attributes.apply( min ) ).T
d3 = pd.DataFrame( num_attributes.apply( max ) ).T
d4 = pd.DataFrame( num_attributes.apply( lambda x: x.max() - x.min() ) ).T
d5 = pd.DataFrame( num_attributes.apply( lambda x: x.skew() ) ).T
d6 = pd.DataFrame( num_attributes.apply( lambda x: x.kurtosis() ) ).T

# Concatenate
m = pd.concat( [d2, d3, d4, ct1, ct2, d1, d5, d6] ).T.reset_index()
m.columns = ['attributes', 'min', 'max', 'range', 'mean', 'median', 'std', 'skew', 'kurtosis']
m

### 1.7.2.Categorical Atributes

In [None]:
# cat_attributes.apply( lambda x: x.unique().shape[0] )

In [None]:
# plt.figure(figsize=(25, 7))
# plt.subplot( 1, 3, 1 )
# sns.boxplot( x='gender', y='age', data=df1 )

# plt.subplot( 1, 3, 2 )
# sns.barplot( x='vehicle_age', y='age', data=df1);

# plt.subplot( 1, 3, 3 )
# sns.barplot( x='age', y='vehicle_damage', data=df1 )

# 2.0. - FEATURE ENGINEERING

In [None]:
df2 = df1.copy()

In [None]:
df2.head()

In [None]:
# vehicle age
df2['vehicle_age'] = df2['vehicle_age'].apply( lambda x: 'over_2_years' if x == '> 2 Years' else 'between_1_2_years' if x == '1-2 Year' else 'below_1_year' )

# vehicle damage
df2['vehicle_damage'] = df2['vehicle_damage'].apply( lambda x: 1 if x == 'Yes' else 0 )

In [None]:
df2.head()

## 2.1. - Mapa Mental de Hipóteses

## 2.2. - Lista Final de Hipóteses

## 2.3. - Feature Engineering

# 3.0. - DATA FILTERING

In [None]:
df3 = df2.copy()

# 4.0. EDA

In [None]:
df4 = df3.copy()

## 4.1. Univariate Analysis

In [None]:
# age
sns.boxplot( x='response', y= 'age', data=df4 )

In [None]:
aux00 = df4.loc[df4['response'] == 0, 'age']
sns.histplot( aux00 )

In [None]:
aux00 = df4.loc[df4['response'] == 1, 'age']
sns.histplot( aux00 )

In [None]:
# Annual_premium
aux = df4[df4['annual_premium'] < 80000]
sns.boxplot( x='response', y= 'annual_premium', data=aux )

In [None]:
aux = df4[ (df4['annual_premium'] > 10000 ) & ( df4['annual_premium'] < 80000 ) ]
aux00 = aux.loc[df4['response'] == 0, 'annual_premium']
sns.histplot( aux00 )

In [None]:
# aux = df4[ (df4['annual_premium'] > 10000 ) & ( df4['annual_premium'] < 80000 ) ]
aux00 = aux.loc[df4['response'] == 1, 'annual_premium']
sns.histplot( aux00 )

In [None]:
# driving_license
aux = df4[['driving_license', 'response']].groupby( 'response' ).sum().reset_index()
aux['driving_licence_perc'] = aux['driving_license'] / aux['driving_license'].sum()
#  sns.barplot( x='response', y='driving_license', data=aux )


In [None]:
aux

In [None]:
# region_code
ax0 = df4[['id', 'region_code', 'response']].groupby( ['region_code', 'response'] ).count().reset_index()
sns.scatterplot( x='region_code', y='id', hue='response', data=ax0 )

In [None]:
# gender
# sns.boxplot( x='response', y='age', data=df6 )

In [None]:
# previously_insured
pd.crosstab( df4['previously_insured'], df4['response'] ).apply( lambda x: x / x.sum(), axis=1 )

In [None]:
# vehicle age
df4[['vehicle_age', 'response']].value_counts( normalize=True ).reset_index()

In [None]:
# policy_sales_channel
plt.figure( figsize=( 24, 12 ) )
aux = df4[['policy_sales_channel', 'response']].groupby( 'policy_sales_channel' ).sum().reset_index()
sns.barplot( x='response', y='policy_sales_channel', data=aux )

In [None]:
# vintage
sns.boxplot( x='response', y= 'vintage', data=df4 )

In [None]:
aux00 = df4.loc[df4['response'] == 0, 'vintage']
sns.histplot( aux00 )

In [None]:
aux00 = df4.loc[df4['response'] == 1, 'vintage']
sns.histplot( aux00 )

# 5.0. DATA PREPARATION

In [None]:
df5 = df4.copy()

## 5.1. Split DataSet (Train / Validation )

In [None]:
# Dropando variável resposta do DataSet
X = df4.drop( 'response', axis= 1 )

# Definindo a variável resposta como 'Y'
y = df4['response'].copy()

# separando 20% do dataset para validação e treino
x_train, x_validation, y_train, y_validation = ms.train_test_split( X, y, test_size=0.20 )

df5 = pd.concat( (x_train, y_train), axis=1 )

## 5.2. Standardization

In [None]:
ss = pp.StandardScaler()

# annual_premium ( retirando o outlier, parece uma distribuição normal. - Não vamos tratar outlier nesse momento e usaremos a variável original )
df5['annual_premium'] = ss.fit_transform( df5[['annual_premium']].values )

# save pickle
pickle.dump( ss, open( "./annual_premium_scaler.pkl", 'wb' ) )

## 5.3. Rescaling

In [None]:
mms_age = pp.MinMaxScaler()
mms_vintage = pp.MinMaxScaler()

# age ( variável contínua, não é próxima de uma normal, então candidata à fazer reescala )
df5['age'] = mms_age.fit_transform( df5[['age']].values )
pickle.dump( mms_age, open( "./age_scaler.pkl", 'wb' ) )

# vintage ( contínua em número de dias. - candidata à reescala )
df5['vintage'] = mms_vintage.fit_transform( df5[['vintage']].values )
pickle.dump( mms_vintage, open( "./vintage_scaler.pkl", 'wb' ) )

## 5.4. Encoder

In [None]:
# gender
        # One Hot Encoding - Se na linha tiver a presença da variável ele conta '1', se não tiver conta '0'
        # Target Encoding - Conta a quantidade por classe e divide pelo total de todas as classes

    # Target Encoding    
target_encode_gender = df5.groupby( 'gender' )['response'].mean()
df5.loc[:, 'gender'] = df5['gender'].map( target_encode_gender )
pickle.dump( target_encode_gender, open( "./target_encode_gender_scaler.pkl", 'wb' ) )


# region_code ( categórica - encodar )
        # Frequency Encoding - Conta a frequência de cada variavel por classe
        # Target Encoding - Conta a quantidade por classe e divide pelo total de todas as classes
        # Weighted Target Encoding - Dar um peso manualmente para a variável ( menor o peso dado, mais distante fica da média )
    
    # Target Encoding
target_encode_region_code = df5.groupby( 'region_code' )['response'].mean()
df5.loc[:, 'region_code'] = df5['region_code'].map( target_encode_region_code )
pickle.dump( target_encode_region_code, open( "./target_encode_region_code_scaler.pkl", 'wb' ) )
        
        
        
# vehicle_age ( variável categórica que fornece idade do carro, não é data exata - encondar )
        # One Hot Encoding - Se na linha tiver a presença da variável ele conta '1', se não tiver conta '0'
        # Order Encoding - Quando os dados tem uma ordem ( risco por não ser uma data exata )
        # Frequency Encoding - Conta a frequência de cada variavel por classe
        
    # One Hot Encoding
df5 = pd.get_dummies( df5, prefix='vehicle_age', columns=['vehicle_age'] )


# policy_sales_channel
        # Target Encoding - Conta a quantidade por classe e divide pelo total de todas as classes
        # Frequency Encoding - Conta a frequência de cada variavel por classe
        
    # Frequency Encoding
fe_policy_sales_channel = df5.groupby( 'policy_sales_channel' ).size() / len( df5 ) # size = contar quantos exemplos no agrupamento
df5.loc[:, 'policy_sales_channel'] = df5['policy_sales_channel'].map( fe_policy_sales_channel )
pickle.dump( fe_policy_sales_channel, open( "./fe_policy_sales_channel_scaler.pkl", 'wb' ) )

## 5.5. Validation Preparation

In [None]:
# gender
x_validation.loc[:, 'gender'] = x_validation.loc[:, 'gender'].map( target_encode_gender )

# age
x_validation.loc[:, 'age'] = mms_age.transform( x_validation[['age']].values )

# region_code
x_validation.loc[:, 'region_code'] = x_validation.loc[:, 'region_code'].map( target_encode_region_code )

# vehicle_age
x_validation = pd.get_dummies( x_validation, prefix='vehicle_age', columns=['vehicle_age'] )

# annual_premium
x_validation.loc[:, 'annual_premium'] = ss.transform( x_validation[['annual_premium']].values )

# policy_sales_channel
x_validation.loc[:, 'policy_sales_channel'] = x_validation['policy_sales_channel'].map( fe_policy_sales_channel )

# vintage
x_validation.loc[:, 'vintage'] = mms_vintage.transform( x_validation[['vintage']].values )

# Fillna
x_validation = x_validation.fillna( 0 )


# 6.0. FEATURE SELECTION

In [None]:
# Não utilizamos o boruta, pois este selecionou apenas 1,2 features. 
# no caso, partimos para a importância das arvores, e vamos utilizar Extra Trees porque é mais rápida, e assim treinamos para identificar as melhores features para o modelo.

## 6.1. Features Importance

In [None]:
# Model Definition
forest = en.ExtraTreesClassifier( n_estimators= 250, random_state=0, n_jobs=-1 )

# Data preparation
x_train_n = df5.drop( ['id','response'], axis=1 )
y_train_n = y_train.values

# Model fit4
forest.fit( x_train_n, y_train_n )

In [None]:
importances = forest.feature_importances_
std = np.std( [tree.feature_importances_ for tree in forest.estimators_], axis=0 )
indices = np.argsort(importances)[::-1]

# Print feature ranking
print("Feature Ranking:")
df = pd.DataFrame()
for i, j in zip( x_train_n, forest.feature_importances_ ):
    aux = pd.DataFrame( {'feature': i, 'importance': j}, index=[0] )
    df=pd.concat( [df, aux], axis=0 )

print( df.sort_values( 'importance', ascending=False ) )

# Plot the impurity-based feature importance of the forest
plt.figure()
plt.title("Feature Importances")
plt.bar(range(x_train_n.shape[1]), importances[indices], color="r", yerr=std[indices], align="center")
plt.xticks(range(x_train_n.shape[1]), indices )
plt.xlim([-1, x_train_n.shape[1]])
plt.show

# 7.0. MACHINE LEARNING

In [None]:
cols_selected = ['vintage', 'annual_premium', 'age', 'region_code', 'vehicle_damage', 'policy_sales_channel', 'previously_insured']

x_train = df5[ cols_selected ]
x_val = x_validation[ cols_selected ]
y_val = y_validation.copy()

## 7.1. KNN

In [None]:
# model definition
knn_model = nh.KNeighborsClassifier ( n_neighbors=7 )

# model fit
knn_model.fit( x_train, y_train )

# model prediction - Mede o poder de generalização do modelo e não o aprendizado
yhat_knn = knn_model.predict_proba( x_val )

In [None]:
# Acumulative Gain - Métrica de ordenação
skplt.metrics.plot_cumulative_gain( y_val, yhat_knn );

## 7.2. Logistic Regression

In [None]:
# model definition
lr_model = lm.LogisticRegression( random_state=42 )

# model fit
lr_model.fit( x_train, y_train )

# model predict
yhat_lr = lr_model.predict_proba( x_val )

In [None]:
# Acumulative Gain - Métrica de ordenação
skplt.metrics.plot_cumulative_gain( y_val, yhat_lr );

## 7.3. Extra Trees

In [None]:
# model definition
# et = en.ExtraTreesClassifier( n_estimators = 1000, n_jobs=-1, random_state=42 )

# model fit
# et.fit( x_train, y_train )

# model predict
# yhat_et = et.predict_proba( x_val )

In [None]:
# Acumulative Gain - Métrica de ordenação
# skplt.metrics.plot_cumulative_gain( y_val, yhat_et );

# 8.0. MODEL PERFORMANCE

In [None]:
def precision_at_k( data, k=2000 ):
    # reset index
    data = data.reset_index( drop=True)

    # create ranking order
    data['ranking'] = data.index + 1

    data['precision_at_k'] = data['response'].cumsum() / data['ranking'] #cumsum = soma acumulada

    return data.loc[k, 'precision_at_k']

In [None]:
def recall_at_k( data, k=2000 ):
    # reset index
    data = data.reset_index( drop=True )

    # create ranking order
    data['ranking'] = data.index + 1

    data['recall_at_k'] = data['response'].cumsum() / data['response'].sum()

    return data.loc[k, 'recall_at_k']

In [None]:
# copy data
df8 = x_validation.copy()
df8['response'] = y_validation.copy()

# propensity score
df8['score'] = yhat_knn[:, 1].tolist() # tranformando em array

#sorted clients by propensity score
df8 = df8.sort_values( 'score', ascending=False ) # ordenando a lista pelo propensity_score

# compute precision at k
precision_at_50 = precision_at_k( df8, k=50)
print( 'Precision at k: {}'.format( precision_at_50 ) )

# compute recall at k
recall_at_50 = recall_at_k( df8, k=50)
print( 'Recall at k: {}'.format( recall_at_50 ) )

# 9.0. DEPLOY TO PRODUCTION

In [None]:
# Saved Trained Model
pickle.dump( lr_model, open( "./model_linear_regression.pkl", 'wb' ) )

In [None]:
import pickle
import numpy as np
import pandas as pd 

class HeathInsurence:
    def __init__( self ):
        self.home_path = "./model_linear_regression.pkl"
        self.annual_premium_scaler =          pickle.load( open( self.home_path + "./annual_premium_scaler.pkl" )) 
        self.age_scaler =                     pickle.load( open( self.home_path + "./age_scaler.pkl" ))
        self.vintage_scaler =                 pickle.load( open( self.home_path + "./vintage_scaler.pkl" ))
        self.target_encode_gender_scaler =    pickle.load( open( self.home_path + "./target_encode_gender_scaler.pkl" ))
        self.target_region_code_scaler =      pickle.load( open( self.home_path + "./target_encode_region_code_scaler.pkl" ))
        self.fe_police_sales_chanel_scaler =  pickle.load( open( self.home_path + "./fe_policy_sales_channel_scaler.pkl" ))     
        
    def data_cleaning( df1 ):
        ## 1.1. Rename Columns
        cols_new = ['id', 'gender', 'age', 'driving_license', 'region_code', 'previously_insured', 'vehicle_age', 'vehicle_damage', 
                    'annual_premium', 'policy_sales_channel', 'vintage', 'response']
        df1.columns = cols_new
        
        return df1
    
    
    def feature_engineering( df2 ):
        # vehicle age
        df2['vehicle_age'] = df2['vehicle_age'].apply( lambda x: 'over_2_years' if x == '> 2 Years' else 'between_1_2_years' if x == '1-2 Year' else 'below_1_year' )

        # vehicle damage
        df2['vehicle_damage'] = df2['vehicle_damage'].apply( lambda x: 1 if x == 'Yes' else 0 )
    
        return df2
    
    
    def data_preparation( df5 ):
        # annual_premium - StandardScaler
        df5['annual_premium'] = self.annual_premium_scaler.transform( df5[['annual_premium']].values )

        # age - MinMaxScaler
        df5['age'] = self.age_scaler.transform( df5[['age']].values )
        
        # vintage - MinMaxScaler
        df5['vintage'] = self.vintage_scaler.transform( df5[['vintage']].values )
        
        # gender - Target Encoding
        df5.loc[:, 'gender'] = df5['gender'].map( self.target_encode_gender_scaler )
        
        # region_code - Target Encoding
        df5.loc[:, 'region_code'] = df5['region_code'].map( self.target_encode_region_code_scaler )
        
        # vehicle_age - One Hot Encoding
        df5 = pd.get_dummies( df5, prefix='vehicle_age', columns=['vehicle_age'] )

        # policy_sales_channel - Frequency Encoding
        df5.loc[:, 'policy_sales_channel'] = df5['policy_sales_channel'].map( self.fe_policy_sales_channel_scaler )
        
        # 6.0. FEATURE SELECTION
        cols_selected = ['vintage', 'annual_premium', 'age', 'region_code', 'vehicle_damage', 'policy_sales_channel', 'previously_insured']

        return df5[ cols_selected ]
    
    
    def get_prediction( self, model, original_data, test_data ):
        # model prediction
        pred = model.predict_proba( test_data )
        
        # Join predict into original data
        original_data['score'] = pred
        
        return original_data.to_json( orient='records', data_format='iso')