### **Default Predict model Demo**  
---

In [None]:
import pandas as pd
import ydata_profiling
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns 
%matplotlib inline
from sklearn.feature_selection import f_classif, mutual_info_classif
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.model_selection import cross_validate
from mlxtend.feature_selection import ExhaustiveFeatureSelector as EFS
from math import log as log
import os
import mlflow
# Отключение ворнингов с самоподписными сертификатами для demo стенда
import urllib3
urllib3.disable_warnings()


pd.options.mode.chained_assignment = None

# этот блок закомментирован так как используется только на kaggle
#for dirname, _, filenames in os.walk('/kaggle/input'):
#    for filename in filenames:
#        print(os.path.join(dirname, filename))
#PATH_to_file = '/kaggle/input/sf-dst-scoring/'

# # # этот блок закомментирован так как используется только локальной машине
from importlib import reload
print(os.listdir('./data'))
PATH_to_file = './data/'

In [None]:
import utils_module28072020 as utils

In [None]:
RANDOM_SEED = 42
!pip freeze > requirements.txt
CURRENT_DATE = pd.to_datetime('11/08/2020')

## 2. Импорт данных

In [None]:
df_train = pd.read_csv(PATH_to_file+'train.csv')
df_test = pd.read_csv(PATH_to_file+'test.csv')
pd.set_option('display.max_columns', None)
print('Размерность тренировочного датасета: ', df_train.shape)
display(df_train.head(2))
print('Размерность тестового датасета: ', df_test.shape)
display(df_test.head(2))

In [None]:
# ВАЖНО! для корректной обработки признаков объединяем трейн и тест в один датасет
df_train['Train'] = 1 # помечаем где у нас трейн
df_test['Train'] = 0 # помечаем где у нас тест

df = df_train.append(df_test, sort=False).reset_index(drop=True) # объединяем
#!Обратите внимание объединение датасетов является потенциальной опасностью для даталиков

In [None]:
 # временной ряд (1)
time_cols = ['app_date']
# бинарные переменные (default не включаем в список) (5+1 = 6)
bin_cols = ['sex', 'car', 'car_type', 'good_work', 'foreign_passport']
# категориальные переменные (Train не включаем в список, так как мы сами его добавили) (3+1=4)
cat_cols = ['education', 'region_rating', 'home_address', 'work_address', 'sna', 'first_time']
# числовые переменные, client_id исключили из списка (8)
num_cols = ['age','decline_app_cnt','score_bki','bki_request_cnt','income','days']
# client_id не включаем в списки

### Приведение признаков к целевому виду

In [None]:
df['age'] = np.log(df['age'] + 1)
df['decline_app_cnt'] = np.log(df['decline_app_cnt'] + 1)
df['bki_request_cnt'] = np.log(df['bki_request_cnt'] + 1)
df['income'] = np.log(df['income'] + 1)
df['education'] = df['education'].fillna('SCH')
df.app_date = pd.to_datetime(df.app_date, format='%d%b%Y')

start = df.app_date.min()
end = df.app_date.max()
df['days'] = (df.app_date - start).dt.days.astype('int')

In [None]:
df

---
### Оценка корреляций

In [None]:
utils.simple_heatmap('Матрица корреляции тренировочного датасета на числовых переменных',df[df['Train']==1], num_cols+['default'], 1.1, 1, 9)

***Резюме*** - сильно скорелированных между собой признаков нет, все берем в работу

### Значимость непрерывных переменных по ANOVA F test

In [None]:
temp_df = df[df['Train']==1]
imp_num = pd.Series(f_classif(temp_df[num_cols], temp_df['default'])[0], index = num_cols)
imp_num.sort_values(inplace = True)
imp_num.plot(kind = 'barh', title='Значимость непрерывных переменных по ANOVA F test')

***Резюме*** - оценка плательщика БКИ (score_bki) самый значимый показатель по ANOVA F test, потом кол-во отказанных заявок (declain_app_cnt) и в конце возраст (age)

### Посмотрим на значимость категориальных и бинарных переменных 

In [None]:
label_encoder = LabelEncoder()
df['education_l'] = label_encoder.fit_transform(df['education'])

# паралельно подготовим бинарные переменные и переведем их в числовой формат
# для бинарных признаков мы будем использовать LabelEncoder
label_encoder = LabelEncoder()
for column in bin_cols:
    df[column] = label_encoder.fit_transform(df[column])
    
# тут могут быть потенциальные даталики, но мы пока не придумали как это обработать,
# потому что далее по этим меткам формируются новые фичи по get_dummies

all_cat_and_bin_cols = cat_cols+bin_cols
all_cat_and_bin_cols.remove('education')
all_cat_and_bin_cols.append('education_l')
print(all_cat_and_bin_cols)

temp_df = df[df['Train']==1]
imp_cat = pd.Series(mutual_info_classif(temp_df[all_cat_and_bin_cols], temp_df['default'], discrete_features =True), index = all_cat_and_bin_cols)
imp_cat.sort_values(inplace = True)
imp_cat.plot(kind = 'barh', title = 'Значимость бин. и категор. переменных по Mutual information test')

***Резюме*** - Самым значимым признаком по Mutual information тесту является связь заемщика с клиентами банка (sna) и давность наличия информации о заемщике (first_time), потом идет рейтинг региона (region_rating) и в конце пол (sex).

## 3. Подготовка данных к машинному обучению
---

### Категориальные признаки

In [None]:
# реализуем метод OneHotLabels через get_dummies
df=pd.get_dummies(df, prefix=cat_cols, columns=cat_cols)

### Стандартизация

In [None]:
# стандартизацию проводим отдельно для трейна и теста, чтобы не допустить даталиков
utils.StandardScaler_df_and_filna_0(df[df['Train']==1], num_cols)

utils.StandardScaler_df_and_filna_0(df[df['Train']==0], num_cols)

### Удаление нечисловых критериев

In [None]:
df.drop(['app_date', 'education_l'], axis=1, inplace=True)

## 4. Построение модели
---
### Разбиваем датасет на тренировочный и тестовый

In [None]:
train_data = df.query('Train == 1').drop(['Train', 'client_id'], axis=1)
test_data = df.query('Train == 0').drop(['Train', 'client_id'], axis=1)

y = train_data.default.values            # наш таргет
X = train_data.drop(['default'], axis=1)

In [None]:
# Воспользуемся специальной функцие train_test_split для разбивки тестовых данных
# выделим 20% данных на валидацию (параметр test_size)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_SEED)

In [None]:
# проверяем
test_data.shape, train_data.shape, X.shape, X_train.shape, X_test.shape

### Создаём эксперимент в MLFLow

In [None]:
mlflow.set_experiment('default-predict') 

### Обучаем модель, генерируем результат и сравниваем с тестом

In [None]:
# первая модель на автомате
model = LogisticRegression(random_state=RANDOM_SEED)

model.fit(X_train, y_train)

y_pred_prob = model.predict_proba(X_test)[:,1]
y_pred = model.predict(X_test)

### Оценка качества модели
---
### Качественные метрики

In [None]:
# в первый раз инициируем глобальную переменную с предыдущим скором
utils.last_pred = np.zeros((3,len(y_test)))

In [None]:
utils.test_last_pred(y_test, y_pred, y_pred_prob) if (utils.last_pred[0].max() == 0) else 0
utils.all_metrics(y_test, y_pred, y_pred_prob)

### Матрица ошибок

In [None]:
utils.confusion_matrix_f(['Дефолтный','Не дефолтный'], y_test, y_pred, 1.2, normalize=False)

### ROC кривая

In [None]:
utils.ROC_curve_with_area(y_test, y_pred_prob, 1.1)

***Резюме*** - прекрасный пример несостоятельности метрики ROC-AUC на не сбалансированных данных. Мы абсолютно не угадали дефолтных клиентов, тем самым обеспечили себе огромную ошибку второго рода и как следствие колосальный убыток, но ROC-AUC у нас высокий. Благо f1 как-то сигнализирует о том что что-то не впорядке. Надо посмотреть на метрику которая может оценивать эффективность алгоритма на несбалансированных данных - PRC-AUC.

### Precision-Recall кривая

In [None]:
utils.PR_curve_with_area(y_test, y_pred, 1.1)

### Сохранение метрик, артефактов и графиков в MLFLow

In [None]:
from sys import version_info
#import feast
import sklearn
import numpy
import dill
import joblib

conda_env={
    'channels': ['defaults'],
    'dependencies': [
      'python=3.8.10',
      'pip>=22.0, <24.0',
      'setuptools>=58.0, <72.0',
      {
        'pip': [
          'mlflow=={}'.format(mlflow.__version__),
          'numpy=={}'.format(numpy.__version__),
          'scikit-learn=={}'.format(sklearn.__version__),
          'joblib=={}'.format(joblib.__version__),
          'dill=={}'.format(dill.__version__),
        ],
      },
    ],
    'name': 'demo_env'
}

In [None]:
eval_data = X_test.copy()
eval_data["target"] = y_test
git_commit_id = os.popen('git rev-parse HEAD').read().strip('\n')
git_branch = os.popen('git rev-parse --abbrev-ref HEAD').read().strip('\n')
git_remote_url = os.popen('git remote get-url origin').read().strip('\n')

with mlflow.start_run() as run:
   model_info = mlflow.sklearn.log_model(model, "model", conda_env=conda_env)
   mlflow.set_tag("mlflow.source.type", "JOB")
   mlflow.set_tag("mlflow.source.name", git_remote_url)
   mlflow.set_tag("mlflow.source.git.commit", git_commit_id)
   mlflow.set_tag("mlflow.source.git.branch", git_branch)
   mlflow.set_tag("mlflow.source.git.repoURL", git_remote_url)
   result = mlflow.evaluate(
       model_info.model_uri,
       eval_data,
       targets="target",
       model_type="classifier",
       dataset_name="default-predict",
       evaluators="default",
       evaluator_config={"explainability_nsamples": 1000},
   )

### Кросс-валидация

In [None]:
temp_vec = cross_validate(model, X_test, y_test, cv=10, scoring='roc_auc', return_train_score=True)
utils.vis_cross_val_score('ROC-AUC', temp_vec, 0.744846, 1.1)

***Резюме*** - модель, которую мы получили, очень плохая, несмотря на то, что целевая метрика ROC-AUC достаточно высокая (=0.745).  
Потому что:
- Из матрицы ошибок видно, что мы почти не угадываем дефолтных клиентов (38 из 1789). Об этом также свидетествует метрика полнота recall = 0.020799, которая собственно описывает этот момент. Таким образом все клиенты попали в ошибку второго рода, а это очень плохо для банка, так как мы будем выдавать кредиты людям которые их не смогут вернуть - риск потерять все деньги. 
- Но целевая переменная площадь под ROC кривой оказалась не такой уж плохой. Дело в том, что эта кривая плохо оценивает эффективность алгоритма на несбалансированных данных, поэтому мы добавили Precision-Recall кривую и увидели что эффективность нашего алгоритма оставляет желать лучшего.  

Кросс валидация показала дисперсию ошибки на тесте 0.014 и так как мы не использовали перемешивания, то можно сказать что модель лучше работает на крайних фолдах, чем на средних. В анализе признака data приводилась аналитика, которая говорила о том что вероятно в середине периода в банке проводилась какая-то акция и порог выдачи кредита снижался. Но мы в своей работе стремились создать надежный алгоритм который снижает ошибку второго рода (снижает потери банка) и достаточно стабильно работает (f1, PRC_AUC) при оптимальных значениях точности, а не гнались за просто высоким результатом на лидерборде.

### Поиск оптимальных параметров модели

In [None]:
# запускаем GridSearch на небольшом кол-ве итераций max_iter=50 и с достаточно большой дельтой останова tol1e-3
# чтобы получить оптимальные параметры модели в первом приближении
model = LogisticRegression(random_state=RANDOM_SEED)

iter_ = 50
epsilon_stop = 1e-3

param_grid = [
    {'penalty': ['l1'], 
     'solver': ['liblinear', 'lbfgs'], 
     'class_weight':['none', 'balanced'], 
     'multi_class': ['auto','ovr'], 
     'max_iter':[iter_],
     'tol':[epsilon_stop]},
    {'penalty': ['l2'], 
     'solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'], 
     'class_weight':['none', 'balanced'], 
     'multi_class': ['auto','ovr'], 
     'max_iter':[iter_],
     'tol':[epsilon_stop]},
    {'penalty': ['none'], 
     'solver': ['newton-cg', 'lbfgs', 'sag', 'saga'], 
     'class_weight':['none', 'balanced'], 
     'multi_class': ['auto','ovr'], 
     'max_iter':[iter_],
     'tol':[epsilon_stop]},
]
gridsearch = GridSearchCV(model, param_grid, scoring='f1', n_jobs=-1, cv=5)
gridsearch.fit(X_train, y_train)
model = gridsearch.best_estimator_
##печатаем параметры
best_parameters = model.get_params()
for param_name in sorted(best_parameters.keys()):
        print('\t%s: %r' % (param_name, best_parameters[param_name]))
    ##печатаем метрики
preds = model.predict(X_test)
print('Accuracy: %.4f' % accuracy_score(y_test, preds))
print('Precision: %.4f' % precision_score(y_test, preds))
print('Recall: %.4f' % recall_score(y_test, preds))
print('F1: %.4f' % f1_score(y_test, preds))

***Резюме*** - метрика f1 подросла почти в 10 раз, что вселяет надежду на то, что модель теперь будет работать эффективнее. Построим модель на этих параметрах и посмотрим, но сначала заново пересоберем трейн и тест перемешав выборку

In [None]:
# вторая модель на параметрах после первой оптимизации
model = LogisticRegression(random_state=RANDOM_SEED, 
                           C=1, 
                           class_weight= 'balanced', 
                           dual= False, 
                           fit_intercept= True, 
                           intercept_scaling= 1, 
                           l1_ratio= None, 
                           multi_class= 'auto', 
                           n_jobs= None, 
                           penalty= 'l2', 
                           solver = 'sag', 
                           verbose= 0, 
                           warm_start= False)

model.fit(X_train, y_train)

y_pred_prob = model.predict_proba(X_test)[:,1]
y_pred = model.predict(X_test)

### Сохраняем данные о модели в MLFLow

In [None]:
with mlflow.start_run() as run:
   model_info = mlflow.sklearn.log_model(model, "model", conda_env=conda_env)
   result = mlflow.evaluate(
       model_info.model_uri,
       eval_data,
       targets="target",
       model_type="classifier",
       dataset_name="default-predict",
       evaluators="default",
       evaluator_config={"explainability_nsamples": 1000},
   )

### Оценка качества модели на оптимальных параметрах 

In [None]:
utils.test_last_pred(y_test, y_pred, y_pred_prob) if (utils.last_pred[0].max() == 0) else 0
utils.all_metrics(y_test, y_pred, y_pred_prob)

***Резюме*** - все метрики подросли по сравнению с первой моделью, кроме accuracy и precision. Но зато сбалансированная accuracy выросла и мы можем ожидать не такой провал по ошибке второго рода как на первой модели. Ну и точность модели precision просела тоже в том числе потому что модель стала работать лучше и в FP полились клиенты из TN. Посмотрим матрицу ошибок и убедимся в этом

In [None]:
utils.confusion_matrix_f(['Дефолтный','Не дефолтный'], y_test, y_pred, 1.2, normalize=False)

In [None]:
utils.ROC_curve_with_area(y_test, y_pred_prob, 1.1)

In [None]:
utils.PR_curve_with_area(y_test, y_pred, 1.1)

***Резюме*** - эффективность алгоритма подросла и теперь более менее хорошо ведет себя на несбалансированных данных. Проверим это с помощью кросс-валидации

### Кросс-валидация

In [None]:
temp_vec = cross_validate(model, X_test, y_test, cv=10, scoring='roc_auc', return_train_score=True)
utils.vis_cross_val_score('ROC-AUC', temp_vec, 0.744223, 1.1)

Резюме - Видно что при разбиении на 10 фолдов ROC-AUC меняется не сильно, есть один провал до 0.716. Среднее по фолдам примерно равно предсказанному значению до кроссвалидации 0.744, дисперсия 0.015, поэтому можно попробовать докрутить параметры и провести отбор признаков. Также можно попробовать прокрутить модель на регуляризации первого порядка l1 и попробовать избавиться от каких-нибудь признаков, которые не нравятся модели.

In [None]:
{
  "data": {
    "names": ["sex", "age", "car", "car_type", "decline_app_cnt", "good_work",
       "score_bki", "bki_request_cnt", "income", "foreign_passport", "days",
       "education_ACD", "education_GRD", "education_PGR", "education_SCH",
       "education_UGR", "region_rating_20", "region_rating_30",
       "region_rating_40", "region_rating_50", "region_rating_60",
       "region_rating_70", "region_rating_80", "home_address_1",
       "home_address_2", "home_address_3", "work_address_1", "work_address_2",
       "work_address_3", "sna_1", "sna_2", "sna_3", "sna_4", "first_time_1",
       "first_time_2", "first_time_3", "first_time_4"],
    "tensor": {
      "shape": [
        1,
        37
      ],
      "values": [
 0,
 3.4011973816621555,
 0,
 0,
 0.6931471805599453,
 0,
 1.19598062,
 1.3862943611198906,
 10.043292972227004,
 0,
 73,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1
      ]
    }
  }
}

In [None]:
raise SystemExit("Stop right there!")

# Feast Demo

###  Установка библиотек

In [None]:
pip install feast==0.26.0 feast-cassandra psycopg2-binary dask[dataframe] boto3

In [None]:
import os
import warnings

warnings.filterwarnings('ignore')

feature_store_folder_name = os.environ.get("PROJECT_NAME")

In [None]:
!rm -rf dags

In [None]:
!mkdir -p $PROJECT_NAME

In [None]:
from datetime import timedelta

from feast import (Entity, Field, FeatureView, ValueType, FeatureService)
from feast.types import Int64, String, Float64
from feast.infra.offline_stores.contrib.postgres_offline_store.postgres_source import (
    PostgreSQLSource,
)

zipcode = Entity(name="zipcode", value_type=ValueType.INT64)

zipcode_source = PostgreSQLSource(
    name="zipcode",
    query="SELECT * FROM zipcode",
    timestamp_field="event_timestamp",
    created_timestamp_column="created_timestamp",
)

zipcode_features = FeatureView(
    name="zipcode_features",
    entities=[zipcode],
    ttl=timedelta(days=3650),
    schema=[
        Field(name="city", dtype=String),
        Field(name="state", dtype=String),
        Field(name="location_type", dtype=String),
        Field(name="tax_returns_filed", dtype=Int64),
        Field(name="population", dtype=Int64),
        Field(name="total_wages", dtype=Int64),
    ],
    source=zipcode_source,
)

dob_ssn = Entity(
    name="dob_ssn",
    value_type=ValueType.STRING,
    description="Date of birth and last four digits of social security number",
)

credit_history_source = PostgreSQLSource(
    name="credit_history",
    query="SELECT * FROM credit_history",
    timestamp_field="event_timestamp",
    created_timestamp_column="created_timestamp",
)

credit_history = FeatureView(
    name="credit_history",
    entities=[dob_ssn],
    ttl=timedelta(days=300),
    schema=[
        Field(name="credit_card_due", dtype=Int64),
        Field(name="mortgage_due", dtype=Int64),
        Field(name="student_loan_due", dtype=Int64),
        Field(name="vehicle_loan_due", dtype=Int64),
        Field(name="hard_pulls", dtype=Int64),
        Field(name="missed_payments_2y", dtype=Int64),
        Field(name="missed_payments_1y", dtype=Int64),
        Field(name="missed_payments_6m", dtype=Int64),
        Field(name="bankruptcies", dtype=Int64),
    ],
    source=credit_history_source,
)

client_source = PostgreSQLSource(
    name="client_stats",
    query="""SELECT dob_ssn, CAST(date AS timestamp) AS event_timestamp, 
    SUM(income) OVER(
        PARTITION BY dob_ssn
        ORDER BY date ASC
        RANGE BETWEEN INTERVAL '11' MONTH PRECEDING AND CURRENT ROW
    ) AS incomeAmount12M,
    MAX(date) OVER(
        PARTITION BY dob_ssn
        ORDER BY date ASC
        RANGE BETWEEN INTERVAL '11' MONTH PRECEDING AND CURRENT ROW
    ) AS created_timestamp
    FROM income_history""",
    timestamp_field="event_timestamp",
    created_timestamp_column="created_timestamp",
)

id_entity = Entity(
    name="dob_ssn",
    value_type=ValueType.STRING)

scoring_features = FeatureView(
    name="client_features",
    entities=[
        id_entity,
    ],
    ttl=timedelta(days=3650),
    schema=[
        Field(name="incomeamount12m", dtype=Float64),
    ],
    source=client_source,
)

feature_service = FeatureService(
    name='loan_features',
    features=[zipcode_features, credit_history, scoring_features]
)

In [None]:
# try with feast-hive
features = f"""
from datetime import timedelta

from feast import (Entity, Field, FeatureView, ValueType, FeatureService)
from feast.types import Int64, String, Float64
from feast.infra.offline_stores.contrib.postgres_offline_store.postgres_source import (
    PostgreSQLSource,
)

zipcode = Entity(name="zipcode", value_type=ValueType.INT64)

zipcode_source = PostgreSQLSource(
    name="zipcode",
    query="SELECT * FROM zipcode",
    timestamp_field="event_timestamp",
    created_timestamp_column="created_timestamp",
)

zipcode_features = FeatureView(
    name="zipcode_features",
    entities=[zipcode],
    ttl=timedelta(days=3650),
    schema=[
        Field(name="city", dtype=String),
        Field(name="state", dtype=String),
        Field(name="location_type", dtype=String),
        Field(name="tax_returns_filed", dtype=Int64),
        Field(name="population", dtype=Int64),
        Field(name="total_wages", dtype=Int64),
    ],
    source=zipcode_source,
)

dob_ssn = Entity(
    name="dob_ssn",
    value_type=ValueType.STRING,
    description="Date of birth and last four digits of social security number",
)

credit_history_source = PostgreSQLSource(
    name="credit_history",
    query="SELECT * FROM credit_history",
    timestamp_field="event_timestamp",
    created_timestamp_column="created_timestamp",
)

credit_history = FeatureView(
    name="credit_history",
    entities=[dob_ssn],
    ttl=timedelta(days=300),
    schema=[
        Field(name="credit_card_due", dtype=Int64),
        Field(name="mortgage_due", dtype=Int64),
        Field(name="student_loan_due", dtype=Int64),
        Field(name="vehicle_loan_due", dtype=Int64),
        Field(name="hard_pulls", dtype=Int64),
        Field(name="missed_payments_2y", dtype=Int64),
        Field(name="missed_payments_1y", dtype=Int64),
        Field(name="missed_payments_6m", dtype=Int64),
        Field(name="bankruptcies", dtype=Int64),
    ],
    source=credit_history_source,
)

client_source = PostgreSQLSource(
    name="client_stats",
    query=\"\"\"SELECT dob_ssn, CAST(date AS timestamp) AS event_timestamp, 
    SUM(income) OVER(
        PARTITION BY dob_ssn
        ORDER BY date ASC
        RANGE BETWEEN INTERVAL '11' MONTH PRECEDING AND CURRENT ROW
    ) AS incomeAmount12M,
    MAX(date) OVER(
        PARTITION BY dob_ssn
        ORDER BY date ASC
        RANGE BETWEEN INTERVAL '11' MONTH PRECEDING AND CURRENT ROW
    ) AS created_timestamp
    FROM income_history\"\"\",
    timestamp_field="event_timestamp",
    created_timestamp_column="created_timestamp",
)

id_entity = Entity(
    name="dob_ssn",
    value_type=ValueType.STRING)

scoring_features = FeatureView(
    name="client_features",
    entities=[
        id_entity,
    ],
    ttl=timedelta(days=3650),
    schema=[
        Field(name="incomeamount12m", dtype=Float64),
    ],
    source=client_source,
)

feature_service = FeatureService(
    name='loan_features',
    features=[zipcode_features, credit_history, scoring_features]
)
"""
with open(f'./{feature_store_folder_name}/features.py', "w") as features_file:
    features_file.write(features)

In [None]:
from feast import FeatureStore
store = FeatureStore(repo_path=f"./{feature_store_folder_name}")
store.apply([zipcode, zipcode_source, zipcode_features, dob_ssn, credit_history_source, credit_history,
             client_source, id_entity, scoring_features, feature_service])

In [None]:
import pandas as pd
# Get historic loan data
loans = pd.read_parquet("loan_table.parquet")

In [None]:
loans

In [None]:
loan_features = store.get_feature_service('loan_features')

In [None]:
training_features = store.get_historical_features(
    entity_df=loans, 
    features=loan_features
)

training_df = training_features.to_df()

training_df