### Домашнее задание

Нужно реализовать rest api на базе flask (пример https://github.com/fimochka-sudo/GB_docker_flask_example)

По шагам:
0. выбрать себе датасет (который интересен или нравится больше всего), сделать pipeline (преобразования + модель), сохранить его на диск. Если не хочется пайплайн, то можно без него, но так вам же будет удобнее потом вызывать его из кода сервиса.
1. установить удобную для себя среду разработки (pycharm прекрасен - https://www.jetbrains.com/pycharm/)
2. для вашего проекта вам понадобится requirements.txt с пакетами. Можно за основу взять такой файл из проекта выше. Для его установки прям в pycharm можно открыть терминал и сделать pip install -r requirements.txt (находясь в корне проекта конечно же при этом)
3. завести себе аккаунт на github (если его еще нет). У самого github есть такой "hello world" по работе с ним - https://guides.github.com/activities/hello-world/
4. итоговый проект должен содержать: 1) каталог app/models/ (здесь модель-пайплайн предобученная либо код обучения модели-пайплайна) 2) файл app/run_server.py (здесь основной код flask-приложения) 3) requirements.txt (список пакетов, которые у вас используются в проекте - в корне проекта) 4) README.md (здесь какое-то описание, что вы делаете, что за данные, как запускать и т.д) 5) Dockerfile 6) docker-entrypoint.sh
5. (<b>Опционально</b>): front-end сервис какой-то, который умеет принимать от пользователя введеные данные и ходить в ваш api. На самом деле полезно больше вам, т.к если ваш проект будет далее развиваться (новые модели, интересные подходы), то это хороший пунктик к резюме и в принципе - строчка в портфолио)

Полезные ссылки:
1. датасеты (для полета мысли): https://www.kaggle.com/datasets
2. конкурс Сбербанка по недвижимости (можно этот набор данных также взять и обучить модель предсказывать стоимость жилья - неплохой такой сервис может получиться) - https://www.kaggle.com/c/sberbank-russian-housing-market/data Там же и ноутбуки с разными подходами есть.
3. минималистичный пример связки keras/flask https://blog.keras.io/building-a-simple-keras-deep-learning-rest-api.html для определения класса картинки
4. неплохой такой пример (помимо того, что разобрали на занятии) связки docker/flask - https://cloud.croc.ru/blog/byt-v-teme/flask-prilozheniya-v-docker/
5. https://www.digitalocean.com/community/tutorials/how-to-build-and-deploy-a-flask-application-using-docker-on-ubuntu-18-04

p.s. если проблемы с выбором датасета, то пишите пожалуйста - будем вместе думать)

In [1]:
import numpy as np
import pandas as pd

from sklearn.pipeline import FeatureUnion
from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin

import category_encoders as ce

import xgboost as xgb

from sklearn.model_selection import train_test_split
from sklearn.metrics import recall_score, precision_score, roc_auc_score, accuracy_score, f1_score

import dill

from werkzeug.wrappers import Request, Response
from werkzeug.serving import run_simple
from flask import Flask, request, jsonify

import threading
import random

import json

In [2]:
metrics_df = pd.DataFrame({'method' : [], 'f1' : [], 'roc' : [], 'recall' : [], 'precision' : []})
def evaluate_results(y_test, y_predict, method_name):
    print('Classification results:')
    f1 = f1_score(y_test, y_predict)
    print("f1: %.2f%%" % (f1 * 100.0)) 
    roc = roc_auc_score(y_test, y_predict)
    print("roc: %.2f%%" % (roc * 100.0)) 
    rec = recall_score(y_test, y_predict, average='binary')
    print("recall: %.2f%%" % (rec * 100.0)) 
    prc = precision_score(y_test, y_predict, average='binary')
    print("precision: %.2f%%" % (prc * 100.0)) 
    
    metrics_df.loc[len(metrics_df.index)] = [method_name, f1, roc, rec, prc]

In [3]:
#соберем наш простой pipeline, но нам понадобится написать класс для выбора нужного поля
class FeatureSelector(BaseEstimator, TransformerMixin):
    def __init__(self, column):
        self.column = column

    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        return X[self.column]
    
class NumberSelector(BaseEstimator, TransformerMixin):
    """
    Transformer to select a single column from the data frame to perform additional transformations on
    Use on numeric columns in the data
    """
    def __init__(self, key):
        self.key = key

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        return X[[self.key]]
    
class OHEEncoder(BaseEstimator, TransformerMixin):
    def __init__(self, key):
        self.key = key
        self.columns = []

    def fit(self, X, y=None):
        self.columns = [col for col in pd.get_dummies(X, prefix=self.key).columns]
        return self

    def transform(self, X):
        X = pd.get_dummies(X, prefix=self.key)
        test_columns = [col for col in X.columns]
        for col_ in self.columns:
            if col_ not in test_columns:
                X[col_] = 0
        return X[self.columns]

In [4]:
data = pd.read_csv("churn_data.csv")
data.head(3)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1


In [5]:
x_train, x_test, y_train, y_test = train_test_split(data, data['Exited'], random_state=42)

#save test
x_test.to_csv("x_test.csv", index=None)
y_test.to_csv("y_test.csv", index=None)
#save train
x_train.to_csv("x_train.csv", index=None)
y_train.to_csv("y_train.csv", index=None)

In [6]:
categorical_columns = ['Geography', 'Gender', 'Tenure', 'HasCrCard', 'IsActiveMember']
continuous_columns = ['CreditScore', 'Age', 'Balance', 'NumOfProducts', 'EstimatedSalary']

In [7]:
final_transformers = list()

for cat_col in categorical_columns:
    cat_transformer = Pipeline([
                ('selector', FeatureSelector(column=cat_col)),
                ('ohe', OHEEncoder(key=cat_col))
            ])
    final_transformers.append((cat_col, cat_transformer))
    
for cont_col in continuous_columns:
    cont_transformer = Pipeline([
                ('selector', NumberSelector(key=cont_col))
            ])
    final_transformers.append((cont_col, cont_transformer))

In [8]:
feats = FeatureUnion(final_transformers)
feature_processing = Pipeline([('feats', feats)])

In [9]:
pipeline = Pipeline([
    ('features',feats),
    ('classifier', xgb.XGBClassifier(random_state = 42)),
])

In [10]:
pipeline.fit(x_train, y_train)





Pipeline(steps=[('features',
                 FeatureUnion(transformer_list=[('Geography',
                                                 Pipeline(steps=[('selector',
                                                                  FeatureSelector(column='Geography')),
                                                                 ('ohe',
                                                                  OHEEncoder(key='Geography'))])),
                                                ('Gender',
                                                 Pipeline(steps=[('selector',
                                                                  FeatureSelector(column='Gender')),
                                                                 ('ohe',
                                                                  OHEEncoder(key='Gender'))])),
                                                ('Tenure',
                                                 Pipeline(steps=[('selector',
           

In [11]:
y_predict = pipeline.predict(x_test)
evaluate_results(y_test, y_predict, "Обучение XGBClassifier")

Classification results:
f1: 57.79%
roc: 71.85%
recall: 48.49%
precision: 71.51%


In [12]:
pipeline.steps

[('features',
  FeatureUnion(transformer_list=[('Geography',
                                  Pipeline(steps=[('selector',
                                                   FeatureSelector(column='Geography')),
                                                  ('ohe',
                                                   OHEEncoder(key='Geography'))])),
                                 ('Gender',
                                  Pipeline(steps=[('selector',
                                                   FeatureSelector(column='Gender')),
                                                  ('ohe',
                                                   OHEEncoder(key='Gender'))])),
                                 ('Tenure',
                                  Pipeline(steps=[('selector',
                                                   FeatureSelector(column='Tenure')),
                                                  ('ohe',
                                                   OHEEncoder(

Сохраним модель (пайплайн)

In [13]:
with open("XGBClassifierPipeline.dill", "wb") as f:
    dill.dump(pipeline, f)

### Проверка работоспособности и качества пайплайна

# Сервер

In [14]:
with open('XGBClassifierPipeline.dill', 'rb') as in_strm:
    model = dill.load(in_strm)

In [15]:
app = Flask(__name__)

@app.route("/", methods=["GET"])
def general():
    return "Welcome to prediction process"

@app.route('/predict', methods=['POST'])
def predict():
    data = {"success": False}

    # ensure an image was properly uploaded to our endpoint
    geography = ""
    gender = "" 
    tenure = 0
    hasCrCard = 0
    isActiveMember = 0
    creditScore = 0
    age = 0
    balance = 0
    numOfProducts = 0
    estimatedSalary = 0
    
    request_json = request.get_json()
    
    if request_json["Geography"]:
        geography = request_json['Geography']
    if request_json["Gender"]:
        gender = request_json['Gender']
    if request_json["Tenure"]:
        tenure = request_json['Tenure']
    if request_json["HasCrCard"]:
        hasCrCard = request_json['HasCrCard']
    if request_json["IsActiveMember"]:
        isActiveMember = request_json['IsActiveMember']
    if request_json["CreditScore"]:
        creditScore = request_json['CreditScore']
    if request_json["Age"]:
        age = request_json['Age']
    if request_json["Balance"]:
        balance = request_json['Balance']
    if request_json["NumOfProducts"]:
        numOfProducts = request_json['NumOfProducts']
    if request_json["EstimatedSalary"]:
        estimatedSalary = request_json['EstimatedSalary']

    #print(request_json)  
    preds = model.predict(pd.DataFrame({"Geography": [geography],
                                        "Gender": [gender],
                                        "Tenure": [tenure],
                                        "HasCrCard": [hasCrCard],
                                        "IsActiveMember": [isActiveMember],
                                        "CreditScore": [creditScore],
                                        "Age": [age],
                                        "Balance": [balance],
                                        "NumOfProducts": [numOfProducts],
                                        "EstimatedSalary": [estimatedSalary],
                                       }))
    #print(f"preds:{preds}")
    data["predictions"] = int(preds[0])
    # indicate that the request was a success
    data["success"] = True


    # return the data dictionary as a JSON response
    print(f'OK, data:{data}')
    return jsonify(data) 

if __name__ == '__main__':
    #run_simple('localhost', 9000, app)
    threading.Thread(target=run_simple, args=('localhost', 9000, app)).start()

 * Running on http://localhost:9000 (Press CTRL+C to quit)


#  Тестовый клиент

In [16]:
test_df = x_test.sample(frac=1).head(1)
test_df

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
883,884,15743007,Seabrook,643,France,Female,45,4,45144.43,1,1,0,60917.24,1


In [17]:
result = test_df.to_json(orient="split")
json_obj = json.loads(result)
body = dict()
for col, data in zip(json_obj["columns"], json_obj["data"][0]):
    body[col] = data

body    

{'RowNumber': 884,
 'CustomerId': 15743007,
 'Surname': 'Seabrook',
 'CreditScore': 643,
 'Geography': 'France',
 'Gender': 'Female',
 'Age': 45,
 'Tenure': 4,
 'Balance': 45144.43,
 'NumOfProducts': 1,
 'HasCrCard': 1,
 'IsActiveMember': 0,
 'EstimatedSalary': 60917.24,
 'Exited': 1}

In [18]:
with app.test_client() as t:
    response = t.post('/predict', json=body)
    json_data = response.get_json()

print(f"response:{json_data}")

OK, data:{'success': True, 'predictions': 1}
response:{'predictions': 1, 'success': True}


Большое спасибо за курс =) 
Расширеную часть реализую самостоятельно вне курса, когда появится время =)