### Домашнее задание

Нужно реализовать rest api на базе flask (пример https://github.com/fimochka-sudo/GB_docker_flask_example)

По шагам:

0. выбрать себе датасет (который интересен или нравится больше всего), сделать pipeline (преобразования + модель), сохранить его на диск. Если не хочется пайплайн, то можно без него, но так вам же будет удобнее потом вызывать его из кода сервиса.
1. установить удобную для себя среду разработки (pycharm прекрасен - https://www.jetbrains.com/pycharm/)
2. для вашего проекта вам понадобится requirements.txt с пакетами. Можно за основу взять такой файл из проекта выше. Для его установки прям в pycharm можно открыть терминал и сделать pip install -r requirements.txt (находясь в корне проекта конечно же при этом)
3. завести себе аккаунт на github (если его еще нет). У самого github есть такой "hello world" по работе с ним - https://guides.github.com/activities/hello-world/
4. итоговый проект должен содержать: 
    1) каталог app/models/ (здесь модель-пайплайн предобученная либо код обучения модели-пайплайна) 
    2) файл app/run_server.py (здесь основной код flask-приложения) 
    3) requirements.txt (список пакетов, которые у вас используются в проекте - в корне проекта) 
    4) README.md (здесь какое-то описание, что вы делаете, что за данные, как запускать и т.д) 
    5) Dockerfile (<b>Опционально</b>)
    6) docker-entrypoint.sh (<b>Опционально</b>)
5. (<b>Опционально</b>): front-end сервис какой-то, который умеет принимать от пользователя введеные данные и ходить в ваш api. На самом деле полезно больше вам, т.к если ваш проект будет далее развиваться (новые модели, интересные подходы), то это хороший пунктик к резюме и в принципе - строчка в портфолио)


Обучим и сохраним модель

In [1]:
import pandas as pd
import dill
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import precision_recall_curve, roc_auc_score, f1_score

from sklearn.pipeline import Pipeline, make_pipeline

In [2]:
df = pd.read_csv("./train_case2.csv", sep=';')
df

Unnamed: 0,id,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
0,0,18393,2,168,62.0,110,80,1,1,0,0,1,0
1,1,20228,1,156,85.0,140,90,3,1,0,0,1,1
2,2,18857,1,165,64.0,130,70,3,1,0,0,0,1
3,3,17623,2,169,82.0,150,100,1,1,0,0,1,1
4,4,17474,1,156,56.0,100,60,1,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
69995,99993,19240,2,168,76.0,120,80,1,1,1,0,1,0
69996,99995,22601,1,158,126.0,140,90,2,2,0,0,1,1
69997,99996,19066,2,183,105.0,180,90,3,1,0,1,0,1
69998,99998,22431,1,163,72.0,135,80,1,2,0,0,0,1


In [3]:
target = df['cardio']
X_train, X_test, y_train, y_test = train_test_split(df.drop(['cardio', 'id'], axis=1), target, random_state=42)

In [4]:
classifier = GradientBoostingClassifier()
classifier.fit(X_train, y_train)
y_score = classifier.predict(X_test)
roc_auc_score(y_test, y_score)

0.7368465559270007

In [5]:
f1_score(y_test, y_score)

0.7297249750776988

Будем считать качество модели приемлемым, поэтому сохраняем её

In [6]:
with open("./app/models/GradientBoostingClassifier_cardio.dill", "wb") as f:
    dill.dump(classifier, f)

### run_server.py
Далее - содержимое файла run_server.py (можно запустить тут)

In [7]:
from flask import Flask, request, jsonify
import pandas as pd
import numpy as np
import dill

with open('./app/models/GradientBoostingClassifier_cardio.dill', 'rb') as in_strm:
    #в файле run_server.py путь изменен на './models/GradientBoostingClassifier_cardio.dill'
    model = dill.load(in_strm)
    
features = ['age', 'gender', 'height', 'weight', 'ap_hi', 'ap_lo', 'cholesterol', 'gluc', 'smoke', 'alco', 'active']

# Обработчики и запуск Flask
app = Flask(__name__)
#run_with_ngrok(app)  # Start ngrok when app is run

def shutdown_server():
    func = request.environ.get('werkzeug.server.shutdown')
    if func is None:
        raise RuntimeError('Not running with the Werkzeug Server')
    func()
    
@app.route('/exit', methods=['GET'])
def shutdown():
    shutdown_server()
    return 'Server shutting down...'

@app.route("/", methods=["GET"])
def general():
    return "Welcome to prediction process\n"

@app.route('/predict', methods=['POST'])
def predict():
    data = {"success": False}

    request_json = request.get_json()

    feature_dict = {}
    
    for feature in features:
        if feature in request_json.keys() :
            feature_dict[feature] = [request_json[feature]]
        else:
            feature_dict[feature] = np.nan


    #print(feature_dict)
    pred_proba = model.predict_proba(pd.DataFrame(feature_dict, index=[0]))
    pred = model.predict(pd.DataFrame(feature_dict, index=[0]))
    data["pred_proba"] = pred_proba[:, 1][0]
    data["pred"] = float(pred[0])
        # indicate that the request was a success
    data["success"] = True
    print('OK')
    #print(data)

        # return the data dictionary as a JSON response
    return jsonify(data)


if __name__ == '__main__':
    app.run(port=1123)

 * Serving Flask app "__main__" (lazy loading)
 * Environment: production
[2m   Use a production WSGI server instead.[0m
 * Debug mode: off


 * Running on http://127.0.0.1:1123/ (Press CTRL+C to quit)
127.0.0.1 - - [19/Jul/2023 09:52:14] "POST /predict HTTP/1.1" 200 -


OK


127.0.0.1 - - [19/Jul/2023 09:52:28] "POST /predict HTTP/1.1" 200 -


OK


127.0.0.1 - - [19/Jul/2023 09:53:01] "GET / HTTP/1.1" 200 -
  func()
127.0.0.1 - - [19/Jul/2023 09:53:09] "GET /exit HTTP/1.1" 200 -


### Клиент
Далее - содержимое файлов client.py и client.ipynb для формирования запроса (запускать в отдельном файле .py или .ipynb)

In [8]:
import requests
import pandas as pd
from sklearn.model_selection import train_test_split

# формируем запрос
def send_json(input):
    body = dict(input)
    myurl = 'http://127.0.0.1:1123/predict'
    headers = {'content-type': 'application/json; charset=utf-8'}
    response = requests.post(myurl, json=body, headers=headers)
    return response.json()

client_df = pd.read_csv("./train_case2.csv", sep=';')
X_train, X_test, y_train, y_test = train_test_split(client_df.drop(['cardio', 'id'], axis=1), client_df['cardio'], random_state=42)

response = send_json(X_test.iloc[21])
print(f'Предсказание класса: {int(response["pred"])} ({response["pred_proba"]})')

Предсказание класса: 0 (0.2524967415639408)
