# О себе

- Закончил ТГУ ФПМК - математические методы в экономике
- 7+ лет опыта в сфере DS (или близкой к DS)
- В настоящее время - главный дата аналитик в ЦФТ

# План лекции

1. Постановка задачи, схематичное описание системы, описание АПИ
2. Обертка над моделью - переход от prob'ы к решению
3. Переход от бинарного решения к определнию суммы выдачи
4. Пример взаимодействия сервиса и ядра
5. Пример использования ядра для тестирования
6. Описание домашней работы

# Постановка задачи

В рамках большой системы функционирует множество сервисов.

Сервис кредитного скоринга - один из сервисом. Детали реализации модели не важны, важен публичный интерфейс.

## Запрос

Запрос, в общем случае, содержит данные о клиенте.


In [77]:
{
    "person_id": "int", 
    "income": "int", 
    "birth_date": "string"
}

{'person_id': 'int', 'income': 'int', 'birth_date': 'string'}

## Ответ

Ответ, в общем случае, содержит детали решения - решение, сумму, причину и т.д. 

In [78]:
{
    "person_id": "int",
    "decision": "string",
    "amount": "int",
    "reason": "string",
}

{'person_id': 'int', 'decision': 'string', 'amount': 'int', 'reason': 'string'}

### Потребителю сервиса кредитного скоринга не важно, какая именно используется модель, и какая бизнес логика реализована поверх модели. Главное - получить решение и причину.

Использование обученной модели - predict_proba(features). Необходимо реализовать переход от prob'ы к решению.

# Модель

In [87]:
import pickle

class CustomScoringModel:

    def predict_proba(
        self,
        income_category: str,
        age_category: str,
    ) -> float:
        """Функция принимает на вход категорию дохода и возраста клиента и возвращает вероятность дефолта.
        
        income_category принимает следующие значения
            - "< 10_000"
            - "> 50_000"
            - "other"
        age_category принимает следующие значения
            - "young" - меньше 21
            - "old" - больше 70
            - "other"
        """
        # низкий дефолт
        if income_category == "> 50_000" and age_category == 'other':
            return 0.01
        # высокий дефолт
        if income_category == "< 10_000" and (age_category == 'old' or age_category == 'young'):
            return 0.5
        # средний дефолт
        return 0.2
    
    def save_model(
        self,
        file_path: str,
    ) -> None:
        """Функция принимает на вход путь, сохраняет по эту пути .pickle с моделью."""
        with open(file_path, 'wb') as file:
            pickle.dump(self, file)

In [90]:
# Инициализируем модель
model = CustomScoringModel()
model

<__main__.CustomScoringModel at 0x244f1c33640>

Попробуем получить вероятность дефолта для разных параметров

In [91]:
print(
    model.predict_proba(
        income_category="< 10_000",
        age_category="young",
    )
)

0.5


In [92]:
print(
    model.predict_proba(
        income_category="> 50_000",
        age_category="young",
    )
)

0.2


In [93]:
print(
    model.predict_proba(
        income_category="> 50_000",
        age_category="other",
    )
)

0.01


In [94]:
# Сохраним модель
model_path = './model.pickle'
model.save_model('model.pickle')

In [95]:
# Прочитаем модель из сохраненного файла
with open(model_path, 'rb') as pickled_model:
    unpickled_model = pickle.load(pickled_model)

In [96]:
# Убедимся, что модель работает также
print(
    unpickled_model.predict_proba(
        income_category="> 50_000",
        age_category="other",
    )
)

0.01


Таким образом, у нас есть .pickle с моделью и понимание интерфейса взаимодействия (какие признаки используем). Как именно была обучена модель, на текущем шаге, не важно - разделяем ответственность.

# Обертка над моделью для принятия простого решения

Определим датаклассы для унифицированного ответа модели.

In [18]:
from dataclasses import dataclass
from enum import Enum, auto

class ScoringDecision(Enum):
    """Возможные решения модели."""

    ACCEPTED = auto()
    DECLINED = auto()
    
@dataclass
class ScoringResult:
    """Класс, содержащий результаты скоринга."""

    decision: ScoringDecision
    amount: int
    threshold: float
    proba: float

Определим датакласс для унифицированного использования необходимых признаков.

In [19]:
@dataclass
class Features:
    """Фичи для принятия решения об одобрении."""

    income_category: str = 'other'
    age_category: str = 'other'

Реализуем класс обертку для модели:
- решение бинарное
- трешхолд и сумма одобрения зафиксированы

In [29]:
class SimpleModel:
    """Класс для моделей c расчетом proba и threshold."""
    
    _threshold = 0.3

    def __init__(self, model_path: str):
        """Создает объект класса."""
        with open(model_path, 'rb') as pickled_model:
            self._model = pickle.load(pickled_model)

    def get_scoring_result(self, features):
        p = self._predict_proba(features)
                      
        decision = ScoringDecision.DECLINED
        amount = 0
        if p < self._threshold:
            amount = 100_000
            decision = ScoringDecision.ACCEPTED
        
        return ScoringResult(
            decision=decision,
            amount=amount,
            threshold=self._threshold,
            proba=p,
        )

    def _predict_proba(self, features: Features) -> float:
        """Определяет вероятность невозврата займа.""" 
        # важен порядок признаков для catboost
        res = self._model.predict_proba(
            features.income_category,
            features.age_category,
        )
        return res

In [97]:
# Инициализируем модель
core_simple_model = SimpleModel('./model.pickle')

Попробуем получить решение для разных параметров

In [99]:
core_simple_model.get_scoring_result(
    Features(
        income_category="> 50_000",
        age_category="other",
    )
)

ScoringResult(decision=<ScoringDecision.ACCEPTED: 1>, amount=100000, threshold=0.3, proba=0.01)

In [100]:
core_simple_model.get_scoring_result(
    Features(
        income_category="< 10_000",
        age_category="other",
    )
)

ScoringResult(decision=<ScoringDecision.ACCEPTED: 1>, amount=100000, threshold=0.3, proba=0.2)

In [101]:
core_simple_model.get_scoring_result(
    Features(
        income_category="< 10_000",
        age_category="old",
    )
)

ScoringResult(decision=<ScoringDecision.DECLINED: 2>, amount=0, threshold=0.3, proba=0.5)

# Принятие решение о сумме одобрения - калькулятор

В зависимости от значения пробы и самих признаках может различаться сумма одобрения:
    - маленькая вероятность дефолта, хороший клиент, выше сумма
    - при одной и той же вероятности дефолта могут быть ограничения, например, на возраст

Реализуем класс калькулятор для расчета суммы одобрения

In [34]:
class Calculator:
    def calc_amount(
        self,
        proba: str,
        features: Features,
    ) -> int:
        """Функция принимает на вход вероятность дефолта и признаки и расчитывает одобренную сумму."""
        if proba < 0.10 or features.income_category == '> 50_000':
            return 500_000
        if features.age_category == 'other':
            return 200_000
        return 100_000

Доработаем класс обертку модели для принятия не только бинарных решений. 

In [102]:
# унаследуемся от SimpleModel чтобы не переопределять одинаковый функционал
class AdvancedModel(SimpleModel):
    
    def __init__(self, model_path: str):
        super().__init__(model_path)
        self._calculator = Calculator()
    
    def get_scoring_result(self, features):        
        p = self._predict_proba(features)
        
        final_decision = ScoringDecision.DECLINED
        approved_amount = 0
        if p < 0.3:
            final_decision = ScoringDecision.ACCEPTED
            approved_amount = self._calculator.calc_amount(
                p,
                features,
            )

        return ScoringResult(decision=final_decision, amount=approved_amount, threshold=self._threshold, proba=p)

In [103]:
# Инициализируем модель
core_advanced_model = AdvancedModel('./model.pickle')

Попробуем получить решение для разных параметров

In [104]:
core_advanced_model.get_scoring_result(
    Features(
        income_category="> 50_000",
        age_category="other",
    )
)

ScoringResult(decision=<ScoringDecision.ACCEPTED: 1>, amount=500000, threshold=0.3, proba=0.01)

In [105]:
core_advanced_model.get_scoring_result(
    Features(
        income_category="other",
        age_category="other",
    )
)

ScoringResult(decision=<ScoringDecision.ACCEPTED: 1>, amount=200000, threshold=0.3, proba=0.2)

In [106]:
core_advanced_model.get_scoring_result(
    Features(
        income_category="other",
        age_category="young",
    )
)

ScoringResult(decision=<ScoringDecision.ACCEPTED: 1>, amount=100000, threshold=0.3, proba=0.2)

In [107]:
core_simple_model.get_scoring_result(
    Features(
        income_category="< 10_000",
        age_category="old",
    )
)

ScoringResult(decision=<ScoringDecision.DECLINED: 2>, amount=0, threshold=0.3, proba=0.5)

При одном и том же значении proba возможно одобрение разной суммы.

# Обертка нам моделью - это еще не сервис.

Для корректной работы сервиса необходимо:
- Распарсить запрос
- Обогатить пришедшую информацию о клиенте (возможны походы в сторонние сервисы)
- Рассчитать признаки
- **Получить решение и сумму**
- Подготовить и вернуть ответ

Принцип разделения ответственности:
- ядро инкапсулирует бизнес логику, за которую отвечают аналитики
- сервис реализует функционал, необходимый для взаимодействия с внешними системами

Плюсы разделения:
- разделение ответственности (и нагрузки) между аналитиками и разработчиками
- условно независимые релизные циклы
    - сервис может обновляться без изменения логики в ядре
    - логика ядра может быть обновлена без существенной нагрузки на разработчиков
- повышение ответственности аналитиков за реализуемые решения

Грань не строгая, функционал может пересекаться. 

# Пример реализации сервиса

Реализуем пример сервиса в следующих предположениях:
- Сервис отвечает за парсинг запроса, расчет признаков и подготовку ответа
- Запрос это дата рождения + доход в формате json строки
- Ответ - решение, сумма, причина - в формате json строки

In [None]:
# с такими строками мы уже умеем работать
'{"person_id": 1, "income": 55000, "birth_date": "2000-01-01"}'

In [48]:
import json
from datetime import datetime

class Service:
    
    # путь из конфига
    _model = AdvancedModel('./model.pickle')
    
    def _parse_request(
        self,
        request: str,
    ) -> dict:
        return json.loads(request)
    
    def _calculate_income_category(
        self,
        income: int,
    ) -> str:
        if income < 10_000:
            return "< 10_000"
        if income > 50_000:
            return "> 50_000"
        return "other"
        
    def _calculate_age_category(
        self,
        birth_date: str
    ) -> str:
        age = int((datetime.now() - datetime.strptime(birth_date, '%Y-%m-%d')).days / 365.2425)
        if age < 21:
            return "young"
        if age > 70:
            return "old"
        return "other"
    
    def _calculate_features(
        self,
        request: dict,
    ) -> Features:
        return Features(
            income_category=self._calculate_income_category(
                income=request['income'],                
            ),
            age_category=self._calculate_age_category(
                birth_date=request['birth_date'],
            )
        )        
        
    def _prepare_response(
        self,
        request: dict,
        scoring_result: ScoringResult,
    ) -> str:
        return json.dumps(
            {
                'person_id': request['person_id'],
                'decision': scoring_result.decision.name,
                'amount': scoring_result.amount,
                'reason': 'by_scoring_model',
            }
        )
        
    
    def get_result(
        self,
        request: str
    ) -> str:
        parsed_request = self._parse_request(
                    request=request,
                )
        scoring_result = self._model.get_scoring_result(
            features=self._calculate_features(
                request=parsed_request,
            )
        )
        return self._prepare_response(
            request=parsed_request,
            scoring_result=scoring_result,
        )        

In [108]:
# Инициализируем сервис
service = Service()

Попробуем получить решение для разных параметров

In [110]:
service.get_result(
    '{"person_id": 1, "income": 55000, "birth_date": "2000-01-01"}'
)

'{"person_id": 1, "decision": "ACCEPTED", "amount": 500000, "reason": "by_scoring_model"}'

In [111]:
service.get_result(
    '{"person_id": 1, "income": 9000, "birth_date": "2000-01-01"}'
)

'{"person_id": 1, "decision": "ACCEPTED", "amount": 200000, "reason": "by_scoring_model"}'

In [112]:
service.get_result(
    '{"person_id": 1, "income": 20000, "birth_date": "2005-01-01"}'
)

'{"person_id": 1, "decision": "ACCEPTED", "amount": 100000, "reason": "by_scoring_model"}'

In [113]:
service.get_result(
    '{"person_id": 1, "income": 9000, "birth_date": "2005-01-01"}'
)

'{"person_id": 1, "decision": "DECLINED", "amount": 0, "reason": "by_scoring_model"}'

Интерфейс модели полностью скрыт от внешних систем. Внешние системы не знают ни какие признаки используются, ни какие пороги подобраны для одобрения и т.д. Главное чтобы соблюдался контракт - прислали дату рождения и доход - получили ответ.

Если модель меняется - интерфейс взаимодействия нет.

# Просмотр кода из репозитория, пример использования

In [114]:
# сгенерируем синтетический датафрейм
from random import randint
import pandas as pd

person_ids = [i for i in range(0, 100)]
income = [randint(5000, 100000) for i in range(0, 100)]
birth_date = [f'{randint(1970, 2023)}-{randint(1, 12)}-{randint(1, 28)}' for i in range(0, 100)]

df = pd.DataFrame(
    {
        'person_id': person_ids,
        'income': income,
        'birth_date': birth_date,
    }
)

In [116]:
# насчитаем признаки
df['income_category'] = df['income'].apply(lambda x: service._calculate_income_category(x))
df['age_category'] = df['birth_date'].apply(lambda x: service._calculate_age_category(x))

In [57]:
# возьмем объекты из ядра
import sys
sys.path.append('./git/')

from src.core.api import (
    Features
)
from src.core.model import AdvancedModel

In [119]:
# инициализируем модель
model = AdvancedModel('./model.pickle')

In [121]:
# для каждого "наблюдения" получим решение
df['result'] = df.apply(
    lambda x: model.get_scoring_result(
        Features(
            income_category=x['income_category'],
            age_category=x['age_category'],
        )
    ),
    axis=1
)

In [122]:
df

Unnamed: 0,person_id,income,birth_date,income_category,age_category,result
0,0,5411,2010-12-14,< 10_000,young,ScoringResult(decision=<ScoringDecision.DECLIN...
1,1,49120,2002-5-22,other,young,ScoringResult(decision=<ScoringDecision.ACCEPT...
2,2,17521,2001-12-19,other,other,ScoringResult(decision=<ScoringDecision.ACCEPT...
3,3,74880,1984-10-25,> 50_000,other,ScoringResult(decision=<ScoringDecision.ACCEPT...
4,4,82540,1996-4-19,> 50_000,other,ScoringResult(decision=<ScoringDecision.ACCEPT...
...,...,...,...,...,...,...
95,95,45428,2002-3-16,other,young,ScoringResult(decision=<ScoringDecision.ACCEPT...
96,96,62729,2001-9-14,> 50_000,other,ScoringResult(decision=<ScoringDecision.ACCEPT...
97,97,39698,2020-10-27,other,young,ScoringResult(decision=<ScoringDecision.ACCEPT...
98,98,29407,1997-10-11,other,other,ScoringResult(decision=<ScoringDecision.ACCEPT...


In [123]:
df['decision'] = df['result'].apply(lambda x: x.decision.name)
df['amount'] = df['result'].apply(lambda x: x.amount)
df['proba'] = df['result'].apply(lambda x: x.proba)

In [124]:
df

Unnamed: 0,person_id,income,birth_date,income_category,age_category,result,decision,amount,proba
0,0,5411,2010-12-14,< 10_000,young,ScoringResult(decision=<ScoringDecision.DECLIN...,DECLINED,0,0.50
1,1,49120,2002-5-22,other,young,ScoringResult(decision=<ScoringDecision.ACCEPT...,ACCEPTED,100000,0.20
2,2,17521,2001-12-19,other,other,ScoringResult(decision=<ScoringDecision.ACCEPT...,ACCEPTED,200000,0.20
3,3,74880,1984-10-25,> 50_000,other,ScoringResult(decision=<ScoringDecision.ACCEPT...,ACCEPTED,500000,0.01
4,4,82540,1996-4-19,> 50_000,other,ScoringResult(decision=<ScoringDecision.ACCEPT...,ACCEPTED,500000,0.01
...,...,...,...,...,...,...,...,...,...
95,95,45428,2002-3-16,other,young,ScoringResult(decision=<ScoringDecision.ACCEPT...,ACCEPTED,100000,0.20
96,96,62729,2001-9-14,> 50_000,other,ScoringResult(decision=<ScoringDecision.ACCEPT...,ACCEPTED,500000,0.01
97,97,39698,2020-10-27,other,young,ScoringResult(decision=<ScoringDecision.ACCEPT...,ACCEPTED,100000,0.20
98,98,29407,1997-10-11,other,other,ScoringResult(decision=<ScoringDecision.ACCEPT...,ACCEPTED,200000,0.20


In [125]:
df[['decision', 'amount', 'proba']].value_counts()

decision  amount  proba
ACCEPTED  200000  0.20     33
          500000  0.01     30
                  0.20     19
          100000  0.20     16
DECLINED  0       0.50      2
dtype: int64

Данное упражнение имеет серьезный практический смысл - ретро тестирование при внесении измениний.

# Домашняя работа

- Сделать обертку (ядро) для имеющей модели
    - Только ядро, сервис с расчетом признаков делать не нужно
    - Реализовать калькулятор - подбор сумм
- Используя обертку насчитать пробу для валидационной выборки и отправить её на kaggle
    - Результат prob'ы должен совпасть с использованием интерфейса модели на прямую (predict_proba())
- Придумать логику одобрения суммы:
    - Минизировать сумму, которую не вернули
    - Максимизировать прибыль - максимизировать сумму, которую вернули

- Требования
    - МР в репозиторий с кодом ядра
    - Ноутбук с использованием ядра для насчета proba (также в МРе)
    - Код должен быть воспроизводимым
        - Приложить pickle с моделью
        - Приложить датафрейм с признаками (гит, гугл диск)
    - Скрин с kaggle с результатом на валидационной выборке
    - Объяснение логики одобрения сумм (желательно с цифрами)
    - Срок - до 07.03