# Расчет выйгрыша на каждом клиенте

In [1]:
import pandas as pd

import os
import os.path as os_path

import datetime

cpfn = "diplom_project"

curr_dir = os.getcwd()
curr_dir = os_path.join(curr_dir[:curr_dir.find(cpfn)], cpfn)
data_storage = os_path.join(curr_dir, "data_storage")
input_data_fold = os_path.join(data_storage, "input_data_diplom")
int_rates_fold = os_path.join(
    os_path.join(os_path.join(curr_dir, "prog"), "interest rates"), "interest_rantes"
)
inc_los_dir = os_path.join(data_storage, 'inc_los_data')
fiting_and_valid_fold = os_path.join(data_storage, 'fiting_and_valid')
fresh_data_dir = os_path.join(fiting_and_valid_fold, 'fresh_X')

# данные о каждом из клиентов
data = pd.read_csv(
    input_data_fold + '.csv', 
    na_values = ['-', 'нет информации'],
    parse_dates = [
        'Автомобиль год выпуска1',
        'Автомобиль год выпуска2',
        'Автомобиль год выпуска3',
        'Дата регистрации договора',
        'Дата рождения',
        'Дата планируемого закрытия',
        'Дата фактического закрытия'
    ],
    low_memory = False
)

# данные о процентных ставках
interest_rates = pd.read_excel(
    int_rates_fold + ".xlsx",
    index_col = 0)

# Вычислительные функции

In [2]:
def get_int_rate(reg_date, term):
    '''Получение процентной ставки для выбранного клиента'''
    int_rate_ind = \
        (reg_date > interest_rates.index).sum()
    
    possible_rates = interest_rates.iloc[int_rate_ind - 1]
    
    if term < 12:
        rate = possible_rates[0]
    else:
        rate = possible_rates[1]
        
    return rate

def compute_loan_pay(loan_sum, rate, term):
    '''
        Получить размер одного платежа
        в случае равных платежей подобно тому как
        на сайте https://myfin.by/bank/belinvestbank/kredity/1362-kredit-na-tovary-otechestvennogo-proizvodstva?CreditsListCalcPotrebitelskieForm%5Bamount%5D=500&CreditsListCalcPotrebitelskieForm%5Bperiod%5D=3&CreditsListCalcPotrebitelskieForm%5Bpayment_type%5D=2&type_id=1&type=potrebitelskie&product_id=1362&app=&app-theme=#center=53.916782%2C27.555758&zoom=11&type=yandex%23map&balloon=
    '''
    # input:
    # loan_sum - занимаемая сумма
    # rate - ежемесячная ставка прцента
    # term - срок кредита в месяцах
    return (loan_sum*(1+rate)**term) / sum([(1+rate)**i for i in range(term)])

get_month = lambda start_date, end_date:\
    (end_date.year - start_date.year) * 12 + (end_date.month - start_date.month)

def comp_pay_count(client):
    '''
        Число проведенных платежей
    '''
    # input:
    # client_info - вся доступная информация о клиенте
    # def_crit - бинарная переменная, что позволит определить дефолт ли
    if client['Дефолт'] < 60:
        return client['Срок кредита мес.']
    
    return get_month(client['Дата регистрации договора'], 
                datetime.datetime(2021, 1, 1)) - int(client['Дефолт']/30)

# Применяем вычисления ко всему множеству строк в DataFrame
Удалив только наблюдения, что имеют пропуск в "дата пранируемого закрытия" - это почти всегда "Овердрафт" и сохраняем результат.

In [3]:
data = data.dropna(subset = "Дата планируемого закрытия")

data['Срок кредита мес.'] = \
    (data["Дата планируемого закрытия"] - data["Дата регистрации договора"]).\
    astype('timedelta64[M]').astype('int32')

data['Процентная ставка'] = data.apply(
    lambda client_info: 
        get_int_rate(
            client_info["Дата регистрации договора"],
            client_info["Срок кредита мес."]),
    axis = 1
)
    
data['Внесенные платежи'] = data.apply(comp_pay_count, axis = 1)
data['Размер одного платежа'] = data.apply(
    lambda client_info:
        compute_loan_pay(
            client_info['Сумма договора'],
            client_info['Процентная ставка']/1200,
            client_info['Срок кредита мес.']),
    axis = 1
)
data['Внесенная сумма'] = data['Размер одного платежа']*data["Внесенные платежи"]
data['Выйгрыш_потеря'] = data['Внесенная сумма'] - data['Сумма договора']

Сохранение подсчитанных результатов

In [4]:
data[['Внесенные платежи', 'Выйгрыш_потеря']].to_csv(inc_los_dir + ".csv")

In [10]:
#data.tail()[["Выйгрыш_потеря", "Сумма договора"]]#.query('`Дефолт` > 60')['Выйгрыш_потеря'].mode()
client_info = data.loc[247061]

rate = get_int_rate(
    client_info["Дата регистрации договора"],
    client_info["Срок кредита мес."])

10.4286898298969