# **Тестовое задание**
> Специалист по сопровождению автоматизированных решений (риск-аналитик)

выполнил: **Копоть Н.С.**

02.2025

mikitakopats@gmail.com

`*sql-запросы написаны на PostgreSQL`

# **1. META data**

### **Условие:**

Перед Вами перечень продаж в рассрочку за определенный период в определенной организации.

Продажи сформированы с учетом системы принятия решения, которая не пересматривалась в период формирования портфеля.

> В принципе, качество продаж устраивает, но есть основания полагать что мы чего-то можем не учитывать и какие-то критерии можно внести дополнительно.

### **Задача:**

1. оцените качество сформированной задолженности в различных разрезах
2. в случае, если есть отдельные категории продаж, вызывающие вопросы с точки зрения качества, предложите дополнительные сценарии для минимизации просрочки.


# **2. Подготовка к работе**

### 2.1 Импорт исходной таблицы в гугл-таблицу



> Здесь и далее **представим, что такого рода операции не нарушают требований по информационной безопасности**



In [269]:
'''

Импорт исходной excel-таблицы в гугл-таблицу для упрощения подключения и удобства последующего обмена результатами

https://docs.google.com/spreadsheets/d/1umNP8m2crSEB61hKp2uf0NIhMLjt_zvg3OAtryPaEg4/edit?gid=1841126308#gid=1841126308

'''

'\n\nИмпорт исходной excel-таблицы в гугл-таблицу для упрощения подключения и удобства последующего обмена результатами\n\nhttps://docs.google.com/spreadsheets/d/1umNP8m2crSEB61hKp2uf0NIhMLjt_zvg3OAtryPaEg4/edit?gid=1841126308#gid=1841126308\n\n'

### 2.2 Подключение к удаленному серверу с PostgreSQL и создание датафрейма из исследуемой нами таблицы

> (сервис Neon console предоставляет бесплатное хранилище с предустановленной базой данных PostgreSQL)



In [270]:
import pandas as pd
import numpy  as np

In [271]:
# подключение к бесплатной учетной записи серверного PostgreSQL [Neon console: https://neon.tech/]

from sqlalchemy import create_engine
con = create_engine('postgresql+psycopg2://neondb_owner:6elsz1ARZYyF@ep-purple-dew-a2mqsmvc.eu-central-1.aws.neon.tech/neondb?sslmode=require')

In [272]:
# автопоиск id-нужного диапазона внутри ранее экспортированной таблицы по ее ссылке для добавления ее в датафрейм
# (url - это ссылка на исследуемую нами выгрузку из вкладки "Выгрузка")

url      = 'https://docs.google.com/spreadsheets/d/1umNP8m2crSEB61hKp2uf0NIhMLjt_zvg3OAtryPaEg4/edit?gid=1841126308#gid=1841126308&range=A1:D'
table_id = url.split('/')[5]

# получение кода листа и диапазона нужных ячеек (предполагаем, что таблица вправо расширяться не будет, только вниз)
gid_and_range = url.split('#gid=')[1]

# экспорт гугл-таблицы в csv-формат в датафрейм sales_ar (Sales Accounts Receivable - дебиторская задолженность по продажам)
sales_ar = pd.read_csv(f'https://docs.google.com/spreadsheets/d/{table_id}/export?format=csv&gid={gid_and_range}')

### 2.3 Предобработка полученного датафрейма
* переименование столбцов (для удобства последующих вычислений)
* привидение форматов данных в соответствие
* проверка на наличие пустых строк
* проверка на наличие дубликатов строк

In [273]:
sales_ar.columns

Index(['личный номер покупателя', ' стоимость оборудования',
       ' ежемесячный платеж', 'сумма просроченных платежей'],
      dtype='object')

In [274]:
# переименование столбцов
sales_ar.rename(columns=
  {
    'личный номер покупателя'      : 'client_id'
    ,' стоимость оборудования'     : 'equip_cost'
    ,' ежемесячный платеж'         : 'monthly_payment'
    ,'сумма просроченных платежей' : 'overdue_payments'
  }, inplace=True)

In [275]:
sales_ar.head()

Unnamed: 0,client_id,equip_cost,monthly_payment,overdue_payments
0,335056538x1y2z3,"3 649,00",30408,91225
1,894488777x1y2z3,"4 059,00",33825,"1 014,75"
2,598281114x1y2z3,"3 810,00",31750,-
3,655154046x1y2z3,"4 852,00",20217,-
4,810754275x1y2z3,"4 010,00",16708,-


In [276]:
# просмотр формата данных
sales_ar.dtypes

Unnamed: 0,0
client_id,object
equip_cost,object
monthly_payment,object
overdue_payments,object


Столбцы с числами сейчас определены в формате объект, а не в числовом

```
т.к. содержат в данных пробелы, запятые (вместо точки как разделителя дробной части) и прочерки вместо нулевых значений.
```

Для последующих вычислений необходимо привести данные в числовой формат:

*   переводим столбцы сначала в текстовый
*   приводим данные в соответствие
*   задаем числовой формат (дробный)  


In [277]:
# привидение формата данных в строки
sales_ar['equip_cost']       = sales_ar['equip_cost'].astype(str)
sales_ar['monthly_payment']  = sales_ar['monthly_payment'].astype(str)
sales_ar['overdue_payments'] = sales_ar['overdue_payments'].astype(str)

In [278]:
# привидение формата данных в числовой вид и формат (дробный)
sales_ar['equip_cost']       = sales_ar['equip_cost'].str.replace('\xa0', '').str.replace(' ', '').str.replace(',', '.').astype(float)
sales_ar['monthly_payment']  = sales_ar['monthly_payment'].str.replace('\xa0', '').str.replace(' ', '').str.replace(',', '.').astype(float)
sales_ar['overdue_payments'] = sales_ar['overdue_payments'].str.replace('\xa0', '').str.replace(' ', '').str.replace(',', '.').str.replace('-', '0').astype(float)

In [279]:
sales_ar.dtypes

Unnamed: 0,0
client_id,object
equip_cost,float64
monthly_payment,float64
overdue_payments,float64


In [280]:
print(f'Количество строк-дубликатов = {sales_ar.duplicated().sum()}')

Количество строк-дубликатов = 0


In [281]:
# Удаление дубликатов, если они появятся в будущей обработке подобного запроса
sales_ar.drop_duplicates(inplace= True)

In [282]:
print(f'''Количество пустых NaN-значений:
{sales_ar.isna().sum()}''')

Количество пустых NaN-значений:
client_id           0
equip_cost          0
monthly_payment     0
overdue_payments    0
dtype: int64


In [283]:
# Удаление строк, которые содеражат пустые значения (если таковые будут в будущем)
# Т.к. удуление может привести к потере части данных - очищенный вариант создаем в отдельном датафрейме sales_ar_clean
sales_ar_clean = sales_ar.dropna(how='all')

### 2.4 Загрузка датасета на удаленную базу данных (PostgreSQL)

In [284]:
# загрузка CSV-датасета в PostgreSQL к удаленной базе данных с ускорителем
# (используется найденное ранее готовое решение со stackoverflow.com)

import csv
from io import StringIO

from sqlalchemy import create_engine

def psql_insert_copy(table, conn, keys, data_iter):

  # получает DBAPI соединение, которое может быть предоставлено курсором
  dbapi_conn = conn.connection
  with  dbapi_conn.cursor() as cur:
    s_buf  = StringIO()
    writer = csv.writer(s_buf)
    writer.writerows(data_iter)
    s_buf.seek(0)

    columns = ', '.join('"{}"'.format(k) for k in keys)
    if table.schema:
        table_name = '{}.{}'.format(table.schema, table.name)
    else:
        table_name = table.name

    sql = 'COPY {} ({}) FROM STDIN WITH CSV'.format(table_name, columns)
    cur.copy_expert(sql = sql, file = s_buf)

In [285]:
# пробная заливка 10-ти рандомных строк таблицы на удаленный сервер (для проверки)
sales_ar.sample(10).to_sql('sales_ar', con, index = False, if_exists = 'replace', method = psql_insert_copy)

In [286]:
# Загрузка таблицы в БД на удаленный сервер с PostgreSQL (Neon)
sales_ar.to_sql('sales_ar', con, index = False, if_exists = 'replace', method = psql_insert_copy)

### 2.5  Создание функции по запуску sql-запросов

In [287]:
# создание функции, для простоты и читабельности команды по подключению sql-запросов

def select(sql):
   return pd.read_sql(sql, con)

In [288]:
# тестовый запрос

sql = '''
SELECT *
  FROM sales_ar
 LIMIT 3
'''

In [289]:
select(sql)

Unnamed: 0,client_id,equip_cost,monthly_payment,overdue_payments
0,335056538x1y2z3,3649.0,304.08,912.25
1,894488777x1y2z3,4059.0,338.25,1014.75
2,598281114x1y2z3,3810.0,317.5,0.0


# **3. Решение задач**

## 3.1. Оцените качество сформированной задолженности в различных разрезах

In [290]:
# краткая характеристика распределения значений
sales_ar.describe()

Unnamed: 0,equip_cost,monthly_payment,overdue_payments
count,5748.0,5748.0,5748.0
mean,3054.774008,186.161013,89.324589
std,1148.245174,96.823847,236.074973
min,1000.0,41.67,0.0
25%,2046.0,112.83,0.0
50%,3118.0,165.375,0.0
75%,4034.0,246.44,0.0
max,4998.0,416.5,1602.33


### **3.1.1. Общий анализ задолженности по клиентам:**


---


* Отсутствие просрочки (сумма просроченных платежей = 0)
* Наличие просрочки (сумма просроченных платежей > 0)

**Процент клиентов без задолженности 84,5% к 15,5% должников.**

**15,5% должников формируют 16,7% задолженности по общей выручке от проданных товаров.**

In [291]:
sql = '''
SELECT
       client_id
       , SUM(overdue_payments) as total_overdue_payments   --- объем общей задолженности
       , CASE
       WHEN SUM(overdue_payments) = 0 THEN 'good client'   --- без просроченных плотежей
       ELSE 'client with overdue'                          --- наличие просроченных плотежей
       END AS client_type_overdue                          --- тип клиента по наличию/отсутствию задолженности
  FROM sales_ar
 GROUP BY client_id
 ORDER BY total_overdue_payments DESC
;
'''

In [292]:
select(sql)

Unnamed: 0,client_id,total_overdue_payments,client_type_overdue
0,340095823x1y2z3,3057.66,client with overdue
1,348368965x1y2z3,2628.88,client with overdue
2,316440348x1y2z3,2439.00,client with overdue
3,887481732x1y2z3,2293.00,client with overdue
4,206882122x1y2z3,2148.25,client with overdue
...,...,...,...
5659,598281114x1y2z3,0.00,good client
5660,410699771x1y2z3,0.00,good client
5661,169436937x1y2z3,0.00,good client
5662,171490272x1y2z3,0.00,good client


In [328]:
sql = '''
WITH
ask1 as (SELECT
                SUM(overdue_payments) AS overdue_amount                                  --- сумма задолженности по клиенту
                , SUM(equip_cost)     AS equip_revenue                                   --- суммарная выручка по клиенту по завершению выплат
                , CASE
                WHEN SUM(overdue_payments) = 0 THEN 'good client without total overdue'  --- сумарно без просроченных плотежей за всю историю выборки
                WHEN SUM(overdue_payments) > 0 THEN 'client with overdue'                --- наличие просроченных плотежей
                ELSE                                'ERROR! Check data'                  --- ошибка в данных, нарушена логика
                END AS client_type_overdue                                               --- тип клиента по наличию/отсутствию задолженности
            FROM sales_ar
          GROUP BY client_id
)
SELECT
      client_type_overdue
      , SUM(equip_revenue)                               AS total_equip_revenue
      , SUM(overdue_amount)                              AS total_overdue
      , COUNT(*)                                         AS cnt_client
      , ROUND(COUNT(*) * 100.0 / (SELECT COUNT(*)
                                    FROM ask1
                                  ), 2)                  AS percent_cnt_client
  FROM ask1
  GROUP BY client_type_overdue
  ORDER BY percent_cnt_client DESC
;
'''

In [334]:
# Распределение количества уникальных клиентов по категориям: без задолженности и с задолженностью
client_type_overdue = select(sql)
client_type_overdue['percent_overdue_per_equip_revenue'] = ((client_type_overdue['total_overdue'] / client_type_overdue['total_equip_revenue']) * 100).round(2)
client_type_overdue

Unnamed: 0,client_type_overdue,total_equip_revenue,total_overdue,cnt_client,percent_cnt_client,percent_overdue_per_equip_revenue
0,good client without total overdue,14485045.0,0.0,4786,84.5,0.0
1,client with overdue,3073796.0,513437.74,878,15.5,16.7


### **3.1.2. Распределение задолженности по величине:**

---
* Численное распределение объема просроченных платежей по клиентам
* Среднее, медианное и максимальное значение объема просроченных платежей по каждой сделке
* Среднее, медианное и максимальное значение объема просроченных платежей по каждому клиенту
* Процент клиентов, у которых просрочка кратно превышает размер месячного платежа (задолженность системная)
* Процент клиентов, у которых просрочка превышает определенную сумму

**14 клиентов (1,5% должников) имеют общую задолженность свыше 1 600 у.е. (максимальная 3 057 у.е.). Максимальное количество покупок одним клиентом = 3 шт.**

**Медианное значение задолженности около 488 у.е., что в 2.9 раз больше медианного значения ежемесячного платежа (165 у.е.).**

**>98% задолженностей составляют 2-3 месячные выплаты. Остальные 2% составляют 3-4 месячных выплат.**

In [None]:
sql = '''
SELECT
      client_id
      , SUM(overdue_payments) AS total_overdue_payments   --- объем общей задолженности
  FROM sales_ar
GROUP BY client_id
ORDER BY total_overdue_payments DESC
'''

In [None]:
# Численное распределение объема просроченных платежей по клиентам
total_overdue_pays_by_clients = select(sql)
total_overdue_pays_by_clients.head()

Unnamed: 0,client_id,total_overdue_payments
0,340095823x1y2z3,3057.66
1,348368965x1y2z3,2628.88
2,316440348x1y2z3,2439.0
3,887481732x1y2z3,2293.0
4,206882122x1y2z3,2148.25


In [None]:
# Численное распределение объема просроченных платежей по клиентам

import plotly.express as px

fig = px.histogram(total_overdue_pays_by_clients
                   , x      = 'total_overdue_payments'
                   , nbins  = 20
                   , title  = 'Численное распределение объема просроченных платежей по клиентам'
                   , color_discrete_sequence = ['blue']
)

# настройка отображения графика
fig.update_layout(
    showlegend     = False                                      # убираем легенду
    , xaxis_title  = 'Денежный объем суммарной задолженности'   # переименовываем оси
    , yaxis_title  = 'Кол-во клиентов'                          # переименовываем оси
    , plot_bgcolor = 'white'                                    # белый фон для графика
    , coloraxis_colorbar_title = 'Объем задолженности'          # переименовываем заголовок градиента
    , xaxis        = dict(showline    = True                # показываем линию
                          , linecolor = 'black'             # цвет линии
                          )
    , yaxis        = dict(showline    = True                # показываем линию
                          , linecolor = 'black'             # цвет линии
                          )
)

# настройка текста в подсказке
fig.update_traces(
    hovertemplate =
    '<b>Объем просроченной задолженности</b>: %{x:.2f}' + '<br>' +
    '<b>Кол-во клиентов</b>: %{y}'                              # показываем количество клиентов и форматируем задолженность
)

fig.show()

In [398]:
sql = '''
WITH
ask1 AS (SELECT
                client_id
                , SUM(overdue_payments) AS total_overdue_payments     --- объем общей задолженности
           FROM sales_ar
          GROUP BY client_id
         HAVING SUM(overdue_payments) > (SELECT MAX(overdue_payments) --- максимальная задолженность по одной сделке (в данном случае > 1 600)
                                           FROM sales_ar)
          ORDER BY total_overdue_payments DESC
)
SELECT COUNT(*) AS cnt_clients_overdue_over_max_deal
  FROM ask1
;
'''

In [399]:
# Количество клиентов, сумма задолженности которых больше максімальной по одной сделке (сейчас это 1 600 у.е.)
cnt_clients_overdue_over_max_deal = select(sql)
cnt_clients_overdue_over_max_deal

Unnamed: 0,cnt_clients_overdue_over_max_deal
0,14


In [352]:
print(f'''Максимальное количество покупок одним клиентом = {sales_ar.client_id.value_counts().max()} шт.''')

Максимальное количество покупок одним клиентом = 3 шт.


In [337]:
# краткая характеристика распределения объема задолженности по оборудованиям (по каждой сделке)
mean_overdue   = sales_ar['overdue_payments'].mean()
median_overdue = sales_ar['overdue_payments'].median()
max_overdue    = sales_ar['overdue_payments'].max()

print(f'''
Распределение объема задолженности по оборудованиям (по каждой сделке):
Средняя сумма задолженности      = {mean_overdue.round(2)}
Медианная сумма задолженности    = {median_overdue}
Максимальная сумма задолженности = {max_overdue}
''')


Распределение объема задолженности по оборудованиям (по каждой сделке):
Средняя сумма задолженности      = 89.32
Медианная сумма задолженности    = 0.0
Максимальная сумма задолженности = 1602.33



In [339]:
# краткая характеристика распределения объема задолженности по оборудованиям (по каждой сделке) среди должников
mean_overdue_bad_gays   = sales_ar[sales_ar['overdue_payments'] != 0]['overdue_payments'].mean()
median_overdue_bad_gays = sales_ar[sales_ar['overdue_payments'] != 0]['overdue_payments'].median()
max_overdue_bad_gays    = sales_ar[sales_ar['overdue_payments'] != 0]['overdue_payments'].max()

print(f'''
Распределение объема задолженности по оборудованиям (по каждой сделке) среди должников:
Средняя сумма задолженности      = {mean_overdue_bad_gays.round(2)}
Медианная сумма задолженности    = {median_overdue_bad_gays}
Максимальная сумма задолженности = {max_overdue_bad_gays}
''')


Распределение объема задолженности по оборудованиям (по каждой сделке) среди должников:
Средняя сумма задолженности      = 555.07
Медианная сумма задолженности    = 485.75
Максимальная сумма задолженности = 1602.33



In [None]:
sql = '''
WITH
ask1 as (SELECT
                client_id
                , SUM(overdue_payments) as total_overdue_payments         --- объем общей задолженности
           FROM sales_ar
          GROUP BY client_id
)
SELECT
       ROUND(COALESCE(AVG(total_overdue_payments), 0)::numeric, 2)           AS avg_total_overdue
       , percentile_cont(0.5) WITHIN GROUP (ORDER BY total_overdue_payments) AS median_total_overdue
       , MAX(total_overdue_payments)                                         AS max_total_overdue
  FROM ask1
;
'''

In [None]:
# Распределение объема задолженности по клиентам
select(sql)

Unnamed: 0,avg_total_overdue,median_total_overdue,max_total_overdue
0,90.65,0.0,3057.66


In [340]:
sql = '''
WITH
ask1 as (SELECT
                client_id
                , SUM(overdue_payments) as total_overdue_payments         --- объем общей задолженности
           FROM sales_ar
          GROUP BY client_id
          HAVING SUM(overdue_payments) > 0
)
SELECT
       ROUND(COALESCE(AVG(total_overdue_payments), 0)::numeric, 2)           AS avg_total_overdue
       , percentile_cont(0.5) WITHIN GROUP (ORDER BY total_overdue_payments) AS median_total_overdue
       , MAX(total_overdue_payments)                                         AS max_total_overdue
  FROM ask1
;
'''

In [342]:
# Распределение объема задолженности по клиентам среди должников
select(sql)

Unnamed: 0,avg_total_overdue,median_total_overdue,max_total_overdue
0,584.78,489.565,3057.66


In [363]:
sql = '''
WITH
ask1 as (SELECT                         --- подсчет системной задолженности в месячных платежах по каждому долгу
                *
                , ROUND(COALESCE( (overdue_payments / monthly_payment), 0)::numeric, 2) AS overdue_per_monthly_pays
            FROM sales_ar
          ORDER BY overdue_per_monthly_pays DESC
),

client_month_overdue_grade as (SELECT        --- категорируем клиентов по уровню задолженности
                                     *
                                     , CASE
                                     WHEN overdue_per_monthly_pays = 0                                   THEN 'good client'
                                     WHEN overdue_per_monthly_pays > 0 AND overdue_per_monthly_pays <= 1 THEN '0-1 month'
                                     WHEN overdue_per_monthly_pays > 1 AND overdue_per_monthly_pays <= 2 THEN '1-2 month'
                                     WHEN overdue_per_monthly_pays > 2 AND overdue_per_monthly_pays <= 3 THEN '2-3 month'
                                     WHEN overdue_per_monthly_pays > 3 AND overdue_per_monthly_pays <= 4 THEN '3-4 month'
                                     WHEN overdue_per_monthly_pays > 4                                   THEN '> 4 month'
                                     ELSE                                                                     'ERROR! Check data'
                                     END AS client_type_overdue_per_month
                                FROM ask1
)
SELECT
       client_type_overdue_per_month
       , COUNT(client_type_overdue_per_month)                                           AS cnt_client
       , ROUND(COUNT(*) * 100.0 / (SELECT COUNT(*) FROM client_month_overdue_grade), 2) AS percent_cnt
       , SUM(overdue_payments)                                                          AS total_overdue
       , ROUND(COALESCE(SUM(overdue_payments) * 100.0 / (SELECT SUM(overdue_payments)
                                                           FROM client_month_overdue_grade
                                                         ), 0)::numeric, 2)             AS percent_total_overdue
  FROM client_month_overdue_grade
 GROUP BY client_type_overdue_per_month
 ORDER BY percent_total_overdue DESC
;
'''

In [365]:
# распределение типов клиентов по уровню месячной задолженности
client_type_overdue_per_month = select(sql)
client_type_overdue_per_month

Unnamed: 0,client_type_overdue_per_month,cnt_client,percent_cnt,total_overdue,percent_total_overdue
0,2-3 month,913,15.88,504376.58,98.24
1,3-4 month,12,0.21,9061.16,1.76
2,good client,4823,83.91,0.0,0.0


In [366]:
# Распределение типов клиентов по уровню месячной задолженности, %

client_type_overdue_per_month = client_type_overdue_per_month.sort_values(by='percent_cnt')

fig = px.bar(client_type_overdue_per_month
             , x='percent_cnt'
             , y='client_type_overdue_per_month'
             , orientation='h'
             , title='Распределение типов клиентов по уровню месячной задолженности, %'
             , color='percent_cnt'
             , color_continuous_scale='viridis'
             , hover_data={'percent_cnt': ':.2f'                      # форматируем процент на 2 знака после запятой
                           , 'client_type_overdue_per_month': False}  # убираем из подсказки сам столбец
)

# настройка отображения графика
fig.update_layout(showlegend     = False                             # убираем легенду
                  , xaxis_title  = ''                                # убираем название оси х
                  , yaxis_title  = ''                                # убираем название оси у
                  , plot_bgcolor = 'white'                           # делаем белый фон для графика
                  , coloraxis_colorbar_title = 'Кол-во, %'           # переименовываем заголовок градиента)
                  , xaxis        = dict(showline        = True          # показываем линию
                                            , linecolor = 'black'       # цвет линии
                                            )
                  , yaxis        = dict(showline        = True          # показываем линию
                                            , linecolor = 'black'       # цвет линии
                                            )
)

# настройка текст в подсказке
fig.update_traces(hovertemplate =
                  '<b>Категория клиента по уровню задолженности</b>: %{y}' + '<br>' +
                  '<b>Кол-во, %</b>: %{x:.2f}'                       # форматируем значение процента (в данном случае и так было 2 знака, но на будущее)
)

fig.show()



### **3.1.2". Датафрейм (overdue_deals), содержащий все сделки с задолженностями:**

In [361]:
sql = ''' --- сделки с задолженностями
SELECT
      *
      , ROUND(COALESCE( (overdue_payments / monthly_payment), 0)::numeric, 2) AS overdue_per_month_pays
      , COUNT(client_id) OVER (PARTITION BY client_id)                        AS cnt_deals                 --- кол-во незакрытых покупок (сделок)
  FROM sales_ar
 WHERE overdue_payments > 0
 ORDER BY overdue_per_month_pays DESC, client_id
'''

In [362]:
# Сделки с задолженностями
overdue_deals = select(sql)
overdue_deals.head()

Unnamed: 0,client_id,equip_cost,monthly_payment,overdue_payments,overdue_per_month_pays,cnt_deals
0,102411770x1y2z3,2580.0,107.5,430.0,4.0,3
1,102411770x1y2z3,4096.0,170.67,682.67,4.0,3
2,102411770x1y2z3,1656.0,138.0,552.0,4.0,3
3,233889535x1y2z3,3533.0,147.21,588.83,4.0,3
4,233889535x1y2z3,1122.0,93.5,374.0,4.0,3


### **3.1.3. Соотношение стоимости оборудования и задолженностей**

---

*   Как задолженность соотносится с общей стоимостью оборудования.
*   Какие клиенты имеют более высокую задолженность по сравнению с ценой их оборудования

> Находим коэффициент задолженности, который будет равен:
`сумма просроченных платежей / стоимость оборудования`


**Коэффициент задолженности удовлетворительный, т.к. показывает что половина задолженности клиентов ниже 13% от стоимости оборудования. А в среднем величина долга составляет 17% от стоимости оборудования.**

In [371]:
# Коэффициент задолженности
db = overdue_deals
db['overdue_per_equip_ratio'] = db['overdue_payments'] / db['equip_cost']

mean_overdue_ratio   = db['overdue_per_equip_ratio'].mean()
median_overdue_ratio = db['overdue_per_equip_ratio'].median()

print(f'''
Средний коэффициент задолженности   = {mean_overdue_ratio}
Медианный коэффициент задолженности = {median_overdue_ratio}
''')



Средний коэффициент задолженности   = 0.1700907015062753
Медианный коэффициент задолженности = 0.12500161864681125



### **3.1.4. Классификация клиентов по риску**

---


> Разделим клиентов на группы-риска:

*  Высокий риск (high risk) - клиенты с большой задолженностью (>50% от стоимости оборудования)
*  Средний риск (midle risk) - средняя задолженность (30-50%)
* Низкий риск (low risk) - задолженностью менее 30% от стоимости оборудования

**99% (917 шт) сделок относятся к условно Низкому уровню риска, т.к. задолженность по ним составляет менее 30% от стоимости оборудования.**

**Оставшийся 1% (8 шт) относится к Среднему уровню риска (от 30% до 50% стоимости оборудования)**


In [381]:
db.head()

Unnamed: 0,client_id,equip_cost,monthly_payment,overdue_payments,overdue_per_month_pays,cnt_deals,overdue_per_equip_ratio,risk_category
0,102411770x1y2z3,2580.0,107.5,430.0,4.0,3,0.166667,low risk
1,102411770x1y2z3,4096.0,170.67,682.67,4.0,3,0.166667,low risk
2,102411770x1y2z3,1656.0,138.0,552.0,4.0,3,0.333333,middle risk
3,233889535x1y2z3,3533.0,147.21,588.83,4.0,3,0.166666,low risk
4,233889535x1y2z3,1122.0,93.5,374.0,4.0,3,0.333333,middle risk


In [384]:
# функция для простановки группы риска в датафрейм
def assign_risk_category(row):
    ratio = row['overdue_per_equip_ratio']
    if ratio > 0.5:
        return 'high risk'
    elif 0.3 <= ratio <= 0.5:
        return 'middle risk'
    else:
        return 'low risk'

db['risk_category'] = db.apply(assign_risk_category, axis=1)

# подсчет значений
risk_counts  = db['risk_category'].value_counts()

# сброс индексов для чистого вывода
risk_counts          = risk_counts.to_frame().reset_index()

# результаты
print(f'''
Количество клиентов по каждой категории риска:
{risk_counts}
''')


Количество клиентов по каждой категории риска:
  risk_category  count
0      low risk    917
1   middle risk      8



### **3.1.5. Классификация оборудования**
---

Найдем перечень оборудований с наибольшей общей задолженностью, превышающей задолженность у любого отдельного должника (сгруппируем по стоимости оборудования)

> Предполагаем, что каждое оборудование продается по уникальной цене

**32 типа оборудования (1% от всех) в сумме дают 12% от общей суммы задолженности. Есть смысл проанализировать продажи в дальнейшем по данным типам оборудования**

In [400]:
sql= ('''
SELECT equip_cost
       , SUM(overdue_payments)
  FROM sales_ar
 GROUP BY equip_cost
HAVING SUM(overdue_payments) > (SELECT MAX(overdue_payments)
                                  FROM sales_ar)
order by sum(overdue_payments) desc
;
''')

In [431]:
sql= ('''
WITH
ask1 AS (SELECT
                SUM(overdue_payments) as sum_overdue
            FROM sales_ar
          GROUP BY equip_cost
          HAVING SUM(overdue_payments) > (SELECT MAX(overdue_payments)
                                          FROM sales_ar)
)
SELECT SUM(sum_overdue) AS total_overdue_by_anti_top_category_equip
  FROM ask1
;
''')

In [432]:
# Общая сумма задолженности за 32 категории с самыми высокими цифрами по задолженности
total_overdue_by_anti_top_category_equip = select(sql)
total_overdue_by_anti_top_category_equip

Unnamed: 0,total_overdue_by_anti_top_category_equip
0,64492.9


In [420]:
# Оборудование с наибольшей общей задолженностью, превышающей задолженность любого отдельного должника (группировка по стоимости оборудования)
equip_category_with_max_overdue = select(sql)
equip_category_with_max_overdue.head()

Unnamed: 0,equip_cost,sum
0,4805.0,3603.75
1,4590.0,2868.75
2,4156.0,2597.5
3,4734.0,2367.0
4,4554.0,2277.0


In [417]:
# Оборудование с наибольшей общей задолженностью, превышающей задолженность любого отдельного должника (группировка по стоимости оборудования)

fig = px.histogram(equip_category_with_max_overdue
                   , x      = 'sum'
                   , nbins  = 20
                   , title  = 'Оборудование с наибольшей общей задолженностью,<br>превышающей задолженность любого отдельного должника (группировка по стоимости оборудования)'
                   , color_discrete_sequence = ['blue']
)

# настройка отображения графика
fig.update_layout(
    showlegend     = False                                      # убираем легенду
    , xaxis_title  = 'Денежный объем суммарной задолженности'   # переименовываем оси
    , yaxis_title  = 'Кол-во оборудования'                          # переименовываем оси
    , plot_bgcolor = 'white'                                    # белый фон для графика
    , coloraxis_colorbar_title = 'Объем задолженности'          # переименовываем заголовок градиента
    , xaxis        = dict(showline    = True                # показываем линию
                          , linecolor = 'black'             # цвет линии
                          )
    , yaxis        = dict(showline    = True                # показываем линию
                          , linecolor = 'black'             # цвет линии
                          )
)

# настройка текста в подсказке
fig.update_traces(
    hovertemplate =
    '<b>Объем просроченной задолженности</b>: %{x:.2f}' + '<br>' +
    '<b>Кол-во оборудования</b>: %{y}'
)

fig.show()

## 3.2. В случае, если есть отдельные категории продаж, вызывающие вопросы с точки зрения качества, предложите дополнительные сценарии для минимизации просрочки

> Чтобы улучшить рекомендации по снижению просрочек и точнее работать с клиентами, можно расширить область анализируемых данных, что поможет найти новые способы оптимизации и уменьшить риски.

### **3.2.1. Расширить выборку дополнительными данными**

---

> **Данные по оборудованию:**
* Добавить категории товара, производителя, модель. Например, если определенная категория товара или модель вызывает больше задолженности (как в расмотренном выше случае с 32 двумя категориями), можно пересмотреть условия продажи для таких товаров.

> **Данные о клиентах (по возможности):**
* **Возраст, пол, локация**
    * помогут уточнить портрет клиента и адаптировать предложения
* **Тип занятости**
  * может помочь предсказать стабильность доходов клиента, и, например, предложить клиентам с нестабильной работой меньшие суммы ежемесячных платежей
* **Наличие образования**
 * люди с высшим образованием могут показывать более высокий уровень ответственности, что стоит учесть при разработке стратегии по удержанию клиентов

### **3.2.2. Оптимизация взаимодействия с клиентами**

---

>**Внедрение системы А/Б тестирования**

Вместо стандартных процедур можно запустить А/Б тесты, чтобы оценить влияние разных подходов на снижение просрочек.
  
>**Примеры:**
  * Использование системы наводящих вопросов при покупке, чтобы понять финансовое состояние клиента и "призвать к финансовой ответственности"
  * Введение дополнительных проверок на финансовую состоятельность на стадии заключения договора, чтобы избежать ситуации с просрочками в будущем
  * Уведомления с напоминаниями о платежах (за 3 дня, за день до даты платежа, и т.д.)
  * Разнообразие каналов коммуникации (смс, email, звонки) для улучшения вовлеченности


### **3.2.3. Взаимодействие с маркетингом и корректировка медиапланирования**

---

> **Гибкая маркетинговая стратегия**
* На основе данных о клиентах и формирующимся портрете лояльного /платежеспособного клиента можно строить более таргетированные маркетинговые кампании

> **Внедрение статистически значимых результатов исследований**
* могут использоваться для создания разных типов контента и предложений в зависимости от сегмента аудитории. Это также может включать тестирование различных форматов рекламы (например, рекламы с напоминанием о платежах, почему нет?).


### **3.2.4. Разработка гибкого подхода и стратегии работы с клиентами с высокими рисками**

---

> **Пересмотр условий для высокорисковых клиентов**

  Возможно, для таких клиентов стоит предложить короткие сроки рассрочки или повысить первоначальный взнос. Можно также вводить дополнительные проверки, чтобы минимизировать количество таких клиентов

> **Дополнительные меры по контролю задолженности**
  
  Для клиентов, которые часто нарушают условия договора, можно установить более строгие условия, например:
* уведомления не только по датам платежей, но и напоминания о последствиях просрочек.
* внедрение системы мониторинга задолженности с привязкой к определенным рискам, чтобы оперативно вмешиваться в случае появления признаков просрочки.


### **3.2.5. Анализ типов товаров и клиентов**

---




> Особое внимание стоит уделить наиболее проблемным категориям. Это может
включать проведение детализированного анализа по регионам, демографическим группам, а также по времени года.

### **Вывод**

---



> Предложенные меры могут помочь не только снизить текущую задолженность, но и повысить лояльность клиентов и оптимизировать маркетинговые кампании, а использование статистически значимых данных результатов исследований и анализ клиентских портретов поможет точнее сегментировать аудиторию, снижая риски просрочек.

# **Отчет по анализу качества задолженности по продажам в рассрочку**

## **1. Оценка качества предоставленных данных (выборки)**

---

Качество предоставленных данных удовлетворительное. Выборка не содержит дубликатов, пустых строк, некорректных данных и выбросов.

## **2. Оценка качества сформированной задолженности**

---

### **2.1. Общий анализ задолженности по клиентам**

В целом, данные показывают, что 84,5% клиентов не имеют просроченных платежей, в то время как 15,5% клиентов являются должниками, и на их долю приходится 16,7% задолженности по общей выручке от проданных товаров.

> Ситуация выглядит вполне контролируемой.

**Распределение по типу клиентов:**

* Клиенты без просрочки (good clients): 84,5%
* Клиенты с задолженностью (clients with overdue): 15,5%

### **2.2. Распределение задолженности по величине**


> Медианная задолженность составляет около 488 у.е., что в 2,9 раза превышает медианную сумму месячного платежа (165 у.е.).

> Более 98% задолженности составляют 2-3 месячные выплаты, что указывает на системные задолженности.

> Максимальная задолженность одного клиента составляет 3057 у.е., а максимальное количество покупок, совершенных одним клиентом, равно 3.

**Распределение величены задолженности:**

* Средняя сумма задолженности: 547,56 у.е.
* Медианная сумма задолженности: 488 у.е.
* Максимальная сумма задолженности: 3057 у.е.


### **2.3. Соотношение стоимости оборудования и задолженности**

> Коэффициент задолженности, т.е. отношение просроченных платежей к стоимости оборудования, в среднем составляет 17%.

> Половина задолженности клиентов не превышает 13% от стоимости оборудования. Это подтверждает, что задолженность в целом находится в пределах, которые не вызывают значительных рисков.

* Средний коэффициент задолженности: 17%
* Медианный коэффициент задолженности: 13%

## **3. Классификация клиентов и предложения по минимизации просрочки**


---





### **3.1. Классификация по риску задолженности**

> Распределение клиентов по риску на основе коэффициента задолженности показало, что 99% клиентов относятся к низкому риску (менее 30% задолженности от стоимости оборудования), и только 1% - к среднему риску (30-50%).

**Категории риска:**

* Низкий риск (low risk: менее 30%): 99%
* Средний риск (middle risk: 30-50%): 1%
* Высокий риск (high risk: > 50%): 0%


### **3.2. Рекомендации по минимизации просрочки**

**Для клиентов среднего риска (от 30% до 50% от стоимости оборудования):**

* Пересмотреть условия рассрочки, возможно, предложить им более строгие условия, такие как снижение срока рассрочки или повышение первоначального взноса.

* Введение программ предоплаты или уменьшения суммы ежемесячных выплат для предотвращения накопления долгов.

**Для клиентов с низким риском:**

Возможно, стоит предложить дополнительные льготы или бонусы для поддержания финансовой дисциплины.

### **3.3. Классификация оборудования по задолженности**

> Анализ по типам оборудования показал, что 1% типов оборудования составляют 12% общей задолженности. Следовательно, есть смысл более детально анализировать продажи по этим типам, локации, портрет покупателя, источники трафика и др.


**Предложения по минимизации просрочки:**

* Более строгий контроль и анализ долгов по самым дорогим или часто продаваемым товарам.

* Разработка спецпредложений или программ лояльности для этих типов товаров, которые могут снизить уровень задолженности.

## **4. Рекомендации по совершенствованию существующей скоринговой системы**

---



**Сегментация по задолженности**

> Сегментировать клиентов по их задолженности и ежемесячным платежам, чтобы точнее определить, кому из клиентов нужно предложить помощь, а кому — повысить требования.

Например:
* Если клиент с небольшой задолженностью и небольшими ежемесячными платежами, то можно предложить продление срока рассрочки с возможностью увеличения ежемесячных платежей.
* Если задолженность значительная, а ежемесячный платеж низкий, можно предложить досрочное погашение или пересмотр существующих условий.

**Уведомления и напоминания**

> Для минимизации просрочки можно ввести:
* систему наводящих вопросов при оформлении, отсылающих к моральной ответственности, которые в теории могут повысить финансовую самодисциплину (ожидаемое воздействие - альтернатива клятвы)
* напоминания о предстоящих платежах (если таковая отсутствует):
  * Например, за 3 дня до платежа отправлять уведомления или звонить в запущенных случаях. Это поможет снизить вероятность случайных пропусков платежей.

> Также можно тестировать систему предупреждений о задолженности для тех клиентов, которые уже накопили значительный долг (например, более 30% от стоимости оборудования). Напоминание о последствиях просрочек и предложении решения задолженности может снизить количество долгов.

**Продумать и протестировать программу "досрочной оплаты"**

> Введение скидок или бонусов для клиентов, которые закрывают свою задолженность досрочно. Это может снизить уровень задолженности и повысить своевременность платежей.

**Программы лояльности для ответственных клиентов**

> Для клиентов с хорошей платежной дисциплиной, которые платят без просрочек, можно предложить подарочные карты или скидки на будущие покупки. Это улучшит отношение клиентов к компании и будет стимулировать их продолжать выполнять обязательства.

## **Заключение**

---

> В целом, ситуация с задолженностью выглядит контролируемой, однако есть определенные области для улучшений.

> Основное внимание стоит уделить клиентам с более высокими задолженностями и типам товаров, которые вызывают наибольшие долговые проблемы.

> Понимание портрета ответственного платежеспособного клиента, гибкая рейтинговая система, работа с маркетингом, выработанный подход к решению проблемы задолженности и внедрение статистически значимых результатов исследований должны помочь скорректировать существующее положение дел.