Нашей компании нужно сгруппировать клиентов для АБ-тестов. Алгоритм группировки очень простой - взять ID клиента (состоит из 5-7 цифр, например 7412567) и найти сумму всех его цифр. Получившееся число и является номером группы, в которую входит данный клиент.

Для того, чтобы понять, насколько хорош такой простой алгоритм, тебе нужно написать следующие диагностические функции:

1. Функция, которая подсчитывает число покупателей, попадающих в каждую группу, если нумерация ID сквозная и начинается с 0. На вход функция получает целое число n_customers (количество клиентов).
2. Функция, аналогичная первой, если ID начинается с произвольного числа. На вход функция получает целые числа: n_customers (количество клиентов) и n_first_id (первый ID в последовательности).

In [1]:
import pandas as pd

In [2]:
#функция считает сумму цифр числа

def sum_of_digits(num):
    sum = 0
    while num > 0:
        sum += num % 10
        num //= 10
    return sum   

In [3]:
# Функция, которая подсчитывает число покупателей, попадающих в каждую группу, 
# если нумерация ID сквозная и начинается с 0. 
# На вход функция получает целое число n_customers (количество клиентов)

# Поскольку нумерация начинается с 0 и состоит из пяти цифр (а не представляет собой пятизначное число),
# я предположила, что id клиентов с номерами от 0 до 9999 выводятся в пятизначном формате.
# Таким образом, первый id - 00000.

def num_of_buyers_in_the_group_1(n_customers):
    
    df = pd.DataFrame({'id': [], 'number_of_group': []})
    for i in range(0, n_customers):
        if i < 10000:
            new_row = pd.DataFrame({'id': f'{i:0{5}}', 'number_of_group': [sum_of_digits(i)]})
            df = pd.concat([df, new_row], ignore_index=True)
        else:
            new_row = pd.DataFrame({'id': i, 'number_of_group': [sum_of_digits(i)]})
            df = pd.concat([df, new_row], ignore_index=True)
    return df["number_of_group"].value_counts()

In [4]:
num_of_buyers_in_the_group_1(10000)

18.0    670
19.0    660
17.0    660
16.0    633
20.0    633
15.0    592
21.0    592
14.0    540
22.0    540
13.0    480
23.0    480
24.0    415
12.0    415
25.0    348
11.0    348
26.0    282
10.0    282
27.0    220
9.0     220
28.0    165
8.0     165
29.0    120
7.0     120
6.0      84
30.0     84
31.0     56
5.0      56
4.0      35
32.0     35
3.0      20
33.0     20
2.0      10
34.0     10
1.0       4
35.0      4
0.0       1
36.0      1
Name: number_of_group, dtype: int64

In [5]:
# Функция, которая подсчитывает число покупателей, попадающих в каждую группу, 
# если ID начинается с произвольного числа. 
# На вход функция получает целые числа: n_customers (количество клиентов) и n_first_id (первый ID в последовательности).

def num_of_buyers_in_the_group_2(n_customers, n_first_id):

    
    df = pd.DataFrame({'id': [], 'number_of_group': []})
    for i in range(n_first_id, n_customers + n_first_id):
        if i < 10000:
            new_row = pd.DataFrame({'id': f'{i:0{5}}', 'number_of_group': [sum_of_digits(i)]})
            df = pd.concat([df, new_row], ignore_index=True)
        else:
            new_row = pd.DataFrame({'id': i, 'number_of_group': [sum_of_digits(i)]})
            df = pd.concat([df, new_row], ignore_index=True)
    return df["number_of_group"].value_counts()

In [6]:
# Здесь я предположила, что пользователь вводит id без нулей перед числом короче пятизначного
num_of_buyers_in_the_group_2(300, 200)

12.0    28
13.0    27
11.0    27
10.0    24
14.0    24
9.0     21
15.0    21
8.0     18
16.0    18
7.0     15
17.0    15
6.0     12
18.0    12
5.0      9
19.0     9
4.0      6
20.0     6
21.0     3
3.0      3
2.0      1
22.0     1
Name: number_of_group, dtype: int64

In [7]:
num_of_buyers_in_the_group_2(300, 12000)

13.0    28
14.0    27
12.0    27
11.0    24
15.0    24
10.0    21
16.0    21
9.0     18
17.0    18
8.0     15
18.0    15
7.0     12
19.0    12
6.0      9
20.0     9
5.0      6
21.0     6
22.0     3
4.0      3
3.0      1
23.0     1
Name: number_of_group, dtype: int64