Нашей компании нужно сгруппировать клиентов для АБ-тестов. Алгоритм группировки очень простой - взять ID клиента (состоит из 5-7 цифр, например 7412567) и найти сумму всех его цифр. Получившееся число и является номером группы, в которую входит данный клиент.

Для того, чтобы понять, насколько хорош такой простой алгоритм, тебе нужно написать следующие диагностические функции:

1. Функция, которая подсчитывает число покупателей, попадающих в каждую группу, если нумерация ID сквозная и начинается с 0. На вход функция получает целое число n_customers (количество клиентов).

In [1]:
import numpy as np
import pandas as pd

In [2]:
def func_first(n_customers: int) -> pd.DataFrame:
    
    # проверка на кооректность вводимых значений
    # оба значения должны быть типа int
    if isinstance(n_customers, int) == False:
        print('TypeError: type must be int')
    
    # список id
    list_client = np.arange(0, n_customers)
    # пустой список: ключ(номер группы) - значение (число клиентов)
    dict_client = {}

    # условие проверки наличия группы в словаре dict_client
    # если нет, то добавляю со значением 1
    # если есть, то прибавляю к значению 1
    for i in list_client:
        if sum(map(int, str(i))) not in dict_client.keys():
            dict_client[sum(map(int, str(i)))] = 1
        else:
            dict_client[sum(map(int, str(i)))] += 1

    #создание датафрейма для вывода
    df = pd.Series(dict_client).to_frame().reset_index()
    # переименование столбцов полученного датафрейма
    df.rename(columns={'index': 'group', 0: 'count_clients'}, inplace=True)

    return df

In [3]:
func_first(20)

Unnamed: 0,group,count_clients
0,0,1
1,1,2
2,2,2
3,3,2
4,4,2
5,5,2
6,6,2
7,7,2
8,8,2
9,9,2


Функция, аналогичная первой, если ID начинается с произвольного числа. На вход функция получает целые числа: n_customers (количество клиентов) и n_first_id (первый ID в последовательности).

In [4]:
def func_second(n_customers: int, n_first_id:int) -> pd.DataFrame:
    
    # проверка на кооректность вводимых значений
    # оба значения должны быть типа int
    if isinstance(n_customers, int) == False and isinstance(n_first_id, int) == False:
        print('TypeError: type must be int')

    # список id
    list_client = np.arange(n_first_id, n_customers+n_first_id)
    # пустой список: ключ(номер группы) - значение (число клиентов)
    dict_client = {}

    # условие проверки наличия группы в словаре dict_client
    # если нет, то добавляю со значением 1
    # если есть, то прибавляю к значению 1
    for i in list_client:
        if sum(map(int, str(i))) not in dict_client.keys():
            dict_client[sum(map(int, str(i)))] = 1
        else:
            dict_client[sum(map(int, str(i)))] += 1

    #создание датафрейма для вывода
    df = pd.Series(dict_client).to_frame().reset_index()
    # переименование столбцов полученного датафрейма
    df.rename(columns={'index': 'group', 0: 'count_clients'}, inplace=True)
    # сортировка по возрастанию номера группы
    df.sort_values(by=['group'], ascending=True, inplace=True)
    # обновление индексов датафрейма
    df = df.reset_index(drop=True)
    
    return df

In [5]:
func_second(80, 5)

Unnamed: 0,group,count_clients
0,1,1
1,2,2
2,3,3
3,4,4
4,5,6
5,6,7
6,7,8
7,8,9
8,9,9
9,10,8
