Нашей компании нужно сгруппировать клиентов для АБ-тестов. Алгоритм группировки очень простой - взять ID клиента (состоит из 5-7 цифр, например 7412567) и найти сумму всех его цифр. Получившееся число и является номером группы, в которую входит данный клиент.

Для того, чтобы понять, насколько хорош такой простой алгоритм, тебе нужно написать следующие диагностические функции:

1. Функция, которая подсчитывает число покупателей, попадающих в каждую группу, если нумерация ID сквозная и начинается с 0. На вход функция получает целое число n_customers (количество клиентов).
2. Функция, аналогичная первой, если ID начинается с произвольного числа. На вход функция получает целые числа: n_customers (количество клиентов) и n_first_id (первый ID в последовательности).

Напишите код функций на Python и оформите его в репозиторий Github. В форму ответа вставьте ссылку на репозиторий, убедитесь, что он публичный. 

Дополнительно к работоспособности оценим:

читабельность и аккуратность кода;
производительность кода.

## Версия 1: ##

In [1]:
# Единая функция для задач 1 и 2
import pandas as pd
import time
start_time = time.time()

# Второй параметр - первый ID в последовательности. По умолчанию 0.
def ABusers_counter(n_customers, n_first_id=0): 
    
    id_df = pd.DataFrame({
        'id_customer':[],
        'group':[]
    }) # DataFrame покупатель:группа
    # Цикл заполнения DataFrame
    while n_first_id < n_customers+1:  
        group = 0
        n_current_id = n_first_id
        # Цикл определения группы покупателя - group
        while n_current_id: 
            group, n_current_id = group + n_current_id%10, n_current_id // 10
        
        id_df.loc[len(id_df.index)]=[n_first_id, group]
        n_first_id+=1

# Возвращает DataFrame со всем покупателями и присвоенными им группам
# и Series с переченем групп с количествами, где index - группа, value - количество
    print("--- %s seconds ---" % (time.time() - start_time))  
    print (id_df)
    return id_df['group'].value_counts().sort_index() 

      
ABusers_counter(1000, 200)

--- 1.0293612480163574 seconds ---
     id_customer  group
0            200      2
1            201      3
2            202      4
3            203      5
4            204      6
..           ...    ...
796          996     24
797          997     25
798          998     26
799          999     27
800         1000      1

[801 rows x 2 columns]


1      1
2      1
3      3
4      6
5     10
6     15
7     21
8     28
9     36
10    44
11    52
12    58
13    62
14    64
15    64
16    62
17    58
18    52
19    44
20    36
21    28
22    21
23    15
24    10
25     6
26     3
27     1
Name: group, dtype: int64

## Промежуточный результат ##

Способ, который первым пришел в голову, получился очень медленным.

Много циклов и математических операций:

При подсчете 1000 t=1,38сек

При подсчете 10000 t=13,8сек

Про 7412567 даже страшно подумать.

Через NumPy должно получиться быстрее, проще

## Версия 2: ##

In [2]:
# Единая функция для задач 1 и 2

import numpy as np
import time
from collections import Counter
start_time = time.time()

# Второй параметр - первый ID в последовательности. По умолчанию 0.
def ABusers_counter2(n_customers, n_first_id=0): 

    id_array = np.arange (n_customers+1)
    print(id_array[n_first_id:])
    # Итерационно в каждой ячейке число переводим в str, 
    # Отдельные символы числа в int, суммируем - получается группа покупателя
    for x in id_array[n_first_id:]: id_array[x]=sum([int(i) for i in str(x)]) 
    print("--- %s seconds ---" % (time.time() - start_time))
    return (Counter(id_array[n_first_id:]))

ABusers_counter2(1000, 200)

[ 200  201  202  203  204  205  206  207  208  209  210  211  212  213
  214  215  216  217  218  219  220  221  222  223  224  225  226  227
  228  229  230  231  232  233  234  235  236  237  238  239  240  241
  242  243  244  245  246  247  248  249  250  251  252  253  254  255
  256  257  258  259  260  261  262  263  264  265  266  267  268  269
  270  271  272  273  274  275  276  277  278  279  280  281  282  283
  284  285  286  287  288  289  290  291  292  293  294  295  296  297
  298  299  300  301  302  303  304  305  306  307  308  309  310  311
  312  313  314  315  316  317  318  319  320  321  322  323  324  325
  326  327  328  329  330  331  332  333  334  335  336  337  338  339
  340  341  342  343  344  345  346  347  348  349  350  351  352  353
  354  355  356  357  358  359  360  361  362  363  364  365  366  367
  368  369  370  371  372  373  374  375  376  377  378  379  380  381
  382  383  384  385  386  387  388  389  390  391  392  393  394  395
  396 

Counter({2: 1,
         3: 3,
         4: 6,
         5: 10,
         6: 15,
         7: 21,
         8: 28,
         9: 36,
         10: 44,
         11: 52,
         12: 58,
         13: 62,
         14: 64,
         15: 64,
         16: 62,
         17: 58,
         18: 52,
         19: 44,
         20: 36,
         21: 28,
         22: 21,
         23: 15,
         24: 10,
         25: 6,
         26: 3,
         27: 1,
         1: 1})

## Финальный результат ##

В итоге получается на порядок более быстрый способ подсчета групп покупателей

При подсчете 1000 t=0.005сек

При подсчете 10000 t=0.06сек

При расчете id=7412567 из т.з. t=25.78сек