In [4]:
import pandas as pd
import datetime as dt
import os

In [5]:
df = pd.read_csv(
    filepath_or_buffer="data_for_testing/variant1.csv",
    sep="\t",
    parse_dates=['timestamp']
)

df['date'] = pd.to_datetime(df['timestamp'].dt.strftime("%Y-%m-%d"))
df['year'] = df['timestamp'].dt.year
df['month'] = df['timestamp'].dt.month
df['day'] = df['timestamp'].dt.day

start_date = df.timestamp.min()
end_date = df.timestamp.max()

print(start_date)
print(end_date)

# Убираем первые и последние месяцы
df = df[~((df['timestamp'].dt.year == start_date.year) & (df['timestamp'].dt.month == start_date.month))]
df = df[~((df['timestamp'].dt.year == end_date.year) & (df['timestamp'].dt.month == end_date.month))]
df

2021-04-01 01:58:37
2024-03-31 19:16:11


Unnamed: 0,userid,timestamp,action,value,testids,date,year,month,day
0,user_460,2022-06-15 12:11:11,cart,80130,30;15;94;71;22;6;81;38,2022-06-15,2022,6,15
1,user_335,2021-09-22 22:25:54,checkout,59289,,2021-09-22,2021,9,22
2,user_476,2022-09-26 04:31:55,product,0,85;19;41;57;37;34;62,2022-09-26,2022,9,26
3,user_440,2022-02-11 01:57:50,mainpage,0,84;64;79;9;32;67;29,2022-02-11,2022,2,11
4,user_465,2021-06-04 10:05:50,confirmation,21088,,2021-06-04,2021,6,4
...,...,...,...,...,...,...,...,...,...
9995,user_472,2023-02-04 20:24:44,mainpage,0,26;44;8;59;57;39,2023-02-04,2023,2,4
9996,user_150,2022-11-16 00:21:55,cart,41982,35;27;45;97,2022-11-16,2022,11,16
9997,user_91,2022-05-10 13:57:39,product,0,14;28,2022-05-10,2022,5,10
9998,user_117,2022-06-15 16:36:12,checkout,58853,10;81;61;38,2022-06-15,2022,6,15


In [6]:
# Определим дату регистрации для каждого пользователя (дату первого действия на сайте)
reg_dates = df.groupby(['userid'])['date'].agg(['min']).reset_index().rename(columns={'min':'reg_date'})

# Добавляем дату регистрации для каждого пользователя
df = df.merge(reg_dates, left_on='userid', right_on='userid', how='left')

df

# # Можно посмотреть в какие дни были "регистрации" новых пользователей
# reg_dates['reg_date'].value_counts()

Unnamed: 0,userid,timestamp,action,value,testids,date,year,month,day,reg_date
0,user_460,2022-06-15 12:11:11,cart,80130,30;15;94;71;22;6;81;38,2022-06-15,2022,6,15,2021-05-07
1,user_335,2021-09-22 22:25:54,checkout,59289,,2021-09-22,2021,9,22,2021-05-29
2,user_476,2022-09-26 04:31:55,product,0,85;19;41;57;37;34;62,2022-09-26,2022,9,26,2021-05-15
3,user_440,2022-02-11 01:57:50,mainpage,0,84;64;79;9;32;67;29,2022-02-11,2022,2,11,2021-05-17
4,user_465,2021-06-04 10:05:50,confirmation,21088,,2021-06-04,2021,6,4,2021-05-26
...,...,...,...,...,...,...,...,...,...,...
9451,user_472,2023-02-04 20:24:44,mainpage,0,26;44;8;59;57;39,2023-02-04,2023,2,4,2021-05-26
9452,user_150,2022-11-16 00:21:55,cart,41982,35;27;45;97,2022-11-16,2022,11,16,2021-05-09
9453,user_91,2022-05-10 13:57:39,product,0,14;28,2022-05-10,2022,5,10,2021-05-03
9454,user_117,2022-06-15 16:36:12,checkout,58853,10;81;61;38,2022-06-15,2022,6,15,2021-05-25


In [7]:
# Выберем только те записи, когда были покупки, совершенные в день первого визита на сайта
reg_dates_confirmation = df.query('action == "confirmation" & date == reg_date')

In [8]:
# Считаем максимальные продажи в каждый из дней
result = reg_dates_confirmation.groupby('date')['value'].agg('max')
result = pd.DataFrame(result).reset_index()
# result

In [9]:
result['year'] = result['date'].dt.year
result['month'] = result['date'].dt.month
result['day'] = result['date'].dt.day

# result

In [10]:
# Дропаем если есть одинаковые сумму в рамках одного месяц
# Дропаются повторяющиеся, а первые останутся, так как у нас уже отсортированный по возрастанию датасет
# И будут оставаться только самые ранние даты в случае наличия дубликатов по year-month-value
result = result.drop_duplicates(subset=['year', 'month', 'value'])

In [11]:
# Найдем индексы с максимальными значениями по каждому месяцу
idx = pd.DataFrame(result.groupby(['year', 'month'])['value'].idxmax()).reset_index()['value'].to_list()

In [12]:
result = result.iloc[idx,[0,1]].rename(columns={'date':'timestamp'})
result

Unnamed: 0,timestamp,value
3,2021-05-08,96806
23,2021-06-11,86736
34,2021-07-28,99161
36,2021-08-05,97593
43,2021-09-27,99243
45,2021-10-02,82898
48,2022-01-01,93900


# Заворачиваем в функцию

In [13]:
import pandas as pd
import datetime as dt
import os
def my_func_release(path:str):
    """
    :param path: - путь до файла CSV
    """
    
    df = pd.read_csv(
    filepath_or_buffer=path,
    sep="\t",
    parse_dates=['timestamp']
    )

    # Новые колонки
    df['date'] = pd.to_datetime(df['timestamp'].dt.strftime("%Y-%m-%d"))
    df['year'] = df['timestamp'].dt.year
    df['month'] = df['timestamp'].dt.month
    df['day'] = df['timestamp'].dt.day

    start_date = df.timestamp.min()
    end_date = df.timestamp.max()

    # Убираем первые и последние месяцы
    df = df[~((df['timestamp'].dt.year == start_date.year) & (df['timestamp'].dt.month == start_date.month))]
    df = df[~((df['timestamp'].dt.year == end_date.year) & (df['timestamp'].dt.month == end_date.month))]

    # Определим дату регистрации для каждого пользователя (дату первого действия на сайте)
    reg_dates = df.groupby(['userid'])['date'].agg(['min']).reset_index().rename(columns={'min':'reg_date'})

    # Добавляем дату регистрации для каждого пользователя
    df = df.merge(reg_dates, left_on='userid', right_on='userid', how='left')

    # Выберем только те записи, когда были покупки, совершенные в день первого визита на сайта
    reg_dates_confirmation = df.query('action == "confirmation" & date == reg_date')

    # Считаем максимальные продажи в каждый из дней
    result = reg_dates_confirmation.groupby('date')['value'].agg('max')
    result = pd.DataFrame(result).reset_index()

    # Колонки для группировки
    result['year'] = result['date'].dt.year
    result['month'] = result['date'].dt.month
    result['day'] = result['date'].dt.day

    # Дропаем если есть одинаковые сумму в рамках одного месяц
    # Дропаются повторяющиеся, а первые останутся, так как у нас уже отсортированный по возрастанию датасет
    # И будут оставаться только самые ранние даты в случае наличия дубликатов по year-month-value
    result = result.drop_duplicates(subset=['year', 'month', 'value'])

    # Найдем индексы с максимальными значениями по каждому месяцу
    idx = pd.DataFrame(result.groupby(['year', 'month'])['value'].idxmax()).reset_index()['value'].to_list()

    # Вытащим из результатов записи с максимальными суммами покупки в каждом месяце
    output = result.iloc[idx,[0,1]].rename(columns={'date':'timestamp'})

    # Сохранение
    output.to_csv('output.csv', sep='\t', index=False)

    return output

In [14]:
my_func("data_for_testing/variant55.csv")

Unnamed: 0,timestamp,value
1,2021-05-03,95781
24,2021-06-11,98079
32,2021-07-08,97336
39,2021-08-12,90669
44,2021-09-20,84172
46,2021-10-11,53193
48,2021-11-17,23194
49,2021-12-12,13482


In [17]:
import pandas as pd
import datetime as dt
import os
"""

"""
def my_func_debug(path:str) -> pd.DataFrame:
    """
    Recieve value
    :param path: - path to file.csv
    Make
    :output a file "output.csv" in current dir
    Return value 
    : Success
    : - pd.DataFrame 
    : Error
    : - 1 -> Invalid FilePath error occur
    : // !!!TODO - 2 -> Invalid DataRead error occur 
    """
    try:
        df = pd.read_csv(
        filepath_or_buffer=path,
        sep="\t",
        parse_dates=['timestamp']
        )
    except FileNotFoundError:
        return 1
    
    # Новые колонки
    df['date'] = pd.to_datetime(df['timestamp'].dt.strftime("%Y-%m-%d")) 
    df['year'] = df['timestamp'].dt.year
    df['month'] = df['timestamp'].dt.month
    df['day'] = df['timestamp'].dt.day

    start_date = df.timestamp.min()
    end_date = df.timestamp.max()

    # Убираем первые и последние месяцы
    df = df[~((df['timestamp'].dt.year == start_date.year) & (df['timestamp'].dt.month == start_date.month))]
    df = df[~((df['timestamp'].dt.year == end_date.year) & (df['timestamp'].dt.month == end_date.month))]

    # Определим дату регистрации для каждого пользователя (дату первого действия на сайте)
    reg_dates = df.groupby(['userid'])['date'].agg(['min']).reset_index().rename(columns={'min':'reg_date'})

    # Добавляем дату регистрации для каждого пользователя
    df = df.merge(reg_dates, left_on='userid', right_on='userid', how='left')

    # Выберем только те записи, когда были покупки, совершенные в день первого визита на сайта
    reg_dates_confirmation = df.query('action == "confirmation" & date == reg_date')

    # Считаем максимальные продажи в каждый из дней
    result = reg_dates_confirmation.groupby('date')['value'].agg('max')
    result = pd.DataFrame(result).reset_index()

    # Колонки для группировки
    result['year'] = result['date'].dt.year
    result['month'] = result['date'].dt.month
    result['day'] = result['date'].dt.day

    # Дропаем если есть одинаковые сумму в рамках одного месяц
    # Дропаются повторяющиеся, а первые останутся, так как у нас уже отсортированный по возрастанию датасет
    # И будут оставаться только самые ранние даты в случае наличия дубликатов по year-month-value
    result = result.drop_duplicates(subset=['year', 'month', 'value'])

    # Найдем индексы с максимальными значениями по каждому месяцу
    idx = pd.DataFrame(result.groupby(['year', 'month'])['value'].idxmax()).reset_index()['value'].to_list()

    # Вытащим из результатов записи с максимальными суммами покупки в каждом месяце
    output = result.iloc[idx,[0,1]].rename(columns={'date':'timestamp'})

    # Сохранение
    output.to_csv('output.csv', sep='\t', index=False)

    return output

In [16]:
my_func_debug('/variant40.csv')

1