In [1]:
import pandas as pd
import numpy as np

In [2]:
names = ['id', 'date', 'user_id', 'duration', 'medium', 'source', 'cost', 'order_id', 'amount_paid']
df = pd.read_csv('./module15_files/real_data_no_header.txt', sep='\t', names=names)

In [3]:
df

Unnamed: 0,id,date,user_id,duration,medium,source,cost,order_id,amount_paid
0,40443,05.10.2016 23:18,1010,0000925926,seo,google,0,6243,2020
1,35044,09.10.2016T 21:40:00,1036,0006493056,sem,yandex,007,6145,1560
2,40177,05.10.2016 3:23,1041,000337963,email,promo,0,6128,
3,39401,05.10.2016 23:19,1041,0000462963,sem,yandex,003,6697,
4,41545,01.10.2016 4:57,1042,0006493056,sem,google,006,4510,1480
5,38308,01.10.2016 23:29,1042,000337963,sem,google,006,2622,1440
6,35921,03.10.2016 20:20,1042,0001388889,sem,google,012,2663,1400
7,41783,04.10.2016 0:35,1042,0001643519,brand,yandex,0,2582,2000
8,42099,04.10.2016 13:46,1042,0001921296,sem,yandex,011,2619,1620
9,38328,04.10.2016 17:34,1042,0003287037,email,promo,0,2598,1100


# Итак, в файле вы встретите следующие особенности:

- Даты имеют разный формат: за 8 и 9 октября формат с "09.10.2016 21:40" сменился на "09.10.2016T 21:40:00" (добавилась буква T и секунды). Разработчики объяснили этот тем, что сбились настройки в базе данных.
- У покупок некоторых пользователей неизвестно значение выручки, из-за чего количество столбцов в строке уменьшается на один.
- У CPA-партнеров (для столбца medium = cpa-partners) реальная сумма покупки умножена на миллион. Так иногда действительно делают, чтобы избежать дробных чисел и работать только с целыми. Разработчикам просто так удобнее.

Наша задача - посчитать среднее значение суммы покупки за каждый день. Т. е. для каждой строки надо перевести время покупки в дату, верно пересчитать сумму покупки и просто сгруппировать таблицу по дням (например, в Pandas).

Поскольку проблемы исходных данных нам известны, то давайте перед тем как писать циклы или использовать Pandas напишем функции, которые помогут нам обойти эти проблемы. Начнем с дат. Что будет, если будем расшифровывать данные только в "старом" формате?

In [4]:
from datetime import datetime

# Если дата в формате "05.10.2016 23:18" (дата из первой строки файла), то здесь все просто:

date_string = '05.10.2016 23:18'

date_datetime = datetime.strptime(date_string, '%d.%m.%Y %H:%M')

print(date_datetime)

2016-10-05 23:18:00


In [5]:
# Для перевода в дату покупки добавляем:

print(date_datetime.strftime('%Y-%m-%d'))

2016-10-05


In [6]:
# Давайте для удобства обернем эту операцию в функцию, мы еще много раз будем использовать этот алгоритм:

def datetime_to_date(date_string):

    """Перевод даты покупки в формат %Y-%m-%d"""

    try:
        date_datetime = datetime.strptime(date_string, '%d.%m.%Y %H:%M')  
    except ValueError:
        try:
            date_datetime = datetime.strptime(date_string, '%d.%m.%YT %H:%M:%S')
        except ValueError:
            return 'undefined'

    return date_datetime.strftime('%Y-%m-%d')

In [7]:
datetime_to_date('05.10.2016 23:18')

'2016-10-05'

In [8]:
datetime_to_date('09.10.2016T 21:40:00')

'2016-10-09'

In [9]:
datetime_to_date('2017-10-05')

'undefined'

In [10]:
df['dateTime'] = df['date'].map(datetime_to_date)
df.drop('date', axis=1, inplace=True)

In [11]:
df.dropna(inplace=True)

In [None]:
cpa_fltr = df['medium']=='cpa-partners'
float_columns = ['cost', 'amount_paid']
df[float_columns] = df[float_columns].apply(lambda x: x.str.replace(',', '.').astype('float32'))

df.loc[cpa_fltr, 'amount_paid'] = df.loc[cpa_fltr, 'amount_paid'] / 1e6

In [19]:
df.groupby('dateTime')['amount_paid'].mean()

dateTime
2016-10-01    16.030001
2016-10-02    16.990910
2016-10-03    18.770000
2016-10-04    18.108334
2016-10-05    16.455999
2016-10-06    17.080000
2016-10-07    18.445454
2016-10-08    18.141176
2016-10-09    18.810526
2016-10-10    17.000000
Name: amount_paid, dtype: float32