<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Создаём-пустые-таблицы" data-toc-modified-id="Создаём-пустые-таблицы-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Создаём пустые таблицы</a></span></li><li><span><a href="#Заполняем-таблицы-данными" data-toc-modified-id="Заполняем-таблицы-данными-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Заполняем таблицы данными</a></span><ul class="toc-item"><li><span><a href="#Таблица-транзакций:" data-toc-modified-id="Таблица-транзакций:-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Таблица транзакций:</a></span></li><li><span><a href="#Таблица-торговых-точек:" data-toc-modified-id="Таблица-торговых-точек:-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Таблица торговых точек:</a></span></li><li><span><a href="#Таблица-клиентов:" data-toc-modified-id="Таблица-клиентов:-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Таблица клиентов:</a></span></li></ul></li><li><span><a href="#Заполнение-таблицы-расчётов-(calculations)" data-toc-modified-id="Заполнение-таблицы-расчётов-(calculations)-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Заполнение таблицы расчётов (calculations)</a></span></li><li><span><a href="#Примерные-запросы-из-таблицы-расчётов" data-toc-modified-id="Примерные-запросы-из-таблицы-расчётов-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Примерные запросы из таблицы расчётов</a></span></li></ul></div>

In [1]:
from datetime import datetime, timedelta

import pandas as pd
import numpy as np

## Создаём пустые таблицы 

In [2]:
# Создание пустого датафрейма
t = pd.DataFrame(columns=["merchant_id", "client_id", "transaction_dttm", "transaction_amt"])

# Задаём типы данных для каждого столбца, аналогичные типам в SQL-запросе
t = t.astype({
    "merchant_id": "int32",
    "client_id": "int32",
    "transaction_dttm": "datetime64[ns]",
    "transaction_amt": "float"
})

# Создание датафрейма "Торговые точки (m)"
m = pd.DataFrame(columns=["merchant_id", "latitude", "longitude", "mcc_cd"])
m = m.astype({
    "merchant_id": "int32",
    "latitude": "float",
    "longitude": "float",
    "mcc_cd": "int32"
})

# Создание датафрейма "Профиль клиента (c)"
c = pd.DataFrame(columns=["client_id", "gender", "age"])
c = c.astype({
    "client_id": "int32",
    "gender": "str",
    "age": "int32"
})

## Заполняем таблицы данными

### Таблица транзакций:

In [3]:
# Задаем начало и конец диапазона дат
start = datetime(2020, 1, 1)
end = datetime(2023, 12, 31, 23, 59, 59)

# Разница между этими датами в секундах
diff = (end - start).total_seconds()

# Заполнение таблицы транзакций
t["merchant_id"] = np.random.randint(1, 1001, size=1000)
t["client_id"] = np.random.randint(1, 1001, size=1000)
t["transaction_dttm"] = [start + timedelta(seconds=np.random.randint(1, diff)) for i in range(1000)]
t["transaction_amt"] = np.random.randint(1, 10000, size=1000)

In [4]:
t

Unnamed: 0,merchant_id,client_id,transaction_dttm,transaction_amt
0,667,983,2021-03-09 12:04:24,626
1,200,502,2021-02-04 06:47:42,2216
2,716,21,2021-09-10 04:19:12,8317
3,653,696,2021-05-22 21:45:25,8075
4,724,220,2022-06-25 04:24:00,1468
...,...,...,...,...
995,759,347,2020-07-14 13:05:48,2943
996,186,904,2023-01-25 07:39:52,7060
997,788,205,2022-10-08 01:55:17,8180
998,858,386,2023-01-02 14:54:25,3376


### Таблица торговых точек:

In [5]:
# заполняем таблицу торговых точек, за основу берём merchant_id из таблицы транзакций и для них генерируем данные
m_ids = t['merchant_id']
m = pd.DataFrame({
    'merchant_id': m_ids,
    'latitude': 46.0 + np.random.uniform(0, 1, size=len(m_ids)) * (55.0-46.0),
    'longitude': 37.0 + np.random.uniform(0, 1, size=len(m_ids)) * (70.0-37.0),
    'mcc_cd': np.random.randint(200, 10000, size=len(m_ids))
})

In [6]:
m

Unnamed: 0,merchant_id,latitude,longitude,mcc_cd
0,667,52.422155,65.856544,4608
1,200,51.587188,47.257775,7786
2,716,54.039873,50.518234,4221
3,653,50.750375,57.138415,1072
4,724,47.821119,39.110225,8991
...,...,...,...,...
995,759,47.936022,55.680061,4942
996,186,46.517480,43.927342,7359
997,788,53.524039,48.841473,2801
998,858,48.914315,58.139553,7680


### Таблица клиентов:

In [7]:
# создаём уникальный список клиентов
c_ids = t['client_id'].unique()
gender = np.where(np.random.rand(len(c_ids)) > 0.5, 'M', 'F')

# создаём словарь с уникальными id клиентов и рандомным возрастом
clients_age = {c_id: np.random.randint(18, 80) for c_id in c_ids}

# создаём DataFrame, используя словарь
c = pd.DataFrame({
    'client_id': c_ids,
    'gender': gender,
    'age': list(clients_age.values())
})

In [8]:
c

Unnamed: 0,client_id,gender,age
0,983,F,36
1,502,F,66
2,21,M,35
3,696,F,34
4,220,M,32
...,...,...,...
614,925,M,45
615,586,F,56
616,73,M,51
617,205,F,62


## Заполнение таблицы расчётов (calculations)

In [9]:
# Объединяем три таблицы в одну по полям merchant_id и client_id и делаем общий df для дальнейших расчётов
df = t.merge(m, how='left', on='merchant_id')
df = df.merge(c, how='left', on="client_id")
df = df.rename(columns={'mcc_cd': 'industry'})


# добавляем дополнительные поля "год", "месяц", "возрастная группа"
df['year'] = df['transaction_dttm'].dt.year
df['month'] = df['transaction_dttm'].dt.month
df['age_group'] = pd.cut(df['age'], bins=[0, 18, 30, np.inf], labels=['Under 18', '19-30', 'Over 30'])

# Группируем данные по заданным полям и вычисляем агрегатные значения
client_summary_matview = df.groupby(['gender', 'age_group', 'industry', 'year', 'month']).agg(
    purchase_amt=('transaction_amt', 'sum'),
    avg_purchase_amt=('transaction_amt', 'mean'),
    count_purchases=('transaction_amt', 'count')
).reset_index()

# уберём NaN из колонки avg_purchase_amt
client_summary_matview['avg_purchase_amt'] = client_summary_matview['avg_purchase_amt'].fillna(0)

In [10]:
client_summary_matview

Unnamed: 0,gender,age_group,industry,year,month,purchase_amt,avg_purchase_amt,count_purchases
0,F,Under 18,201,2020,1,0,0.0,0
1,F,Under 18,201,2020,2,0,0.0,0
2,F,Under 18,201,2020,3,0,0.0,0
3,F,Under 18,201,2020,4,0,0.0,0
4,F,Under 18,201,2020,5,0,0.0,0
...,...,...,...,...,...,...,...,...
272731,M,Over 30,9999,2023,8,0,0.0,0
272732,M,Over 30,9999,2023,9,0,0.0,0
272733,M,Over 30,9999,2023,10,0,0.0,0
272734,M,Over 30,9999,2023,11,0,0.0,0


## Примерные запросы из таблицы расчётов

In [11]:
# Сумма вообще всех покупок за 2020 год
total_purchase_amt_2020 = client_summary_matview[client_summary_matview['year'] == 2020]['purchase_amt'].sum()
print("Сумма вообще всех покупок за 2020 год:", total_purchase_amt_2020)

Сумма вообще всех покупок за 2020 год: 2413219


In [12]:
# Сумма всех покупок за апрель 2020 года
total_purchase_amt_april_2020 = client_summary_matview[(client_summary_matview['year'] == 2020) & \
                                             (client_summary_matview['month'] == 4)]['purchase_amt'].sum()
print("Сумма всех покупок за апрель 2020 года:", total_purchase_amt_april_2020)

Сумма всех покупок за апрель 2020 года: 222147


In [13]:
# Сумма покупок всех мужчин за 2020 год
total_purchase_amt_men_2020 = client_summary_matview[(client_summary_matview['year'] == 2020) &  \
                                           (client_summary_matview['gender'] == 'M')]['purchase_amt'].sum()
print("Сумма покупок всех мужчин за 2020 год:", total_purchase_amt_men_2020)

Сумма покупок всех мужчин за 2020 год: 1226730


In [14]:
# Сумма покупок всех мужчин в возрасте 19-30 за 2020 год
total_purchase_amt_men_19_30_2020 = client_summary_matview[(client_summary_matview['year'] == 2020) & \
                                                 (client_summary_matview['gender'] == 'M') & \
                                                 (client_summary_matview['age_group'] == '19-30')]['purchase_amt'].sum()
print("Сумма покупок всех мужчин в возрасте 19-30 за 2020 год:", total_purchase_amt_men_19_30_2020)

Сумма покупок всех мужчин в возрасте 19-30 за 2020 год: 279374
