# Data Aggregation and Group Operations


In [1]:
import pandas as pd
import numpy as np

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:
data = {
    'Дата': ['2023-01-01', '2023-01-05', '2023-02-10', '2023-02-15', '2023-03-03'],
    'Сумма': [100, 200, 150, 300, 250],
    'Тип': ['покупка', 'перевод', 'покупка', 'снятие', 'перевод'],
    'Клиент': ['Клиент1', 'Клиент2', 'Клиент1', 'Клиент3', 'Клиент2']
} 


In [6]:
# Преобразуйте столбец 'Дата' в формат datetime
# Группируйте данные по клиентам и суммируем сумму транзакций для каждого клиента
# Группируйте данные по типу транзакции и вычисляем среднюю сумму транзакций
# Добавьте столбец с месяцем транзакции
# Группируйте данные по клиентам и месяцам и суммируем сумму транзакций для каждого клиента в каждом месяце
# примините основные агрегирующие операции : 
# Посчитать общую сумму операций для каждого клиента.
# Найти среднюю сумму операции для каждого типа операции.
# Определить день с наибольшей суммой операций.
# Рассчитать общую сумму операций за каждый месяц
# Найти клиента с наибольшей общей суммой операций
# Посчитать общее количество операций для каждого типа
# Определить день с наибольшим количеством операций
# Найти клиента, который совершил наибольшее количество операций

In [7]:
data_df = pd.DataFrame(data)

In [8]:
# Преобразуйте столбец 'Дата' в формат datetime
data_df['Дата'] = pd.to_datetime(data_df['Дата'])

In [10]:
# Группируйте данные по клиентам и суммируем сумму транзакций для каждого клиента
total_transactions_by_client = data_df.groupby('Клиент')['Сумма'].sum()
total_transactions_by_client

Клиент
Клиент1    250
Клиент2    450
Клиент3    300
Name: Сумма, dtype: int64

In [11]:
# Группируйте данные по типу транзакции и вычисляем среднюю сумму транзакций
average_transaction_amount_by_type = data_df.groupby('Тип')['Сумма'].mean()
average_transaction_amount_by_type

Тип
перевод    225.0
покупка    125.0
снятие     300.0
Name: Сумма, dtype: float64

In [12]:
# Добавьте столбец с месяцем транзакции
data_df['Месяц'] = data_df['Дата'].dt.month

In [14]:
# Группируйте данные по клиентам и месяцам и суммируем сумму транзакций для каждого клиента в каждом месяце
total_transactions_by_client_month = data_df.groupby(['Клиент', 'Месяц'])['Сумма'].sum()
total_transactions_by_client_month

Клиент   Месяц
Клиент1  1        100
         2        150
Клиент2  1        200
         3        250
Клиент3  2        300
Name: Сумма, dtype: int64

In [15]:
# Определить день с наибольшей суммой операций.
max_day = data_df.groupby('Дата')['Сумма'].sum().idxmax()
max_day

Timestamp('2023-02-15 00:00:00')

In [17]:
# Рассчитать общую сумму операций за каждый месяц
total_transactions_by_month = data_df.groupby(data_df['Дата'].dt.to_period('M'))['Сумма'].sum()
total_transactions_by_month

Дата
2023-01    300
2023-02    450
2023-03    250
Freq: M, Name: Сумма, dtype: int64

In [18]:
# Найти клиента с наибольшей общей суммой операций
total_transactions_by_client.idxmax()

'Клиент2'

In [19]:
# Посчитать общее количество операций для каждого типа
total_transactions_by_type = data_df['Тип'].value_counts()
total_transactions_by_type

Тип
покупка    2
перевод    2
снятие     1
Name: count, dtype: int64

In [20]:
# Определить день с наибольшим количеством операций
day_max_oper = data_df['Дата'].value_counts().idxmax()
day_max_oper

Timestamp('2023-01-01 00:00:00')

In [21]:
# Найти клиента, который совершил наибольшее количество операций
client_max_oper = data_df['Клиент'].value_counts().idxmax()
client_max_oper

'Клиент1'