In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv("tr_types.csv", sep=";")
print(f"Таблица:\n{df}\n")

seed = np.random.seed(242)

sample = df.sample(n=100, random_state=242)

plata = sample['tr_description'].str.contains('плата', case=False).mean()

print(f"Доля подстрок содержащих 'плата': {plata:.2f}")

Таблица:
     tr_type                                     tr_description
0       3200  Плата за предоставление услуг посредством моби...
1       3210  Плата за предоставление отчета по счету карты ...
2       3800  Плата за обслуживание банковской карты (за пер...
3       4000            Плата за получение наличных в Сбербанке
4       4001  Плата за получение наличных в Сбербанке (в дру...
..       ...                                                ...
150     2990                             Списание по требованию
151     2992  Списание средств для погашения задолженности п...
152     3001            Комиссия за обслуживание ссудного счета
153     3030  Плата за обслуживание банковской карты (за пос...
154     3120                Плата за досрочный перевыпуск карты

[155 rows x 2 columns]

Доля подстрок содержащих 'плата': 0.26


In [None]:
transactions = pd.read_csv( "transactions.csv", sep=',',nrows = 1000000)
types = pd.read_csv( "tr_types.csv", sep=';' )

freq = transactions["tr_type"].value_counts()
print(f"Частота всех типов транзакций:\n{freq}\n")

freq = freq.head(5)
names = freq.index.to_list()
top = types.loc[types['tr_type'].isin(names)]
print(f"Топ 5 транзакций:\n{top}\n")

ans = {'Выдача наличных в АТМ Сбербанк России',
    'Комиссия за обслуживание ссудного счета',
    'Списание по требованию',
    'Оплата услуги. Банкоматы СБ РФ',
    'Погашение кредита (в пределах одного филиала)',
    'Покупка. POS ТУ СБ РФ'}

answer = top[top['tr_description'].isin(ans)]

print(f"Верные пункты: 1,4,6. Таблица только с этими пунктами:\n{answer}")

Частота всех типов транзакций:
1010    231117
2010    151166
7070    149006
1110    137658
1030    118975
         ...  
2446         4
4096         4
8146         3
1510         2
8100         2
Name: tr_type, Length: 72, dtype: int64

Топ 5 транзакций:
     tr_type                                     tr_description
59      7070  Перевод на карту (с карты) через Мобильный бан...
98      1010                              Покупка. POS ТУ СБ РФ
99      1030                     Оплата услуги. Банкоматы СБ РФ
101     1110                             Покупка. POS ТУ Россия
106     2010              Выдача наличных в АТМ Сбербанк России

Верные пункты: 1,4,6. Таблица только с этими пунктами:
     tr_type                         tr_description
98      1010                  Покупка. POS ТУ СБ РФ
99      1030         Оплата услуги. Банкоматы СБ РФ
106     2010  Выдача наличных в АТМ Сбербанк России


In [None]:
data = pd.read_csv( "transactions.csv", sep=',',nrows = 1000000)
data.set_index("customer_id", inplace=True)

ID = data['amount'].idxmax();
print(f"ID клиента с максимальной суммой пополнения: {ID}\n")

ID_transactions = data.loc[ID]
ABS = ID_transactions['amount'].abs().mode().iloc[0]

print(f"Наиболее встречающийся модуль: {ABS}")

ID клиента с максимальной суммой пополнения: 26782922

Наиболее встречающийся модуль: 22459.16


In [None]:
data = pd.read_csv( "transactions.csv", sep=',',nrows = 1000000)
data.set_index("customer_id", inplace=True)

sum1 = np.median(data['amount'])
print(f"Медиана суммы транзакций: {sum1:.2f}\n")


WithoutNull = data.dropna()
sum2 = np.median(WithoutNull['amount'])
print(f"Медиана суммы транзакций без пустых строк: {sum2:.2f}\n")


UniqueRows = data.sort_values('amount').drop_duplicates(subset=['mcc_code', 'tr_type'], keep='last')
sum3 = np.median(UniqueRows['amount'])
print(f"Медиана суммы транзакций по строкам, отсортированным по полю amount в порядке возрастания: {sum3:.2f}\n")

Difference = np.ptp([sum1, sum2, sum3])
print(f"Максимальная разница между медианами суммы транзакций: {Difference:.2f}")

Медиана суммы транзакций: -5614.79

Медиана суммы транзакций без пустых строк: -5596.60

Медиана суммы транзакций по строкам, отсортированным по полю amount в порядке возрастания: -920.83

Максимальная разница между медианами суммы транзакций: 4693.96
