In [1]:
import pandas as pd
import numpy as np

## Задание 0


Для всех  заданий будем использовать обезличенные транзакционные банковские данные. Для этого считайте в переменные **tr_mcc_codes, tr_types, transactions и gender_train** из одноимённых таблиц из папки [data](https://drive.google.com/drive/folders/1YAMe7MiTxA-RSSd8Ex2p-L0Dspe6Gs4L). 

Для таблицы transactions используйте только первые n=1000000 строк. При чтении файлов обратите внимание на разделители внутри каждого из файлов - они могут различаться!

###  Описание данных
#### Таблица ```transactions.csv```
##### Описание
Таблица содержит историю транзакций клиентов банка за один год и три месяца.

##### Формат данных

```
customer_id,tr_datetime,mcc_code,tr_type,amount,term_id
111111,15 01:40:52,1111,1000,-5224,111111
111112,15 15:18:32,3333,2000,-100,11122233
...
```
##### Описание полей

 - ```customer_id``` — идентификатор клиента;
 - ```tr_datetime``` — день и время совершения транзакции (дни нумеруются с начала данных);
 - ```mcc_code``` — mcc-код транзакции;
 - ```tr_type``` — тип транзакции;
 - ```amount``` — сумма транзакции в условных единицах со знаком; ```+``` — начисление средств клиенту (приходная транзакция), ```-``` — списание средств (расходная транзакция);
 - ```term_id``` — идентификатор терминала;


#### Таблица ```gender_train.csv```

##### Описание
Данная таблица содержит информацию по полу для части клиентов, для которых он известен. Для остальных клиентов пол неизвестен.

##### Формат данных
```
customer_id,gender
111111,0
111112,1
...
```

##### Описание полей
 - ```customer_id``` — идентификатор клиента;
 - ```gender``` — пол клиента;

### Таблица ```tr_mcc_codes.csv```

##### Описание
Данная таблица содержит описание mcc-кодов транзакций.

##### Формат данных
```
mcc_code;mcc_description
1000;словесное описание mcc-кода 1000
2000;словесное описание mcc-кода 2000
...
```

##### Описание полей
 - ```mcc_code``` – mcc-код транзакции;
 - ```mcc_description``` — описание mcc-кода транзакции.

#### Таблица ```tr_types.csv```

##### Описание
Данная таблица содержит описание типов транзакций.

##### Формат данных
```
tr_type;tr_description
1000;словесное описание типа транзакции 1000
2000;словесное описание типа транзакции 2000
...
```

##### Описание полей
 - ```tr_type``` – тип транзакции;
 - ```tr_description``` — описание типа транзакции;

In [2]:
from google.colab import drive


drive.mount("/google_drive")

Mounted at /google_drive


In [3]:
transactions_sample_size = 10 ** 6

tr_mcc_codes = pd.read_csv(
    "/google_drive/MyDrive/Data/tr_mcc_codes.csv", 
    sep=";")

tr_types = pd.read_csv(
    "/google_drive/MyDrive/Data/tr_types.csv", 
    sep=";")

gender_train = pd.read_csv(
    "/google_drive/MyDrive/Data/gender_train.csv", 
    sep=",")


transactions = pd.read_csv(
    "/google_drive/MyDrive/Data/transactions.csv", 
    sep=",", 
    nrows=transactions_sample_size)



Задания 1-4 делаются без использования merge!

## Задание 1



1. Для столбца tr_type датафрейма transactions выберите произвольные 1000 строк с помощью метода sample
2. В полученной на предыдущем этапе подвыборке найдите долю транзакций (стобец tr_description в датасете tr_types), в которой содержится подстрока 'POS' или 'ATM'


In [5]:
def task_1(sample_size: int) -> float:
    tr_type_sample = transactions["tr_type"].sample(n=sample_size)

    tr_types_mathing_pattern= tr_types["tr_type"][
        tr_types["tr_description"].str.contains("POS|АТМ", regex=True)]

    sample_items_matching_pattern_count = tr_type_sample.isin(
        tr_types_mathing_pattern).value_counts()[True]

    return sample_items_matching_pattern_count / sample_size


if __name__ == "__main__":
    print(f"{task_1(1000):.3f}")

0.622


## Задание 2 


1. Для столбца tr_type датафрейма transactions посчитайте частоту встречаемости всех типов транзакций tr_type в transactions.
2. Выведите топ-10 транзакций по частоте встречаемости (вывести для них tr_description тоже).

In [6]:
# transactions_sample_size == 10 ** 6
def task_2_1() -> pd.Series:
    return transactions[["tr_type"]].value_counts() / transactions_sample_size

def task_2_2(tr_type_frequency: pd.Series) -> pd.Series: 
    tr_type_top_ten = tr_type_frequency.sort_values(ascending=False).head(10)
    tr_type_top_ten_index = [int(x[0]) for x in tr_type_top_ten.index]
    return tr_type_top_ten, tr_types[tr_types["tr_type"].isin(tr_type_top_ten_index)] 



if __name__ == "__main__":
    tr_type_frequency = task_2_1()
    print(f"Task 1:\n{tr_type_frequency.to_string()}\n")

    tr_type_top_ten, tr_description_top_ten = task_2_2(tr_type_frequency)
    print(f"Task 2:\n{tr_type_top_ten}")
    print(tr_description_top_ten)


Task 1:
tr_type
1010       0.231117
2010       0.151166
7070       0.149006
1110       0.137658
1030       0.118975
2370       0.049830
7010       0.028972
7030       0.026078
7071       0.015781
1100       0.015476
1200       0.010419
2330       0.009428
2011       0.006880
2371       0.006264
4071       0.006264
1210       0.005244
4010       0.004925
7031       0.003032
2331       0.002697
4051       0.002697
7020       0.002036
4011       0.001846
2020       0.001790
6110       0.001666
2110       0.001273
4110       0.001271
7011       0.001252
2320       0.001237
2210       0.000680
2440       0.000555
7021       0.000541
7074       0.000505
7014       0.000475
4210       0.000451
6200       0.000344
6100       0.000328
2460       0.000298
6010       0.000272
1410       0.000179
1310       0.000166
4090       0.000144
7034       0.000126
4041       0.000068
4031       0.000063
2456       0.000060
2021       0.000057
4500       0.000057
4097       0.000050
4020       0.000036
6210

## Задание 3
1. В датафрейме transactions найдите клиента с максимальной суммой приходов на карту
2. В датафрейме transactions найдите клиента с максимальной суммой расходов по карте
3. Найдите модуль разницы для этих клиентов между суммой расходов и суммой приходов

In [7]:
def task_3_1(customers_amount_transactions: pd.Series) -> pd.Series:
    customers_replenishment_transactions = customers_amount_transactions[customers_amount_transactions["amount"] >= 0]
    customers_replenishment_sum = customers_replenishment_transactions.groupby("customer_id")["amount"].sum()
    return customers_replenishment_sum.sort_values(ascending=False).head(1)

def task_3_2(customers_amount_transactions: pd.Series) -> pd.Series:
    customers_withdrawal_transactions = customers_amount_transactions[customers_amount_transactions["amount"] < 0]
    customers_withdrawal_sum = customers_withdrawal_transactions.groupby("customer_id")["amount"].sum()
    return customers_withdrawal_sum.sort_values().head(1)

def task_3_3(top_one_replenishment_customer: pd.Series, top_one_withdrawal_customer: pd.Series) -> float:
    return np.abs(top_one_replenishment_customer.item() - top_one_withdrawal_customer.item())


if __name__ == "__main__":
    customers_amount_transactions = transactions[["customer_id", "amount"]]

    top_one_replenishment_customer = task_3_1(customers_amount_transactions)
    print(top_one_replenishment_customer.to_string(), end="\n\n")

    top_one_withdrawal_customer = task_3_2(customers_amount_transactions)
    print(top_one_withdrawal_customer.to_string(), end="\n\n")

    print(f"Abs of difference: {task_3_3(top_one_replenishment_customer, top_one_withdrawal_customer)}")

customer_id
70780820    1.248115e+09

customer_id
70780820   -1.249952e+09

Abs of difference: 2498067091.6


## Задание 4
1. Найдите среднее арифметическое и медиану по amount по всем типам транзакций из топ 10 из задания 2
1. Найдите среднее арифметическое и медиану по amount по всем типам транзакций для клиентов из задания 3

In [8]:
def calculate_arithmetic_mean_and_median(data: pd.DataFrame) -> pd.DataFrame:
    arithmetic_mean = data.groupby("tr_type").mean()
    median = data.groupby("tr_type").median()

    return pd.concat(
        [arithmetic_mean, median], 
        axis=1, 
        keys=["Arithmetic mean", "Median"])

# tr_type_top_ten - ["tr_type", "frequency"]
def task_4_1() -> pd.DataFrame:
    top_ten_frequent_tr_types = [int(x[0]) for x in tr_type_top_ten.index]
    tr_with_frequent_types = transactions[transactions["tr_type"].isin(top_ten_frequent_tr_types)][["tr_type", "amount"]]

    return calculate_arithmetic_mean_and_median(tr_with_frequent_types)

def task_4_2() -> pd.DataFrame:
    top_one_replenishment_customer_id = top_one_replenishment_customer.index[0]
    top_one_withdrawal_customer_id = top_one_withdrawal_customer.index[0]
    if top_one_replenishment_customer_id == top_one_withdrawal_customer_id:
        customers_transactions = transactions[transactions["customer_id"] == top_one_replenishment_customer_id][["tr_type", "amount"]]

    return calculate_arithmetic_mean_and_median(customers_transactions)

if __name__ == "__main__":
    print(f"Task 1:\n{task_4_1()}\n")
    print(f"Task 2:\n{task_4_2()}")

Task 1:
        Arithmetic mean     Median
                 amount     amount
tr_type                           
1010      -19784.748640   -7411.52
1030       -5320.980222   -2245.92
1100      -44061.827262  -10188.26
1110      -32119.330371  -11207.57
2010     -136077.629325  -44918.32
2370     -205418.249032  -44918.32
7010      276391.789596  112295.79
7030       86104.332909   13951.52
7070       65569.831700   11319.42
7071       66806.826623    3593.47

Task 2:
        Arithmetic mean       Median
                 amount       amount
tr_type                             
2010      -2.941056e+06 -3368873.660
2330      -2.382398e+06 -2245915.770
2370      -2.218505e+06 -2245915.770
6110       1.756293e+04    10028.010
7020       1.465129e+04    10319.985
7021       2.850067e+04    28500.670
7030       1.406196e+04     8848.910
7031       1.921036e+04    12992.620
7034       1.430648e+04    14306.480
7040       2.153833e+04    14396.320
7070       1.384821e+04     8714.150
7071      

## Подготовка для заданий 5-8

*Из заданий 5-8 нужно выполнить минимум два любых*

Соедините transactions с всеми остальными таблицами (tr_mcc_codes, tr_types, gender_train). Причём с gender_train необходимо смёрджиться с помощью left join, а с оставшимися датафреймами - через inner.
После получения результата таблицы gender_train, tr_types, tr_mcc_codes можно удалить. В результате соединения датафреймов должно получиться 999584 строки.

In [4]:
transactions_merged = pd.merge(transactions, gender_train, how="left")
transactions_merged = pd.merge(transactions_merged, tr_mcc_codes, how="inner")
transactions_merged = pd.merge(transactions_merged, tr_types, how="inner")
transactions_merged.shape

(999584, 9)

## Задание 5

1. Определите модуль разницы между средними тратами женщин и мужчин (трата - отрицательное значение amount).
2. Определите модуль разницы между средними поступлениями у мужчин и женщин

Обратите внимание, что для вычисления модуля разности точных знаний о том, 
какой класc относится к мужчинам, а какой - к женщинам, не требуется.

In [9]:
def calculate_abs_by_grouped_transactions(transactions: pd.Series) -> float:
    return np.abs(transactions[0] - transactions[1])

def task_5_1() -> pd.Series:
    spending_transactions = transactions_merged[transactions_merged["amount"] < 0]
    return calculate_abs_by_grouped_transactions(
        spending_transactions.groupby("gender")["amount"].mean())

def task_5_2() -> pd.Series:
    flow_transactions = transactions_merged[transactions_merged["amount"] >= 0]
    return calculate_abs_by_grouped_transactions(
        flow_transactions.groupby("gender")["amount"].mean())
  

if __name__ == "__main__":
    print(f"Task 5.1: {task_5_1():.3f}")
    print(f"Task 5.2: {task_5_2():.3f}")

Task 5.1: 32718.055
Task 5.2: 63366.571


## Задание 6

1. По всем типам транзакций рассчитайте максимальную сумму прихода на карту (из строго положительных сумм по столбцу amount) отдельно для мужчин и женщин (назовите ее "max_income"). Оставьте по 10 типов транзакций для мужчин и для женщин, наименьших среди всех типов транзакций по полученным значениям "max_income". 
2. Выделите среди них те типы транзакций, которые встречаются одновременно и у мужчин, и у женщин

In [10]:
def task_6_1(gender: int) -> pd.Series:
    if gender not in [0, 1]:
        raise ValueError("Unknown gender")

    flow_transactions = transactions_merged[transactions_merged["amount"] > 0]

    gender_flow_tr = flow_transactions[flow_transactions["gender"] == gender]

    max_flow_tr_by_gender = gender_flow_tr.groupby("tr_type")["amount"].sum()

    return max_flow_tr_by_gender.sort_values().head(10)
  
def task_6_2(flow_tr: pd.Series, other_flow_tr: pd.Series) -> list:
  return list(
      set(flow_tr.index.to_list()).intersection(other_flow_tr.index.to_list()))
  

if __name__ == "__main__":
    max_income_gender_0 = task_6_1(0)
    print(f"Task 6.1:\n\nGender 0\n{max_income_gender_0.to_string()}\n")
    max_income_gender_1 = task_6_1(1)
    print(f"Gender 1\n{max_income_gender_1.to_string()}")
    print("\nTask 6.2:\n")
    print(*task_6_2(max_income_gender_0, max_income_gender_1))

Task 6.1:

Gender 0
tr_type
4051     1122.96
4210     2245.92
4110     2245.92
2370     2335.75
7075     6737.75
2110    22459.16
1010    31532.66
4100    40334.88
2210    68315.82
1210    83644.87

Gender 1
tr_type
2020      2245.92
4110      4491.84
1010     35317.03
8100     64682.37
6000     79280.83
7041     87590.72
2370    113194.15
7015    121279.45
2110    179673.26
2010    224591.59

Task 6.2:

2110 1010 2370 4110


## Задание 7

1. Найдите суммы затрат по каждой категории (mcc) для мужчин и для женщин. 
2. Найдите топ 10 категорий с самыми большими относительными модулями разности в тратах для разных полов (в ответе должны присутствовать описания mcc кодов).

In [11]:
def task_7_1(gender: int) -> pd.Series:
    if gender not in [0, 1]:
        raise ValueError("Unknown gender")

    spending_transactions = transactions_merged[
        transactions_merged["amount"] <= 0]

    gender_spending_tr = spending_transactions[
        spending_transactions["gender"] == gender]

    max_spending_tr_by_gender = gender_spending_tr.groupby([
        "mcc_code", "mcc_description"])["amount"].sum()

    return max_spending_tr_by_gender

def task_7_2(mcc_list: pd.Series, other_mcc_list: pd.Series) -> pd.Series:
    mcc_merged = pd.merge(
        mcc_list.to_frame(), 
        other_mcc_list.to_frame(),
        how="inner",
        on=["mcc_code", "mcc_description"],
        suffixes=(" gender 0", " gender 1"))

    mcc_by_gender_abs_diff = np.abs(
        mcc_merged["amount gender 0"] - mcc_merged["amount gender 1"])

    return mcc_by_gender_abs_diff.sort_values(ascending=False).head(10)

if __name__ == "__main__":
    gender_0_top_ten_spending_mcc = task_7_1(0)
    print(f"Task 7.1:\n\nGender 0\n{gender_0_top_ten_spending_mcc.to_string()}\n")
    gender_1_top_ten_spending_mcc = task_7_1(1)
    print(f"Gender 1\n{gender_1_top_ten_spending_mcc.to_string()}\n")
    print("Task 7.2\n")
    print(task_7_2(gender_0_top_ten_spending_mcc, gender_1_top_ten_spending_mcc).to_string())

Task 7.1:

Gender 0
mcc_code  mcc_description                                                                                                                                           
742       Ветеринарные услуги                                                                                                                                          -3.862077e+05
1711      Генеральные подрядчики по вентиляции, теплоснабжению, и водопроводу                                                                                          -6.748977e+05
1799      Подрядчики, специализированная торговля — нигде более не классифицированные                                                                                  -2.616267e+05
2741      Разнообразные издательства/печатное дело                                                                                                                     -2.074642e+04
3000      Авиалинии, авиакомпании                                                          

## Задание 8

1. Из поля tr_datetime выделите час tr_hour, в который произошла транзакция, как первые 2 цифры до ":". (\**)
2. Посчитайте количество транзакций с amount<0 в ночное время для мужчин и женщин. Ночное время - это примерно 00-06 часов. 

In [12]:
def task_8_1() -> pd.DataFrame:
    transactions_merged[["tr_day", "tr_time"]] = transactions_merged[
        "tr_datetime"].str.split(" ", expand=True)

    transactions_merged[
        ["tr_hour", "tr_minute", "tr_second"]] = transactions_merged["tr_time"].str.split(":", expand=True)

    return transactions_merged[["tr_hour", "gender", "amount"]]
  
def task_8_2(transactions: pd.DataFrame, gender: int) -> int:
    if gender not in [0, 1]:
        raise ValueError("Unknown gender")

    spending_night_transactions = transactions[
        (transactions["gender"] == gender) & 
        (transactions["amount"] < 0) & 
        (transactions["tr_hour"].astype(int) <= 6)] 

    return spending_night_transactions.groupby("gender").count().at[gender, "amount"]


if __name__ == "__main__":
    tr_hour_gender_amount = task_8_1()
    print(f"Task 8.1:\n\n{tr_hour_gender_amount['tr_hour']}\n")
    print(f"Task 8.2:\n\nGender 0\n{task_8_2(tr_hour_gender_amount, 0)}\n")
    print(f"Gender 1\n{task_8_2(tr_hour_gender_amount, 1)}")
   

Task 8.1:

0         10
1         07
2         07
3         08
4         14
          ..
999579    23
999580    19
999581    22
999582    23
999583    23
Name: tr_hour, Length: 999584, dtype: object

Task 8.2:

Gender 0
43510

Gender 1
46694


# Задание на защиту:

1. По каждой категории найдите сумму трат в ночное время и в остальное время. Найдите соотношение одного к другому. 
2. Выведите список 10 категорий с описаниями, упорядоченных по убываний отношения ночных трат к остальным тратам.

In [34]:
def defence_task_1() -> pd.Series:
    transactions_merged[["tr_day", "tr_time"]] = transactions_merged[
        "tr_datetime"].str.split(" ", expand=True)

    transactions_merged[
        ["tr_hour", "tr_minute", "tr_second"]] = transactions_merged["tr_time"].str.split(":", expand=True).astype(int)

    transactions_aggregated = transactions_merged[["tr_hour", "gender", "amount", "mcc_code", "mcc_description"]]
    mcc_spending_night = transactions_aggregated.query('amount < 0 and tr_hour <= 6').\
                                                groupby(["mcc_code", "mcc_description"]).amount.sum()

    mcc_spending_other = transactions_aggregated.query('amount < 0 and 6 < tr_hour').\
                                                groupby(["mcc_code", "mcc_description"]).amount.sum()

    return mcc_spending_night / mcc_spending_other

def defence_task_2(mcc_code_night_ratio: pd.Series):
    return mcc_code_night_ratio.sort_values(ascending=False).head(10)

if __name__ == "__main__":
    mcc_code_night_ratio = defence_task_1()
    print(f"Defence task 1:\n{mcc_code_night_ratio}\n")
    print(f"Defence task 2:\n{defence_task_2(mcc_code_night_ratio)}")


Defence task 1:
mcc_code  mcc_description                                                            
742       Ветеринарные услуги                                                             2.378160
1711      Генеральные подрядчики по вентиляции, теплоснабжению, и водопроводу             1.200619
1731      Подрядчики по электричеству                                                     0.083802
1799      Подрядчики, специализированная торговля — нигде более не классифицированные     0.063783
2741      Разнообразные издательства/печатное дело                                       40.798510
                                                                                           ...    
9211      Судовые выплаты, включая алименты и детскую поддержку                                NaN
9222      Штрафы                                                                          0.777621
9311      Налоговые платежи                                                               9.968038
9399   