In [None]:
import pandas as pd
import numpy as np

## Задание 0


Для всех  заданий будем использовать обезличенные транзакционные банковские данные. Для этого считайте в переменные **tr_mcc_codes, tr_types, transactions и gender_train** из одноимённых таблиц из папки [data](https://drive.google.com/drive/folders/1YAMe7MiTxA-RSSd8Ex2p-L0Dspe6Gs4L).

Для таблицы transactions используйте только первые n=1000000 строк. При чтении файлов обратите внимание на разделители внутри каждого из файлов - они могут различаться!

###  Описание данных
#### Таблица ```transactions.csv```
##### Описание
Таблица содержит историю транзакций клиентов банка за один год и три месяца.

##### Формат данных

```
customer_id,tr_datetime,mcc_code,tr_type,amount,term_id
111111,15 01:40:52,1111,1000,-5224,111111
111112,15 15:18:32,3333,2000,-100,11122233
...
```
##### Описание полей

 - ```customer_id``` — идентификатор клиента;
 - ```tr_datetime``` — день и время совершения транзакции (дни нумеруются с начала данных);
 - ```mcc_code``` — mcc-код транзакции;
 - ```tr_type``` — тип транзакции;
 - ```amount``` — сумма транзакции в условных единицах со знаком; ```+``` — начисление средств клиенту (приходная транзакция), ```-``` — списание средств (расходная транзакция);
 - ```term_id``` — идентификатор терминала;


#### Таблица ```gender_train.csv```

##### Описание
Данная таблица содержит информацию по полу для части клиентов, для которых он известен. Для остальных клиентов пол неизвестен.

##### Формат данных
```
customer_id,gender
111111,0
111112,1
...
```

##### Описание полей
 - ```customer_id``` — идентификатор клиента;
 - ```gender``` — пол клиента;

### Таблица ```tr_mcc_codes.csv```

##### Описание
Данная таблица содержит описание mcc-кодов транзакций.

##### Формат данных
```
mcc_code;mcc_description
1000;словесное описание mcc-кода 1000
2000;словесное описание mcc-кода 2000
...
```

##### Описание полей
 - ```mcc_code``` – mcc-код транзакции;
 - ```mcc_description``` — описание mcc-кода транзакции.

#### Таблица ```tr_types.csv```

##### Описание
Данная таблица содержит описание типов транзакций.

##### Формат данных
```
tr_type;tr_description
1000;словесное описание типа транзакции 1000
2000;словесное описание типа транзакции 2000
...
```

##### Описание полей
 - ```tr_type``` – тип транзакции;
 - ```tr_description``` — описание типа транзакции;

In [None]:
from google.colab import drive

drive.mount('/content/drive')

transactions = pd.read_csv('/content/drive/MyDrive/Data/transactions.csv', nrows=1000000, sep=',')
tr_types = pd.read_csv('/content/drive/MyDrive/Data/tr_types.csv', sep=';')
gender_train = pd.read_csv("drive/MyDrive/Data/gender_train.csv",sep = ',')
tr_mcc_codes = pd.read_csv("drive//MyDrive/Data/tr_mcc_codes.csv",sep = ';')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).



Задания 1-4 делаются без использования merge!

## Задание 1



1. Для столбца tr_type датафрейма transactions выберите произвольные 1000 строк с помощью метода sample
2. В полученной на предыдущем этапе подвыборке найдите долю транзакций (стобец tr_description в датасете tr_types), в которой содержится подстрока 'POS' или 'ATM'


In [None]:
sample = transactions['tr_type'].sample(n=1000)


pos_or_atm = tr_types.loc[tr_types['tr_description'].str.contains('POS') | tr_types['tr_description'].str.contains('АТМ')]['tr_type']
matched_counts = sample.isin(pos_or_atm).value_counts()[True]
print("{:.3f}".format(matched_counts / 1000))

0.640


## Задание 2


1. Для столбца tr_type датафрейма transactions посчитайте частоту встречаемости всех типов транзакций tr_type в transactions.
2. Выведите топ-10 транзакций по частоте встречаемости (вывести для них tr_description тоже).

In [None]:
# Подсчет частоты встречаемости транзакций
transaction_counts = transactions['tr_type'].value_counts(normalize=True, sort=True)

# Вывод топ-10 транзакций по частоте встречаемости
top_10_transactions = transaction_counts.head(10)

# Вывод топ-10 транзакций соответствующих описаний
for transaction, count in top_10_transactions.items():
    description = tr_types[tr_types['tr_type'] == transaction]['tr_description'].values[0]
    print(f"Тип транзакции: {transaction}, Частота: {count}, Описание: {description}")

Тип транзакции: 1010, Частота: 0.231117, Описание: Покупка. POS ТУ СБ РФ
Тип транзакции: 2010, Частота: 0.151166, Описание: Выдача наличных в АТМ Сбербанк России
Тип транзакции: 7070, Частота: 0.149006, Описание: Перевод на карту (с карты) через Мобильный банк (без взимания комиссии с отправителя)
Тип транзакции: 1110, Частота: 0.137658, Описание: Покупка. POS ТУ Россия
Тип транзакции: 1030, Частота: 0.118975, Описание: Оплата услуги. Банкоматы СБ РФ
Тип транзакции: 2370, Частота: 0.04983, Описание: Списание с карты на карту по операции <перевода с карты на карту> через Мобильный банк (без комиссии)
Тип транзакции: 7010, Частота: 0.028972, Описание: Взнос наличных через АТМ (в своем тер.банке)
Тип транзакции: 7030, Частота: 0.026078, Описание: Перевод на карту (с карты) через АТМ (в пределах одного тер.банка)
Тип транзакции: 7071, Частота: 0.015781, Описание: Перевод на карту (с карты) через Мобильный банк (с взиманием комиссии с отправителя)
Тип транзакции: 1100, Частота: 0.015476, Оп

## Задание 3
1. В датафрейме transactions найдите клиента с максимальной суммой приходов на карту
2. В датафрейме transactions найдите клиента с максимальной суммой расходов по карте
3. Найдите модуль разницы для этих клиентов между суммой расходов и суммой приходов

In [None]:
# Расчет суммы приходов для каждого клиента
income_sums = transactions[transactions['amount'] > 0].groupby('customer_id')['amount'].sum()

# Нахождение клиента с максимальной суммой приходов
max_income_customer = income_sums.idxmax()

# Расчет суммы расходов для каждого клиента
expenses_sums = transactions[transactions['amount'] < 0].groupby('customer_id')['amount'].sum()

# Нахождение клиента с максимальной суммой расходов
max_expenses_customer = expenses_sums.idxmin()

# Нахождение модуля разницы между суммой расходов и суммой приходов
difference1 = np.abs( -1 * income_sums.max() - expenses_sums.min())


print(f"Клиент с максимальной суммой приходов: {max_income_customer}")
print(f"Клиент с максимальной суммой расходов: {max_expenses_customer}")
print(f"Модуль разницы между суммой расходов и суммой приходов: {difference1}")

Клиент с максимальной суммой приходов: 70780820
Клиент с максимальной суммой расходов: 70780820
Модуль разницы между суммой расходов и суммой приходов: 1837317.980000019


## Задание 4
1. Найдите среднее арифметическое и медиану по amount по всем типам транзакций из топ 10 из задания 2
1. Найдите среднее арифметическое и медиану по amount по всем типам транзакций для клиентов из задания 3

In [None]:
# Подвыборка из топ-10 типов транзакций из задания 2
transactions_top10 = transactions[transactions['tr_type'].isin(top_10_transactions.index)]

# Среднее арифметическое и медиана по amount для типов транзакций из топ-10
mean_top10 = transactions_top10.groupby(['tr_type']).mean(numeric_only = True)['amount']
median_top10 = transactions_top10.groupby(['tr_type']).median(numeric_only = True)['amount']

print("Среднее арифметическое: ", mean_top10)
print("Медиана: ", median_top10)


Среднее арифметическое:  tr_type
1010    -19784.748640
1030     -5320.980222
1100    -44061.827262
1110    -32119.330371
2010   -136077.629325
2370   -205418.249032
7010    276391.789596
7030     86104.332909
7070     65569.831700
7071     66806.826623
Name: amount, dtype: float64
Медиана:  tr_type
1010     -7411.52
1030     -2245.92
1100    -10188.26
1110    -11207.57
2010    -44918.32
2370    -44918.32
7010    112295.79
7030     13951.52
7070     11319.42
7071      3593.47
Name: amount, dtype: float64


In [None]:
# Подвыборка транзакций для клиента с максимальной суммой приходов и расходов
transactions_income = transactions[transactions['customer_id'] == max_income_customer]
transactions_expenses = transactions[transactions['customer_id'] == max_expenses_customer]

# Среднее арифметическое и медиана по amount для клиента с максимальной суммой приходов
mean_income = transactions_income.groupby(['tr_type']).mean(numeric_only = True)['amount']
median_income = transactions_income.groupby(['tr_type']).median(numeric_only = True)['amount']

# Среднее арифметическое и медиана по amount для клиента с максимальной суммой расходов
mean_expenses = transactions_expenses.groupby(['tr_type']).mean(numeric_only = True)['amount']
median_expenses = transactions_expenses.groupby(['tr_type']).median(numeric_only = True)['amount']

print("Среднее арифметическое для клиента с максимальной суммой приходов: ", mean_income)
print("Медиана для клиента с максимальной суммой приходов: ", median_income)
print("Среднее арифметическое для клиента с максимальной суммой расходов: ", mean_expenses)
print("Медиана для клиента с максимальной суммой расходов: ", median_expenses)

Среднее арифметическое для клиента с максимальной суммой приходов:  tr_type
2010   -2.941056e+06
2330   -2.382398e+06
2370   -2.218505e+06
6110    1.756293e+04
7020    1.465129e+04
7021    2.850067e+04
7030    1.406196e+04
7031    1.921036e+04
7034    1.430648e+04
7040    2.153833e+04
7070    1.384821e+04
7071    1.860057e+04
7074    2.281159e+04
Name: amount, dtype: float64
Медиана для клиента с максимальной суммой приходов:  tr_type
2010   -3368873.660
2330   -2245915.770
2370   -2245915.770
6110      10028.010
7020      10319.985
7021      28500.670
7030       8848.910
7031      12992.620
7034      14306.480
7040      14396.320
7070       8714.150
7071      12543.440
7074       9387.930
Name: amount, dtype: float64
Среднее арифметическое для клиента с максимальной суммой расходов:  tr_type
2010   -2.941056e+06
2330   -2.382398e+06
2370   -2.218505e+06
6110    1.756293e+04
7020    1.465129e+04
7021    2.850067e+04
7030    1.406196e+04
7031    1.921036e+04
7034    1.430648e+04
7040   

## Подготовка для заданий 5-8

*Из заданий 5-8 нужно выполнить минимум два любых*

Соедините transactions с всеми остальными таблицами (tr_mcc_codes, tr_types, gender_train). Причём с gender_train необходимо смёрджиться с помощью left join, а с оставшимися датафреймами - через inner.
После получения результата таблицы gender_train, tr_types, tr_mcc_codes можно удалить. В результате соединения датафреймов должно получиться 999584 строки.

In [None]:
transactions = pd.merge(transactions, gender_train, how='left')
transactions = pd.merge(transactions, tr_mcc_codes, how='inner')
transactions = pd.merge(transactions, tr_types, how='inner')
transactions.shape

(999584, 9)

## Задание 5

1. Определите модуль разницы между средними тратами женщин и мужчин (трата - отрицательное значение amount).
2. Определите модуль разницы между средними поступлениями у мужчин и женщин

Обратите внимание, что для вычисления модуля разности точных знаний о том,
какой класc относится к мужчинам, а какой - к женщинам, не требуется.

In [None]:
from IPython.utils import tempdir

# Создание двух отдельных датафреймов для женщин и мужчин
gender0_data = transactions[transactions['gender'] == 0]
gender1_data = transactions[transactions['gender'] == 1]

# Вычисление средних трат для женщин и мужчин
average_gender0_spending = gender0_data[gender0_data['amount'] < 0]['amount'].mean()
average_gender1_spending = gender1_data[gender1_data['amount'] < 0]['amount'].mean()

# Вычисление средних поступлений для женщин и мужчин
average_gender0_income = gender0_data[gender0_data['amount'] > 0]['amount'].mean()
average_gender1_income = gender1_data[gender1_data['amount'] > 0]['amount'].mean()

# Вычисление модуля разницы между средними тратами женщин и мужчин
spending_diff = abs(average_gender0_spending - average_gender1_spending)

# Вычисление модуля разницы между средними поступлениями у мужчин и женщин
income_diff = abs(average_gender0_income - average_gender1_income)

# Вывод результатов
print("Модуль разницы между средними тратами женщин и мужчин:", spending_diff)
print("Модуль разницы между средними поступлениями у мужчин и женщин:", income_diff)

Модуль разницы между средними тратами женщин и мужчин: 32718.05492022467
Модуль разницы между средними поступлениями у мужчин и женщин: 63366.57104801465


## Задание 6

1. По всем типам транзакций рассчитайте максимальную сумму прихода на карту (из строго положительных сумм по столбцу amount) отдельно для мужчин и женщин (назовите ее "max_income"). Оставьте по 10 типов транзакций для мужчин и для женщин, наименьших среди всех типов транзакций по полученным значениям "max_income".
2. Выделите среди них те типы транзакций, которые встречаются одновременно и у мужчин, и у женщин

In [None]:
# Фильтрация положительных сумм транзакций
positive_transactions = transactions.loc[transactions['amount'] > 0]

# Расчет максимальной суммы прихода на карту для каждого типа транзакции и каждого пола
max_income = positive_transactions.groupby(['gender', 'tr_type'])['amount'].max().reset_index()

# Присоединение описания типов транзакций
max_income = pd.merge(max_income, tr_types, on='tr_type')

# Отсортировать значения "max_income"
max_income_sorted = max_income.sort_values(by=['gender', 'amount'], ascending=True).groupby('gender').head(10)

# Вывод результатов
print(max_income_sorted)

# Выделение списка типов транзакций для мужчин и женщин
gender0_types = set(max_income_sorted[max_income_sorted['gender'] == 0]['tr_type'])
gender1_types = set(max_income_sorted[max_income_sorted['gender'] == 1]['tr_type'])

# Выделение общих типов транзакций
common_types = gender0_types.intersection(gender1_types)

# Присоединение описания общих типов транзакций
common_types = pd.merge(pd.DataFrame({'tr_type': list(common_types)}), tr_types, on='tr_type')

# Вывод результатов
print(common_types)

    gender  tr_type     amount  \
18     0.0     4051    1122.96   
20     0.0     4110    2245.92   
22     0.0     4210    2245.92   
16     0.0     2370    2335.75   
19     0.0     4100    5041.86   
67     0.0     7075    6737.75   
12     0.0     2110   22459.16   
0      0.0     1010   24839.83   
10     0.0     2010   44918.32   
14     0.0     2210   68315.82   
21     1.0     4110    2245.92   
70     1.0     2020    2245.92   
1      1.0     1010   28803.87   
71     1.0     8100   64682.37   
24     1.0     6000   79280.83   
60     1.0     7041   87590.72   
11     1.0     2010   89836.63   
13     1.0     2110  112295.79   
17     1.0     2370  113194.15   
42     1.0     7015  121279.45   

                                       tr_description  
18  Плата за перевод на карту (с карты) через АТМ ...  
20          Плата за получение наличных в АТМ. Россия  
22        Плата за получение наличных в АТМ. Зарубеж.  
16  Списание с карты на карту по операции <перевод...  
19   

## Задание 7

1. Найдите суммы затрат по каждой категории (mcc) для мужчин и для женщин.
2. Найдите топ 10 категорий с самыми большими относительными модулями разности в тратах для разных полов (в ответе должны присутствовать описания mcc кодов).

In [None]:
# Группировка данных по mcc и полу, суммирование затрат
expenses_by_category = transactions.groupby(['gender', 'mcc_code', 'mcc_description'])['amount'].sum().reset_index()

# Фильтрация только мужчин и женщин
expenses_gender0 = expenses_by_category[expenses_by_category['gender'] == 0]
expenses_gender1 = expenses_by_category[expenses_by_category['gender'] == 1]

# Вывод результатов
print("Суммы затрат по каждой категории (mcc) для гендера 0:")
print(expenses_gender0)

print("\nСуммы затрат по каждой категории (mcc) для гендера 1:")
print(expenses_gender1)


# Вычисление разности в суммах затрат для каждой категории mcc между мужчинами и женщинами
expenses_diff = expenses_gender0.merge(expenses_gender1, on=['mcc_code', 'mcc_description'], how='outer', suffixes=('_male', '_female'))
expenses_diff['diff'] = abs(expenses_diff['amount_male'] - expenses_diff['amount_female'])

# Сортировка по убыванию разности и выбор топ 10
top_10_categories = expenses_diff.sort_values('diff', ascending=False).head(10)

# Вывод результатов
print("Топ 10 категорий с самыми большими относительными модулями разности в тратах для разных полов:")
top_10_categories[['mcc_code', 'mcc_description', 'diff']]

Суммы затрат по каждой категории (mcc) для гендера 0:
     gender  mcc_code                                    mcc_description  \
0       0.0       742                                Ветеринарные услуги   
1       0.0      1711  Генеральные подрядчики по вентиляции, теплосна...   
2       0.0      1799  Подрядчики, специализированная торговля — нигд...   
3       0.0      2741           Разнообразные издательства/печатное дело   
4       0.0      3000                            Авиалинии, авиакомпании   
..      ...       ...                                                ...   
169     0.0      8699  Организации, членства, нигде ранее не классифи...   
170     0.0      8999  Профессиональные услуги, нигде ранее не класси...   
171     0.0      9222                                             Штрафы   
172     0.0      9311                                  Налоговые платежи   
173     0.0      9399  Правительственные услуги, нигде ранее не класс...   

          amount  
0     -386207.

Unnamed: 0,mcc_code,mcc_description,diff
120,6010,Финансовые институты — снятие наличности вручную,2674450000.0
21,4829,Денежные переводы,2498985000.0
121,6011,Финансовые институты — снятие наличности автом...,2196476000.0
64,5541,Станции техобслуживания,154197200.0
61,5511,"Легковой и грузовой транспорт — продажа, серви...",73299350.0
88,5812,"Места общественного питания, рестораны",70324140.0
63,5533,Автозапчасти и аксессуары,42405220.0
113,5977,Магазины косметики,42404710.0
122,6012,Финансовые институты — торговля и услуги,41916070.0
154,7995,Транзакции по азартным играм,40009950.0


## Задание 8

1. Из поля tr_datetime выделите час tr_hour, в который произошла транзакция, как первые 2 цифры до ":". (\**)
2. Посчитайте количество транзакций с amount<0 в ночное время для мужчин и женщин. Ночное время - это примерно 00-06 часов.

In [None]:
# Извлечение часа из поля tr_datetime
transactions['tr_hour'] = transactions['tr_datetime'].apply(lambda x: int(x.split()[1].split(':')[0]))

# Фильтрация транзакций с amount < 0 и в ночное время
negative_transactions = transactions[(transactions['amount'] < 0) & (transactions['tr_hour'] >= 0) & (transactions['tr_hour'] < 6)]

# Группировка данных по полу и подсчет количества транзакций
count_gender0 = len(negative_transactions[negative_transactions['gender'] == 0])
count_gender1 = len(negative_transactions[negative_transactions['gender'] == 1])

# Вывод результатов
print(f"Количество транзакций с amount < 0 в ночное время для мужчин: {count_gender0}")
print(f"Количество транзакций с amount < 0 в ночное время для женщин: {count_gender1}")

Количество транзакций с amount < 0 в ночное время для мужчин: 38827
Количество транзакций с amount < 0 в ночное время для женщин: 43017
