Задание 1: Анализ финансовых транзакций и клиентов.

Описание:

В тестовом задании вам предоставляются два набора данных:
~~~~~~
Файл transactions_data.xlsx (данные о финансовых транзакциях)

•	transaction_id – уникальный идентификатор транзакции
•	client_id – идентификатор клиента, совершившего транзакцию
•	transaction_date – дата проведения транзакции
•	service – тип оказанной финансовой услуги
•	amount – сумма транзакции (выручка)
•	payment_method – способ оплаты (банковский перевод, кредитная карта и т. д.)
•	city – город, в котором была совершена транзакция
•	consultant – имя финансового консультанта, оформившего транзакцию

Файл clients_data.json (данные о клиентах):

•	client_id – уникальный идентификатор клиента
•	age – возраст клиента
•	gender – пол клиента
•	net_worth – чистая стоимость активов клиента

Данные могут содержать пропуски, ошибки (например, некорректные даты), а также аномальные значения (отрицательные суммы, несуществующие услуги и т. д.), поэтому перед анализом необходимо их очистить и нормализовать.

Задачи:

1.	Очистка и подготовка данных. Проверить данные на пропущенные и аномальные значения (например, отрицательные суммы транзакций). Удалить или исправить некорректные данные. Привести формат дат к единому стандарту.

In [95]:
import pandas as pd

In [96]:
#Чтение файлов:
df1T = pd.read_excel('Источники/Транзакции/transactions_data.xlsx')
df2C = pd.read_json('Источники/Клиенты/clients_data.json')  

In [97]:
#Проверки на дубли:
df1T.duplicated().sum()
df2C.duplicated().sum()

np.int64(0)

In [118]:
#Проверка на пустые значения:
df1T.isna().sum() #Проверка на Пустые значения в Транзакциях. 

#UPD1: Значения по 0 должно быть, после очистки. 
#UPD2: Есть данные где остальные присутствуют, но нет дат. Заполенено "INVALID_DATE".
#UPD3: Удалил данные с заменной INVALID_DATE на Nan. 

transaction_id      0
client_id           0
transaction_date    0
service             0
amount              0
payment_method      0
city                0
consultant          0
dtype: int64

In [144]:
#Проверка на пустые значения:
df2C.isna().sum() #Проверка на Пустые значения в Клиентах.

id              0
age             0
gender       2863
net_worth       0
dtype: int64

План очистки данных файла Транзакции:

Удалю данные: 
~~~
-Где нет id транзакции. Нет указаний, в тестовом задании, что с ним делать. И пока нет возможности спросить как откуда до грузить id. 
-Где нет id клиента в файле транзакции. Тоже самое.
-Где есть поле "Неизвестная услуга". Тоже самое. 
-Где нет в поле "transaction_date" даты. Пока под вопросомю.

UPD1: И ещё есть формат где даты нет, но остальные данные на месте. По итогу оставили данные где нет дат, но остальные данные есть. 

UPD2:Пока не трогаю данные где есть "Неизвестный консультант" и city - "Неизвестный город"

UPD3:Удалил данные где пропуск дат, возможно буду мешать прогнозированию. 

In [100]:
#Очистка данных на пустые значения файла Транзакции:
df1T = df1T.dropna() 

#Провоерка выше.

In [101]:
#Сохранение данных:
df1T.to_excel('Источники/Транзакции/transactions_data.xlsx', index=False)

In [102]:
#Замена INVALID_DATE на Nan

df1T['transaction_date'] = pd.to_datetime(df1T['transaction_date'], errors='coerce')

#Дает ошибку, если за ранее не изменнить.
#"Unknown datetime string format, unable to parse: INVALID_DATE, at position 15".

In [103]:
#Преобразование дат к одному в формату:
df1T['transaction_date'] = pd.to_datetime(df1T['transaction_date'])
#Приведение всех дат к одному формату с точностью до секунд:
df1T['transaction_date'] = df1T['transaction_date'].dt.strftime('%Y-%m-%d %H:%M:%S')

In [104]:
#Сохранение данных:
df1T.to_excel('Источники/Транзакции/transactions_data.xlsx', index=False)

Есть файлы где нет даты, но остальные в норме. Продолжим удаление, но по условиям. 
*Открыл вручуную файл Excel.*. 

In [105]:
#Очистка данных на пустые значения файла Транзакции:
df1T = df1T.dropna() 

#Пересмотрел план, удаляю данные где нет даты. Так как, возможно, будет мешать прогнозированию.

In [106]:
#Удаление строк с "Неизвестной услугой":
df1T = df1T[df1T['service'] != 'Неизвестная услуга']

In [107]:
#Сохранение данных:
df1T.to_excel('Источники/Транзакции/transactions_data.xlsx', index=False)

In [108]:
#Продолжаем очистку, теперь зайдем со стороны аномальных значений:
#Использую "Межквартильный размах" (IQR). 

# Рассчитываем первый и третий квартели, чтобы посчитать IQR.
Q1 = df1T['amount'].quantile(0.25)
Q3 = df1T['amount'].quantile(0.75)

#Расчитываем IQR:
IQR = Q3 - Q1

#Устанавливаем границы 
lower_bound = max(0, Q1 - 1.5 * IQR) #Нижняя. Нижняя не может быть меньше 0. (...отрицательные суммы).
upper_bound = Q3 + 1.5 * IQR #Верхняя.

#Вывод границ: 
print(lower_bound)
print(upper_bound)

0
149823.31445055085


In [109]:
#Вывод аномальных значений из файла:
anomal = df1T[(df1T['amount'] < lower_bound) | (df1T['amount'] > upper_bound)]
print(anomal[['service','amount']])

                              service         amount
65                Управление активами  165531.626439
191   Инвестиционное консультирование  176346.818037
251   Инвестиционное консультирование  158548.065675
272               Управление активами  163445.690198
347           Финансовое планирование  194496.625320
...                               ...            ...
9345           Налоговое планирование  150878.174850
9500        Структурирование капитала  158543.668647
9631        Структурирование капитала  168401.012948
9643           Налоговое планирование  160444.593254
9671  Инвестиционное консультирование  161210.845033

[134 rows x 2 columns]


In [110]:
#Удаление аномальных значений: 
df1T = df1T[(df1T['amount'] >= lower_bound) & (df1T['amount'] <= upper_bound)] 

In [111]:
#Сохранение данных:
df1T.to_excel('Источники/Транзакции/transactions_data.xlsx', index=False)

In [142]:
#Проверка: 
#Вывод аномальных значений из файла Транзакций:
anomal = df1T[(df1T['amount'] < lower_bound) | (df1T['amount'] > upper_bound)]

#Вывод:
print(anomal)

Empty DataFrame
Columns: [transaction_id, client_id, transaction_date, service, amount, payment_method, city, consultant]
Index: []


In [113]:
#Очистки данных на пустые значения файла Клиентов, где нет id:
df2C = df2C.dropna(subset=['id'])

In [114]:
#Очистки данных на пустые значения файла Клиентов, где нет общей суммы активов:
df2C = df2C.dropna(subset=['net_worth'])

In [115]:
#Очистки данных на пустые значения файла Клиентов, где нет возраста:
df2C = df2C.dropna(subset=['age'])

In [116]:
#Сохранение данных:
df2C.to_json('Источники/Клиенты/clients_data.json', index=False)

In [126]:
#Проверка на аномальные значения капитала, отрицательные значения:
munuscap = df2C[df2C['net_worth'] < 0] #Проверим сначала, есть ли отрицательные значения. 
print(munuscap[['id', 'net_worth']])

Empty DataFrame
Columns: [id, net_worth]
Index: []


In [131]:
#Теперь зайдем со стороны "Межквартильный размах" (IQR):

# Рассчитываем первый и третий квартели, чтобы посчитать IQR.
Q1C = df2C['net_worth'].quantile(0.25)
Q3C = df2C['net_worth'].quantile(0.75)

#Расчитываем IQR:
IQR_C = Q3C - Q1C

#Устанавливаем границы 
lower_boundC = max(0, Q1C - 1.5 * IQR_C) #Нижняя. Нижняя не может быть меньше 0. (...отрицательные суммы).
upper_boundC = Q3C + 1.5 * IQR_C #Верхняя.

#Вывод границ: 
print(lower_boundC)
print(upper_boundC)


0
7400150.275


In [140]:
#Проверка: 
#Вывод аномальных значений из файла Клиентов:
anomalC = df2C[(df2C['net_worth'] < lower_boundC) | (df2C['net_worth'] > upper_boundC)]

#Вывод:
print(anomalC)

Empty DataFrame
Columns: [id, age, gender, net_worth]
Index: []


In [145]:
#Сохранение данных:
df2C.to_json('Источники/Клиенты/clients_data.json', index=False)

Задачи:  

2. Анализ данных.
~~~
-Определить топ-5 наиболее популярных услуг по количеству заказов. 
-Рассчитать среднюю сумму транзакций по каждому городу. 
-Определить услугу с наибольшей выручкой (по сумме amount). 
-Вычислить процент транзакций по способам оплаты (наличные, банковский перевод и т. д.). 
-Рассчитать выручку за последний месяц (по сумме amount).