## Подключение библиотек

In [None]:
# подключение библиотеки pandas
import pandas as pd
import numpy as np
# подключение библиотеки matplotlib.pyplot
import matplotlib.pyplot as plt
# подключение библиотеки seaborn
import seaborn as sns
# подключение функций из sklearn
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error
# подключение функции для работы с категориальными признаками
from catboost import CatBoostRegressor

## Загрузка очищенного DataFrame(df)

In [3]:
df = pd.read_csv("data/clean_smartwatch_health_data.csv")

## Разделение данных на обучающую и тестовую выборки

In [4]:
train, test = train_test_split(df,train_size=0.6,random_state=42)

## Разделение тестовой выборки на валидационную и тестовую выборки

In [5]:
val, test = train_test_split(test,train_size=0.5,random_state=42)

## Просмотр списка фичей

In [6]:
train.columns

Index(['User ID', 'Heart Rate (BPM)', 'Blood Oxygen Level (%)', 'Step Count',
       'Sleep Duration (hours)', 'Activity Level', 'Stress Level'],
      dtype='object')

## Просмотр типов данных фичей

In [7]:
train.dtypes

User ID                   float64
Heart Rate (BPM)          float64
Blood Oxygen Level (%)    float64
Step Count                float64
Sleep Duration (hours)    float64
Activity Level             object
Stress Level               object
dtype: object

# Принцип преобразования категориальных фичей

## Устанавливаем список признаков, которые будут использоваться для обучения модели

In [8]:
X = ['Blood Oxygen Level (%)', 'Step Count',
       'Sleep Duration (hours)', 'Activity Level', 'Stress Level']

## Установка категориальных признаков

In [9]:
cat_features = ['Activity Level', 'Stress Level']

## Установка целевой переменной

In [10]:
y = ['Heart Rate (BPM)']

## Настройка параметров модели

In [None]:
model = CatBoostRegressor(cat_features=cat_features,  # категориальные признаки
                          eval_metric='MAPE',     # метрика качества
                          random_seed=42,      # Фиксированное значение для воспроизводимости результатов  
                          verbose=100)       # Вывод информации о процессе обучения каждые 100 итераций

## Обучение модели и оценка её качества

In [24]:
model.fit(train[X],train[y],eval_set=(val[X],val[y]))

Learning rate set to 0.067034
0:	learn: 0.1700029	test: 0.1698576	best: 0.1698576 (0)	total: 16.6ms	remaining: 16.6s
100:	learn: 0.1687569	test: 0.1704337	best: 0.1698231 (4)	total: 1.51s	remaining: 13.5s
200:	learn: 0.1668487	test: 0.1714300	best: 0.1698231 (4)	total: 3.26s	remaining: 12.9s
300:	learn: 0.1649174	test: 0.1722079	best: 0.1698231 (4)	total: 5s	remaining: 11.6s
400:	learn: 0.1629328	test: 0.1726880	best: 0.1698231 (4)	total: 6.72s	remaining: 10s
500:	learn: 0.1607649	test: 0.1732761	best: 0.1698231 (4)	total: 8.48s	remaining: 8.45s
600:	learn: 0.1586323	test: 0.1739062	best: 0.1698231 (4)	total: 10.3s	remaining: 6.81s
700:	learn: 0.1566926	test: 0.1742439	best: 0.1698231 (4)	total: 12s	remaining: 5.12s
800:	learn: 0.1545943	test: 0.1748188	best: 0.1698231 (4)	total: 13.7s	remaining: 3.41s
900:	learn: 0.1529294	test: 0.1752083	best: 0.1698231 (4)	total: 15.5s	remaining: 1.7s
999:	learn: 0.1511415	test: 0.1755145	best: 0.1698231 (4)	total: 17.2s	remaining: 0us

bestTest = 0

<catboost.core.CatBoostRegressor at 0x1a37a030640>

# Уменьшим learning rate

## Настройка параметров модели

In [32]:
parameters = {'cat_features': cat_features,      # катeгориальные признаки
              'eval_metric': 'MAPE',         # метрика качества
              'learning_rate': 0.0001,         # Назначение темпa обучения
              'random_seed':42,         # Фиксированное значение для воспроизводимости результатов
              'verbose':100}          # Вывод информации о процессе обучения каждые 100 итераций

## Создаем экземпляр модели с указанными параметрами

In [33]:
model = CatBoostRegressor(**parameters)

## Обучение модели и оценка её качества

In [34]:
model.fit(train[X],train[y],eval_set=(val[X],val[y]))

0:	learn: 0.1700422	test: 0.1698527	best: 0.1698527 (0)	total: 17.1ms	remaining: 17.1s
100:	learn: 0.1700391	test: 0.1698524	best: 0.1698523 (94)	total: 1.57s	remaining: 14s
200:	learn: 0.1700357	test: 0.1698522	best: 0.1698522 (196)	total: 3.17s	remaining: 12.6s
300:	learn: 0.1700323	test: 0.1698522	best: 0.1698521 (230)	total: 4.79s	remaining: 11.1s
400:	learn: 0.1700290	test: 0.1698519	best: 0.1698518 (383)	total: 6.3s	remaining: 9.41s
500:	learn: 0.1700257	test: 0.1698515	best: 0.1698515 (476)	total: 7.85s	remaining: 7.82s
600:	learn: 0.1700229	test: 0.1698510	best: 0.1698510 (589)	total: 9.35s	remaining: 6.21s
700:	learn: 0.1700196	test: 0.1698509	best: 0.1698509 (671)	total: 10.9s	remaining: 4.64s
800:	learn: 0.1700164	test: 0.1698507	best: 0.1698506 (792)	total: 12.4s	remaining: 3.08s
900:	learn: 0.1700134	test: 0.1698505	best: 0.1698505 (862)	total: 13.9s	remaining: 1.53s
999:	learn: 0.1700103	test: 0.1698505	best: 0.1698504 (971)	total: 15.5s	remaining: 0us

bestTest = 0.16985

<catboost.core.CatBoostRegressor at 0x1a3484c0d10>

## Задание новых параметров для модели

In [35]:
parameters = {'iterations': model.best_iteration_ + 1,  # количество итераций
              'cat_features': cat_features,          # катeгориальные признаки
              'eval_metric': 'MAPE',         # метрика качества
              'learning_rate': 0.08,    # Назначение темпa обучения
              'random_seed':42,       # Фиксированное значение для воспроизводимости результатов
              'verbose':100}      # Вывод информации о процессе обучения каждые 100 итераций

## Создаем экземпляр модели с указанными параметрами

In [27]:
model = CatBoostRegressor(**parameters)

## Объединение train и val

In [36]:
train_full = pd.concat([train,val])

## Обучение модели на данных из train_full

In [37]:
model.fit(train_full[X],train_full[y])

0:	learn: 0.1703413	total: 8.86ms	remaining: 8.85s
100:	learn: 0.1703384	total: 1.42s	remaining: 12.6s
200:	learn: 0.1703350	total: 2.93s	remaining: 11.6s
300:	learn: 0.1703321	total: 4.36s	remaining: 10.1s
400:	learn: 0.1703291	total: 5.83s	remaining: 8.7s
500:	learn: 0.1703261	total: 7.32s	remaining: 7.29s
600:	learn: 0.1703227	total: 8.79s	remaining: 5.83s
700:	learn: 0.1703197	total: 10.2s	remaining: 4.37s
800:	learn: 0.1703164	total: 11.7s	remaining: 2.91s
900:	learn: 0.1703132	total: 13.2s	remaining: 1.45s
999:	learn: 0.1703106	total: 14.6s	remaining: 0us


<catboost.core.CatBoostRegressor at 0x1a3484c0d10>

# Оценка качества прогноза

## Создание функция для оценки качества прогноза

In [43]:
def error(y_true,y_pred):
    # вычисление средней абсолютной ошибки
    print("mean absolute error = " + str(mean_absolute_error(y_true,y_pred)))
    # вычисление средней абсолютной процентной ошибки 
    print("mean absolute percentage error = " + str(mean_absolute_percentage_error(y_true,y_pred)))

## создания прогнозов модели на тестовых данных и сохранения их в новом столбце

In [40]:
test['Heart Rate (BPM)_pred'] = model.predict(test[X])

## Вызов функции для оценки качества прогноза

In [44]:
error(test['Heart Rate (BPM)'],test['Heart Rate (BPM)_pred'])

mean absolute error = 11.793662833962092
mean absolute percentage error = 0.16684227913701388


# Сохранение модели целиком в файл

In [45]:
model.save_model('data/my_model.h5')

# Проверка работы модели

## Определение признаков

In [46]:
X = ['Heart Rate (BPM)', 'Blood Oxygen Level (%)', 'Step Count',
       'Sleep Duration (hours)', 'Activity Level', 'Stress Level']

## Вывод DataFrame(df)

In [47]:
df

Unnamed: 0,User ID,Heart Rate (BPM),Blood Oxygen Level (%),Step Count,Sleep Duration (hours),Activity Level,Stress Level
0,0.885813,58.939776,98.809650,5450.390578,7.167236,Highly Active,1
1,0.682931,76.056436,98.532195,727.601610,6.538240,Highly Active,5
2,0.041120,247.803052,97.052954,2826.521994,6.487031,Highly Active,5
3,0.574419,40.000000,96.894213,13797.338044,7.367790,Active,3
4,0.503771,61.950165,98.583797,15679.067648,6.497941,Highly Active,6
...,...,...,...,...,...,...,...
9598,0.624543,78.819386,98.931927,2948.491953,7.402749,Active,7
9599,0.511868,48.632659,95.773035,4725.623070,6.382166,Sedentary,2
9600,0.813723,73.834442,97.945874,2571.492060,6.916549,Sedentary,4
9601,0.490293,76.373803,98.401058,3364.788855,5.691234,Active,8


## Определение данных для предсказания

In [48]:
activity_level = "Active"
stress_level = "4"
blood_oxygen_level = 97.55
step_count = 13000
sleep_duration_hours = 6.8

## Создаем словарь с данными

In [49]:
dict_data = {
    "Blood Oxygen Level (%)": blood_oxygen_level,
    "Step Count": step_count,
    "Sleep Duration (hours)": sleep_duration_hours,
    "Activity Level": activity_level,
    "Stress Level": stress_level
}

## Создаем DataFrame(data_predict)

In [50]:
data_predict = pd.DataFrame([dict_data])

## Вывод data_predict

In [51]:
data_predict

Unnamed: 0,Blood Oxygen Level (%),Step Count,Sleep Duration (hours),Activity Level,Stress Level
0,97.55,13000,6.8,Active,4


## Выполняем предсказание

In [52]:
predict = model.predict(data_predict)
predict

array([76.19365179])