# Аналитика WHOOP: факторы восстановления, возрастные диапазоны и рекомендации

**Цель проекта** — определить, какие метрики (сон, нагрузка, HRV, пульс в покое и др.) сильнее всего связаны с высоким уровнем восстановления (`recovery_score`) и построить модель, которая предсказывает «хорошее восстановление».

**Что считаем «лучшим восстановлением»**: будем использовать бинарную метку `good_recovery` = 1, если `recovery_score ≥ 67` (условная «зелёная зона»), иначе 0.

**Дополнительные задачи**:
* посмотреть различия метрик и восстановления в возрастных группах;
* сформулировать практические рекомендации по улучшению сна и восстановления на основе результатов анализа.

> Примечание: датасет носит обучающий характер (похож на реальные метрики WHOOP). Методология полностью переносима на ваши реальные выгрузки, но конкретные числа могут отличаться.


In [None]:
import os
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import GroupShuffleSplit
from sklearn.metrics import (classification_report, roc_auc_score, RocCurveDisplay,
                             ConfusionMatrixDisplay, confusion_matrix)
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# Если установлен catboost — можно включить более сильную модель:
try:
    from catboost import CatBoostClassifier, Pool
    CATBOOST_AVAILABLE = True
except Exception:
    CATBOOST_AVAILABLE = False

pd.set_option('display.max_columns', 200)
pd.set_option('display.max_rows', 200)


## Обзор и предобработка данных

Загрузим датасет и посмотрим структуру, пропуски и дубликаты.

In [None]:
# Удобно: поддержим несколько вариантов имени файла
candidate_paths = [
    "whoop_fitness_dataset_100k.csv",
    "whoop_fitness_dataset_100k (1).csv",
    "./whoop_fitness_dataset_100k.csv",
    "./whoop_fitness_dataset_100k (1).csv",
]

data_path = None
for p in candidate_paths:
    if os.path.exists(p):
        data_path = p
        break

if data_path is None:
    raise FileNotFoundError(
        "Не найден CSV. Положите файл рядом с ноутбуком и назовите его "
        "'whoop_fitness_dataset_100k.csv' (или оставьте имя как есть)."
    )

df = pd.read_csv(data_path)
df.head()


In [None]:
df.info()
print("Rows:", df.shape[0], "| Columns:", df.shape[1])
print("Unique users:", df['user_id'].nunique())
print("Duplicates:", df.duplicated().sum())


In [None]:
# Пропуски
na = df.isna().sum().sort_values(ascending=False)
na[na > 0].head(20)


### Минимальная предобработка и фичи

Сделаем несколько полезных преобразований:
* `date` → datetime + `month`
* `workout_time_of_day`: пропуски заменим на `No workout`
* инженерные признаки относительно персонального базлайна:
  * `hrv_delta = hrv - hrv_baseline`
  * `rhr_delta = resting_heart_rate - rhr_baseline`
* целевая переменная:
  * `good_recovery = 1`, если `recovery_score ≥ 67`

Также проверим, есть ли константные столбцы (например, `sleep_performance` в этом датасете).

In [None]:
df = df.copy()
df['date'] = pd.to_datetime(df['date'])
df['month'] = df['date'].dt.month

df['workout_time_of_day'] = df['workout_time_of_day'].fillna('No workout')

df['hrv_delta'] = df['hrv'] - df['hrv_baseline']
df['rhr_delta'] = df['resting_heart_rate'] - df['rhr_baseline']

df['good_recovery'] = (df['recovery_score'] >= 67).astype(int)

# Константные признаки (в анализе обычно не нужны)
const_cols = df.columns[df.nunique(dropna=False) <= 1].tolist()
const_cols


**Промежуточный вывод**

В этом датасете часто встречается константный признак `sleep_performance` (все значения = 100). Такие признаки не несут информации и их лучше исключать из моделей.

## Исследовательский анализ данных (EDA)

Посмотрим на распределения ключевых метрик и на связи с `recovery_score`.

### Гистограммы и распределения признаков

In [None]:
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

sns.histplot(df['recovery_score'], bins=30, ax=axes[0,0])
axes[0,0].set_title('Recovery Score')

sns.histplot(df['sleep_hours'], bins=30, ax=axes[0,1])
axes[0,1].set_title('Sleep hours')

sns.histplot(df['sleep_efficiency'], bins=30, ax=axes[0,2])
axes[0,2].set_title('Sleep efficiency')

sns.histplot(df['hrv_delta'], bins=30, ax=axes[1,0])
axes[1,0].set_title('HRV delta (HRV - baseline)')

sns.histplot(df['rhr_delta'], bins=30, ax=axes[1,1])
axes[1,1].set_title('RHR delta (RHR - baseline)')

sns.histplot(df['day_strain'], bins=30, ax=axes[1,2])
axes[1,2].set_title('Day strain')

plt.tight_layout()
plt.show()


### Связь восстановления с HRV/RHR относительно базлайна

Ожидаемая гипотеза: **лучшее восстановление** связано с:
* **более высоким HRV**, особенно если он выше персонального базлайна;
* **более низким пульсом в покое**, особенно если он ниже персонального базлайна.

Проверим это на уровне простых корреляций.

In [None]:
corr_cols = [
    'recovery_score',
    'hrv', 'hrv_baseline', 'hrv_delta',
    'resting_heart_rate', 'rhr_baseline', 'rhr_delta',
    'sleep_hours', 'sleep_efficiency', 'wake_ups', 'time_to_fall_asleep_min',
    'day_strain', 'activity_strain', 'respiratory_rate', 'skin_temp_deviation'
]

corr = df[corr_cols].corr(numeric_only=True)['recovery_score'].sort_values(ascending=False)
corr


### Корреляционная матрица

Построим тепловую карту для числовых признаков (для удобства — только выбранные колонки).

In [None]:
plt.figure(figsize=(14, 10))
sns.heatmap(df[corr_cols].corr(numeric_only=True), cmap='coolwarm', center=0, linewidths=0.5)
plt.title('Корреляции между ключевыми метриками')
plt.show()


## Возрастные диапазоны

Сегментируем пользователей по возрасту и посмотрим:
* средний/медианный `recovery_score`
* долю «зелёного» восстановления (`good_recovery`)
* средние значения ключевых метрик (`hrv_delta`, `rhr_delta`, сон)


In [None]:
bins = [18, 25, 35, 45, 55, 65]
labels = ['18-24', '25-34', '35-44', '45-54', '55-64']
df['age_group'] = pd.cut(df['age'], bins=bins, right=False, labels=labels)

age_stats = df.groupby('age_group', observed=True).agg(
    n=('recovery_score', 'size'),
    mean_recovery=('recovery_score', 'mean'),
    median_recovery=('recovery_score', 'median'),
    share_good=('good_recovery', 'mean'),
    mean_hrv_delta=('hrv_delta', 'mean'),
    mean_rhr_delta=('rhr_delta', 'mean'),
    mean_sleep=('sleep_hours', 'mean'),
    mean_wakeups=('wake_ups', 'mean'),
    mean_ttf=('time_to_fall_asleep_min', 'mean'),
).round(2)

age_stats


In [None]:
fig, axes = plt.subplots(1, 2, figsize=(16, 5))

sns.barplot(x=age_stats.index, y=age_stats['mean_recovery'], ax=axes[0])
axes[0].set_title('Средний recovery_score по возрастным группам')
axes[0].set_xlabel('Возраст')
axes[0].set_ylabel('Средний recovery_score')

sns.barplot(x=age_stats.index, y=age_stats['share_good'], ax=axes[1])
axes[1].set_title('Доля good_recovery (recovery_score ≥ 67)')
axes[1].set_xlabel('Возраст')
axes[1].set_ylabel('Доля')

plt.tight_layout()
plt.show()


### Насколько сильны эффекты HRV/RHR относительно базлайна?

Чтобы перевести корреляции в более «прикладной» формат, сравним средний `recovery_score`:
* в **нижнем квартиле** и **верхнем квартиле** `hrv_delta`
* в **лучшем квартиле** и **худшем квартиле** `rhr_delta`

Сделаем это для всего датасета и отдельно по возрастным группам.

In [None]:
df['hrv_delta_q'] = pd.qcut(df['hrv_delta'], 4, labels=['Q1_low', 'Q2', 'Q3', 'Q4_high'])
df['rhr_delta_q'] = pd.qcut(df['rhr_delta'], 4, labels=['Q1_lowest', 'Q2', 'Q3', 'Q4_highest'])

hrv_effect = df.groupby('hrv_delta_q', observed=True)['recovery_score'].mean().round(2)
rhr_effect = df.groupby('rhr_delta_q', observed=True)['recovery_score'].mean().round(2)

display(hrv_effect)
display(rhr_effect)


In [None]:
# Возрастные группы: сравнение Q4 vs Q1
pivot_hrv = df[df['hrv_delta_q'].isin(['Q1_low','Q4_high'])].pivot_table(
    index='age_group', columns='hrv_delta_q', values='recovery_score', aggfunc='mean', observed=True
)
pivot_hrv['delta(Q4-Q1)'] = pivot_hrv['Q4_high'] - pivot_hrv['Q1_low']

pivot_rhr = df[df['rhr_delta_q'].isin(['Q1_lowest','Q4_highest'])].pivot_table(
    index='age_group', columns='rhr_delta_q', values='recovery_score', aggfunc='mean', observed=True
)
pivot_rhr['delta(Q1_lowest - Q4_highest)'] = pivot_rhr['Q1_lowest'] - pivot_rhr['Q4_highest']

display(pivot_hrv.round(1))
display(pivot_rhr.round(1))


## Модель прогнозирования восстановления

Цель моделирования: предсказать `good_recovery`.

Важный момент: в данных много записей на одного пользователя. Если случайно перемешать строки и разбить на train/test, одна и та же персона может попасть и туда, и туда — это даст завышенную оценку качества.

Поэтому используем **Group split по `user_id`** (обучаемся на одних пользователях, тестируемся на других).

### Про временную логику и утечки признаков (важно для реальных данных WHOOP)

В реальном WHOOP **Recovery обычно появляется утром** (после сна), а дневные метрики нагрузки (`day_strain`, тренировки и т.п.) формируются *в течение дня*.

Если мы пытаемся предсказывать утренний `recovery_score` **по признакам этого же дня**, можно случайно допустить утечку (использовать информацию из будущего).

Чтобы сделать постановку задачи более «жизненной», можно:
* использовать **сон этой ночи** (он уже известен утром) + **нагрузку вчерашнего дня** (lag-признаки);
* для проверки качества использовать **разбиение по пользователям** и/или по времени.

Ниже — пример, как создать лаг-признаки. Этот блок не обязателен, но рекомендуется, если вы хотите более корректный прогноз "утро → план нагрузки".

In [None]:
# Пример: создаём лаг-признаки по нагрузке (вчерашний день) для более корректного предсказания recovery "на утро"
df_lag = df.sort_values(['user_id','date']).copy()

lag_cols = [
    'day_strain', 'calories_burned',
    'workout_completed', 'activity_duration_min', 'activity_strain',
    'avg_heart_rate', 'max_heart_rate', 'activity_calories',
    'hr_zone_1_min', 'hr_zone_2_min', 'hr_zone_3_min', 'hr_zone_4_min', 'hr_zone_5_min'
]

for col in lag_cols:
    if col in df_lag.columns:
        df_lag[col + '_prev'] = df_lag.groupby('user_id')[col].shift(1)

# Первое наблюдение каждого пользователя будет с NaN в lag-признаках — его можно удалить
df_lag = df_lag.dropna(subset=[c + '_prev' for c in lag_cols if c in df.columns])

df_lag[['user_id','date'] + [c + '_prev' for c in ['day_strain','activity_strain']]].head()


In [None]:
target = 'good_recovery'
group_col = 'user_id'

drop_cols = ['recovery_score', 'sleep_performance', 'date', 'age_group', 'hrv_delta_q', 'rhr_delta_q']
X = df.drop(columns=[target] + [c for c in drop_cols if c in df.columns])
y = df[target]
groups = df[group_col]

gss = GroupShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
train_idx, test_idx = next(gss.split(X, y, groups=groups))

X_train, X_test = X.iloc[train_idx].copy(), X.iloc[test_idx].copy()
y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]

X_train.shape, X_test.shape


### Логистическая регрессия (базовая модель)

Чтобы модель обучалась быстро и давала интерпретируемые коэффициенты, возьмём только числовые признаки + закодируем `gender`.

Это **бэйзлайн**, который удобно интерпретировать.

In [None]:
# Базовый набор признаков для интерпретируемой модели
baseline_features = [
    'age', 'weight_kg', 'height_cm',
    'sleep_hours', 'sleep_efficiency', 'wake_ups', 'time_to_fall_asleep_min',
    'day_strain', 'activity_strain',
    'hrv', 'hrv_baseline', 'hrv_delta',
    'resting_heart_rate', 'rhr_baseline', 'rhr_delta',
    'respiratory_rate', 'skin_temp_deviation'
]

# gender: простое кодирование
Xb_train = X_train[baseline_features + ['gender']].copy()
Xb_test = X_test[baseline_features + ['gender']].copy()

Xb_train['gender'] = Xb_train['gender'].map({'Male': 1, 'Female': 0})
Xb_test['gender'] = Xb_test['gender'].map({'Male': 1, 'Female': 0})

# Масштабирование числовых признаков
scaler = StandardScaler()
Xb_train_scaled = scaler.fit_transform(Xb_train)
Xb_test_scaled = scaler.transform(Xb_test)

lr = LogisticRegression(max_iter=2000)
lr.fit(Xb_train_scaled, y_train)

proba_lr = lr.predict_proba(Xb_test_scaled)[:, 1]
pred_lr = (proba_lr >= 0.5).astype(int)

print("ROC-AUC:", roc_auc_score(y_test, proba_lr).round(3))
print(classification_report(y_test, pred_lr))


In [None]:
# ROC-кривая и матрица ошибок
RocCurveDisplay.from_predictions(y_test, proba_lr)
plt.title("ROC-кривая: Logistic Regression (baseline)")
plt.show()

cm = confusion_matrix(y_test, pred_lr)
ConfusionMatrixDisplay(cm).plot()
plt.title("Confusion matrix: Logistic Regression (baseline)")
plt.show()


#### Интерпретация коэффициентов (какие метрики двигают вероятность good_recovery)

Знак коэффициента показывает направление связи: положительный — увеличивает вероятность `good_recovery`, отрицательный — снижает.

In [None]:
coef = pd.Series(lr.coef_[0], index=Xb_train.columns)
coef_sorted = coef.sort_values()

plt.figure(figsize=(10, 8))
coef_sorted.tail(10).plot(kind='barh')
plt.title("Топ + коэффициентов (увеличивают вероятность good_recovery)")
plt.show()

plt.figure(figsize=(10, 8))
coef_sorted.head(10).plot(kind='barh')
plt.title("Топ - коэффициентов (снижают вероятность good_recovery)")
plt.show()


### Случайный лес (нелинейная модель)

Случайный лес поможет поймать нелинейности и взаимодействия признаков. Для скорости — используем тот же набор признаков, что и в базовой модели.

In [None]:
rf = RandomForestClassifier(
    n_estimators=400,
    random_state=42,
    n_jobs=-1,
    max_depth=10,
    min_samples_leaf=15
)
rf.fit(Xb_train, y_train)

proba_rf = rf.predict_proba(Xb_test)[:, 1]
pred_rf = (proba_rf >= 0.5).astype(int)

print("ROC-AUC:", roc_auc_score(y_test, proba_rf).round(3))
print(classification_report(y_test, pred_rf))


In [None]:
# Важность признаков (RandomForest)
imp = pd.Series(rf.feature_importances_, index=Xb_train.columns).sort_values(ascending=False)

plt.figure(figsize=(10, 8))
imp.head(15).sort_values().plot(kind='barh')
plt.title("Топ признаков по важности (RandomForest)")
plt.show()


### (Опционально) CatBoost на всех признаках

Если установлен `catboost`, можно обучить модель на *всех* признаках, включая категориальные (`fitness_level`, `primary_sport`, `activity_type` и т.д.) без one-hot.

На больших данных CatBoost часто даёт качество выше, чем RandomForest.

In [None]:
if CATBOOST_AVAILABLE:
    full_features = [c for c in X_train.columns if c not in [group_col]]
    cat_cols = ['day_of_week','gender','fitness_level','primary_sport','activity_type','workout_time_of_day']
    cat_indices = [X_train[full_features].columns.get_loc(c) for c in cat_cols if c in full_features]

    train_pool = Pool(X_train[full_features], y_train, cat_features=cat_indices)
    test_pool = Pool(X_test[full_features], y_test, cat_features=cat_indices)

    cb = CatBoostClassifier(
        iterations=300,
        depth=6,
        learning_rate=0.08,
        loss_function='Logloss',
        eval_metric='AUC',
        random_seed=42,
        verbose=50
    )
    cb.fit(train_pool, eval_set=test_pool, use_best_model=True)

    proba_cb = cb.predict_proba(test_pool)[:, 1]
    pred_cb = (proba_cb >= 0.5).astype(int)

    print("ROC-AUC:", roc_auc_score(y_test, proba_cb).round(3))
    print(classification_report(y_test, pred_cb))

    # Важность признаков
    fi = pd.Series(cb.get_feature_importance(train_pool), index=X_train[full_features].columns).sort_values(ascending=False)
    display(fi.head(20))
else:
    print("catboost не установлен — пропускаем этот блок")


## Кластеризация (профили пользователей)

Как в проекте про фитнес-центр, добавим сегментацию: сгруппируем пользователей по их **средним** метрикам и посмотрим, какие «профили» дают лучшее восстановление.

Идея: агрегируем данные по `user_id` → стандартизируем признаки → KMeans.

In [None]:
user_df = df.groupby('user_id').agg({
    'age':'first',
    'gender':'first',
    'fitness_level':'first',
    'recovery_score':'mean',
    'sleep_hours':'mean',
    'sleep_efficiency':'mean',
    'wake_ups':'mean',
    'time_to_fall_asleep_min':'mean',
    'day_strain':'mean',
    'activity_strain':'mean',
    'hrv':'mean',
    'resting_heart_rate':'mean',
    'hrv_delta':'mean',
    'rhr_delta':'mean',
    'respiratory_rate':'mean'
}).reset_index()

user_df.head()


In [None]:
from sklearn.cluster import KMeans

cluster_features = [
    'age', 'sleep_hours', 'sleep_efficiency', 'wake_ups', 'time_to_fall_asleep_min',
    'day_strain', 'activity_strain', 'hrv', 'resting_heart_rate', 'hrv_delta', 'rhr_delta', 'respiratory_rate'
]

scaler_cl = StandardScaler()
X_cl = scaler_cl.fit_transform(user_df[cluster_features])

k = 4
km = KMeans(n_clusters=k, random_state=42, n_init=10)
user_df['cluster'] = km.fit_predict(X_cl)

cluster_summary = user_df.groupby('cluster').agg(
    size=('user_id','size'),
    mean_age=('age','mean'),
    mean_recovery=('recovery_score','mean'),
    mean_sleep=('sleep_hours','mean'),
    mean_eff=('sleep_efficiency','mean'),
    mean_wakeups=('wake_ups','mean'),
    mean_ttf=('time_to_fall_asleep_min','mean'),
    mean_strain=('day_strain','mean'),
    mean_hrv_delta=('hrv_delta','mean'),
    mean_rhr_delta=('rhr_delta','mean'),
    mean_rhr=('resting_heart_rate','mean')
).round(2).sort_values('mean_recovery', ascending=False)

cluster_summary


In [None]:
# Визуально: recovery vs sleep vs HRV/RHR deltas по кластерам
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

sns.barplot(data=user_df, x='cluster', y='recovery_score', ax=axes[0,0])
axes[0,0].set_title('Средний recovery_score по кластерам')

sns.barplot(data=user_df, x='cluster', y='sleep_hours', ax=axes[0,1])
axes[0,1].set_title('Средние часы сна по кластерам')

sns.barplot(data=user_df, x='cluster', y='hrv_delta', ax=axes[1,0])
axes[1,0].set_title('Средний hrv_delta по кластерам')

sns.barplot(data=user_df, x='cluster', y='rhr_delta', ax=axes[1,1])
axes[1,1].set_title('Средний rhr_delta по кластерам')

plt.tight_layout()
plt.show()


## Выводы и рекомендации

Ниже — шаблон итогов в стиле проекта про фитнес-центр. После выполнения всех ячеек (EDA + модели) вы можете уточнить формулировки и добавить свои числа.

**1.** Мы построили пайплайн анализа и предобработки данных WHOOP и выделили целевой признак `good_recovery`.

**2.** Самые сильные связи с восстановлением в датасете — это отклонения от базлайна:
* `hrv_delta = hrv - hrv_baseline` — чем выше HRV относительно базлайна, тем выше восстановление;
* `rhr_delta = resting_heart_rate - rhr_baseline` — чем ниже пульс в покое относительно базлайна, тем выше восстановление.

**3.** Возрастные группы отличаются по среднему восстановлению и доле `good_recovery`, но **направление ключевых факторов одинаковое**: HRV↑ (выше базлайна) и RHR↓ (ниже базлайна) практически во всех группах ассоциированы с лучшим восстановлением.

**4.** Мы обучили модели (логистическая регрессия как интерпретируемый бэйзлайн и RandomForest как нелинейную модель) и получили ранжирование факторов.

**5.** Сегментация пользователей (кластеризация) помогает выделить профили:
* «высокое восстановление» — обычно сочетание хороших `hrv_delta` и `rhr_delta` + стабильного сна;
* «низкое восстановление» — чаще связано с плохими отклонениями HRV/RHR от базлайна даже при неплохих часах сна.

---
### Практические рекомендации (что делать, чтобы чаще попадать в good recovery)

Рекомендации привязаны к метрикам, которые вы видите в WHOOP:

**Если падает HRV (особенно ниже базлайна):**
* снизьте интенсивность тренировок на 24–48 часов (активное восстановление вместо HIIT);
* уделите внимание стресс-менеджменту (дыхательные практики/медитация/прогулки);
* проверьте сон: длительность и регулярность; 
* пересмотрите алкоголь и поздний кофеин (часто бьют по HRV).

**Если растёт RHR (выше базлайна):**
* это может быть маркером недовосстановления, инфекции, обезвоживания или перетренированности — сделайте «лёгкий день»;
* обеспечьте гидратацию и питание (особенно после высокой нагрузки);
* проверьте, не стало ли хуже качество сна (частые пробуждения, поздний отход ко сну).

**Если проблема в сне (sleep_hours/efficiency, wake_ups, time_to_fall_asleep):**
* фиксированное время подъёма и отхода ко сну;
* минимум яркого света и экранов за 60–90 минут до сна;
* прохладная, тёмная и тихая спальня;
* кофеин — не позднее середины дня (индивидуально);
* если регулярно много пробуждений/храп/сонливость днём — стоит обсудить с врачом.

> Это не медицинская рекомендация. Если показатели резко ухудшились или есть симптомы (одышка, боль, сильная усталость), лучше обратиться к специалисту.
