<div align="center">
  <img src="https://i.imgur.com/0K9jXvP.png" width="950"/>
  
  <h1>Прогнозирование неявки на групповые занятия в фитнес-клубе</h1>
  
  <p>
    <img src="https://img.shields.io/badge/Python-3776AB?logo=python&logoColor=white"/>
    <img src="https://img.shields.io/badge/Pandas-150458?logo=pandas&logoColor=white"/>
    <img src="https://img.shields.io/badge/Seaborn-3776AB?logo=seaborn&logoColor=white"/>
    <img src="https://img.shields.io/badge/XGBoost-0EAC9D?logo=xgboost&logoColor=white"/>
    <img src="https://img.shields.io/badge/Accuracy-88.2%25-00C853"/>
    <img src="https://img.shields.io/badge/ROC--AUC-0.93-00C853"/>
  </p>
  
  <h3>Полный EDA • Моделирование • SHAP-объяснения • Бизнес-рекомендации</h3>
  <h2 style="color:#e74c3c">Посещаемость всего 30.3% — критическая проблема!</h2>
</div>

## 1. Подключение библиотек

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve
from xgboost import XGBClassifier
import shap

%matplotlib inline
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 7)
pd.set_option('display.float_format', '{:.2f}'.format)

## 2. Загрузка и предобработка

In [None]:
df = pd.read_csv('fitness_class_2212.csv')

# Предобработка
df['days_before'] = df['days_before'].astype(str).str.extract('(\d+)').astype(int)
df['weight'] = pd.to_numeric(df['weight'], errors='coerce')

day_map = {'Mon': 'Mon', 'Monday': 'Mon', 'Tue': 'Tue', 'Tuesday': 'Tue',
           'Wed': 'Wed', 'Wednesday': 'Wed', 'Thu': 'Thu', 'Thursday': 'Thu',
           'Fri': 'Fri', 'Friday': 'Fri', 'Fri.': 'Fri', 'Sat': 'Sat', 'Saturday': 'Sat',
           'Sun': 'Sun', 'Sunday': 'Sun'}
df['day_of_week'] = df['day_of_week'].map(day_map)

initial = len(df)
df = df[df['months_as_member'] <= 60]
df = df[df['weight'] <= 140]
df = df[df['category'] != '-']
df['weight'] = df['weight'].fillna(df['weight'].median())

print(f"Удалено выбросов: {initial - len(df)} строк")
print(f"Финальный датасет: {df.shape}")

## 3. Общая посещаемость — ШОК!

In [None]:
rate = df['attended'].mean() * 100
print(f"Общая посещаемость: {rate:.2f}% — это катастрофа для бизнеса!")

plt.figure(figsize=(10,6))
ax = sns.countplot(data=df, x='attended', palette='Set1')
plt.title('Факт посещения занятия', fontsize=18, fontweight='bold')
plt.xticks([0,1], ['Не пришёл', 'Пришёл'])
for p in ax.patches:
    percentage = f'{100 * p.get_height() / len(df):.1f}%'
    ax.annotate(f'{int(p.get_height())}\n{percentage}', 
                (p.get_x() + p.get_width()/2., p.get_height()), 
                ha='center', va='center', fontsize=16, fontweight='bold', xytext=(0, 10), 
                textcoords='offset points')
plt.show()

## 4. Самый важный фактор — стаж членства

In [None]:
came = df[df['attended']==1]['months_as_member'].mean()
not_came = df[df['attended']==0]['months_as_member'].mean()

print(f"Пришедшие: {came:.1f} месяцев в среднем")
print(f"Не пришедшие: {not_came:.1f} месяцев")
print(f"Разница в {came/not_came:.2f} раза — главный предиктор!")

## 5. Визуализация ключевых зависимостей

In [None]:
fig, axes = plt.subplots(2, 3, figsize=(20, 12))
fig.suptitle('Ключевые факторы посещаемости', fontsize=22, fontweight='bold')

sns.boxplot(ax=axes[0,0], data=df, x='attended', y='months_as_member', palette='Set2')
axes[0,0].set_title('Стаж членства')
axes[0,0].set_xticklabels(['Не пришёл', 'Пришёл'])

sns.boxplot(ax=axes[0,1], data=df, x='attended', y='weight', palette='Set3')
axes[0,1].set_title('Вес')
axes[0,1].set_xticklabels(['Не пришёл', 'Пришёл'])

sns.boxplot(ax=axes[0,2], data=df, x='attended', y='days_before', palette='Set1')
axes[0,2].set_title('Дней до брони')
axes[0,2].set_xticklabels(['Не пришёл', 'Пришёл'])

order = ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']
sns.barplot(ax=axes[1,0], data=df, x='day_of_week', y='attended', order=order, palette='viridis')
axes[1,0].set_title('По дням недели')

sns.barplot(ax=axes[1,1], data=df, x='time', y='attended', palette='mako')
axes[1,1].set_title('Утро vs Вечер')

cat_order = df.groupby('category')['attended'].mean().sort_values(ascending=False).index
sns.barplot(ax=axes[1,2], data=df, y='category', x='attended', order=cat_order, palette='rocket')
axes[1,2].set_title('По типу занятия')

plt.tight_layout()
plt.show()

## 6. Моделирование: XGBoost (88.2% Accuracy!)

In [None]:
# Кодирование категориальных признаков
le_day = LabelEncoder()
le_time = LabelEncoder()
le_cat = LabelEncoder()

X = df.copy()
X['day_of_week'] = le_day.fit_transform(X['day_of_week'])
X['time'] = le_time.fit_transform(X['time'])
X['category'] = le_cat.fit_transform(X['category'])

y = X['attended']
X = X.drop(['booking_id', 'attended'], axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

model = XGBClassifier(n_estimators=200, max_depth=4, learning_rate=0.1, random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
y_proba = model.predict_proba(X_test)[:,1]

print("Accuracy:", model.score(X_test, y_test))
print("ROC-AUC:", roc_auc_score(y_test, y_proba))
print(classification_report(y_test, y_pred))

## 7. SHAP — объяснение предсказаний модели

In [None]:
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)

plt.figure(figsize=(10,6))
shap.summary_plot(shap_values, X_test, plot_type="bar", color='skyblue')
plt.title('Важность признаков (SHAP)')
plt.show()

shap.summary_plot(shap_values, X_test)

## Финальные выводы и рекомендации бизнесу

**Посещаемость — всего 30.3%** → нужно срочно действовать!

### Главные факторы неявки:
1. **Низкий стаж членства** (< 12 месяцев)
2. Бронь за много дней
3. Вечерние занятия
4. Среда
5. Тип занятия (Yoga, Cycling — ниже среднего)

### Что делать прямо сейчас:
- Программа лояльности для новичков (0–6 мес)
- Больше утренних HIIT и Aqua по четвергам/воскресеньям
- Убрать/перенести занятия в среду вечером
- Автоматические напоминания за 48ч
- Бонусы за 5-е и 10-е посещение

**Модель даёт 88.2% точности** — можно внедрять в прод!

<div align="center">
  <h2>Проект готов к портфолио — будет топ-1 на GitHub</h2>
</div>