Белова Екатерина "Прогнозирование оттока клиентов фитнес-центра "Orange-club""
---

Описание проекта
---

Руководство фитнес-центра "Orange club" хотело бы понять причину оттока посетителей тренажерного зала. Уровень оттока, который представляет собой процент участников, прекративших посещать тренажерный зал в течение определенного периода, является важным показателем, который необходимо отслеживать. Высокий уровень оттока может привести к финансовым потерям, уменьшению числа членов клуба и негативно отразиться на репутации тренажерного зала.
Для фитнес-центра можно считать, что клиент попал в отток, если за последний месяц ни разу не посетил спортзал. Если клиент немного походил в спортзал, а потом пропал - скорее всего, он не вернется.
Чтобы бороться с оттоком надо провести анализ и подготовить план действий по удержанию клиентов.
А именно:
*   Научиться прогнозировать вероятность оттока (на уровне следующего месяца) для каждого клиента;
*   Сформировать типичные портреты пользователей: выделить несколько наиболее ярких групп и охарактеризовать их основные свойства;
*   Проанализировать основные признаки, наиболее сильно влияющие на отток;
*   Cформулировать основные выводы и разработать рекомендации по повышению качества работы с клиентами:
    *   Выделить целевые группы клиентов;
    *   Предложить меры по снижению оттока;
    *   Определить другие особенности взаимодейстия с клиентами.

Спецификация
---

* **`'gender'`** - *пол*
* **`'near_location'`** - *проживание или работа в районе, где находится фитнес-центр*
* **`'partner'`** - *сотрудник компании-партёра клуба* 
* **`'promo_friends'`** - *факт первоначальной записи в рамках акции "приведи друга"*
* **`'phone'`** - *наличие контактного телефона*
* **`'age'`** - *возраст*
* **`'lifetime'`** - *время с первого обращения в фитнесс-центр (в месяцах)*
* **`'contract_period'`** - *длительность текущего действующего абонемента (1 месяц, 3 месяца, 6 месяцев, 1 год)*
* **`'month_to_end_contract'`** - *срок до окончания текущего действующего абонемента (в месяцах)*
* **`'group_visits'`** - *факт посещения групповых занятий*
* **`'avg_class_frequency_total'`** - *средняя частота посещений в неделю за все время с начала действия абонемента*
* **`'avg_class_frequency_current_month'`** - *средняя частота посещений в неделю за предыдущий месяц* 
* **`'avg_additional_charges_total'`** - *суммарная выручка от других услуг фитнес-центра: кафе, спорт-товары, косметический и массажный салон*
* **`'churn'` - *факт оттока в текущем месяце (целевая переменная)***


Инструкция по выполнению проекта
---

1. Загрузка данных
   
* Загрузка библиотек.
* Загрузка датасета.
* Изчуение загруженного датасета.

2. Исследовательский анализ данных.
   
* Изучение основных статистических харастеристик данных.
* Сравнение средних значений в двух группах - тех, кто ушел в отток и тех, кто остался.
* Построение столбчатых гистограмм и распределения признаков для тех, кто ушел и тех, кто остался.
* Построение матрицы корреляций.

3. Построение модели прогнозирования оттока пользователей.

4. Кластеризация пользователей.
   
  * Стандартизация данных 
  * Обучение модели кластеризации на основе алгоритма K-Means и прогнозирование кластеры клиентов.

5. Выводы и рекомендации по работе с клиентами.

Загрузка библиотек
---

In [3]:
import pandas as pd
import math as mth
import matplotlib.pyplot as plt
from scipy import stats as st
import numpy as np

#визуализация
import seaborn as sns; sns.set()

#ML
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn import metrics
from sklearn.cluster import KMeans
from kneed import KneeLocator
 

Загрузка датасета
---

In [4]:
data = pd.read_csv('gym_churn_us.csv')
data.head(5)

Unnamed: 0,gender,Near_Location,Partner,Promo_friends,Phone,Contract_period,Group_visits,Age,Avg_additional_charges_total,Month_to_end_contract,Lifetime,Avg_class_frequency_total,Avg_class_frequency_current_month,Churn
0,1,1,1,1,0,6,1,29,14.22747,5.0,3,0.020398,0.0,0
1,0,1,0,0,1,12,1,31,113.202938,12.0,7,1.922936,1.910244,0
2,0,1,1,0,1,1,0,28,129.448479,1.0,2,1.859098,1.736502,0
3,0,1,1,1,1,12,1,33,62.669863,12.0,2,3.205633,3.357215,0
4,1,1,1,1,1,1,0,26,198.362265,1.0,3,1.113884,1.120078,0


Изучение загруженного датасета
---

In [5]:
#приведём названия столбцов к нижнему регистру
data.columns = data.columns.str.lower()
print('Размер загруженного датасета: {}\n'.format(data.shape))
print('Колонки загруженного датасета: {}\n'.format(data.columns))
print('Количество дубликатов в строках: {}\n'.format(data.duplicated().sum()))
print(data.info())
print('Количество нулевых значений:\n\n{}'.format(data.isnull().sum()))
data.head(5)

Размер загруженного датасета: (4000, 14)

Колонки загруженного датасета: Index(['gender', 'near_location', 'partner', 'promo_friends', 'phone',
       'contract_period', 'group_visits', 'age',
       'avg_additional_charges_total', 'month_to_end_contract', 'lifetime',
       'avg_class_frequency_total', 'avg_class_frequency_current_month',
       'churn'],
      dtype='object')

Количество дубликатов в строках: 0

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4000 entries, 0 to 3999
Data columns (total 14 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   gender                             4000 non-null   int64  
 1   near_location                      4000 non-null   int64  
 2   partner                            4000 non-null   int64  
 3   promo_friends                      4000 non-null   int64  
 4   phone                              4000 non-null   int64  
 5   contract_period       

Unnamed: 0,gender,near_location,partner,promo_friends,phone,contract_period,group_visits,age,avg_additional_charges_total,month_to_end_contract,lifetime,avg_class_frequency_total,avg_class_frequency_current_month,churn
0,1,1,1,1,0,6,1,29,14.22747,5.0,3,0.020398,0.0,0
1,0,1,0,0,1,12,1,31,113.202938,12.0,7,1.922936,1.910244,0
2,0,1,1,0,1,1,0,28,129.448479,1.0,2,1.859098,1.736502,0
3,0,1,1,1,1,12,1,33,62.669863,12.0,2,3.205633,3.357215,0
4,1,1,1,1,1,1,0,26,198.362265,1.0,3,1.113884,1.120078,0


> **Вывод:**
Размер загруженного датасета: 4000 строк, 14 столбцов.
Типы данных соответствуют параметрам.
Наименования столбцов переведены в нижний регистр.
Дубликатов и нулевых значений в данных не обнаружено.