# Прогнозирование вероятности оттока пользователей для фитнес-центров

<div style="text-align: right">Работа Юлия Халеевой </div>

## Описание проекта

Задача проекта: изучить данные пользователей фитнес-центра и подготовить план действий по удержанию клиентов.
Мы планируем:
научиться прогнозировать вероятность оттока (на уровне следующего месяца) для каждого клиента;

сформировать типичные портреты клиентов: выделить несколько наиболее ярких групп и охарактеризовать их основные свойства;

проанализировать основные признаки, наиболее сильно влияющие на отток;

сформулировать основные выводы и разработать рекомендации по повышению качества работы с клиентами:
1) выделить целевые группы клиентов;

2) предложить меры по снижению оттока;

3) определить другие особенности взаимодействия с клиентами.

**Описание данных**

Набор данных включает следующие поля:

`Churn` — факт оттока в текущем месяце;

Текущие поля в датасете:
Данные клиента за предыдущий до проверки факта оттока месяц:

`gender` — пол;

`Near_Location` — проживание или работа в районе, где находится фитнес-центр;

`Partner` — сотрудник компании-партнёра клуба (сотрудничество с компаниями, чьи сотрудники могут получать скидки на абонемент — в таком случае фитнес-центр хранит информацию о работодателе клиента);

`Promo_friends` — факт первоначальной записи в рамках акции «приведи друга» (использовал промо-код от знакомого при оплате первого абонемента);

`Phone` — наличие контактного телефона;

`Age` — возраст;

`Lifetime` — время с момента первого обращения в фитнес-центр (в месяцах).

Информация на основе журнала посещений, покупок и информация о текущем статусе абонемента клиента:

`Contract_period` — длительность текущего действующего абонемента (месяц, 3 месяца, 6 месяцев, год);

`Month_to_end_contract` — срок до окончания текущего действующего абонемента (в месяцах);

`Group_visits` — факт посещения групповых занятий;

`Avg_class_frequency_total` — средняя частота посещений в неделю за все время с начала действия абонемента;

`Avg_class_frequency_current_month` — средняя частота посещений в неделю за предыдущий месяц;

`Avg_additional_charges_total` — суммарная выручка от других услуг фитнес-центра: кафе, спорт-товары, косметический и массажный салон.


## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from scipy import stats as st
import math as mth
import warnings
import os
from plotly import graph_objects as go
import re
from io import BytesIO
import requests
warnings.filterwarnings("ignore")
pd.options.display.float_format = "{:,.2f}".format
pd.set_option("max_colwidth", 120)
pd.set_option('display.max_rows', None)
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import RandomForestClassifier
from scipy.cluster.hierarchy import dendrogram, linkage 
from sklearn.cluster import KMeans

In [2]:
#Загрузим данные
#для работы в тренажере

if os.path.exists('/datasets/gym_churn.csv'):
    df = pd.read_csv('/datasets/gym_churn.csv')

#для работы локально
else:
    df = pd.read_csv('gym_churn.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'gym_churn.csv'

In [None]:
df.head()

## Исследовательский анализ данных (EDA) 

In [None]:
df = df.rename(columns={'gender': 'Gender'})

In [None]:
df.info()

In [None]:
#проверим, есть ли пропуски
df.isna().sum()

In [None]:
#проверим, есть ли дубликаты
df.duplicated().sum()

In [None]:
len(df)

Наши данные содержат 4000 наблюдений, 13 признаков (объясняющих переменных) и целевую переменную `Churn` -- факт ухода в текущем месяце. Видим, что ни пропусков в данных, ни дубликатов нет.

Среди признаков есть 6 категориальных:
`gender` — пол;

`Near_Location` — проживание или работа в районе, где находится фитнес-центр;

`Partner` — сотрудник компании-партнёра клуба (сотрудничество с компаниями, чьи сотрудники могут получать скидки на абонемент — в таком случае фитнес-центр хранит информацию о работодателе клиента);

`Promo_friends` — факт первоначальной записи в рамках акции «приведи друга» (использовал промо-код от знакомого при оплате первого абонемента);

`Phone` — наличие контактного телефона;

`Group_visits` — факт посещения групповых занятий.


In [None]:
# Сохраним копию файла
df_initial = df

In [None]:
df.describe()

Посмотрим на социальный портрет пользователя.
    
Это с равной вероятностью мужчина или женщина,
    
30 лет,
    
живет близко от фитнес-клуба,
    
оформляет абонемент на 5 месяцев,
    
в трети случаев приходит по промокоду,
    
в четверти случаев покидает клуб.

In [None]:
def hist_plot(data, column):
    '''Функция строит гистограмму для конкретной переменной
    '''
    plt.figure(figsize=(13,7))
    sns.set_style("whitegrid") 
    sns.displot(data, x=column, hue="Churn", alpha=0.5, height = 6, aspect = 10/6)
    plt.legend(['да', 'нет'], title = 'Отток', loc = 'best')
    plt.title(f'Распределение признака {column}', fontsize=15)
    plt.xlabel('Признак', fontsize=12)
    plt.ylabel('Частота', fontsize=12)
    plt.show()

In [None]:
feature_list = df.drop(['Churn'], axis = 1).columns
feature_list

In [None]:
for feature  in feature_list: 
    hist_plot(df, feature)

Особенных выбросов мы не наблюдаем. Наши категориальные переменные уже имеют вид дамми-переменных, так что не требуют дополнительного преобразования.

Видим, что 
    
по полу различий практически нет

живущих близко в выборке гораздо больше и доля "утекающих" среди них меньше
    
среди тех, кто работает в компании-партнере, отток ниже
    
тех, кто пришел по промокоду, меньше, но и отток среди них меньше

абонемент бывает на 1 месяц, на 6 месяцев и на год, среди тех, кто покупает абонемент на месяц, отток самый большой, среди тех, кто на год, самый маленький
    
более молодые уходят чаще
    
те, кто ходит реже и меньше тратит на дополнительные услуги, уходит чаще.

In [None]:
#построим матрицу корреляций
df_corr = df.corr()

In [None]:
plt.figure(figsize=(15, 5))
sns.set(style='white')
plt.title('Матрица корреляций')
sns.heatmap(df_corr, annot=True, fmt='.1%', linewidths=1, linecolor='white')
plt.show()
plt.close()

Видим, что имеются мультиколлинеарность, обнаруживаются две пары сильно коррелированных признаков:

`Avg_class_frequency_total` 

`Avg_class_frequency_current_month`    

и

`Month_to_end_contract`

`Contract_period`

Исключим по одному признаку из каждой пары, оставим
`Avg_class_frequency_total` 
и
`Contract_period`

In [None]:
df = df.drop(['Month_to_end_contract', 'Avg_class_frequency_current_month'], axis = 1) 

In [None]:
df.info()

## Построение модели прогнозирования оттока клиентов
Постройте модель бинарной классификации клиентов, где целевой признак — факт оттока клиента в следующем месяце:

Разбейте данные на обучающую и валидационную выборку функцией train_test_split().

Обучите модель на train-выборке двумя способами:

логистической регрессией,

случайным лесом.

Оцените метрики accuracy, precision и recall для обеих моделей на валидационной выборке. 

Сравните по ним модели. Какая модель показала себя лучше на основании метрик?

Не забудьте указать параметр random_state при разделении выборки и задании алгоритма.


In [None]:
#Разобьем данные на обучающую и валидационную выборку функцией train_test_split().
X = df.drop('Churn', axis = 1) 
y = df['Churn'] 

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0, stratify = y)

In [None]:
# определим функцию, которая будет выводить метрики
def print_all_metrics(y_true, y_pred, y_proba, title='Метрики классификации'):
    print(title)
    print('\tAccuracy: {:.2f}'.format(accuracy_score(y_true, y_pred)))
    print('\tPrecision: {:.2f}'.format(precision_score(y_true, y_pred)))
    print('\tRecall: {:.2f}'.format(recall_score(y_true, y_pred)))

In [None]:
# обучим StandardScaler на обучающей выборке
scaler = StandardScaler()
scaler.fit(X_train)
 
# Преобразуем обучающий и валидационные наборы данных
X_train_st = scaler.transform(X_train)
X_test_st = scaler.transform(X_test)

Обучим модель с помощью логистической регрессии.

In [None]:
# зададим алгоритм для модели логистической регрессии
lr_model = LogisticRegression(solver='liblinear', random_state=0)

# обучим модель
lr_model.fit(X_train_st, y_train)

# воспользуемся уже обученной моделью, чтобы сделать прогнозы
lr_predictions = lr_model.predict(X_test_st)
lr_probabilities = lr_model.predict_proba(X_test_st)[:, 1]

In [None]:
# выведем все метрики
print_all_metrics(
    y_test,
    lr_predictions,
    lr_probabilities,
    title='Метрики для модели логистической регрессии:',
)

Теперь обучим модель с помощью случайного леса.

In [None]:
# зададим алгоритм для нашей модели на основе алгоритма случайного леса
rf_model = RandomForestClassifier(n_estimators=100, random_state=0) 

In [None]:
# зададим алгоритм для новой модели на основе алгоритма случайного леса
rf_model = RandomForestClassifier(n_estimators=100, random_state=0) 
# обучим модель случайного леса
rf_model.fit(X_train, y_train)
# воспользуемся уже обученной моделью, чтобы сделать прогнозы
rf_predictions =  rf_model.predict(X_test) # Ваш код здесь
rf_probabilities = rf_model.predict_proba(X_test)[:,1] # Ваш код здесь


In [None]:
# выведем все метрики
print_all_metrics(
    y_test, 
    rf_predictions,
    rf_probabilities,
    title = 'Метрики для модели случайного леса:'
)

Видим, что логистическая регрессия на стандартизованных данных дает лучшие результаты, чем случайный лес (лучшие в смысле метрик accuracy, precision и recall)

## Кластеризация
Сделайте кластеризацию клиентов

Отложите в сторону столбец с оттоком и проведите кластеризацию объектов (клиентов):

Стандартизируйте данные.

Постройте матрицу расстояний функцией linkage() на стандартизованной матрице признаков и нарисуйте дендрограмму. 
Внимание: отрисовка дендрограммы может занять время! На основании полученного графика предположите, какое количество кластеров можно выделить.

Обучите модель кластеризации на основании алгоритма K-Means и спрогнозируйте кластеры клиентов. Договоримся за число кластеров принять n=5, чтобы ваши результаты можно было сравнивать с результатами остальных студентов. Однако, конечно, в жизни никто не скажет вам правильный ответ, и решение остаётся за вами (на основании изучения графика из предыдущего пункта).

Посмотрите на средние значения признаков для кластеров. Можно ли сразу что-то заметить?

Постройте распределения признаков для кластеров. Можно ли что-то заметить по ним?

Для каждого полученного кластера посчитайте долю оттока (методом groupby()). Отличаются ли они по доле оттока? Какие кластеры склонны к оттоку, а какие — надёжны?


In [None]:
# обучим StandardScaler на всей выборке
scaler = StandardScaler()
scaler.fit(X)
 
# Преобразуем все данные
X_st = scaler.transform(X)

In [None]:
#построим таблицу связок между объектами
linked = linkage(X_st, method = 'ward') 

In [None]:
#построим дендрограмму (no_labels = True, чтобы дендрограмма строилась быстрее)
plt.figure(figsize=(15, 10))  
dendrogram(linked, orientation='top', no_labels = True)
plt.show() 

Дендрограмма демонстрирует, что данные разумно разделить на 4 кластера.

Следуя заданию, разделим их на 5 кластеров.

In [None]:
# определим функцию для построения графиков попарных признаков для кластеров
def show_clusters_on_plot(df, x_name, y_name, cluster_name):
    plt.figure(figsize=(10, 10))
    sns.scatterplot(
        df[x_name], df[y_name], hue=df[cluster_name], palette='Paired'
    )
    plt.title('{} vs {}'.format(x_name, y_name))
    plt.show()
 

In [None]:
# зададим модель k_means с числом кластеров 5
km = KMeans(n_clusters = 5, random_state = 0)
# спрогнозируем кластеры для наблюдений (алгоритм присваивает им номера от 0 до 4)
labels = km.fit_predict(X_st)
 
# сохраним метки кластера в поле нашего датасета
df['cluster'] = labels
 
# выведем статистику по средним значениям наших признаков по кластеру
df.groupby('cluster').mean()

Видим, что кластеры отличаются по доле оттока. 

Самый надежный кластер 2, оттуда практически никто не уходит (отток = 0,02). Это люди, которые живут рядом, пришли давно и не по промокоду, чаще других ходят на групповые занятия и вообще в клуб, больше денег тратят на сопутствующие услуги в клубе.

Следующий по надежности кластер 1 (отток = 0,12). Это люди, работающие в компании-партнере, они тоже чаще других ходят на групповые занятия и вообще в клуб и больше денег тратят на сопутствующие услуги в клубе (но меньше, чем кластер 2).

Самый ненадежный кластер 3 (отток = 0,55). Это люди, пришедшие недавно, у них самый короткий срок, на который оформлен абонемент. Они реже прочих ходят на групповые занятия и меньше денег тратят на сопутствующие услуги в клубе. Они чуть моложе остальных и чаще относятся к полу , обозначенному 1.

Кластер 0 тоже достаточно ненадежен (отток = 0,4). Этот кластер отличается от других тем, что люди тут не живут рядом с клубом.

Кластер 4 -- люди, которые не оставили свой телефон, на удивление не отличаются чрезмерной ненадежностью, их резултат равен среднему (0,27).



Построим графики распределения переменных по кластерам.

In [None]:
#если бы мы хотели разделить выборку на кластеры, можно было бы сделать это так
# for i in range(4):
#     df_i = df.query('cluster==@i')

In [None]:
def countplot_by_clusters(data, column):
    #Функция строит распределение для конкретной дискретной переменной по кластерам
    
    plt.figure(figsize=(13,7))
    sns.set_style("whitegrid") 
    sns.countplot(data=data, x=column, hue = 'cluster')
    plt.title(f'Распределение {column}', fontsize=15)
    plt.xlabel('Признак', fontsize=12)
    plt.ylabel('Частота', fontsize=12)
    plt.legend(title = 'Кластер')
    plt.show()
    plt.close()

In [None]:
def boxplot(data, column):
    #Функция строит распределение для конкретной непрерывной переменной
    
    plt.figure(figsize=(13,7))
    sns.set_style("whitegrid") 
    sns.boxplot(data = data, x = column)
    plt.title(f'Распределение {column} в кластере {i}', fontsize=15)
    plt.xlabel('Признак', fontsize=12)
    plt.ylabel('Частота', fontsize=12)
    plt.legend('')
    plt.show()
    plt.close()

In [None]:
df.columns

In [None]:
discreet_feature_list = df.columns.drop(['Avg_additional_charges_total', 
                    'Lifetime', 'Avg_class_frequency_total', 'Age' ])

In [None]:
continous_feature_list = ['Avg_additional_charges_total', 
                    'Lifetime', 'Avg_class_frequency_total', 'Age' ]

In [None]:
for feature  in discreet_feature_list: 
    countplot_by_clusters(df, feature)

In [None]:
for feature  in continous_feature_list: 
    for i in range(4):
        boxplot(df.loc[df['cluster']==i], feature)

Мы построили распределения признаков отдельно по кластерам.

Запишем некоторые наблюдения:
    
далеко от клуба живут только персонажи из кластера 0 и некоторые из кластера 4, все остальные живут близко

во всех кластерах есть те, кто работает на предприятии-партнере, но в кластере 1 их существенно больше

по промокоду приходят представители всех кластеров, но в кластере 1 их опять существенно больше

телефон не оставляют только персонажи из кластера 4

абонемент на 1 месяц покупают персонажи из всех кластеров, но в 3 кластере таких существенно больше.

На последних графиках из первой серии мы можем сравнить размер кластеров, видим, что 1 и 3 самые большие, а 4 самый маленький.


## Выводы и базовые рекомендации по работе с клиентами 

Мы видим, что некоторые характеристики коррелированы с тем, что клиент менее вероятно стремится покинуть наш клуб. 
Мы не можем уверенно говорить о причинно-следственной связи, но тем не менее кажется осмысленным обратить внимание на клиентов из этих групп.

Сюда относятся 

те, кто пришли по промокоду

те, кто работает в компании-партнере

те, кто часто ходит на групповые занятия и просто в клуб

те, кто больше денег тратит на сопутствующие услуги в клубе.

Также более надежными являются более старые клиенты и те, кто покупает более длинные абонементы (здесь особенно вероятна обратная причинно-следственная связь: тот, кому нравится и подходит клуб, не планирует его покидать и покупает длинный абонемент).

Рекомендуемые маркетинговые действия: 

1. Следить за клиентами из этих групп, удостоверяясь, что они довольны. При недовольстве стараться удержать клиентов, предлагая какие-то поощрительные меры (например, бесплатные тренировки из тех).

2. Те, кто живут далеко, не являются особенно надежными клиентами, так что, видимо, нам не имеет особенного смысла вешать рекламу далеко от клуба, а стоит сосредоточиться на нашем районе.

3. Политика раздачи промокодов себя оправдывает, так что ее стоит продолжать, но именно в том виде и по тем каналам, по которым они распространябтся сейчас, нельзя быть уверенным, что новый канал приведет к нам таких же надежных клиентов.


