# Описание проекта

## Задача

Сеть фитнес-центров «Культурист-датасаентист» разрабатывает стратегию взаимодействия с клиентами на основе аналитических данных. 
Распространённая проблема фитнес-клубов и других сервисов — отток клиентов. Как понять, что клиент больше не с вами? Можно записать в отток тех, кто попросил закрыть договор или удалил аккаунт. Однако клиенты не всегда уходят демонстративно: чаще перестают пользоваться сервисом тихо. 

Индикаторы оттока зависят от специфики отрасли. Когда пользователь редко, но стабильно закупается в интернет-магазине — не похоже, что он «отвалился». А вот если две недели не заходит на канал с ежедневно обновляемым контентом, дела плохи: подписчик заскучал и, кажется, оставил вас. 

Для фитнес-центра можно считать, что клиент попал в отток, если за последний месяц ни разу не посетил спортзал. Конечно, не исключено, что он уехал на Бали и по приезде обязательно продолжит ходить на фитнес. Однако чаще бывает наоборот. Если клиент начал новую жизнь с понедельника, немного походил в спортзал, а потом пропал — скорее всего, он не вернётся. 

Чтобы бороться с оттоком, отдел по работе с клиентами «Культуриста-датасаентиста» перевёл в электронный вид множество клиентских анкет. Задача — провести анализ и подготовить план действий по удержанию клиентов.  

А именно: 

- спрогнозировать вероятность оттока (на уровне следующего месяца) для каждого клиента;
- сформировать типичные портреты клиентов: выделть несколько наиболее ярких групп и охарактеризовать их основные свойства;
- проанализировать основные признаки, наиболее сильно влияющие на отток;
- сформулировать основные выводы и разработать рекомендации по повышению качества работы с клиентами:
- выделить целевые группы клиентов;
- предложить меры по снижению оттока;
- определить другие особенности взаимодействия с клиентами.

# Ход выполнения проекта

## Шаг 1. Загрузка данных

«Культурист-датасаентист» предоставил сведения в csv-файлах. Заказчик подготовил данные, которые содержат данные на месяц до оттока и факт оттока на определённый месяц. Набор данных включает следующие поля:

#### Данные клиента за предыдущий до проверки факта оттока месяц:

- 'gender' — пол;
- 'Near_Location' — проживание или работа в районе, где находится фитнес-центр;
- 'Partner' — сотрудник компании-партнёра клуба (сотрудничество с компаниями, чьи сотрудники могут получать скидки на абонемент, в таком случае фитнес-центр хранит информацию о работодателе клиента);
- 'Promo_friends' — факт первоначальной записи в рамках акции «приведи друга» (использовал промо-код от знакомого при оплате первого абонемента);
- 'Phone' — наличие контактного телефона;
- 'Age' — возраст;
- 'Lifetime' — время с момента первого обращения в фитнес-центр (в месяцах).

#### Информация на основе журнала посещений, покупок и информация о текущем статусе абонемента клиента:

- 'Contract_period' — длительность текущего действующего абонемента (месяц, 6 месяцев, год);
- 'Month_to_end_contract' — срок до окончания текущего действующего абонемента (в месяцах);
- 'Group_visits' — факт посещения групповых занятий;
- 'Avg_class_frequency_total' — средняя частота посещений в неделю за все время с начала действия абонемента;
- 'Avg_class_frequency_current_month' — средняя частота посещений в неделю за предыдущий месяц;
- 'Avg_additional_charges_total' — суммарная выручка от других услуг фитнес-центра: кафе, спорттовары, косметический и массажный салон.
- 'Churn' — факт оттока в текущем месяце.

Путь к файлу: /datasets/gym_churn.csv.

## Шаг 2. Исследовательский анализ данных (EDA)

- Изучить датасет: есть ли в нём отсутствующие значения (пропуски), изучить средние значения и стандартные отклонения (пригодится метод describe());

- Посмотреть на средние значения признаков в двух группах — тех, кто ушел в отток и тех, кто остался (воспользуйтесь методом groupby());

- Построить столбчатые гистограммы и распределения признаков для тех, кто ушёл (отток) и тех, кто остался (не попали в отток);

- Построить матрицу корреляций и отобразить её.

## Шаг 3. Построить модель прогнозирования оттока клиентов

- Построить модель бинарной классификации клиентов, где целевой признак — факт оттока клиента в следующем месяце:

- Разбить данные на обучающую и валидационную выборку функцией train_test_split().

- Обучить модель на train-выборке двумя способами:

    1) логистической регрессией,
    2) случайным лесом.

- Оценить метрики accuracy, precision и recall для обеих моделей на валидационной выборке. Сравнить по ним модели. Какая модель показала себя лучше на основании метрик?

- Указать параметр random_state при разделении выборки и задании алгоритма.

## Шаг 4. Кластеризация клиентов

Отложить в сторону столбец с оттоком и проведите кластеризацию объектов (клиентов):

- Стандартизировать данные.
- Построить матрицу расстояний функцией linkage() на стандартизованной матрице признаков и нарисовать дендрограмму. Внимание: отрисовка дендрограммы может занять время! На основании полученного графика предположить, какое количество кластеров можно выделить.
- Обучить модель кластеризации на основании алгоритма K-Means и спрогнозировать кластеры клиентов. За число кластеров принять n=5, чтобы результаты можно было сравнивать с результатами остальных исследователей. 

Решение остаётся на основании изучения графика из предыдущего пункта).

- Посмотреть на средние значения признаков для кластеров. Можно ли сразу что-то заметить?
- Построить распределения признаков для кластеров. Можно ли что-то заметить по ним?
- Для каждого полученного кластера посчитать долю оттока (методом groupby()). Отличаются ли они по доле оттока? Какие кластеры склонны к оттоку, а какие — надёжны?

## Шаг 5. Формирование выводов и базовых рекомендаций по работе с клиентами

Сформулировать основные выводы и предложите рекомендации для стратегии взаимодействия с клиентами и их удержания. 
Достаточно 3-4 важных принципов и примеров их реализации в виде определённых маркетинговых действий.

### =========================================================================================

### 1. Загрузка данных

In [1]:
# загрузим библиотеки
import pandas as pd
import numpy as np


pd.set_option('display.max_columns', None)
pd.options.display.max_colwidth = 200

In [2]:
# скачаем файлы
try:
    gym_churn  = pd.read_csv('C:/Users/rb182797/gym_churn.csv')
except:
    gym_churn  = pd.read_csv('https://code.s3.yandex.net/datasets/gym_churn.csv')

### 2. Исследовательский анализ данных (EDA)

In [3]:
# изучим датасет
gym_churn.shape

(4000, 14)

In [4]:
gym_churn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4000 entries, 0 to 3999
Data columns (total 14 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   gender                             4000 non-null   int64  
 1   Near_Location                      4000 non-null   int64  
 2   Partner                            4000 non-null   int64  
 3   Promo_friends                      4000 non-null   int64  
 4   Phone                              4000 non-null   int64  
 5   Contract_period                    4000 non-null   int64  
 6   Group_visits                       4000 non-null   int64  
 7   Age                                4000 non-null   int64  
 8   Avg_additional_charges_total       4000 non-null   float64
 9   Month_to_end_contract              4000 non-null   float64
 10  Lifetime                           4000 non-null   int64  
 11  Avg_class_frequency_total          4000 non-null   float

In [5]:
display(gym_churn.head())

Unnamed: 0,gender,Near_Location,Partner,Promo_friends,Phone,Contract_period,Group_visits,Age,Avg_additional_charges_total,Month_to_end_contract,Lifetime,Avg_class_frequency_total,Avg_class_frequency_current_month,Churn
0,1,1,1,1,0,6,1,29,14.22747,5.0,3,0.020398,0.0,0
1,0,1,0,0,1,12,1,31,113.202938,12.0,7,1.922936,1.910244,0
2,0,1,1,0,1,1,0,28,129.448479,1.0,2,1.859098,1.736502,0
3,0,1,1,1,1,12,1,33,62.669863,12.0,2,3.205633,3.357215,0
4,1,1,1,1,1,1,0,26,198.362265,1.0,3,1.113884,1.120078,0


In [6]:
# есть ли в датафрейме отсутствующие значения (пропуски)?
gym_churn.isna().values.any()

False

In [7]:
gym_churn.isnull().values.any()

False

In [8]:
gym_churn.round(2)

Unnamed: 0,gender,Near_Location,Partner,Promo_friends,Phone,Contract_period,Group_visits,Age,Avg_additional_charges_total,Month_to_end_contract,Lifetime,Avg_class_frequency_total,Avg_class_frequency_current_month,Churn
0,1,1,1,1,0,6,1,29,14.23,5.0,3,0.02,0.00,0
1,0,1,0,0,1,12,1,31,113.20,12.0,7,1.92,1.91,0
2,0,1,1,0,1,1,0,28,129.45,1.0,2,1.86,1.74,0
3,0,1,1,1,1,12,1,33,62.67,12.0,2,3.21,3.36,0
4,1,1,1,1,1,1,0,26,198.36,1.0,3,1.11,1.12,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3995,1,1,1,0,1,12,0,33,2.41,12.0,8,2.28,2.35,0
3996,0,1,0,0,1,1,1,29,68.88,1.0,1,1.28,0.29,1
3997,1,1,1,1,1,12,0,28,78.25,11.0,2,2.79,2.83,0
3998,0,1,1,1,1,6,0,32,61.91,5.0,3,1.63,1.60,0


In [10]:
# изучить средние значения и стандартные отклонения (пригодится метод describe());
gym_churn.describe().round(2)

Unnamed: 0,gender,Near_Location,Partner,Promo_friends,Phone,Contract_period,Group_visits,Age,Avg_additional_charges_total,Month_to_end_contract,Lifetime,Avg_class_frequency_total,Avg_class_frequency_current_month,Churn
count,4000.0,4000.0,4000.0,4000.0,4000.0,4000.0,4000.0,4000.0,4000.0,4000.0,4000.0,4000.0,4000.0,4000.0
mean,0.51,0.85,0.49,0.31,0.9,4.68,0.41,29.18,146.94,4.32,3.72,1.88,1.77,0.27
std,0.5,0.36,0.5,0.46,0.3,4.55,0.49,3.26,96.36,4.19,3.75,0.97,1.05,0.44
min,0.0,0.0,0.0,0.0,0.0,1.0,0.0,18.0,0.15,1.0,0.0,0.0,0.0,0.0
25%,0.0,1.0,0.0,0.0,1.0,1.0,0.0,27.0,68.87,1.0,1.0,1.18,0.96,0.0
50%,1.0,1.0,0.0,0.0,1.0,1.0,0.0,29.0,136.22,1.0,3.0,1.83,1.72,0.0
75%,1.0,1.0,1.0,1.0,1.0,6.0,1.0,31.0,210.95,6.0,5.0,2.54,2.51,1.0
max,1.0,1.0,1.0,1.0,1.0,12.0,1.0,41.0,552.59,12.0,31.0,6.02,6.15,1.0



- Посмотреть на средние значения признаков в двух группах — тех, кто ушел в отток и тех, кто остался (воспользуйтесь методом groupby());

- Построить столбчатые гистограммы и распределения признаков для тех, кто ушёл (отток) и тех, кто остался (не попали в отток);

- Построить матрицу корреляций и отобразить её.