# AD HOC 4

🏃‍♂️🤸‍♂️🏋️‍♀️ Сегодня ты аналитик популярной сети фитнес-клубов, которая предлагает три вида тренировок для взрослых и детей:
- Обычное занятие в зале,
- Сайклинг (кардиотренировка на велотренажёре),
- Функциональная тренировка.

Первая тренировка в наших клубах всегда бесплатная.

Тебе доступна выгрузка данных:
- О наших клиентах — __users_hw.xlsx__,
- Об оплатах тренировок — __payments_hw.csv__,
- О посещении тренировок — __workouts_hw.xlsx__. 

На дворе конец года — время стратегического планирования 🎯. К тебе пришел директор нашей сети и попросил ответить на вопросы, которые позволят более точно сформулировать планы на следующий год:

1. Как изменялась ежемесячная выручка по каждому типу тренировок в течение 2020 года?
2. Какие тренеры в сети провели больше всего платных занятий за все время?
3. Сколько денег и за какие типы тренировок принесли клиенты, которые начали заниматься в ноябре?
4. Какие регионы приносят нашей сети больше всего и меньше всего выручки? Результаты регионов будут обсуждаться на совете директоров, поэтому необходимо выгрузить этот отчет в файл формата Excel, чтобы включить его в раздаточный материал для совещания.

Выполнив следующие четыре задания ты сможешь последовательно ответить на все вопросы руководителя. Для начала убедись, что три новых файла с данными скачаны в папку с этим ноутбуком, импортируй нужные библиотеки и загрузи данные в датафреймы.

In [1]:
import pandas as pd
from datetime import datetime

users = pd.read_excel("users_hw.xlsx") # загружаем данные по клиентам
payments = pd.read_excel("payments_hw.xlsx") # загружаем данные по платежам
workouts = pd.read_csv("workouts_hw.csv") # загружаем данные по тренировкам

pd.set_option('display.float_format', lambda x: '%.2f' % x) # эта строка поможет удобно выводить большие числа в этом ноутбуке

## Задание 1

Подготовь данные для ответа на вопрос: «__Как изменялась ежемесячная выручка по каждому типу тренировок в течение 2020 года?__». 

### Как это сделать?

1. Изучи датафрейм __payments__ и для начала переведи даты в формат datetime.
2. С помощью фильтрации датафрейма выбери платежи только за 2020 год.
3. Обрати внимание, что платежи хранятся в разных валютах — для удобства приведем все к рублям. Сначала добавь в датафрейм столбец «fx_rate» с курсом валюты и заполни его с помощью метода apply( ): если это USD, то берем значение переменной USD_RATE, если RUR — ставим значение 1. Предварительно нужно определить функцию, которая реализует эту несложную логику.
4. Добавь еще один столбец «amount_rub» с суммой платежа в рублях. Для этого умножь столбец с суммой платежа на столбец «fx_rate» с курсом валют.
5. Получи разбивку выручки по месяцам и по типам тренировок с помощью группировки с суммой методом groupby.
6. Выведи результат на экран.
7. Оставь комментарий, какой тип тренировок может быть точкой роста для выручки компании.

In [2]:
payments.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11362 entries, 0 to 11361
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   user_id       11362 non-null  int64         
 1   payment_id    11362 non-null  int64         
 2   workout_type  11362 non-null  object        
 3   amount        11362 non-null  float64       
 4   payment_date  11362 non-null  datetime64[ns]
 5   currency      11362 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 532.7+ KB


In [6]:
payments.head()

Unnamed: 0,user_id,payment_id,workout_type,amount,payment_date,currency
0,132815,1535249,general,10337.77,2020-01-30 15:03:59,RUR
1,165987,2395447,general,9711.93,2020-08-18 21:59:09,RUR
2,17364,2641443,general,8951.47,2020-10-12 11:55:00,RUR
3,148617,2402771,general,9981.88,2020-08-20 21:30:27,RUR
4,175413,2035719,general,8848.69,2020-05-22 20:10:55,RUR


In [3]:
payments.describe(include='all')
# видно, что все платежи и так были в 2020 году
# но если бы это было не так, то использовали бы следующий код:
# payments[payments['payment_date'].dt.year == 2020]

Unnamed: 0,user_id,payment_id,workout_type,amount,payment_date,currency
count,11362.0,11362.0,11362,11362.0,11362,11362
unique,,,3,,10991,2
top,,,general,,2020-07-10 21:40:00,RUR
freq,,,11235,,17,11125
first,,,,,2020-01-02 09:40:00,
last,,,,,2020-12-11 08:02:37,
mean,1811839.3,1996499.2,,9057.22,,
std,1263775.85,9419765.33,,1544.69,,
min,185.0,-2969656.0,,97.58,,
25%,566918.0,1753313.75,,8701.06,,


In [5]:
payments.groupby('currency').count() # посмотреть уникальные значения в столбце currency

Unnamed: 0_level_0,user_id,payment_id,workout_type,amount,payment_date
currency,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
RUR,11125,11125,11125,11125,11125
USD,237,237,237,237,237


In [2]:
USD_RATE = 73.14 # курс доллара

def map_currency(currency): #определим функцию для заполнения столбца fx_rate методом .apply()
    if currency == 'RUR':
        return 1
    else:
        return USD_RATE
    
# Не забудь писать комментарии к коду, чтобы наставникам было удобно отслеживать твою логику
payments['fx_rate'] = payments['currency'].apply(map_currency)
payments['amount_rub'] = payments['fx_rate'] * payments['amount']

payments.head()

Unnamed: 0,user_id,payment_id,workout_type,amount,payment_date,currency,fx_rate,amount_rub
0,193433,3733,general,7522.49,06.04.2019,RUR,1.0,7522.49
1,193433,12219,general,8346.04,08.05.2019,RUR,1.0,8346.04
2,329226,13733,general,8707.38,08.09.2019,RUR,1.0,8707.38
3,193433,14602,general,7432.49,12.04.2019,RUR,1.0,7432.49
4,193433,14603,general,114.64,08.04.2019,RUR,1.0,114.64


In [18]:
monthly_revenue = pd.DataFrame(payments['amount_rub'].groupby([payments['payment_date'].dt.month, payments['workout_type']]).sum()).reset_index()
monthly_revenue

Unnamed: 0,payment_date,workout_type,amount_rub
0,1,cycling,19714.92
1,1,general,4370772.78
2,2,cycling,56913.49
3,2,functional test,16685.01
4,2,general,6114601.3
5,3,cycling,38800.19
6,3,functional test,16482.5
7,3,general,7949117.94
8,4,cycling,58668.06
9,4,functional test,28006.96


In [23]:
monthly_revenue.groupby('workout_type').agg({'amount_rub':['count', 'sum', 'mean', 'std']})

Unnamed: 0_level_0,amount_rub,amount_rub,amount_rub,amount_rub
Unnamed: 0_level_1,count,sum,mean,std
workout_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
cycling,12,1021358.79,85113.23,72153.54
functional test,8,174145.69,21768.21,6391.99
general,12,103859438.54,8654953.21,2823356.4


Видно, что функциональное тестирование составляет самую маленький вклад в общую выручку + используются не каждый месяц.

Самой очевидной точкой роста может быть именно функциональное тестирование.

Но потенциал в этом не велик - 4 месяца * 22 тысячи  = 88 тысяч - в сравнении с выручкой от общих тренировок это очень мало.

При этом в сайкле мы видим, что среднее 85 тысяч, а стандартное отклонение - 72 тысячи, что очень много относительно нашего среднего.

Поэтому мне кажется, что выбор сайкла как точки роста может быть более выгодным - в сентября-ноябре выручка была 180-230 тысяч в месяц. Вероятно, мы можем попытаться поднять ежемесячную выручка на этом направлении до этих цифр. Увеличив с 80 до 180 тыс среднюю выручку, это принесет нам 100 тыс * 9 месяцев = 900 тыс рублей :)

In [27]:
monthly_revenue[monthly_revenue['workout_type'] == 'cycling']

Unnamed: 0,payment_date,workout_type,amount_rub
0,1,cycling,19714.92
2,2,cycling,56913.49
5,3,cycling,38800.19
8,4,cycling,58668.06
11,5,cycling,19898.8
14,6,cycling,66349.37
17,7,cycling,56478.59
20,8,cycling,37809.12
23,9,cycling,187171.72
25,10,cycling,180512.29


## Задание 2

Определи, __какие тренеры в сети провели больше всего платных занятий за все время__. С самыми эффективными сотрудниками мы организуем интервью, чтобы понять, что влияет на их результат, и обновить систему обучения и мотивации.

### Как это сделать? 

1. Изучи датафрейм __workouts__.
2. Иключи из датафрейма тренеров из департамента Sales, так как они проводят только бесплатные тренировки, а нам интересны только платные занятия.
3. Сделай группировку по trainer_id и выведи количество уникальных тренировок по workout_id.
4. Найди максимальное количество тренировок и сохрани его в переменную max_trainings.
5. Выведи на экран список тренеров, у которых количество тренировок равно значению max_trainings.

In [38]:
non_sales_trainers = workouts[workouts['trainer_department'] != 'Sales']
non_sales_trainers.head()

Unnamed: 0,workout_id,cost,start_at,status,workout_schedule_type,client_id,client_status,workout_type,trainer_department,trainer_id,currency
1,31123309,750.0,2020-11-21 13:00,success,regular,22034,new,general,Spartacus,940642,RUR
2,31412167,750.0,2020-11-28 13:00,success,regular,22034,new,general,Spartacus,940642,RUR
3,31703605,750.0,2020-12-05 13:00,success,regular,22034,active,general,Spartacus,940642,RUR
5,27205345,750.0,2020-08-15 10:00,success,single,88101,new,general,Consultant,10231664,RUR
6,27439942,750.0,2020-08-20 19:00,success,regular,88101,new,general,Consultant,10231664,RUR


In [39]:
non_sales_trainers.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100404 entries, 1 to 104692
Data columns (total 11 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   workout_id             100404 non-null  int64  
 1   cost                   100012 non-null  float64
 2   start_at               100404 non-null  object 
 3   status                 100404 non-null  object 
 4   workout_schedule_type  100404 non-null  object 
 5   client_id              100404 non-null  int64  
 6   client_status          100362 non-null  object 
 7   workout_type           100404 non-null  object 
 8   trainer_department     100387 non-null  object 
 9   trainer_id             100404 non-null  int64  
 10  currency               100404 non-null  object 
dtypes: float64(1), int64(3), object(7)
memory usage: 9.2+ MB


In [40]:
non_sales_trainers.head().describe(include='all')

Unnamed: 0,workout_id,cost,start_at,status,workout_schedule_type,client_id,client_status,workout_type,trainer_department,trainer_id,currency
count,5.0,5.0,5,5,5,5.0,5,5,5,5.0,5
unique,,,5,1,2,,2,1,2,,1
top,,,2020-11-28 13:00,success,regular,,new,general,Spartacus,,RUR
freq,,,1,5,4,,4,5,3,,5
mean,29776873.6,750.0,,,,48460.8,,,,4657050.8,
std,2251298.25,0.0,,,,36186.39,,,,5088902.33,
min,27205345.0,750.0,,,,22034.0,,,,940642.0,
25%,27439942.0,750.0,,,,22034.0,,,,940642.0,
50%,31123309.0,750.0,,,,22034.0,,,,940642.0,
75%,31412167.0,750.0,,,,88101.0,,,,10231664.0,


In [43]:
trainer_cnt = pd.DataFrame(non_sales_trainers['workout_id'].groupby(non_sales_trainers['trainer_id']).count()).reset_index()
trainer_cnt.describe()

Unnamed: 0,trainer_id,workout_id
count,3952.0,3952.0
mean,5253726.07,25.41
std,2926466.02,27.65
min,1308.0,1.0
25%,2653234.5,6.0
50%,5487628.5,16.0
75%,7428785.5,35.0
max,11082356.0,311.0


In [46]:
max_cnt = trainer_cnt['workout_id'].max()
trainer_cnt[trainer_cnt['workout_id'] == max_cnt]

Unnamed: 0,trainer_id,workout_id
2634,7010157,311


In [53]:
# топ 10 самых "успешных" тренеров
trainer_cnt.sort_values(by='workout_id', ascending=False).head(10)

Unnamed: 0,trainer_id,workout_id
2634,7010157,311
934,2405393,220
3078,7544466,197
508,1475825,195
272,792457,191
3353,7812666,188
1,1994,187
3463,8001314,171
2448,6710440,171
2667,7048776,170


## Задание 3

Посчитай, __сколько денег и за какие типы тренировок принесли клиенты, которые начали заниматься в ноябре__.  

### Как это сделать?

1. Изучи датафрейм __users__ и переведи даты в формат datetime.
2. Отбери только тех клиентов, кто начал заниматься с 1 по 30 ноября 2020 года.
3. Объедини получившийся набор данных с платежами из датафрейма payments по user_id.
4. Сгруппируй результат по workout_type и найди сумму по amount_rub.

In [54]:
users.head()

Unnamed: 0,first_contact_datetime,age,free_workout_datetime,first_payment_datetime,workouts_successful,workouts_total,months_active,user_id,region,geo_group
0,2020-08-08 13:57:25,,2020-08-08 19:00:00,2020-08-08 21:18:34,10,13,2,2790000,,СНГ
1,2020-05-02 00:30:02,,2020-05-05 18:20:00,2020-05-05 18:40:29,26,38,7,780106,,СНГ
2,2019-06-27 13:10:33,30.0,,2020-03-18 16:06:43,27,33,6,1133376,,СНГ
3,2020-04-22 15:37:58,22.0,2020-04-27 09:00:00,2020-04-27 09:41:37,59,59,8,1996499,,СНГ
4,2016-06-23 16:21:40,24.0,2020-04-13 19:00:00,2020-04-13 19:16:51,8,12,2,57899,Москва и Московская область,Москва


In [55]:
users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4273 entries, 0 to 4272
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   first_contact_datetime  4273 non-null   object        
 1   age                     2281 non-null   float64       
 2   free_workout_datetime   2886 non-null   object        
 3   first_payment_datetime  4273 non-null   datetime64[ns]
 4   workouts_successful     4273 non-null   int64         
 5   workouts_total          4273 non-null   int64         
 6   months_active           4273 non-null   int64         
 7   user_id                 4273 non-null   int64         
 8   region                  3672 non-null   object        
 9   geo_group               4273 non-null   object        
dtypes: datetime64[ns](1), float64(1), int64(4), object(4)
memory usage: 334.0+ KB


In [56]:
users.describe(include='all')

Unnamed: 0,first_contact_datetime,age,free_workout_datetime,first_payment_datetime,workouts_successful,workouts_total,months_active,user_id,region,geo_group
count,4273,2281.0,2886,4273,4273.0,4273.0,4273.0,4273.0,3672,4273
unique,4271,,2099,4268,,,,,83,4
top,2020-09-30 16:10:32,,2020-04-28 19:40:00,2020-07-21 21:40:00,,,,,Москва и Московская область,Москва
freq,2,,6,2,,,,,1947,1949
first,,,,2020-01-02 09:40:00,,,,,,
last,,,,2020-12-06 20:46:35,,,,,,
mean,,26.21,,,24.32,27.96,4.78,1851354.55,,
std,,8.86,,,22.9,24.36,3.15,1280512.35,,
min,,4.0,,,1.0,1.0,1.0,185.0,,
25%,,20.0,,,8.0,10.0,2.0,621067.0,,


In [57]:
users['free_workout_datetime'] =  pd.to_datetime(users['first_contact_datetime'])  # переводим даты в формат datetime

november_users = users.loc[(users.free_workout_datetime>=datetime(2020,11,1))   # отбираем клиентов, кто начал заниматься с 1 ноября
                           &(users.free_workout_datetime<datetime(2020,12,1))]  # по 30 ноября 2020 года
november_users

Unnamed: 0,first_contact_datetime,age,free_workout_datetime,first_payment_datetime,workouts_successful,workouts_total,months_active,user_id,region,geo_group
41,2020-11-06 21:55:59,21.00,2020-11-06 21:55:59,2020-11-16 18:46:29,6,6,2,2836636,,СНГ
95,2020-11-08 23:55:18,,2020-11-08 23:55:18,2020-11-10 13:37:41,12,13,2,1081498,Москва и Московская область,Москва
231,2020-11-08 21:13:57,,2020-11-08 21:13:57,2020-11-09 12:08:28,8,8,2,3377752,Москва и Московская область,Москва
326,2020-11-19 18:01:30,,2020-11-19 18:01:30,2020-11-19 22:52:01,4,4,2,2842894,Москва и Московская область,Москва
423,2020-11-16 13:41:59,22.00,2020-11-16 13:41:59,2020-11-17 20:59:22,3,3,2,1011273,,СНГ
...,...,...,...,...,...,...,...,...,...,...
4080,2020-11-09 17:47:35,19.00,2020-11-09 17:47:35,2020-11-10 17:36:34,9,9,2,2783639,Калужская область,Регионы РФ
4081,2020-11-11 20:43:33,24.00,2020-11-11 20:43:33,2020-11-18 14:11:12,3,3,2,795258,Санкт-Петербург и Ленинградская область,Регионы РФ
4193,2020-11-18 18:43:34,21.00,2020-11-18 18:43:34,2020-11-23 17:11:06,4,4,2,1530967,Москва и Московская область,Москва
4203,2020-11-04 14:59:05,37.00,2020-11-04 14:59:05,2020-11-05 12:24:26,8,8,2,1374575,,СНГ


In [58]:
november_users_payment = pd.merge(november_users, payments,
                                  how='inner',
                                  left_on='user_id', right_on='user_id')
november_users_payment.head(5)

Unnamed: 0,first_contact_datetime,age,free_workout_datetime,first_payment_datetime,workouts_successful,workouts_total,months_active,user_id,region,geo_group,payment_id,workout_type,amount,payment_date,currency,fx_rate,amount_rub
0,2020-11-06 21:55:59,21.0,2020-11-06 21:55:59,2020-11-16 18:46:29,6,6,2,2836636,,СНГ,2809454,general,9316.76,2020-11-16 18:53:55,RUR,1.0,9316.76
1,2020-11-08 23:55:18,,2020-11-08 23:55:18,2020-11-10 13:37:41,12,13,2,1081498,Москва и Московская область,Москва,2779460,general,9051.47,2020-11-10 13:37:56,RUR,1.0,9051.47
2,2020-11-08 23:55:18,,2020-11-08 23:55:18,2020-11-10 13:37:41,12,13,2,1081498,Москва и Московская область,Москва,2900024,general,8258.33,2020-12-04 12:51:28,RUR,1.0,8258.33
3,2020-11-08 21:13:57,,2020-11-08 21:13:57,2020-11-09 12:08:28,8,8,2,3377752,Москва и Московская область,Москва,2773646,general,10279.12,2020-11-09 12:09:49,RUR,1.0,10279.12
4,2020-11-19 18:01:30,,2020-11-19 18:01:30,2020-11-19 22:52:01,4,4,2,2842894,Москва и Московская область,Москва,2826144,general,10157.98,2020-11-19 22:50:40,RUR,1.0,10157.98


In [62]:
november_users_payment.groupby(november_users_payment['workout_type']).agg({
    'amount_rub': ['sum', 'count'],
    'user_id': 'nunique'
})

Unnamed: 0_level_0,amount_rub,amount_rub,user_id
Unnamed: 0_level_1,sum,count,nunique
workout_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
cycling,11030.92,1,1
general,853577.08,88,78


## Задание 4

Выясни, **какие регионы приносят нашей сети больше всего и меньше всего выручки**. 

### Как это сделать

1. Создай новый датафрейм user_regions из колонок user_id и region датафрейма users.
2. Создай новый датафрейм user_payments из колонок user_id и amount_rub датафрейма payments.
3. C помощью .merge() объедини датафреймы user_regions и user_payments
4. Обрати внимание, что у некоторых клиентов не заполнен регион. dropna() — хороший метод для очистки датасета от строк, в которых не хватает каких-то значений.
5. Сгруппируй данные о выручке по региону, а затем отсортируй их.
6. Выведи на экран топ-5 регионов с самой маленькой выручкой.
7. Выведи на экран топ-5 регионов с самой большой выручкой.
8. Сохрани отсортированный по убыванию список регионов с выручкой в файл __task_4.xlsx__ с помощью метода to_excel().
9. Оставь коммантарий, как сейчас распределяется выручка между регионами.

In [67]:
user_regions = users[['user_id', 'region']]
user_payments = payments[['user_id', 'amount_rub']]

payments_regions = pd.merge(user_payments, user_regions)
payments_regions.dropna(inplace=True)

payments_regions.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9945 entries, 0 to 11361
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   user_id     9945 non-null   int64  
 1   amount_rub  9945 non-null   float64
 2   region      9945 non-null   object 
dtypes: float64(1), int64(1), object(1)
memory usage: 310.8+ KB


In [68]:
payments_regions_agg = pd.DataFrame(payments_regions['amount_rub'].groupby(payments_regions['region']).sum())
payments_regions_agg.head(5)

Unnamed: 0_level_0,amount_rub
region,Unnamed: 1_level_1
Алтайский край,175788.76
Амурская область,110759.3
Архангельская область,351458.69
Архангельская область и Ненецкий автономный округ,70733.34
Астраханская область,141251.07


In [70]:
# топ-5 регионов с самой маленькой выручкой
payments_regions_agg.sort_values(by='amount_rub', ascending=True).head(5)

Unnamed: 0_level_0,amount_rub
region,Unnamed: 1_level_1
Магаданская область,8938.74
Республика Калмыкия,16474.85
Еврейская АО,19615.55
Луганская область,19703.92
Республика Алтай,20172.72


In [71]:
# топ-5 регионов с самой большой выручкой
payments_regions_agg.sort_values(by='amount_rub', ascending=False).head(5)

Unnamed: 0_level_0,amount_rub
region,Unnamed: 1_level_1
Москва и Московская область,53051845.75
Санкт-Петербург и Ленинградская область,10248165.83
Новосибирская область,2245491.24
Краснодарский край,1526008.3
Свердловская область,1499985.7


In [73]:
payments_regions_agg = payments_regions_agg.sort_values(by='amount_rub', ascending=True)
payments_regions_agg.head()

Unnamed: 0_level_0,amount_rub
region,Unnamed: 1_level_1
Магаданская область,8938.74
Республика Калмыкия,16474.85
Еврейская АО,19615.55
Луганская область,19703.92
Республика Алтай,20172.72


In [74]:
payments_regions_agg.to_excel('payments_regions_agg.xlsx')

In [75]:
payments_regions_agg.describe()

Unnamed: 0,amount_rub
count,83.0
mean,1106358.51
std,5885683.01
min,8938.74
25%,102568.4
50%,236675.03
75%,458811.95
max,53051845.75


Минимальная выручка в регионе (Магаданская область) - 9 тысяч, максимальная (Москва и МО) - 53 млн. Очень большой разброс. 

При этом среднеее значение выручки - 1.1 млн, со стандартным отклонением в 5.9 млн.

Распределение по регионам очень неравномерное, что и понятно - разное кол-во населения, уровень жизни, географические особенности, ...

# 🎉🎉🎉 Поздравляем, ты великолепен! 