# Постановка задачи
В этом шаге мы рассмотрим пример расчета Lifetime (среднего времени жизни пользователя) – достаточно типичная задача для аналитика. 

Теперь вы работаете в компании, которая предоставляет сервис просмотра фильмов и оценить время жизни пользователей надо будет только у киноманов, т. е. пользователей, которые поставили 100 и более оценок фильмам - это вам не по всем строчкам пробегать. Это новый уровень сортировки данных. 

Но напротив каждой оценки фильма не написано сколько всего рейтингов выставил этот пользователь. Поэтому сначала необходимо выделить таких пользователей, а потом считать Lifetime. Параллельно мы научимся объединять таблицы с разными данными. 

Как вы могли понять, это кейс на последующие два модуля.

In [2]:
import pandas as pd

ratings = pd.read_csv('./module05_files/ratings.csv')

ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,31,2.5,1260759144
1,1,1029,3.0,1260759179
2,1,1061,3.0,1260759182
3,1,1129,2.0,1260759185
4,1,1172,4.0,1260759205


In [8]:
ratings.describe()

Unnamed: 0,userId,movieId,rating,timestamp
count,100004.0,100004.0,100004.0,100004.0
mean,347.01131,12548.664363,3.543608,1129639000.0
std,195.163838,26369.198969,1.058064,191685800.0
min,1.0,1.0,0.5,789652000.0
25%,182.0,1028.0,3.0,965847800.0
50%,367.0,2406.5,4.0,1110422000.0
75%,520.0,5418.0,4.0,1296192000.0
max,671.0,163949.0,5.0,1476641000.0


# САМЫЕ АКТИВНЫЕ ПОЛЬЗОВАТЕЛИ
В условии задачи упоминаются киноманы, которые поставили 100 и более оценок. Проверим сначала есть ли в наших данных такие пользователи вообще. И, соответственно, есть ли пользователи с менее 100 оценками. Тогда будет понятно стоит ли делать какие-то фильтры. Разумно, правда? 

Для подсчета количества выставленных пользователем оценок используем знакомый метод groupby:

In [13]:
ratings.groupby('userId').count().head()

Unnamed: 0_level_0,movieId,rating,timestamp
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,20,20,20
2,76,76,76
3,51,51,51
4,204,204,204
5,100,100,100


Для наглядности преобразуем эту таблицу в привычный датафрейм, оставим только нужные нам столбцы (ID пользователя userId и количество строк в столбце movieId (т. е. в итоге количество оценок)). Выделить два и более столбцов можно с помощью двойных скобок:

In [10]:
ratings_count = ratings.groupby('userId').count().reset_index()[['userId', 'movieId']]

ratings_count.head()

Unnamed: 0,userId,movieId
0,1,20
1,2,76
2,3,51
3,4,204
4,5,100


Отсортируем этот датафрейм по возрастанию movieId и получим пользователей с минимальным числом оценок:

In [11]:
ratings_count.sort_values('movieId').head()

Unnamed: 0,userId,movieId
0,1,20
497,498,20
447,448,20
444,445,20
443,444,20


Минимальное количество оценок в нашем датасете - 20. Теперь проверим есть ли пользователи, которые выставили более 100 оценок.

# Упражнение
(1 возможный балл)
Получите рейтинг пользователей, которые выставляли максимальное количество оценок фильмам. Каково максимальное количество оценок было выставлено одним пользователем?

In [17]:
ratings_count.sort_values('movieId', ascending=False).head()

Unnamed: 0,userId,movieId
546,547,2391
563,564,1868
623,624,1735
14,15,1700
72,73,1610


# ПОЛУЧАЕМ СПИСОК КИНОМАНОВ
Теперь мы можем получить список пользователей, которые сделали 100 и более оценок. В итоге это будет просто питоновский список. И далее при расчете Lifetime мы отфильтруем всех пользователей по этому списку.

Итак, фильтруем посетителей из датафрейма ratings_count:

In [18]:
film_fans_ratings_count = ratings_count[ ratings_count['movieId'] >= 100 ]

Проверим, что в получившемся датафрейме действительно остались пользователи со 100 и более оценками:

In [19]:
film_fans_ratings_count.sort_values('movieId').head()

Unnamed: 0,userId,movieId
187,188,100
159,160,100
369,370,100
559,560,100
4,5,100


Для тех, кто забыл, sort_values сортирует от меньшего к большему и, соответственно, если в верхушке таблицы у на только рейтинг 100, значит нам удалось выделить киноманов.  

Результат отсортирован по возрастанию. Результат верный - в датафрейме посетители со 100 оценками и более.

Осталось получить список ID пользователей. Для этого используем метод tolist:

In [20]:
film_fans_user_ids = film_fans_ratings_count['userId'].tolist()

# Упражнение
(1 возможный балл)
Получите аналогичный список для пользователей, которые поставили 50 и более оценок. Выведите на экран первые 5 элементов получившегося списка.

Какой ID имеет пятый пользователь в этом выводе? Ответ укажите как целое число

In [22]:
ratings_count[ratings_count['movieId'] >= 50]['userId'].tolist()[:5]

[2, 3, 4, 5, 7]

# ФИЛЬТРУЕМ РЕЙТИНГИ
Это все была подготовка к решению задачи. Напомню, мы хотим в огромном датафрейме с оценками посчитать рейтинг только по киноманам. Киноманов мы сформировали в лист film_fans_user_ids, теперь надо по выделенным нами пользователям выделить данные из общей таблички. 

Осталось отфильтровать исходный датафрейм с рейтингами, оставив только пользователей из списка film_fans_user_ids. Для этого достаточно использовать метод isin.

Метод isin библиотеки Pandas для каждого значения столбца проверяет входит ли это значение в список film_fans_user_ids. Этот метод удобно использовать в качестве фильтра для датафрейма.

В данном случае он оставит только те строки, у которых столбец userId содержится в списке film_fans_user_ids:

In [23]:
fans_data = ratings[ ratings['userId'].isin(film_fans_user_ids) ]

fans_data.head()

Unnamed: 0,userId,movieId,rating,timestamp
147,4,10,4.0,949810645
148,4,34,5.0,949919556
149,4,112,5.0,949810582
150,4,141,5.0,949919681
151,4,153,4.0,949811346


# ПРОВЕРОЧНОЕ ЗАДАНИЕ. ПОСЧИТАЕМ LIFETIME


Думали мы все посчитаем за вас? Нет, попробуйте теперь со своими знаниями все сделать сами! Это очень просто, тем более шаги мы вам уже описали! Осталось только начать!

После получения датафрейма с киноманами можем посчитать искомую метрику Lifetime. В нашем случае  Lifetime пользователя - это разница между максимальным и минимальным значением столбца timestamp. Т. е. средняя разница между последней и первой оценкой. Для расчета вам необходимо выполнить несколько шагов:

1. Сгруппировать датафрейм fans_data по userId и получить минимальное и максимально значение столбца timestamp. Напомним, что это можно получить в одну команду, используя метод agg(['min', 'max']).

2. В отдельном столбце рассчитать разницу 'diff' между минимальным и максимальным значением timestamp. После группировки у вас скорее всего будут столбцы со "вложенными" названиями. Для расчета разницы можно использовать следующий синтаксис (датафрейм после группировки и расчета min и max обозначен как min_max_df):

```python
min_max_df['timestamp']['max'] - min_max_df['timestamp']['min']
```

3. Посчитать среднее значение столбца 'diff'. Это и будет значение Lifetime (в секундах).

4. Переведите это значение в дни.

In [37]:
min_max_df = fans_data.groupby('userId').agg(['min', 'max'])
min_max_df['diff'] = min_max_df['timestamp']['max'] - min_max_df['timestamp']['min']
min_max_df['diff'].mean()/(3600*24)

455.2285713719898