## Урок 1. Введение в задачу предсказания оттока. Формализация задачи и сбор сырых данных

### Что такое отток?

__Отток пользователей__ (англ. *churn rate*) – бизнес-термин, показывающий насколько активно пользователи/клиенты покидают продукт/сервис или прекращают оплачивать товары или услуги. Это важный показатель для компаний, ведь отток показывает, насколько продукт является качественным и привлекательным для клиентов, а также свидетельствует о лояльности аудитории. Кроме того,  приобретение новых клиентов может обходиться намного дороже, чем удержание старых (в некоторых случаях *от 5 до 20 раз дороже*).

<img src="images/churn.jpg" width="400">

Умелое поддержание заинтересованности аудитории - это один из залогов успешного продукта. Понимание того, как удерживать внимание пользователей, представляет собой логический фундамент для разработки стратегий и практик их удержания. В результате, компании стремятся применять наиболее успешные технологии выявления возможного ухода пользователей. В частности, многие из них прибегают к *анализу данных и машинному обучению*.

Прогнозирование оттока имеет особенно большое значение для компаний, применяющих бизнес-модель на основе подписки. К такому типу организаций относятся:

* мобильные операторы;
* операторы кабельного телевидения;
* компании, обслуживающие прием платежей с помощью кредитных карт;
* и др.

Моделирование оттока пользователей находит широкое применение и в других областях. Например, казино используют прогнозные модели, чтобы предсказать идеальные условия в зале, позволяющие удержать игроков в "Блэкджек" за столом. Аналогично, авиакомпании могут предложить клиентам, у которых есть жалобы, заменить их билет на билет первого класса. Или же *компания, оперирующая многопользовательскую онлайн-игру, может делать персональные предложения для тех игроков, которые склонны покинуть проект*. И это лишь малая доля того, где можно применять предсказание оттока.

В связи с тем, что моделирование оттока является очень распространенной задачей,
существует большое количество статей, затрагивающих данную проблему. К примеру, на
сайте платформы для облачных вычислений Microsoft Azure написана подробная статья,
посвященная моделированию оттока с использованием облачной платформы Microsoft - https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-azure-ml-customer-churn-scenario
Данная статья отвечает как на базовые вопросы, такие как «Что такое удержание
клиента?» и «Зачем моделировать отток?», так и на более глубинные вещи, такие как
«Какие алгоритмы и метрики использовать?» и «Как оценить качество моделей?». Еще
одним хорошим примером может служить написанная Эриком Чангом (Eric Chiang) в
2014 году статья для популярного блога yhat, посвященного машинному обучению - http://blog.yhat.com/posts/predicting-customer-churn-with-sklearn.html

### Отток в игровых проектах

В данном курсе рассматривается явление оттока пользователей в игровых проектах. Экономическое взаимодействие между игроком и игрой заключается в обмене ценностями: пользователь приносит в игру деньги, чтобы либо непосредственно иметь возможность играть, либо получить более яркий игровой опыт. Для понимания экономики игровых проектов, коротко рассмотрим особенности их монетизации.

Есть несколько __видов монетизации__ игр: 

* покупная версия (консервативный вариант, когда для игры нужно приобрести диск с копией игры); 
* игры по подписке (P2P = Pay-to-play);
* фремиум (Freemium, базовая версия бесплатная, а полная/расширенная платная);
* условно-бесплатные (F2P = Free-to-play, игра полностью бесплатная, но есть возможность приобретать внутреигровые ценности).

Последний тип монетизации активно развивается, именно он подразумевается в контексте данного курса. F2P игры можно так же разделить на две подгруппы:

* Free-to-win (F2W) - платный контент не дает преимущества платящему игроку перед не платящим, обычно это различные косметические элементы;
* Pay-to-win (P2W) - платный контент делает заплатившего игрока более сильным и дает, например, какой-то боевой бонус, недоступный не платящему игроку.

Находятся много игр, которые называют себя F2W, но самом деле являются P2P.

Как и в случае других сервисов или продуктов, пользователи игр уходят из проекта, потому что их перестала удовлетворять игра и она им больше не интересна. Причины могут быть самые разные, среди них можно отметить следующие, расположенные в порядке убывания "массовости".

__1. Не понравилась игра__

Имеется ввиду отток в первые день-два после первого знакомства пользователя с игрой. Человека мог завлечь красивый рекламный баннер в Интернете и он установил игру, не имея четкого представления о том, что это за игра, а после первого игрового опыта сразу понял, что ему игра не нравится. На такой отток может приходить до 60-70% новых пользователей, но при этом с таким оттоком сложно что-либо сделать, потому что, если игроку не понравилась сама игра, то бесполезно предлагать ему купить что-то по скидке или какой-то бесплатный подарок.

__2. Технические проблемы__

Здесь может быть, как несовместимость требований игры и параметров "железа" пользователя, так и проблемы с оптимизацией и стабильностью игровых серверов (тормозит, лагает, низкий FPS). Такой отток можно уменьшить только собирая фидбек от игроков и направляя соответствующие рекомендации в разработку.

__3. Отсутствие разнообразия или целеполагания__

Если игра сама по себе нравится людям и нет технических проблем, но при этом в ней мало вариативности (мало карт/локаций/предметов/сценариев) или цель игры не понятна игроку (например, открывается новый мир, но куда идти и что делать - не понятно), то интерес может быстро потеряться. В таких случаях лучше всего менять что-то в самой игре, но разослать, например, е-мейлы о том, что в игре вот-вот выйдет обновление, будет не лишним.

__4. Исчерпание контента или непредвиденный негативый опыт__

Давно играющие игроки рано или поздно приходят к тому, что всё, что хотели они в игре опробовали, тогда игроки либо продолжают играть просто в удовольствие ради самого процесса, либо уходят. Кроме этого, может наступить некоторая "черная полоса" у игрока, вызванная, например, наличием читеров в игре. Таких игроков реально удержать, если вовремя принять соответствующие меры: предложить новый игровой опыт или заверить в том, что ведется активная борьба с нечестными игроками.

Наиболее логично и реальнее удерживать игроков, чей отток связан с пунктом 4, ведь такие игроки уже знакомы с игрой, они понимают механику игры и ценность внутреигровых ресурсов, поэтому какое-нибудь персональное преждоление, сделанное в нужный момент, может их удержать в игре.

### Формализация задачи

Прежде чем начинать что-либо делать, нужно четко поставить задачу, при этом задача должна отвечать принципу SMART:

<img src="images/SMART.jpg" width="900">

Рассматриваемую задачу можно позиционировать и формализовать следующим образом:

* решаем задачу бинарной классификации, разрабатываем модель логистической регрессии для предсказания оттока;
* целевая переменная - уход игрока, 1 - ушел, 0 - остался (ушедшим игроком называем того, кто не заходил в игру в течение 30 дней);
* построение модели предполагает сбор данных, их подготовка, настройка модели, предсказание для теста и оценка качества;
* нужные данные есть, задача соответствует цели, ресурсы выделены под эту задачу;
* дается, условно, 1 месяц, чтобы собрать базовое решение и оценить перспективность дальнейшей разработки.

### Индикаторы оттока: какие признаки могут помочь прогнозировать отток

Начав решать реальную задачу предсказания оттока, ровно как и любую другую задачу машинного обучения, нужно определиться с признаковым пространством. Проанализировав имеющиеся данные игры, можно придти примерно к следующему набору базовой информации, которая может помочь в предсказании оттока:

* дата регистрации
* дата первого входа
* дата последнего входа
* дата рождения
* уровень прогресса в игре
* общая сумма внесенных денег (LTV)
* пол
* рекламный трафик, по которому пришел пользователь
* страна
* привязан ли номер телефона
* платежная активность
* игровая активность (входы в игру)
* жалобы на других игроков (читы, спам, оскорбления и т.п.)
* технические проблемы (высокий пинг)
* состоит ли человек в команде/клане/гильдии
* время игры в разных режимах
* успешность игры (доля побед)
* траты внутреигровых ресурсов
* ...

Видим, что некоторые индикаторы можно использовать в качестве признаков "as is", то есть точно в том виде, в каком они есть, например, уровень прогресса в игре. Однако, часть показателей следует преобразовать некоторым образом в вещественные признаки. Например, дату рождения преобразовать в возраст.

### Базы данных и работа с источниками

Прежде чем приступать к обработке сырых данных, посмотрим на примере, что могут представлять из себя источники данных. База данных (БД) с игровыми логами может быть самой разной, она может быть как реляционной - MySQL, PostgreSql, Oracle и др., так и не реляционной (NoSQL) - MongoDB, DynamoDB, Cassandra и др. При этом сырые данных из этих баз могут преобразовываться в удобные для использования витрины и храниться, например, в Apache Impala - БД для Apache Hadoop. Impala обеспечивает быстрые интерактивные SQL-запросы непосредственно на данных Hadoop, хранящихся, например, в HDFS (Hadoop Distributed File System).

Это позволяет работать с данными проекта большому кол-ву сотрудников (аналитикам, разработчикам, маркетологам и др.), строить на основании данных дашборды (графики), создавать свои личные таблицы и при этом не нагружать исходные базы с логами игры.

Игровые таблицы могут быть следующими:

* входы/логины;
* платежи/транзакции/биллинг;
* сессии/матчи/раунды;
* информация по игрокам/аккаунтам;
* ...

При этом, выгружая эти таблицы в хранилище Hadoop, поля таблиц можно сразу приводить к удобной форме: 

* форматирование дат;
* парсинг JSON;
* обогащение данных (например, добавить в одну таблицу информацию из другой, чтобы не делать каждый раз JOIN);
* ...

### Принципы построения датасета

В основе задачи предсказания оттока лежит гипотеза, что уходящий пользователь по совокупности своих признаков отличается от активного и не собирающегося уходить человека. Для построения датасета, нужно на основании исторических данных собрать примеры ушедших игроков и посмотреть, как они себя вели перед уходом. Здесь мы подходим, по сути, к первому "гиперпараметру" - период времени, который будем смотреть. Это может быть, например, месяц, и тогда в датасет пойдут признаки, описывающие ушедшего игрока в его последний месяц жизни в проекте, а для противоположного класса нужно будет взять признаки, которые опишут "средний" активный месяц игрока, после которого он продолжит жить в проекте.

Однако, есть "статические" данные, которые постоянны за рассматриваемый промежуток времени, например, страна или пол игрока, а есть "динамические" - сессии, игровая статистика и т.п. Если данные первой группы пойдут признаками в датасет в явном виде, то как правильно сделать признаки из меняющихся данных? Можно рассматриваемый промежуток времени разбить на интервалы и посчитать "средние" значения данных для каждого из них. Например, есть лог сессий за месяц, из него мы можем сделать 4 признака: кол-во сыгранных сессий в 1/2/3/4 недели перед уходом. Таким образом мы "покажем" модели, как активно играет человек перед уходом и ожидаем, что у уходящего игрока будет прослеживаться явный нисходящий тренд по активности перед уходом.

### Сбор сырых данных

Посмотрим пример кода, который может быть использован для выгрузки данных из хранилища Hadoop с помощью Impala. В коде реализован класса подключения к Impala - ImpalaConnection, выполнение SQL запросов и сохранение результатов. Класс ETL наследует ImpalaConnection, в нем содержатся тексты запросов и пара вспомогательных методов.

In [None]:
import dwhimpalautil

class ImpalaConnection:

    def __init__(self):
        self.conn = dwhimpalautil.getImpalaConnect()
        self.cursor = self.conn.cursor()
        self.res = None

    def __enter__(self):
        return self

    def __exit__(self, type, value, traceback):
        self.cursor.close()
        self.conn.close()
        
    def exec_sql(self, sql, is_res_needed=False):
        self.cursor.execute(sql)
        if is_res_needed:
            self.res = self.cursor.fetchall()
            return self.res
        
class ETL(ImpalaConnection):
    
    def __init__(self):
        super().__init__()

    CREATE_SAMPLE_SQL = """
        create table if not exists usr_erin.churn_sample
        (
                user_id string
            ,   is_churned int
            ,   login_last_dt string
            ,   level int
            ,   donate_total float
        )
    """

    SAMPLE_DATA_SQL = """
        with levels as
        (
            select snap_dt
                ,  cast(user_id as string) as user_id
                ,  max(level) as level
            from game_profiles
            where snap_dt >= '{churned_start_date}'
                and snap_dt < '{churned_end_date}'
            group by snap_dt, user_id
        )
        ,   churned_profiles as
        (
            select a.user_id
                ,  to_date(login_last_ts) as login_last_dt
                ,  1 as is_churned
            from global_profiles 
            where project_id = 1234
                and login_last_ts >= '{churned_start_date}'
                and login_last_ts < '{churned_end_date}'
        )
        ,   not_churned_profiles as
        (
            select user_id
                ,  to_date(date_add('{churned_start_date}', 
                           round((datediff('{churned_end_date}','{churned_start_date}')-1)*rand()))) as login_last_dt
                ,  0 as is_churned 
            from oda_onelink.profiles
            where project_id = 1234
                and login_first_ts < date_sub(cast(unix_timestamp('{churned_start_date}') as timestamp), 30)
                and login_last_ts > date_add(cast(unix_timestamp('{churned_end_date}') as timestamp), 30)
        )
        ,   united as
        (
            select user_id, is_churned, login_last_dt
            from churned_profiles
            union all
            select user_id, is_churned, login_last_dt
            from not_churned_profiles
        )
        ,   payments_total as
        (
            select a.user_id, coalesce(sum(b.pay_amt), 0) as donate_total
            from united a 
                left join payments b
                on (a.user_id = cast(b.global_user_id as string) and a.login_last_dt >= b.log_dt)
            where b.log_dt < '{churned_end_date}'
                and b.project_id in (10,20,30)
            group by a.user_id
        )
        
        insert into usr_erin.churn_sample
        
        select a.user_id
            ,  a.is_churned
            ,  a.login_last_dt
            ,  cast(b.level as int) as level
            ,  c.donate_total
        from united a
            join levels b
            on (a.user_id = b.user_id and a.login_last_dt = b.snap_dt)
            join payments_total c
            on a.user_id = c.user_id
        where level >= {min_level}
            and level <= {max_level}
    """

    CREATE_PROFILES_SQL = """
        create table if not exists usr_erin.churn_profiles 
        (
                user_id string
            ,   age int
            ,   gender string
            ,   reg_country_name string
            ,   days_between_reg_fl int
            ,   days_between_fl_effreg int
            ,   days_between_fl_df int
            ,   has_return_date int
            ,   has_phone_number int
        )
    """

    PROFILES_DATA_SQL = """
        with profiles_data as
        (
            select  a.user_id
                ,   register_ts
                ,   login_first_ts
                ,   return_ts
                ,   donate_first_ts
            from gloabl_profiles a 
                join usr_erin.churn_sample b
                on a.user_id = cast(b.user_id as string)
            where project_id = 1234
        )
        ,   soc_data_raw as
        (
            select  cast(csaid as string) as user_id
                ,   from_unixtime(unix_timestamp(swa_dob ,'yyyyMMdd'), 'yyyy-MM-dd') as birth_date
                ,   swa_gender as gender
                ,   swa_phone as phone
                ,   rank() over (partition by csaid order by created desc) as level
            from soc_data  a 
                join usr_erin.churn_sample b
                on cast(a.csaid as string) = b.user_id
        )
        ,   soc_data as
        (
            select user_id
                ,  birth_date
                ,  gender
                ,  phone
            from soc_data_raw
            where level = 1
        )
        
        insert into usr_erin.churn_profiles
        
        select  a.user_id as user_id
            ,   cast(floor(datediff(now(), birth_date) / 365) as int) as age
            ,   gender
            ,   reg_country_name
            ,   coalesce(datediff(login_first_ts, register_ts), -1) as days_between_reg_fl
            ,   coalesce(datediff(donate_first_ts, login_first_ts), -1) as days_between_fl_df
            ,   if(return_ts is not null, 1, 0) as has_return_date
            ,   if(phone='', 0, 1) as has_phone_number
        from profiles_data a
            left join soc_data b
            on a.user_id = b.user_id
    """
    CREATE_PAYMENTS_SQL = """
        create table if not exists usr_erin.churn_payments
        (
                log_dt string
            ,   user_id string
            ,   pay_amt float
            ,   trans_amt int
        )
    """
    # ........
    CREATE_REPORTS_SQL = """
        create table if not exists usr_erin.churn_reports
        (
                log_dt string
            ,   user_id string
            ,   reports_amt int
        )
    """
    # ........
    CREATE_ABUSERS_SQL = """
        create table if not exists usr_erin.churn_abusers
        (
                log_dt string
            ,   user_id string
            ,   sess_with_abusers_amt int
        )
    """
    # ........
    CREATE_LOGINS_SQL = """
        create table if not exists usr_erin.churn_logins
        (
                log_dt string
            ,   user_id string
            ,   disconnect_amt int
            ,   session_amt int
        )
    """
    # ........
    CREATE_PINGS_SQL = """
        create table if not exists usr_erin.churn_pings
        (
                log_dt string
            ,   user_id string
            ,   avg_min_ping float
        )
    """
    # ........
    CREATE_SESSIONS_SQL = """
        create table if not exists usr_erin.churn_sessions
        (
                log_dt string
            ,   user_id string
            ,   kd float
            ,   win_rate float
            ,   leavings_rate float
            ,   session_player float
        )
    """
    # ........
    CREATE_SHOP_SQL = """
        create table if not exists usr_erin.churn_shop
        (
                log_dt string
            ,   user_id string
            ,   silver_spent string
            ,   gold_spent int
        )
    """
    # ........
    
    TRUNCATE_RAW_DATA_SQL = """
        truncate table {}
    """
    
    CHECK_SQL = """
        select count(*) as cnt, count(distinct user_id) as users
        from {tbl_name}
    """
    
    def create_table(self, sql, is_res_needed=False):
        self.exec_sql(sql, is_res_needed=is_res_needed)
    
    def insert_table(self, sql, is_res_needed=False, **kwargs):
        self.exec_sql(sql.format(**kwargs), is_res_needed=is_res_needed)

### Обзор сырых данных

Используя код аналогичный приведенному выше, мы выгружаем сырые данные из разных таблиц. Посмотрим данные, с которыми будем работать в рамках данного курса.

In [1]:
import pandas as pd

# Статические сведения
profiles = pd.read_csv('train/profiles.csv', sep=';', na_values=['\\N', 'None'], encoding='utf-8')
profiles.head()

Unnamed: 0,user_id,age,gender,days_between_reg_fl,days_between_fl_df,has_return_date,has_phone_number
0,e54f91bf5895d0c433fd1cd3092ab4ad94ea953845f4a8...,,,0,30,1,1
1,f1ab2f683a3b37c9f9f6cb107629178cdcc34eaf684b67...,22.0,M,0,34,1,0
2,0dc419c3401bb042fea254ae11c4bfc5e1418f2ab63c8b...,22.0,M,0,13,1,1
3,bd32ea1b0f4d9289e4a551e84c6858338d352c5ac85b14...,25.0,F,0,2,1,1
4,357dc65b7ee8b90d268c9020bc31aef91bd59dc6b27398...,20.0,M,0,382,1,1


In [2]:
# Платежи
payments = pd.read_csv('train/payments.csv', sep=';', na_values=['\\N', 'None'], encoding='utf-8')
payments.head()

Unnamed: 0,log_dt,user_id,pay_amt,trans_amt
0,2019-08-06,dfbca74f54a4c8cb5ee7e1e3281e8a40bd8b439b3de52f...,488.0,2
1,2019-09-28,9c302c0a540df3f3ca48642b6c09cca4dc479eb5f23835...,300.0,1
2,2019-08-22,d6b1d64a61ed83ab5672c990bac8d71fda5011b74269df...,4500.0,1
3,2019-09-01,f17aa62688b3aac5538c23f2b538b9a89797bc3b40d6d5...,1000.0,1
4,2019-08-14,cab7c3810da2c1618acde4601fec0feb003f109dfd6883...,18.0,1


In [3]:
# Жалобы на игроков
reports = pd.read_csv('train/reports.csv', sep=';', na_values=['\\N', 'None'], encoding='utf-8')
reports.head()

Unnamed: 0,log_dt,user_id,reports_amt
0,2019-08-14,9395f1b1764c58e82e18a67af55ba01dad809ac022761f...,1
1,2019-08-19,2036664f62b3ca2a52d9bd2c4c34f2a803c8004d9ee5af...,1
2,2019-08-15,37c63021a603fc1b2ccb3adfe9346046c6ab78da153491...,2
3,2019-09-02,904018e3cf927eb936c431cf228abc8417e206dd9553f6...,2
4,2019-08-25,a089378a18313807f2eeabbfeee7cf4a5a68c3d7c9fe0f...,2


In [4]:
# Участие в сессиях с нарушителями
abusers = pd.read_csv('train/abusers.csv', sep=';', na_values=['\\N', 'None'], encoding='utf-8')
abusers.head()

Unnamed: 0,log_dt,user_id,sess_with_abusers_amt
0,2019-09-20,f8f2caba0902acc4b891f23602b5409282a1c619453cc7...,5
1,2019-09-21,ee602b935ebb19a33f8b955975d9a8a2e568d95ed62270...,3
2,2019-08-28,50db13c3dc694949fc24c5f8253c8dac6946e16fc2f2e3...,14
3,2019-08-23,ec5090799e94795b6d85d9f8f36cfa539f21d9c7ab2bc2...,2
4,2019-08-22,e1dcb04b42380fa9d886ed4aa3b3fc8bd249d34253c8b9...,3


In [5]:
# Входы в игру
logins = pd.read_csv('train/logins.csv', sep=';', na_values=['\\N', 'None'], encoding='utf-8')
logins.head()

Unnamed: 0,log_dt,user_id,disconnect_amt,session_amt
0,2019-08-10,deb67d0e87069771d646670f6b00bff99d1b03420891c2...,0,1
1,2019-09-09,3e32fbd5f4e337a512dd1b897cf091e572b795ab277812...,0,3
2,2019-09-12,73b282dd676e9b05116e64a8101c77293294a0179e0fba...,0,2
3,2019-08-13,9e97e0838ed2d5ff6bd69bf5740abba9188efa3555353c...,1,2
4,2019-08-19,30189c2273cde414ab4b6ad2f3654e6fc704d8497388db...,1,2


In [6]:
# Качество связи с игровыми серверами (пинг)
pings = pd.read_csv('train/pings.csv', sep=';', na_values=['\\N', 'None'], encoding='utf-8')
pings.head()

Unnamed: 0,log_dt,user_id,avg_min_ping
0,2019-09-21,d146c346f1adb74686ff5ad24cec0962c0c0be7f1adcc5...,4.0
1,2019-09-16,d64abfcfb5c0af725fb83d2d5115d828c1074a69747ffc...,61.0
2,2019-09-29,955f77e93ea5d654a595bdfdd4ba72dffe1cda66ae1c67...,23.0
3,2019-09-18,cc7a5e519c78a292b4375ff16c986b071c8a02f7dae2a1...,30.0
4,2019-09-29,9df615f28505af55c08673b4211bafedbbe8b7cda41cd5...,44.666668


In [7]:
# Игровые сессии
sessions = pd.read_csv('train/sessions.csv', sep=';', na_values=['\\N', 'None'], encoding='utf-8')
sessions.head()

Unnamed: 0,log_dt,user_id,kd,win_rate,leavings_rate,session_player
0,2019-09-29,3ea931e4262fd0b02b806af34aca37a9e1c0bc3d46b39c...,1.140845,1.333333,0.0,4103.0
1,2019-09-07,91f7f580798df049e7fbd82f9c8978dc8526a6d3820d3e...,1.017544,0.0,0.0,2502.0
2,2019-08-07,9f197d8152463a06e8a9108c442c238cdd7e4d4e2fdda9...,1.230179,0.576923,0.073171,24222.0
3,2019-09-20,5e4713eea35cb8fc8e2faa7d5b82e409ee089aec9ceb8b...,1.036364,1.0,0.0,4158.0
4,2019-09-21,0555ca8f0b13c290378939b512533f8037e41795a9dab1...,1.369318,0.142857,0.0,3735.0


In [8]:
# Покупки в магазине
shop = pd.read_csv('train/shop.csv', sep=';', na_values=['\\N', 'None'], encoding='utf-8')
shop.head()

Unnamed: 0,log_dt,user_id,silver_spent,gold_spent
0,2019-09-27,5f3cf3fd9ee5f0dc8096c04876d89b11a9972a06eda31e...,0,0
1,2019-08-11,dd9fbce22aa5c55ae2f689343b9f80f0622e69c6953780...,0,0
2,2019-09-08,21feafcd5cddb6180e0ae0972044e3e79e655fceb5309d...,0,0
3,2019-09-28,f6352c0ec39252f8047c47d00da69b06d874574791fb9c...,0,0
4,2019-09-11,0bdaecf51fd61c713418e7b80bc5d4bdb02c40b9b4abbd...,0,0


Из этих сырых данных в следующем уроке нам предстоит построить датасет и обработать его.

### Описание курсового проекта

#### Задача

1. Необходимо, используя сырые данные игровых логов, собрать датасет, предобработать его и обучить модель, предсказывающую уход игрока из проекта. 
2. Аналогичным с обучающей выборкой образом нужно сформировать признаковое описание игроков для тестовой выборки и сделать прогноз для игроков из тестового датасета.
3. Проект оформить в виде \*.py модулей и скриптов проекта в PyCharm, где функционал и все этапы решения задачи разнесены по модулям.

#### Наименование файлов с данными

* train/\*.csv - файлы для обучающего датасета
* test/\*.csv - файлы для тестового датасета

#### Целевая переменная

__is_churned__ - уход игрока из проекта

#### Метрика качества

F1-score 

#### Требования к решению

* F1 > 0.4
* Метрика оценивается по качеству прогноза для главного класса (1 - уход из игры)
* Jupyter Notebook с кодом решения
* CSV-файл с прогнозами (два столбца: user_id | is_churned)
* Ход решения должен быть последовательным, сопровождаться комментариями

#### Сроки сдачи

Cдать проект нужно в течение 5 дней после окончания последнего вебинара. Оценки работ, сданных до дедлайна, будут представлены в виде рейтинга, ранжированного по заданной метрике качества. Проекты, сданные после дедлайна или сданные повторно, не попадают в рейтинг, но можно будет узнать результат.

### Описание полей сырых данных

__profiles__ - профили

* user_id - идентификатор игрока (во всех остальных файлах имеет тот же смысл)
* age - возраст (получен из даты рождения, что указана в БД)
* gender - пол (M - Male, F - Female)
* days_between_reg_fl - дней между регистрацией и первым входом
* days_between_fl_df - дней между первым входом и первым платежом
* has_return_date - есть дата возврата (игрок когда-то уходил и возвращался)
* has_phone_number - есть привязка номера телефона к аккаунту

__payments__ - платежи

* log_dt - дата события (во всех остальных файлах имеет тот же смысл)
* pay_amt - размер внесенных средств (сумма платежей за данную дату)
* trans_amt - кол-во транзакций за данную даты

__reports__ - жалобы игрока на других пользователей

* reports_amt - кол-во жалоб (на читы/оскорбления)

__abusers__ - сессии с нарушителями

* sess_with_abusers_amt - кол-во сессий с теми, на кого жаловались другие игроки

__logins__ - входы

* disconnect_amt - кол-во завершений игры из-за технической проблемы
* session_amt - кол-во сессий (от входа в клиент игры до выхода)

__pings__ - пинг до серверов (чем меньше, тем лучше интернет соединение и игра меньше "глючит")

* avg_min_ping - средний за данную дату пинг до ближайшего сервера

__sessions__ - информация о сессиях (матчах)

* kd - Kills/Deaths - отношение убийств к смертям, то есть насколько успешно играл пользователь
* win_rate - Wins/Matches - отношение кол-во матчей, закончившихся победой, к общему числу матчей, тоже мера успешности
* leavings_rate - Leavings/Matches - отношение кол-во матчей, покинутых игроком, к общему числу матчей
* session_player - суммарное время в матчах за данную дату (в секундах)

__shop__ - активность в магазине

* silver_spent - траты серебра
* gold_spent - траты золота

### Литература

1. [Reduce Customer Churn - Infographic](http://www.business2community.com/infographics/reduce-customer-churn-infographic-0611869)
2. [Churn prediction: Learn how to train a decision tree model for churn prediction](https://towardsdatascience.com/churn-prediction-770d6cb582a5)
3. [Churn Prediction: Churn Prediction with XGBoost Binary Classification](https://towardsdatascience.com/churn-prediction-3a4a36c2129a)
4. [Customer Churn Prediction and Prevention](https://www.optimove.com/resources/learning-center/customer-churn-prediction-and-prevention)
5. [What is Churn Prediction?](https://www.quora.com/What-is-Churn-Prediction)
6. [Telecom Customer Churn Prediction](https://www.kaggle.com/pavanraj159/telecom-customer-churn-prediction)

## Д/З

1. Согласно принципу SMART, попробуйте расписать кейс кредитного скоринга, разбиравшийся на одном из предыдущих курсов.
2. Предложить перечень индикаторов оттока для клиента [каршеринга](https://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D1%80%D1%88%D0%B5%D1%80%D0%B8%D0%BD%D0%B3). Какие данные мы бы взяли в датасет, предполагая, что в нашем распоряжении есть какие угодно сведения?