# Введение

Тестовое задание состоит из нескольких задач, которые необходимо реализовать на языке Python и/или R. 

Допускается применение дополнительных пакетов, будет плюсом распараллелить задачи для ускорения выполнения там где это требуется.

Все тестовые датасеты загружаем и процессим (делаем выборки, джойны, фильтруем и т.д.) в коде.

Если у вас не получилось сделать какие-то шаги, но вы понимаете все остальное - пропускайте их и делайте то  в чем разбираетесь.

Результат выполнения - ссылка на github с кодом (и пояснениями) и/или jupiter notebook. Высылаем все ответы / ссылки на azovtsev@skytecgames.com. Так же напишите сколько часов у вас ушло на выполнение.

При возникновении вопросов по тестовому заданию - пишем туда же, на  azovtsev@skytecgames.com

Необходимо сделать минимум 3 задания на ваш выбор. Чем больше заданий сделали, тем лучше.

Тестовый датасет прилагается к письму sqlite файлом testcase.db.zip

# Успешность прототипа

## Задание

Известно что компания конкурент выпустила 1000 прототипов игр, из которых было 5 успешных. Наша компания выпустила 200 прототипов из которых ни один не был успешен. 

Какова вероятность что следующий (201й) наш прототип будет успешен? Какими методами можно решать данную задачу? Предложите как минимум 2 варианта. Если у вас есть какой-то вариант решения задачи для которого требуются доп. данные - перечислите что требуется и метод решения.

## Решение

### Частотная вероятность

In [1]:
# Задаем константы
GAME_TOTAL_COMP = 1000
GAME_SUCC_COMP = 5
GAME_TOTAL_OUR = 200
GAME_SUCC_OUR = 1

Так как имеющихся данных по нашей компании недостаточно, чтобы рассчитать вероятность успеха следующего прототипа, воспользуемся данными о прототипах компании конкурента. 

In [2]:
# Рассчитаем частоту выпуска успешного прототипа игры у компании конкурента
p_comp = GAME_SUCC_COMP / GAME_TOTAL_COMP

print(f'Вероятность выпуска успешного прототипа',
      f'составляет {p_comp:.2%}.')

Вероятность выпуска успешного прототипа составляет 0.50%.


Так как у нас недостаточно данных о наших прототипах для оценки вероятности успеха следующей выпущенной игры, мы можем провести анализ рынка. Для этого выберем компанию конкурента и рассчитаем вероятность выпуска успешной игры у нее. Полученную информацию сможем применить для прогнозирования успеха нашего прототипа.

Так как события являются независимыми, основываясь на данных о конкурирующей компании, можем считать вероятность успеха 201-го прототипа игры 0.005 (0.5%)

### Методы машинного обучения

Данную задачу можно решить с помощью моделей машинного обучения, например, `LogisticRegression` и `RandomForestClassifier`.  Имея достаточное количество наблюдений и объясняющих переменных (`features`), мы можем обучить модели, прогнозирующие вероятность успешности конкретного протитипа игры с определенным набором характеристик. 

Примерами объясняющих переменных могут быть:
 1. Жанр;
 2. Рейтинг;
 3. Затраченное на производство время;
 4. Бюджет для создания игры;
 5. Бюджет на рекламную компанию. 

Трудности реализации данного метода могут заключаться в формировании датасета, подходящего для реализации поставленной задачи. 

# Сравнение групп платящих игроков

## Задание

В мобильной игре около 10% игроков совершает платежи в первый месяц с момента установки игры (база расчета - 500 игроков). 
Геймдизайнеры разработали обновление которое по их экспертной оценке должно увеличить процент плательщиков с 10% до 11%. Цель эксперимента - подтвердить или опровергнуть их гипотезу.
1.	Опишите оптимальный по вашему мнению дизайн эксперимента
2.	Рассчитайте длительность эксперимента при условии что каждый день в игру приходит около 100 новых игроков.
3.	Самостоятельно сгенерируйте датасет с около 10% плательщиков (контроль) и рассчитайте доверительный интервал.
4.	Сгенерируйте несколько вариантов экспериментальной группы (хуже, лучше, без эффекта), рассчитайте силу эффекта, ДИ и ваши выводы для каждого варианта.
5.	Решите задачу 2 разными подходами: frequentist / bayesian

Необходимо все ответы сопроводить комментариями почему вы выбрали ту или иную методику расчета, алгоритм и т.д.

## Решение

In [3]:
# Установка необходимых библиотек
# pip install faker

In [4]:
# Импортируем необходимые библиотеки
import random
import faker
import pandas as pd
from scipy import stats as st
import numpy as np



### Оптимальный дизайн эксперимента

Возможный дизайн эксперимента:
1. Формулирование гипотезы.
2. Определение базы расчета для проведения эксперимента.
3. Внесение изменений для проверки гипотезы. 
4. Проведение эксперимента в течение необходимого времени.
5. Измерение результатов (целевого показателя) по итогам проведения эксперимента.
6. Анализ результатов (значимость изменения).
7. Решение по итогам эксперимента.

### Расчет длительности эксперимента

Для расчета длительности проведения эксперимента с целью экономии времени можем воспользоваться [онлайн-калькулятором](https://vwo.com/tools/ab-test-duration-calculator/). С исходными данными A/B тестирование с применением частотного подхода составит 288 дней, с применением Байесовского подхода - 102 дня.

### Доверительный интервал (ДИ) для контрольной группы

In [5]:
# Параметры эксперимента
NUM_PLAYERS_CONTROL = 500
PAYMENT_RATE = 0.1

fake = faker.Faker()

def generate_synthetic_data(num_clients, rate):
    clients = []
    
    for _ in range(num_clients):
        client = {}
        client['name'] = fake.name()
        client['age'] = random.randint(18, 65)
        client['email'] = fake.email()
        client['payment'] = 1 if random.random() < rate else 0
        clients.append(client)
    return clients

# Генерация синтетических клиентов
synthetic_clients = generate_synthetic_data(NUM_PLAYERS_CONTROL,
                                            PAYMENT_RATE)

data_ctrl = pd.DataFrame(synthetic_clients)

confidence_interval_ctrl = st.t.interval(0.95,
                                         len(data_ctrl.payment) - 1,
                                         data_ctrl.payment.mean(),
                                         data_ctrl.payment.sem())

print("95%-ый доверительный интервал контрольной группы:", confidence_interval_ctrl)

95%-ый доверительный интервал контрольной группы: (0.07185017566706815, 0.12414982433293185)


### Генерация экспериментальных групп и расчет показателей

In [6]:
EXPERIMENTAL_CONV_WORSE = 0.085  # Хуже вариант: процент плательщиков 8.5%
EXPERIMENTAL_CONV_BETTER = 0.115  # Лучше вариант: процент плательщиков 11.5%
EXPERIMENTAL_CONV_WO_EFFECT = 0.1  # Вариант без эффекта: процент плательщиков 10%

#### Группа "хуже"

In [7]:
# Генерация синтетических клиентов
synthetic_clients_worse = generate_synthetic_data(NUM_PLAYERS_CONTROL, 
                                                  EXPERIMENTAL_CONV_WORSE)

data_worse = pd.DataFrame(synthetic_clients_worse)

confidence_interval_wrs = st.t.interval(0.95,
                                       len(data_worse.payment) - 1,
                                       data_worse.payment.mean(),
                                       data_worse.payment.sem())

print("95%-ый доверительный интервал контрольной группы:", confidence_interval_wrs)

95%-ый доверительный интервал контрольной группы: (0.03577761009135001, 0.07622238990864999)


In [8]:
# Сила эффекта для экспериментальной группы "хуже"
def effect_size(data_control, data_experiment, series):
    """
    Функция принимает датасет контрольной выборки,
    датасет экспериментальной выборки,
    ряд для анализа.
    
    Функция возвращает индекс Коэна для оценки
    силы эффекта
    """
    n_experimental = len(data_experiment)
    p_experimental = np.mean(data_experiment[series])
    p_control = np.mean(data_control[series])
    sd_control = np.sqrt(p_control * (1 - p_control))
    sd_experimental = np.sqrt(p_experimental * (1 - p_experimental))

    effect_size_worse = abs(p_experimental - p_control) / np.sqrt(
        (sd_experimental ** 2 + sd_control ** 2) / 2
    )

    return effect_size_worse

print('Сила эффекта для экспериментальной группы "хуже":', 
      effect_size(data_ctrl, data_worse, 'payment'))

Сила эффекта для экспериментальной группы "хуже": 0.15803551181004363


#### Группа "лучше"

In [9]:
# Генерация синтетических клиентов
synthetic_clients_better = generate_synthetic_data(NUM_PLAYERS_CONTROL,
                                                   EXPERIMENTAL_CONV_BETTER)

data_better = pd.DataFrame(synthetic_clients_better)

confidence_interval_btr = st.t.interval(0.95,
                                       len(data_better.payment) - 1,
                                       data_better.payment.mean(),
                                       data_better.payment.sem())

print("95%-ый доверительный интервал контрольной группы:", confidence_interval_btr)

95%-ый доверительный интервал контрольной группы: (0.08783514003667457, 0.14416485996332543)


In [10]:
# Сила эффекта для экспериментальной группы "лучше"
print('Сила эффекта для экспериментальной группы "лучше":',
      effect_size(data_ctrl, data_better, 'payment'))

Сила эффекта для экспериментальной группы "лучше": 0.058255782993843895


#### Группа "без изменений"

In [11]:
# Генерация синтетических клиентов
synthetic_clients_worse = generate_synthetic_data(NUM_PLAYERS_CONTROL, 
                                                  EXPERIMENTAL_CONV_WO_EFFECT)

data_woe = pd.DataFrame(synthetic_clients_worse)

confidence_interval_woe = st.t.interval(0.95,
                                       len(data_worse.payment) - 1,
                                       data_worse.payment.mean(),
                                       data_worse.payment.sem())

print("95%-ый доверительный интервал контрольной группы:", confidence_interval_wrs)

95%-ый доверительный интервал контрольной группы: (0.03577761009135001, 0.07622238990864999)


In [12]:
# Сила эффекта для экспериментальной группы "без изменения"
print('Сила эффекта для экспериментальной группы "лучше":',
      effect_size(data_ctrl, data_woe, 'payment'))

Сила эффекта для экспериментальной группы "лучше": 0.006757759511870511


### Вывод

Индекс Коэна ниже 0,2 говорит о наличии маленького эффекта и разница между группами относительно невелика. Величина индекса может быть интерпретирована как разница между средними значениями экспериментальной и контрольной групп, выраженная в стандартных отклонениях. 

Тем не менее, такая интерпретация силы эффекта носит теоретический характер. Решение о значимости изменения необходимо принимать из бизнес-стратегии, которой следует компания.

# Предсказание оттока

## Задание

В мобильной игре, после установки и запуска игры начинается туториал - игрок проходит обучение игре, которое состоит из нескольких последовательных шагов. 
Данные представляют собой набор строк - уникальный id игрока, datetime и номер шага туториала который пройден игроком.
Геймдизайнеры выдвинули гипотезу - если мы с высокой вероятностью сможем предсказать шаг на котором игрок уйдет из игры заранее, то запустив альтернативное продолжение туториала с этого шага мы избежим оттока и увеличим прохождение туториала.
1.	Как бы вы решали задачу предсказания отвала игрока?
2.	Как оценить качество полученной модели? Опишите методы которые знаете и какой считаете оптимальным и почему.
3.	Предположим что вы разработали модель которая с достаточной вероятностью предсказывает отвал. Опишите дизайн эксперимента и методологию по проверке гипотезы геймдизайнеров

## Решение

Для предсказания отвала игрока на определенном шаге туториала можно использовать методы машинного обучения (задача классификации). 

Этапы решения задачи:

1. Подготовка данных. Необходимо проанализировать все имеющиеся данные, выбрать необходимые для решения поставленной задачи.
2. Провести исследовательский анализ данных (EDA). На данном этапе необходимо обработать пропущенные значение (если они есть), решить проблему аномалий (выбросов).
3. Генерация дополнительных рядов, способных помочь решению поставленной задачи (например, длительность прохождения каждого шага, длительность прохождения предыдущего шага, длительность прохождения всех предыдущих шагов).
4. Выбор подходящей модели. С нашей задачей могут справиться `LogisticRegression`, `RandomForestClassifier`, `DecisionTreeClassifier`. При построении модели необходимо не забывать о балансе классов и способов решения проблемы (если она существует, можно применить взвешивание классов, уменьшение или увеличение выборки).
5. Обучение выбранных моделей. Разделив выборки на тестовую и тренировочнуб, обучим модели на тренировочной выборке. Можем провести поиск гиперпараметров, примени GridSearch с использованием кросс-валидации. Для оценки качества можем использовать F1-меру - среднее гармоническое полноты (Recall) и точности (Prescision). Преимущества в том, что, например, Recall описывает, как хорошо модель разобралась в особенностях этого класса и распознала его, Precision выявляет, не переусердствует ли модель, присваивая положительные метки, а F1-мера пытается сбалансировать обе эти метрики. Полезной может быть матрица ошибок (confusion_matrix). Можем использовать ROC-AUC-кривую, показывающую баланс между ложноположительными ответами и истинно положительными ответами, для оценки качества модели и сравнения с случайной моделью
6. Тестируем лучшую модель на тестовой выборке, сравниваем с результатами dummy-модели, принимаем решение об использовании полученной модели. 
7. В случае принятия модели, можем провести следующий эксперимент:
8. Выдвигаем гипотезу (внедрение нового функционала уменьшит отвал игроков с определенного шага).
9. Формулируем и описываем функционал.
10. Выбираем группу игроков, которым будет предложено альтернативное предложение. Важно, чтобы игроки контрольной и тестовой групп были схожи по своим характеристикам. 
11. Внедряем новый функционал для игроков тестовой группы.
12. Сравниваем результат внедрения нового функционала после сбора необходимых данных, оцениваем статистическую значимость внедрения нового функционала.  
13. Делаем заключение о необходимости внедрения нового функционала.    

# Эффективность рекламных кампаний

## Задание

Отдел маркетинга оперирует некоторым множеством рекламных кампаний. Первая часть оперирования состоит из запуска тестовых рекламных кампаний, у которых есть требования по KPI при достижении которых тест считается успешным.
Успешные тесты переходят в разряд постоянных кампаний и вторая часть оперирования состоит из мониторинга постоянных кампаний - управление бюджетом кампании (COST) и мониторинг ее доходов (REVENUE), а так же соотношением доходов к расходам.
Главный KPI для постоянных рекламных кампаний - ROAS на 60й день, т.е. какой процент от расходов кампания возвращает на 60й день.
Для выполнения задачи необходимо использовать тестовый датасет (2 таблицы по расходам и доходам).
1.	Отдел маркетинга руководствуется гипотезой - чем больший COST расходуется на кампанию тем ниже ROAS 60го дня (рост CPI при увеличении объёма закупки при сохранении того же LTV 60го дня). На основании данных подтвердите или опровергните эту гипотезу. Исходите из того что мы точно знаем что CPI зависит от объема нелинейно, вопрос в том как эту зависимость описать и учесть во 2м вопросе.
2.	По каждой рекламной кампании рассчитайте суточный рекламный бюджет который максимизирует абсолютную маркетинговую прибыль рекламной кампании (REVENUE 60 дня минус COST).
3.	Исходя из пункта 2 по каждой рекламной кампании дайте ваше заключение о том насколько нужно увеличить / уменьшить ее суточный бюджет либо вообще остановить.
4.	Решите проблему рекламных кампаний по которым еще нет полных 60 дней. Объясните почему ваше решение оптимально

## Решение

In [13]:
import sqlite3
import pandas as pd

con = sqlite3.connect('testcase.db')
cursor = con.cursor()

# Убираем заглушку*
cursor.execute('UPDATE revenue SET "60d_LTV" = "30d_LTV" WHERE "60d_LTV" = -1')

<sqlite3.Cursor at 0x2555cdf5570>

Для кампаний, по которым еще нет данных за 60 дней, возьмем последнее актуальное значение. Игнорировать такие кампании будет некорректно, в то же время мы не можем быть уверены в том, что доход от них увеличится, потому и используем последнее аткуальное значение выручки.

Проверить гипотезу можно с помощью t-теста

```
from scipy import stats as st

# interested_value = 1 # Условное значение  

alpha = .05 # критический уровень статистической значимости

results = st.ttest_1samp(
    column,                # Ряд датасета 
    interested_value)

print('p-значение:', results.pvalue)

if results.pvalue < alpha:
    print("Отвергаем нулевую гипотезу")
else:
    print("Не получилось отвергнуть нулевую гипотезу") 

```



In [14]:
sql_first = """
    WITH 
    rg AS (
    SELECT campaign_id,
           Install_Dates AS dates,
           SUM('60d_LTV') AS LTV
    FROM revenue
    GROUP BY campaign_id, Install_Dates
    ),

    cg AS (
    SELECT campaign_id,
           Install_Dates AS dates,
           SUM(spends) AS spends
    FROM costs
    GROUP BY campaign_id, Install_Dates
    )

    SELECT rg.campaign_id,
           rg.dates,
           rg.LTV,
           cg.spends
    FROM rg
    INNER JOIN cg ON (rg.campaign_id = cg.campaign_id) 
    AND (rg.dates = cg.dates)
"""
df_first = pd.read_sql(sql_first, con)
df_first

Unnamed: 0,campaign_id,dates,LTV,spends
0,19115,2020-03-18,1680.0,609.03
1,19115,2020-03-19,1620.0,609.41
2,19115,2020-03-20,1560.0,615.60
3,19115,2020-03-21,1620.0,614.50
4,19115,2020-03-22,1680.0,598.96
...,...,...,...,...
5172,803588,2020-04-12,60.0,8.55
5173,803588,2020-04-13,60.0,4.17
5174,803588,2020-04-14,60.0,0.33
5175,804309,2020-04-15,60.0,0.20


In [15]:
sql_second = """
    WITH 
    rg AS (
    SELECT campaign_id,
           SUM('60d_LTV') AS LTV
    FROM revenue
    GROUP BY campaign_id
    ),

    cg AS (
    SELECT campaign_id,
           SUM(spends) AS spends
    FROM costs
    GROUP BY campaign_id
    )

    SELECT rg.campaign_id,
           SUM(rg.LTV) AS total_LTV,
           SUM(cg.spends) AS total_spends
    FROM rg
    INNER JOIN cg ON (rg.campaign_id = cg.campaign_id)
    GROUP BY rg.campaign_id
"""
df_second = pd.read_sql(sql_second, con)
df_second

Unnamed: 0,campaign_id,total_LTV,total_spends
0,19115,96300.0,29442.9100
1,22083,33120.0,8436.0572
2,89897,600.0,194.9200
3,89917,2160.0,534.9800
4,89985,720.0,155.3500
...,...,...,...
224,803287,2940.0,215.6200
225,803393,1140.0,91.2200
226,803472,720.0,131.5000
227,803588,1620.0,1326.4800


# Связь рекламного траффика и органического

## Задание

Приток новых игроков делится на 2 основных источника - рекламный и органический. Отдел маркетинг выдвигает гипотезу о связи рекламного и органического траффика: когда маркетологи привлекают больше рекламного траффика, растет и органический.
Для выполнения задачи необходимо использовать тестовый датасет (таблица source_comparison).
1.	Подтвердите или опровергните гипотезу маркетологов. Если вы ее опровергаете, то сформулируйте гипотезу которая кажется вам наиболее вероятной и проверьте ее
2.	Количественно рассчитайте вероятность что гипотеза маркетологов (или ваша) верна

## Решение

In [16]:
import sqlite3
import pandas as pd
from scipy.stats import pearsonr

con = sqlite3.connect('testcase.db')
cursor = con.cursor()

sql = """
    WITH 
    organic AS (
    SELECT Install_Dates as date,
    SUM(installs) AS organic_installs
    FROM source_comparison
    GROUP BY Install_Dates, source_type
    HAVING source_type = 'Organic'
    ),
    
    paid AS (
    SELECT Install_Dates as date,
    SUM(installs) AS paid_installs
    FROM source_comparison
    GROUP BY Install_Dates, source_type
    HAVING source_type = 'Paid'
    )
    
    SELECT paid.date,
           paid.paid_installs,
           organic.organic_installs
    FROM paid
    INNER JOIN organic ON paid.date = organic.date
    
"""
df = pd.read_sql(sql, con)
df

Unnamed: 0,date,paid_installs,organic_installs
0,2020-03-18,7359.0,8961.0
1,2020-03-19,6739.0,8457.0
2,2020-03-20,7254.0,8819.0
3,2020-03-21,9552.0,4485.0
4,2020-03-22,14804.0,5105.0
...,...,...,...
56,2020-05-14,8761.0,3324.0
57,2020-05-15,7031.0,3207.0
58,2020-05-16,7579.0,3732.0
59,2020-05-17,8513.0,3461.0


In [17]:
# Задаем уровень значимости
alpha = .05

# Расчет коэффициента корреляции Пирсона и p_value
corr, p_value = pearsonr(df.paid_installs, df.organic_installs)

# Вывод результатов
print("Коэффициент корреляции:", corr)
print("p_value:", p_value)

# Проверка гипотезы
if p_value < alpha:  
    print("Гипотеза отвергается, между рядами нет линейной корреляции.")
else:
    print("Гипотеза не отвергается.")

Коэффициент корреляции: 0.22434074422603634
p_value: 0.08218628724204946
Гипотеза не отвергается.


Нулевая гипотеза коэффициента корреляции Пирсона гласит, что между двумя переменными нет линейной корреляции. В нашем случае p-value > 0.05, мы не можем отвергнуть нулевую гипотезу. Между переменными может быть линейная корреляция, о чем свидетельствует и коэффициент корреляции (0,22 - слабая прямая связь между рядами). 