# Формирование модели монетизации

Загрузка, первичный осмотр и предобработка данных:

1. чтение
2. поиск дубликатов
3. поиск пустых значений
4. проверка типов данных
Проведение исследовательского анализа данных:

1. смотрим на данные по стоимости кликам по источникам
2. анализируем влияние событий на совершение целевого события
3. количество пользователей по событиям
4. количество пользователей по заданиям
Сегментация покупателей на основе истории их покупок:

1. деление основной базы на 2 базы с разными событиями
2. вычисление  времени прохождения уровня пользователями с разными событиями
Проверка гипотезы:

1. проверка гипотезы различия времени прохождения уровня между пользователями, которые заканчивают уровень через реализацию проекта, и пользователями, которые заканчивают уровень победой над другим игроком
Презентация:

1. выделение ключевых моментов и краткое описание сути

In [1]:
import pandas as pd
from matplotlib import pyplot as plt
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import scipy.stats as stats
import seaborn as sns
from scipy import stats as st

In [2]:
df=pd.read_csv('game_actions.csv')

FileNotFoundError: [Errno 2] File b'game_actions.csv' does not exist: b'game_actions.csv'

In [None]:
df1=pd.read_csv('ad_costs.csv')

In [None]:
df2=pd.read_csv('user_source.csv')

# Предобработка данных

In [None]:
df.head()

In [None]:
df.isna().sum()

In [None]:
df.isnull().sum()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.duplicated().sum()

In [None]:
df.drop_duplicates(inplace = True)

In [None]:
df1.head()

In [None]:
df1.info()

In [None]:
pd.set_option('display.float_format', lambda x: '%.3f' % x)

In [None]:
df1.describe()

In [None]:
df1.isna().sum()

In [None]:
df1.isnull().sum()

In [None]:
df1.duplicated().sum()

In [None]:
df2.head()

In [None]:
df2.info()

In [None]:
df2.describe()

In [None]:
df2.isna().sum()

In [None]:
df2.isnull().sum()

In [None]:
df2.duplicated().sum()

## Разбираемся с типами

In [None]:
df1['day'] = pd.to_datetime(df1['day'])

In [None]:
df['event_datetime'] = pd.to_datetime(df['event_datetime'])

## Предобработка готова.

# Вывод: Дубли очищены, пустых значений нет, даты приведены в правильный тип

In [None]:
df.head()

In [None]:
df1.head()

In [None]:
df2.head()

# Вывод: первой базы в полне достаточно для основной работы.

# Исследовательский анализ

### Стоимость кликов по источникам и графики по дням

#### Суммируем доходы по источникам

In [None]:
df1.groupby('source')['cost'].sum()

### График для наглядности(доходы по источникам) по дням

In [None]:
dau = df1.groupby(['day', 'source']).agg({'cost': 'sum'}).unstack().plot(figsize=(18,5))
plt.xlabel('Дата')
plt.ylabel('Количество пользователей по дням')
plt.legend(('facebook_ads','instagram_new_adverts','yandex_direct','youtube_channel_reklama'), title='источники')

### График для наглядности(доходы по источникам) по дням #2

In [None]:
dau

In [None]:
dau = df1.groupby(['day', 'source']).agg({'cost': 'sum'}).unstack().plot(kind="barh", figsize = (14,9),  fontsize=15)
plt.title('Стоимость кликов по источникам',fontsize=20)
plt.xlabel('Деньги', fontsize=15) 
plt.ylabel('Дата', fontsize=15) 
plt.show()

## Вывод: меньше всего денег ушло на то, чтобы привлечь пользователей с ютуба

 ### Количество уникальных пользователей по источникам

In [None]:
uni = df2.groupby(['source']).agg({'user_id': 'nunique'})

In [None]:
uni.reset_index()

In [None]:
(uni['user_id'].plot(kind='pie', labels=None, label='', autopct='%1.0f%%', 
       legend=True, figsize=(10, 10), title='Разбивка клиентов по источникам', fontsize=20))
plt.show()

## яндекс привёл больше всех пользователей.

In [None]:
df1.groupby('source')['cost'].sum()

In [None]:
df2.groupby('source')['user_id'].count()

In [None]:
face=2140/2726
insta=2161/3347
ya=2233/4817
yout=1068/2686

In [None]:
face

In [None]:
insta

In [None]:
ya

In [None]:
yout

# Самый эффективный ресурс по привлечению пользователей  это ютуб

In [None]:
df['event'].unique()

In [None]:
df['building_type'].unique()

## Далее смотрим чем занимаются пользователи

In [None]:
aa=df.groupby(['event']).agg({'user_id': 'nunique'}).plot(kind='bar', figsize=(10, 5))
sobitiye = ['building', 'finished_stage_1', 'project']
aa.set_xticklabels(sobitiye, rotation=15)
plt.title('Количество пользователей по событиям',fontsize=30)
aa.set_xlabel('События', fontsize=15)
aa.set_ylabel('Количество',fontsize=15 )
plt.show()

In [None]:
aa2=df.groupby(['building_type']).agg({'user_id': 'nunique'}).sort_values('user_id').plot(kind='bar', figsize=(10, 5))
sobitiye2 = ['assembly_shop', 'spaceport', 'research_center']
aa2.set_xticklabels(sobitiye2, rotation=15)
plt.title('Количество пользователей по заданиям',fontsize=30)
aa2.set_xlabel('Задания', fontsize=15)
aa2.set_ylabel('Количество',fontsize=15 )
plt.show()

# Выводы: 
## - не много тех, кто заканчивает первый уровень. строят строят и уходят. больше половины таких. 
## - строят в основном космопорты и исследовательские центры

In [None]:
firts_date = df['event_datetime'].min()
last_date = df['event_datetime'].max()

In [None]:
firts_date

In [None]:
last_date

## Ниже я создаю две базы building и project. В одной все люди кто что-то строил и потом закончил уровень(победа над другим игроком). В другой все кто так же что-то строил, окончил проект, и  окончили уровень. Потом считаю сколько времени прошло между ПЕРВЫМ(первая стройка и проект) событием и окончанием уровня.

In [None]:
SS=df.groupby(['user_id'])['event'].nunique()

In [None]:
SS=SS.reset_index()

In [None]:
SS.columns=['user_id','gruppa']

In [None]:
SS.head(15)

### Вот они все. Объединяем с главное базой.

In [None]:
grupp=pd.merge(df, SS, on='user_id', how='outer')

In [None]:
grupp.head()

###  билдинг это группа людей, которые  прошли уровень победой над врагом. проект это группа тех, кто закончил проект

### описываю логику дальнейших действий:
1. ищу первую постройку, группируя по схеме пользователь - событие - минимальная дата(первая постройка)
2. реиндексирую и все дела база готова
3. есть такая штуковина как дифф, которая вычисляет разницу между временами(позднее минус ранее). в нашем случаем это окончание уровня минус первая постройка.  меньшей датой всегда будет первой постройка. 2 события 2 даты. 
4. далее получаем что-то типа этого 6 days 10:38:42. переводим всё в часы.
5. удаляем все билдинги с нанами. расходный материал.
6. часы делаем целочисленными

In [None]:
building=grupp.query('gruppa==2')

In [None]:
building = building.groupby(['user_id','event'])['event_datetime'].min()

In [None]:
building.name = 'first_event_datetime'

In [None]:
building=building.reset_index()

In [None]:
building['diff'] = building.groupby('user_id')['first_event_datetime'].diff(1)

In [None]:
building['diff'] = building['diff']/np.timedelta64(1, 'h')

In [None]:
building=building.dropna()

In [None]:
building['diff'] = building['diff'].astype('int')

In [None]:
building = building.sort_values('user_id')

In [None]:
building.head()

##  так как у проекта 3 события то чтобы дифф сработал просто выбрасываем строки с project. 

In [None]:
gruppa3=grupp.query('gruppa==3')

In [None]:
project=gruppa3.query('event!="project"')

In [None]:
project = project.groupby(['user_id','event'])['event_datetime'].min()

In [None]:
project=project.reset_index()

In [None]:
project['diff'] = project.groupby('user_id')['event_datetime'].diff(1)

In [None]:
project['diff'] = project['diff']/np.timedelta64(1, 'h')

In [None]:
project=project.dropna()

In [None]:
project['diff'] = project['diff'].astype('int')

In [None]:
project = project.sort_values('user_id')

In [None]:
project.head()

In [None]:
aaaa = pd.Series(range(0, len(building)))
plt.figure(figsize=(15,6))
plt.scatter(aaaa, building['diff'])
plt.title('точечный график часов пользователей(Победа над первым врагом) от первой постройки до конца уровня',fontsize=15)
plt.ylabel('Количество часов')
plt.xlabel('Пользователи')
plt.show()

In [None]:
plt.hist(building['diff'], alpha = 0.9, label='A', bins = 33)
plt.hist(project['diff'], alpha = 0.7, label='B', bins = 33)
plt.legend()
plt.title('Гистограммы кол-ва сыгранных часов по группам Победители и Проектники')
plt.show()

# Вывод: "проектировщики" играют в основном от 200 до 400 часов. "победители" от 100 до 400 часов

In [None]:
bbbb = pd.Series(range(0, len(project)))
plt.figure(figsize=(15,6))
plt.scatter(bbbb, project['diff'])
plt.title('точечный график часов пользователей(проектники) от первой постройки до конца уровня',fontsize=16)
plt.ylabel('Количество часов')
plt.xlabel('Пользователи')
plt.show()

# Это пользователи и время(колонка y), которое они потратили от первой постройки до конца уровня

In [None]:
project.shape

In [None]:
building.shape

In [None]:
lst = [3951, 1866]
df22 = pd.DataFrame(lst)

# Влияние событий на совершение целевого события

In [None]:
(df22[0].plot(kind='pie', labels=None, label='', autopct='%1.0f%%', 
        figsize=(10, 10), title='Влияние событий на совершение целевого события', fontsize=20))
labels = ['Победа над первым врагом', 'Реализация проекта']
plt.legend(labels,loc=1)
plt.show()

# Гипотеза различия времени прохождения уровня между пользователями, которые заканчивают уровень через реализацию проекта, и пользователями, которые заканчивают уровень победой над другим игроком.

In [None]:
A=building['diff']

In [None]:
A1=building['diff'].mean()

In [None]:
A2=building['diff'].median()

In [None]:
A1

In [None]:
A2

# Где-то 11 дней(победа над первым врагом - "победители")

In [None]:
B=project['diff']

In [None]:
B1=project['diff'].mean()

In [None]:
B2=project['diff'].median()

In [None]:
B1

In [None]:
B2

# Где-то 13 дней(реализация проекта - "проектировщики")

In [None]:
alpha = 0.05
results = st.ttest_ind(A,B)
print('pvalue: {:.2F}'.format(results.pvalue))
if results.pvalue < alpha:
    print('различия времени прохождения уровня между пользователями, которые заканчивают уровень через реализацию проекта, и пользователями, которые заканчивают уровень победой над другим игроком есть!!!')
else:
    print('различия времени прохождения уровня между пользователями, которые заканчивают уровень через реализацию проекта, и пользователями, которые заканчивают уровень победой над другим игроком нет!!!')

# Дополнительная гипотеза: Люди пришедшие с ютуба и яндекса тратят одинаковое количетсво времени на прохождение первого уровня(окончанием проекта)

In [None]:
gipoteza=pd.merge(project, df2, on='user_id', how='inner')
yandex=gipoteza.query('source=="yandex_direct"')
youtube=gipoteza.query('source=="youtube_channel_reklama"')

In [None]:
A44=yandex['diff']
b44=youtube['diff']

In [None]:
alpha = 0.05
results = st.ttest_ind(A44,b44)
print('pvalue: {:.2F}'.format(results.pvalue))
if results.pvalue < alpha:
    print('различия времени прохождения уровня(окончание проекта) пользователями пришедшие с яндекса, и пользователями пришедшие с ютуба, есть!!!')
else:
    print('различия времени прохождения уровня(окончание проекта) пользователями пришедшие с яндекса, и пользователями пришедшие с ютуба, нет!!!')

## Похоже от источников трафика мало что зависит. А значитможно подумать о перераспределении маркетингового бюджета

# Общий вывод: Нужно дать большую мотивацию для созидания(типа никогда по сути не достроишь, потому всегда есть что исправлять, добавлять, улучшать). формула такова - много вариантов созидания для разнообразной(разные подходы) победы над первым врагом. либо много вариантов созидания для разнообразного завершения проекта. оплату рекомендуется вводить ТОЛЬКО после завершения первого уровня.

# и да, максимально вкладываемся в ютуб!

## Дополнение: Включать монетизацию нужно, когда игрок вошёл в игру так сказать. До тех пор НИЧЕГО не должно говорить про то,что нужно что то заплатить.

## Дополнение#2 : У нас есть 2 главных параметра. Это откуда пришли и сколько "вошло в игру". Поэтому я и написал - вкладываемся в ютуб. А строить модель монетизации на тех, кто по сути не вошёл в игру глупо. Нужно строить её на процессе игры, тех кто вошёл в игру. 

## Материалы
- презентация - https://disk.yandex.ru/i/rwVgzQsQUJ8pwg
- дэшборд - https://public.tableau.com/profile/anar3519#!/vizhome/Book2_16159950929170/Dashboard1?publish=yes