# Анализ рекламных источников

**Заказчик**:

Отдел маркетинга мобильной игры «Космические братья»

**Цель проекта:**
    
Выбрать наиболее перспективный канал привлечения

**Задача**:

Проанализируйте поведения игроков в зависимости от источника перехода.


- Проведите исследовательский анализ данных;
- Проанализируйте влияние источника перехода в игру на поведение пользователя;
- Проверьте статистические гипотезы:
    1. *Проверьте гипотезу: время завершения уровня различается в зависимости способа прохождения:*
    - *через реализацию проекта,*
    - *через победу над первым игроком.*
    2. *Сформулируйте собственную статистическую гипотезу. Дополните её нулевой и альтернативной гипотезами. Проверьте гипотезу с помощью статистического теста.*


    

**1. Открытие таблиц изучение общей информации**


**2. Предобработка данных:**


- приведение столбцов к нужному типу данных
- объединение таблиц game_actions+user_source по user_id
- проверка пропусков, изучение причину появления их, принятие решение по пропускам
- работа с дубликатами

**3. Исследовательский анализ**

- составление профилей пользователей
- исследовать каналы привлечения по количеству пользователей, выясниь какой канал привлекает наибольшее кол-во пользователей
- исследовать качество привлеченных пользовтателей, по проценту завершивших и доли стратегий
- исследовать кол-во построенных зданий
- определить стоимость привлечения клиентов по источникам

**4 . Проверка статистические гипотезы:**
    
- Проверить гипотезу: время завершения уровня различается в зависимости способа прохождения:
        - через реализацию проекта,
        - через победу над первым игроком.
        
        
Будем использовать количественный стат метод

- Проверить гипотезу: источник привлечения влияет на способ прохождения уровня:
         - Н0 зависимость между долями нет
         - Н1 зависимость между долями есть


**5. Формирование ранжирования:**
    
Какой рекламный источник является максимально перспективным:
- по стоимсоти привлечения
- время проведенное в игре
- способ прохождения уровня
- кол-во построенных зданий



In [None]:
import pandas as pd
from datetime import datetime, timedelta
from matplotlib import pyplot as plt
import numpy as np
import plotly.express as px
from plotly import graph_objects as go
import seaborn as sns

In [None]:
source = pd.read_csv('/content/user_source.csv')
game = pd.read_csv('/content/game_actions.csv')
costs = pd.read_csv('/content/ad_costs.csv')

In [None]:
source.head()

Unnamed: 0,user_id,source
0,0001f83c-c6ac-4621-b7f0-8a28b283ac30,facebook_ads
1,00151b4f-ba38-44a8-a650-d7cf130a0105,yandex_direct
2,001aaea6-3d14-43f1-8ca8-7f48820f17aa,youtube_channel_reklama
3,001d39dc-366c-4021-9604-6a3b9ff01e25,instagram_new_adverts
4,002f508f-67b6-479f-814b-b05f00d4e995,facebook_ads


In [None]:
source.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13576 entries, 0 to 13575
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  13576 non-null  object
 1   source   13576 non-null  object
dtypes: object(2)
memory usage: 212.2+ KB


In [None]:
game.head()

Unnamed: 0,event_datetime,event,building_type,user_id,project_type
0,2020-05-04 00:00:01,building,assembly_shop,55e92310-cb8e-4754-b622-597e124b03de,
1,2020-05-04 00:00:03,building,assembly_shop,c07b1c10-f477-44dc-81dc-ec82254b1347,
2,2020-05-04 00:00:16,building,assembly_shop,6edd42cc-e753-4ff6-a947-2107cd560710,
3,2020-05-04 00:00:16,building,assembly_shop,92c69003-d60a-444a-827f-8cc51bf6bf4c,
4,2020-05-04 00:00:35,building,assembly_shop,cdc6bb92-0ccb-4490-9866-ef142f09139d,


In [None]:
game.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 135640 entries, 0 to 135639
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   event_datetime  135640 non-null  object
 1   event           135640 non-null  object
 2   building_type   127957 non-null  object
 3   user_id         135640 non-null  object
 4   project_type    1866 non-null    object
dtypes: object(5)
memory usage: 5.2+ MB


In [None]:
game['user_id'].nunique()

13576

In [None]:
costs.head()

Unnamed: 0,source,day,cost
0,facebook_ads,2020-05-03,935.882786
1,facebook_ads,2020-05-04,548.35448
2,facebook_ads,2020-05-05,260.185754
3,facebook_ads,2020-05-06,177.9822
4,facebook_ads,2020-05-07,111.766796


In [None]:
costs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28 entries, 0 to 27
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   source  28 non-null     object 
 1   day     28 non-null     object 
 2   cost    28 non-null     float64
dtypes: float64(1), object(2)
memory usage: 800.0+ bytes


**Вывод:**

Имеются пропуски в df.Game в столбцах building_type и project_type, стоит разобраться с причиной их появления и при возможности заполнить пропуски.


## Предобработка данных:


- приведение столбцов к нужному типу данных
- объединение таблиц game_actions+user_source по user_id
- проверка пропусков, изучение причину появления их, принятие решение по пропускам
- работа с дубликатами

In [None]:
game['event_datetime'] = pd.to_datetime(game['event_datetime'], format = '%Y-%m-%d %H:%M:%S')

In [None]:
costs = costs.rename(columns = {'day':'dt'})
costs['dt'] = pd.to_datetime(costs['dt']).dt.date
costs['week'] = costs['dt'].astype('datetime64[W]')
costs['month'] = costs['dt'].astype('datetime64[M]')


In [None]:
game = game.merge(source)
game.head()

Unnamed: 0,event_datetime,event,building_type,user_id,project_type,source
0,2020-05-04 00:00:01,building,assembly_shop,55e92310-cb8e-4754-b622-597e124b03de,,youtube_channel_reklama
1,2020-05-05 05:20:15,building,assembly_shop,55e92310-cb8e-4754-b622-597e124b03de,,youtube_channel_reklama
2,2020-05-05 19:24:02,building,assembly_shop,55e92310-cb8e-4754-b622-597e124b03de,,youtube_channel_reklama
3,2020-05-05 20:59:19,building,assembly_shop,55e92310-cb8e-4754-b622-597e124b03de,,youtube_channel_reklama
4,2020-05-06 00:52:56,building,assembly_shop,55e92310-cb8e-4754-b622-597e124b03de,,youtube_channel_reklama


In [None]:
source.isna().sum()

user_id    0
source     0
dtype: int64

In [None]:
source.duplicated().sum()

0

In [None]:
game.isna().sum()

event_datetime         0
event                  0
building_type       7683
user_id                0
project_type      133774
source                 0
dtype: int64

In [None]:
game.duplicated().sum()

1

In [None]:
game = game.drop_duplicates()

In [None]:
costs.isna().sum()

source    0
dt        0
cost      0
week      0
month     0
dtype: int64

In [None]:
costs.duplicated().sum()

0

In [None]:
game[game['building_type'].isna()]['event'].unique()

array(['project', 'finished_stage_1'], dtype=object)

In [None]:
finished_stage_1 = game[game['building_type'].isna()].query('event == "finished_stage_1"')
finished_stage_1['project_type'].unique()

array([nan], dtype=object)

**Вывод:**

- В df.Game и df.Сost столбцы с датами привела в нужный формат.
- Проверила наличие дубликатов, обнаружен 1 дубликат в df.Game - удалила.
- Добавила новые столбцы в df.Сost с неделями и месяцами, возможно пригодятся.
- Объединила таблицу df.Game и df.Source по айдти пользователя, что бы видела с какого источника пришел пользователь.
- Пропуски в df.Game в building_type проверила, они обусловлены механикой игры и сборов логов

## Исследовательский анализ

- составление профилей пользователей
- исследовать каналы привлечения по количеству пользователей, выясниь какой канал привлекает наибольшее кол-во пользователей
- исследовать качество привлеченных пользовтателей, по проценту завершивших и доли стратегий
- исследовать кол-во построенных зданий
- определить стоимость привлечения клиентов по источникам
- исследовать время проведенное в игре по источникам
- исследовать способ прохождения игры по источникам

In [None]:
#составление профилей пользователей + расчет САС

def get_profiles(game, costs):
    profiles = (
        game.sort_values(by=['user_id', 'event_datetime'])
        .groupby('user_id')
        .agg({'event_datetime': 'first', 'source': 'first', 'building_type': 'count', 'event':'last', 'project_type': 'first', 'project_type':'last'})
        .rename(columns={'event_datetime': 'first_ts'})
        .reset_index()
    )
    profiles['dt'] = pd.to_datetime(profiles['first_ts']).dt.date
    profiles['dt'] = profiles['dt'] - timedelta(1)
    new_users = (
        profiles.groupby(['dt', 'source'])
        .agg({'user_id': 'nunique'})

        .rename(columns={'user_id': 'unique_users'})
        .reset_index()
    )
    ad_costs = costs.merge(new_users, on=['source', 'dt'], how='left')

    ad_costs['acquisition_cost'] = ad_costs['cost'] / ad_costs['unique_users']
    profiles = profiles.merge(
      costs[['dt', 'source']],
      on=['dt', 'source'],
      how='left',
    )

    profiles = profiles.merge(
        ad_costs[['dt', 'source', 'acquisition_cost']],
        on=['dt', 'source'],
        how='left',
    )
    profiles['acquisition_cost'] = profiles['acquisition_cost'].fillna(0)



    return profiles

profiles = get_profiles(game, costs)
profiles.head()

Unnamed: 0,user_id,first_ts,source,building_type,event,project_type,dt,acquisition_cost
0,0001f83c-c6ac-4621-b7f0-8a28b283ac30,2020-05-06 01:07:37,facebook_ads,13,building,,2020-05-05,0.754162
1,00151b4f-ba38-44a8-a650-d7cf130a0105,2020-05-06 03:09:12,yandex_direct,9,building,,2020-05-05,0.464206
2,001aaea6-3d14-43f1-8ca8-7f48820f17aa,2020-05-05 18:08:52,youtube_channel_reklama,4,building,,2020-05-04,0.390759
3,001d39dc-366c-4021-9604-6a3b9ff01e25,2020-05-05 21:02:05,instagram_new_adverts,8,finished_stage_1,,2020-05-04,0.631816
4,002f508f-67b6-479f-814b-b05f00d4e995,2020-05-05 13:49:58,facebook_ads,12,building,,2020-05-04,0.790136


**Комментарий:**


собрали профили пользователей с первым днем использования игры, добавила кол-во построенных зданий + рассчитала САС на пользователя в зависимости от источника

In [None]:
#исследовать каналы привлечения по количеству пользователей, выясниь какой канал привлекает наибольшее кол-во пользователей
count_user_for_source = profiles.groupby('source')['user_id'].agg('count').sort_values(ascending = False).reset_index()
count_user_for_source.columns = ['source','user']
count_user_for_source

Unnamed: 0,source,user
0,yandex_direct,4817
1,instagram_new_adverts,3347
2,facebook_ads,2726
3,youtube_channel_reklama,2686


In [None]:
fig = px.bar(count_user_for_source, x='source', y='user', title='Кол-во пользователей по каналам', color = 'source', text = 'user')
fig.update_xaxes(tickangle=40)
fig.show()

**Комментарий:**
    
Судя по графику видно что в лидерах по кол-ву привлеченных пользователей источник: **yandex_direct**, из этого источника пришло  4817 польоветелей, по данный метрике этот канал в топе, посмотрим что будет дальше
    
    

In [None]:
#исследовать кол-во построенных зданий

count_building_type = profiles.groupby('source')['building_type'].agg('sum').sort_values(ascending = False).reset_index()
count_building_type.columns = ['source','building_type']
mean_building = count_building_type.merge(count_user_for_source)
mean_building['mean_building'] = round(mean_building['building_type']/mean_building['user'], 2)
mean_building = mean_building.reset_index().sort_values(by = 'mean_building', ascending = False)
mean_building

Unnamed: 0,index,source,building_type,user,mean_building
2,2,facebook_ads,26131,2726,9.59
1,1,instagram_new_adverts,31815,3347,9.51
0,0,yandex_direct,45032,4817,9.35
3,3,youtube_channel_reklama,24978,2686,9.3


In [None]:
fig = px.bar(mean_building, x='source', y='mean_building', title='Кол-во построенных зданий на одного пользователя по каналам', color = 'source', text = 'mean_building')
fig.update_yaxes(range=[9.2, 9.6])
fig.show()

**Комментарий**

На мой взгляд данная метрика достаточно важная для принятия решения по ранжированию.

Тут видно также в лидерах **yandex_direct**, пользователи из данного источника построили наиболее кол-во зданий. Соответсвенно из этого источника идет лучшая монетизация за счет просмотра рекламы

In [None]:
#Определить стоимость привлечения клиентов по источникам
#median
acquisition_cost= profiles.groupby('source')['acquisition_cost'].agg('median').sort_values(ascending = True).reset_index().round(2)
acquisition_cost.columns = ['source','cost']
acquisition_cost

Unnamed: 0,source,cost
0,youtube_channel_reklama,0.4
1,yandex_direct,0.46
2,instagram_new_adverts,0.65
3,facebook_ads,0.79


In [None]:
fig = px.bar(acquisition_cost.sort_values('cost'),
             x = 'cost',
             title ='Медианная стоимость привлечения клиентов по источникам',
             labels = {'source':'Источник привлечения', 'cost':'Стоимость в $'},
             color = 'cost',
             text = 'source')
fig.update_xaxes(range=[0.2, 0.9])
fig.show()

**Комментарий**

Рекламный источник **youtube_channel_reklama** лидер по минимальной стоимости привлечения, на втором месте **yandex_direct**

Низкая стоимость не всегда "качество", по исследованиям выше мы можем это заметить.

In [None]:
# заполняем пропуски на логические значения
filter_data = game.copy()

filter_data.loc[filter_data['project_type'].isna() & (filter_data['event'] == 'finished_stage_1'), 'project_type'] = 'finish'
filter_data.loc[filter_data['project_type'].isna(), 'project_type'] = 'not_finish'
filter_data['project_type'].unique()

array(['not_finish', 'satellite_orbital_assembly', 'finish'], dtype=object)

In [None]:
#среднее время прохождение уровня по источникам

filter_time = filter_data.query('project_type != "not_finish"')['user_id']
time = (filter_data
        .query('user_id in @filter_time')
        .groupby('user_id')
        .agg({'event_datetime':['min','max']}))

time['level_time'] = time[('event_datetime', 'max')] - time[('event_datetime', 'min')]
time.columns = time.columns.droplevel(1)
time = time.reset_index().sort_values(by='level_time')
time['level_time_sec'] = time['level_time'].dt.total_seconds()
time = time.merge(source, on = 'user_id')
time['level_time_day'] = round((time['level_time_sec']/ 24 /3600),3)
time

Unnamed: 0,user_id,event_datetime,event_datetime.1,level_time,level_time_sec,source,level_time_day
0,03990bc0-47b6-44ce-9f8b-3afb1a97d0e7,2020-05-07 16:40:32,2020-05-08 02:19:33,0 days 09:39:01,34741.0,instagram_new_adverts,0.402
1,ced7b368-818f-48f6-9461-2346de0892c5,2020-05-04 00:13:21,2020-05-04 19:47:29,0 days 19:34:08,70448.0,instagram_new_adverts,0.815
2,c8180f71-68dc-4fd5-ba6e-ba5f5d0d28f7,2020-05-08 16:08:29,2020-05-09 11:52:33,0 days 19:44:04,71044.0,youtube_channel_reklama,0.822
3,2204ae7f-892b-494d-bd58-28816ff35eb5,2020-05-07 02:25:27,2020-05-08 01:02:51,0 days 22:37:24,81444.0,yandex_direct,0.943
4,2ab1cc5a-413a-408e-ba76-01de8e12bead,2020-05-05 13:25:04,2020-05-06 13:43:12,1 days 00:18:08,87488.0,youtube_channel_reklama,1.013
...,...,...,...,...,...,...,...
5812,32572adb-900f-4b5d-a453-1eb1e6d88d8b,2020-05-07 05:43:45,2020-06-05 12:12:27,29 days 06:28:42,2528922.0,facebook_ads,29.270
5813,a4f54b34-299f-495f-b29f-745465741366,2020-05-04 05:00:48,2020-06-03 12:47:09,30 days 07:46:21,2619981.0,facebook_ads,30.324
5814,f21d179f-1c4b-437e-b9c6-ab1976907195,2020-05-06 02:56:25,2020-06-05 12:32:49,30 days 09:36:24,2626584.0,instagram_new_adverts,30.400
5815,22cce310-fe10-41a2-941b-9c3d63327fea,2020-05-04 18:38:25,2020-06-04 15:50:38,30 days 21:12:13,2668333.0,yandex_direct,30.883


In [None]:
print('Минимальное время прохождения уровня', time['level_time'].min())
print('Максимальное время прохождения уровня', time['level_time'].max())

Минимальное время прохождения уровня 0 days 09:39:01
Максимальное время прохождения уровня 30 days 21:58:53


In [None]:
graf = time.groupby('source').agg({'user_id':'count', 'level_time_sec':'mean'}).sort_values('level_time_sec', ascending = False)
graf['level_time_day'] = round((graf['level_time_sec']/ 24 /3600),3)
fig = px.bar(graf.sort_values('level_time_day'),
             x = 'level_time_day',
             title ='среднее время прохождение уровня по источникам в днях',
             labels = {'source':'Источник привлечения', 'level_time_day':'Дни'},
             color = 'level_time_day',
             text = 'user_id')
fig.update_xaxes(range=[11.6, 11.93])
fig.show()

**Комментарий**

Среднее время игроков которые закончили уровень примерно одинаковый во всех источниках, в среднем это 11 дней

In [None]:
# исследовать время проведенное в игре по источникам

game_min = game.groupby('user_id')['event_datetime'].min()
game_max = game.groupby('user_id')['event_datetime'].max()
time_delta = game_max-game_min
time_delta.name = 'days_on_game'
time_delta = time_delta.reset_index().sort_values('days_on_game', ascending=False)
time_delta = time_delta.merge(source)
time_delta = time_delta.query('days_on_game != "0 days 00:00:00"')
time_delta['days_on_game_sec'] = time_delta['days_on_game'].dt.total_seconds()
time_delta = time_delta.groupby('source').agg({'user_id':'count', 'days_on_game_sec':'mean'}).sort_values('days_on_game_sec', ascending = False)
time_delta['days_on_game'] = round((time_delta['days_on_game_sec']/ 24 /3600),3)

time_delta.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, instagram_new_adverts to youtube_channel_reklama
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   user_id           4 non-null      int64  
 1   days_on_game_sec  4 non-null      float64
 2   days_on_game      4 non-null      float64
dtypes: float64(2), int64(1)
memory usage: 128.0+ bytes


In [None]:
fig = px.bar(time_delta.sort_values('days_on_game'),
             x = 'days_on_game',
             title ='Среднее время проведенное в игре клиентов по источникам в днях',
             labels = {'source':'Источник привлечения', 'days_on_game':'Дни'},
             color = 'days_on_game',
             text = 'user_id')
fig.update_xaxes(range=[10.6, 10.9])
fig.show()

**Комментарий**

Все пользователи из разных источников провели примерно одинаковое время в игре, высчитывала среднее нахождение, и это составило 10 дней
Но дольше всех играют пользователи из источника **instagram_new_adverts**

In [None]:
build = profiles.groupby('source').agg({'user_id':'count', 'building_type':'sum'})
build['mean'] = round(build['building_type'] / build['user_id'],2)
build

Unnamed: 0_level_0,user_id,building_type,mean
source,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
facebook_ads,2726,26131,9.59
instagram_new_adverts,3347,31815,9.51
yandex_direct,4817,45032,9.35
youtube_channel_reklama,2686,24978,9.3


In [None]:
fig = px.bar(build.reset_index().sort_values(by='mean'), x='source', y='mean', text='mean', color = 'mean',  title ='Среднее время проведенное в игре одного пользователя по источникам в днях')
fig.update_yaxes(range=[9.1, 9.7])
fig.show()

**Комментарий**

ПО данной метрике лидер так же **yandex_direct**, пользователи из данного источника проходят первый уровень больше чем из остальных, это показывает вовлеченность в игровой процесс и лояльность к продукту

In [None]:
#исследовать качество привлеченных пользовтателей, по проценту завершивших и доли стратегий

prod = (game[game['event'] != 'building']
            .groupby('event')
            .agg({'user_id':'count'})
            .reset_index()
            .rename(columns={'user_id':'count'}))

pvp = (prod[prod['event'] == 'finished_stage_1']['count'][0] -
       prod[prod['event'] == 'project']['count'][1])

prod = pd.concat([prod, pd.DataFrame({'event':['pvp'], 'count':pvp})])

prod = prod.query('event != "finished_stage_1"')

In [None]:
fig = go.Figure(data=[go.Pie(labels=['pvp', 'pve'], values=prod['count'])],
                layout=go.Layout(
        title=go.layout.Title(text="Доля пользователей завершивших проект")
                )
               )
fig.show()

**Коментарий**

Доля ПВЕ значительно выше

##  Проверка статистические гипотезы:
    
- Проверить гипотезу: время завершения уровня различается в зависимости способа прохождения:
        - через реализацию проекта,
        - через победу над первым игроком.
        

In [None]:
pve = filter_data[filter_data['project_type'] == 'satellite_orbital_assembly'][['user_id', 'project_type']]
finish_game = filter_data[(filter_data['project_type'] == 'finish')][['user_id', 'project_type']]
pvp_h = finish_game[~finish_game.isin(pve['user_id'].unique())].dropna()

In [None]:
pve = pve.merge(time)

In [None]:
pve = pve['level_time_sec'].to_list()

In [None]:
pvp_h = pvp_h.merge(time)

In [None]:
pvp_h = pvp_h['level_time_sec'].to_list()

In [None]:
from scipy import stats as st
alpha = 0.05
results = st.ttest_ind(pve,pvp_h)
print('пи-значение:', results.pvalue)
if results.pvalue <alpha:
    print('отвергаем H0')
else:
     print('не отвергаем H0')

пи-значение: 7.256845329495443e-98
отвергаем H0


**Комментарий**

Время прохождения уровня зависит от способа

  Гипотеза 2 - есть ли разница при выборе стратегии ПВЕ между рекламными каналами?
  

- H0: Доля игроков выбравших стретгию ПВЕ не зависит от источника привлечения
    
- H1: Доля игроков выбравших стретгию ПВЕ зависит от источника првлечения

        
В качестве статистического метода выберем z-тест     



In [None]:
profiles.loc[(profiles['event'] == 'finished_stage_1') & (profiles['project_type'].isna()), 'finish_type'] = 'PVP'
profiles.loc[(profiles['event'] == 'finished_stage_1') & (profiles['project_type'].isna()  == False), 'finish_type'] = 'PVE'
profiles['finish_type'] = profiles['finish_type'].fillna('Уровень не пройден')
profiles['finish_type'].unique()

array(['Уровень не пройден', 'PVP', 'PVE'], dtype=object)

In [None]:
import math as mth
from statsmodels.stats.proportion import proportions_ztest

In [None]:
t = profiles.query('source == ["instagram_new_adverts", "yandex_direct"]').groupby('source')['finish_type'].count()

s = profiles.query('source == ["instagram_new_adverts", "yandex_direct"] and finish_type == "PVE"').groupby('source')['finish_type'].count()

alpha = 0.05

successes = np.array([s['yandex_direct'], s['instagram_new_adverts']])
trials = np.array([t['yandex_direct'], t['instagram_new_adverts']])

stat, pval = proportions_ztest(successes, trials)
print('Проверяем доли способа прохождения уровна по источникам: source_2 и Яндекс')
print('p-значение: ', pval)
if pval < stat:
    print('Отвергаем нулевую гипотезу: между долями есть разница')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными'
    )

Проверяем доли способа прохождения уровна по источникам: source_2 и Яндекс
p-значение:  0.07831764645262305
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными


In [None]:
t = profiles.query('source == ["instagram_new_adverts", "facebook_ads"]').groupby('source')['finish_type'].count()

s = profiles.query('source == ["instagram_new_adverts", "facebook_ads"] and finish_type == "PVE"').groupby('source')['finish_type'].count()

alpha = 0.05

successes = np.array([s['facebook_ads'], s['instagram_new_adverts']])
trials = np.array([t['facebook_ads'], t['instagram_new_adverts']])

stat, pval = proportions_ztest(successes, trials)
print('Проверяем доли способа прохождения уровна по источникам: Инстаграмм и Фейсбук')
print('p-значение: ', pval)
if pval < stat:
    print('Отвергаем нулевую гипотезу: между долями есть разница')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными'
    )

Проверяем доли способа прохождения уровна по источникам: Инстаграмм и Фейсбук
p-значение:  0.8927647444052863
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными


In [None]:
t = profiles.query('source == ["instagram_new_adverts", "youtube_channel_reklama"]').groupby('source')['finish_type'].count()

s = profiles.query('source == ["instagram_new_adverts", "youtube_channel_reklama"] and finish_type == "PVE"').groupby('source')['finish_type'].count()

alpha = 0.05

successes = np.array([s['youtube_channel_reklama'], s['instagram_new_adverts']])
trials = np.array([t['youtube_channel_reklama'], t['instagram_new_adverts']])

stat, pval = proportions_ztest(successes, trials)
print('Проверяем доли способа прохождения уровна по источникам: Инстаграмм и Ютуб')
print('p-значение: ', pval)
if pval < stat:
    print('Отвергаем нулевую гипотезу: между долями есть разница')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными'
    )

Проверяем доли способа прохождения уровна по источникам: Инстаграмм и Ютуб
p-значение:  0.9017893912838095
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными


In [None]:
t = profiles.query('source == ["yandex_direct", "youtube_channel_reklama"]').groupby('source')['finish_type'].count()

s = profiles.query('source == ["yandex_direct", "youtube_channel_reklama"] and finish_type == "PVE"').groupby('source')['finish_type'].count()

alpha = 0.05

successes = np.array([s['yandex_direct'], s['youtube_channel_reklama']])
trials = np.array([t['yandex_direct'], t['youtube_channel_reklama']])

stat, pval = proportions_ztest(successes, trials)
print('Проверяем доли способа прохождения уровна по источникам: Яндекс и Ютуб')
print('p-значение: ', pval)
if pval < stat:
    print('Отвергаем нулевую гипотезу: между долями есть разница')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными'
    )

Проверяем доли способа прохождения уровна по источникам: Яндекс и Ютуб
p-значение:  0.12987283621705897
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными


In [None]:
t = profiles.query('source == ["yandex_direct", "facebook_ads"]').groupby('source')['finish_type'].count()

s = profiles.query('source == ["yandex_direct", "facebook_ads"] and finish_type == "PVE"').groupby('source')['finish_type'].count()

alpha = 0.05

successes = np.array([s['yandex_direct'], s['facebook_ads']])
trials = np.array([t['yandex_direct'], t['facebook_ads']])

stat, pval = proportions_ztest(successes, trials)
print('Проверяем доли способа прохождения уровна по источникам: Яндекс и Фейсбук')
print('p-значение: ', pval)
if pval < stat:
    print('Отвергаем нулевую гипотезу: между долями есть разница')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными'
    )

Проверяем доли способа прохождения уровна по источникам: Яндекс и Фейсбук
p-значение:  0.07137587676312485
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными


In [None]:
t = profiles.query('source == ["youtube_channel_reklama", "facebook_ads"]').groupby('source')['finish_type'].count()

s = profiles.query('source == ["youtube_channel_reklama", "facebook_ads"] and finish_type == "PVE"').groupby('source')['finish_type'].count()

alpha = 0.05

successes = np.array([s['facebook_ads'], s['youtube_channel_reklama']])
trials = np.array([t['facebook_ads'], t['youtube_channel_reklama']])

stat, pval = proportions_ztest(successes, trials)
print('Проверяем доли способа прохождения уровна по источникам: Ютуб и Фейсбук')
print('p-значение: ', pval)
if pval < stat:
    print('Отвергаем нулевую гипотезу: между долями есть разница')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными'
    )

Проверяем доли способа прохождения уровна по источникам: Ютуб и Фейсбук
p-значение:  0.8060702101419706
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными


**Комментарий**

Тест показал, что  проверяемые каналы не влияет при выборе стратегии PVE

## Общий вывод

В исследовании использовали 3 датасета, с логами игры пользователей, стоимостью расходов на рекламу и инфа с какого источника пришел пользователь.

В дф с логами содержит 135к строк и 13к уникальных пользователей. Данные представлены за месяц. Имеем боьшое количество пропусков, они связаны с особенностью сбора данных и данные пропуски я не обрадатывала. Из таблицы удалила 1 явный дубликат.

В остальных дф ничего примечательного, все строки заполнены, дубликатов нет. Таблицы готовы к исследованию.


Рассматривала медианную стоимость привлечения пользователей, Самый дешевый канал оказлся Ютуб, самый дорогой Фейсбук.

    -  youtube_channel_reklama 0.40$.
    
    -  yandex_direct 0.46$.
    
    -  instagram_new_adverts 0.65$.
    
    -  facebook_ads 0.79$.
    

По кол-ву привлечения:

    - yandex_direct  4817.
    
    - instagram_new_adverts 3347.
    
    - facebook_ads 2726.
    
    - youtube_channel_reklama 2686.

КОличество построек на пользователя не сильно различается, в среднем это 9 построек.

Среднее время нахождения в игре также не сильно различается по каналам, в среднем это 10,5 дней.


Проверила 2 гипотезы:


Первая проверка гипотезы:  


- H0: Время завершения уровня не различается независимо от способа прохождения:

    - через реализацию проекта
    - через победу над первым игроком


- H1: Время завершения уровня различается в зависимости от способа прохождения:

    - через реализацию проекта
    - через победу над первым игроком  

Проверяла среднее значение Ттестом, Отвергла нулевую гипотезу, время завершения уровня все таки зависит от способа прохождения.

Вторая гипотеза:

Есть ли разница при выборе стратегии ПВЕ между рекламными каналами?

H0: Доля игроков выбравших стретгию ПВЕ не зависит от источника привлечения

H1: Доля игроков выбравших стретгию ПВЕ зависит от источника првлечения

Проверяла доли зитестом, проверка показала, что выбор способа прохождения PVE не зависит от источника

<div style="background:#f1f4ff;color:#000; padding:10px; margin-top:10px">
    <p><big><b> </b></big></p>
    
**Ранжирование каналов:**


    - Ютуб - самый дешевый канал по стоимости привлечения пользователей

    - Яндекс - привлек больше всех пользователей, но стоимость привлечения чуть выше чем у Ютуба

    - Инстаграмм - дороже яндекса, но пользователей меньше чем Яндекс, но больше чем другие каналы

    - Фейсбук - самый дорогой канал, но кол-во построек чуть больше чем у других каналов.

    
</div>
