# Из Общей Информации

Форматы рекламы в мобильных играх:
- int – полноэкранная реклама; 
- banner – горизонтальный баннер, висит внизу экрана пока юзер играет;
- rv – видео, которое юзер смотрит по желанию и за просмотр получает монетки или др. ресурсы.

eCPM – доход за 1000 показов рекламы.

# Бизнес Задача

Провести исследование показов рекламы с целью понять на сколько отличается eCPM в зависимости от географии (города) юзера, версии ОС и других параметров.

Этот csv файл (544,4 Mb) содержит информацию о показах рекламы для юзеров США:
https://drive.google.com/drive/folders/1bjWlzyXV8ALcoxZYrdNQH6_MOm3nS3Pl?usp=sharing

# Детализация Задач

- 1. Для каждого формата рекламы:
    - a. построить распределение средних eCPM-ов юзеров
    - b. построить распределение eCPM-ов по городам, версиям ОС
    - c. построить распределение доходов по городам, версиям ОС
- 2. Учесть статистическую значимость (отобразить, отфильтровать незначимое или хотя бы прокомментировать). Объяснить решение.
- 3. Описать наблюдения и вывод по исследованию.

**Доп.:**

Исследовать:
- 4. Какой процент доходов содержит информацию о городе юзера
- 5. Зависит ли eCPM от времени дня

# Информация о Данных

- Столбец profile_id – id юзера
- Столбец event_json содержит данные о событии показа рекламы:
    - ad_type – формат рекламы (int, banner или rv)
    - placement – когда/где был показ рекламы в игре
    - view_index – номер показа конкретного формата рекламы для юзера (не поддерживается для баннеров)

    - revenue – доход от конкретного показа рекламы (eCPM = revenue * 1000)
    - ads_ltv – накапливающийся доход от рекламы, равен сумме всех revenue юзера
    - network_name – рекламная сеть, от которой был показ

# Требования к Работе

- Понятная визуализация данных, грамотный выбор средств для презентации данных (типы диаграмм, таблиц или др.)
- Чистотый и понятный код
- Описание наблюдений в процессе иследования и выводы

# Получение данных

In [23]:
import pandas as pd
import json

In [None]:
'''
# неудачная попытка загрузки данных, т.к. файл очень большой вместо стандартного начала загрузки
# гугл отправляет на страницу, где просит подтвердить скачивание (см. скрин окна подтверждения ниже)
url='https://drive.google.com/file/d/1h2eXP4EyL8hYT2kZ0wmShAtp8Qz8HpNq/view?usp=sharing'
url='https://drive.google.com/uc?id=' + url.split('/')[-2]
df = pd.read_csv(url)
'''

![image.png](attachment:image.png)

Я скачал файл на свой ПК; в репозиторий клонировать его не буду; открою локально для анализа, дальнейшей работы.

In [2]:
path = '../../../6_database/us events ad_revenue filtered 03.02-07.02.csv'
df = pd.read_csv(path)

In [6]:
df.head()

Unnamed: 0,profile_id,os_version,device_manufacturer,device_model,device_type,device_locale,event_name,event_json,event_datetime,event_timestamp,event_receive_datetime,event_receive_timestamp,connection_type,operator_name,country_iso_code,city
0,JLjpGzDHBQm,11,Samsung,Galaxy Tab S6,tablet,en_US,c_ad_revenue,"{""ad_type"":""banner"",""placement"":"""",""view_index...",2022-02-04 20:02:28,1643994148,2022-02-06 17:58:19,1644159499,wifi,,US,Norwalk
1,JLjpGzDHBQm,11,Samsung,Galaxy Tab S6,tablet,en_US,c_ad_revenue,"{""ad_type"":""banner"",""placement"":"""",""view_index...",2022-02-04 20:02:45,1643994165,2022-02-06 17:58:19,1644159499,wifi,,US,Norwalk
2,JLkVacrzHY6,11,Google,Pixel 2,phone,en_US,c_ad_revenue,"{""ad_type"":""banner"",""placement"":"""",""view_index...",2022-02-05 17:53:05,1644072785,2022-02-06 16:59:29,1644155969,wifi,Verizon,US,Charlotte
3,JMC6wG3cX0f,10,Samsung,Galaxy S9,phone,en_US,c_ad_revenue,"{""ad_type"":""int"",""placement"":""next_level"",""vie...",2022-02-06 17:09:01,1644156541,2022-02-06 17:09:24,1644156564,wifi,T-Mobile,US,Cocoa
4,JLzWWTJfi1b,10,Samsung,Galaxy S9,phone,en_US,c_ad_revenue,"{""ad_type"":""banner"",""placement"":"""",""view_index...",2022-02-06 17:15:38,1644156938,2022-02-06 17:16:16,1644156976,cell,Verizon,US,


Данные открыты. Посмотрим на изначальные вид и структуру

In [32]:
df.shape

(860079, 16)

In [37]:
df.dtypes

profile_id                 object
os_version                 object
device_manufacturer        object
device_model               object
device_type                object
device_locale              object
event_name                 object
event_json                 object
event_datetime             object
event_timestamp             int64
event_receive_datetime     object
event_receive_timestamp     int64
connection_type            object
operator_name              object
country_iso_code           object
city                       object
dtype: object

In [30]:
k=0
print('COLUMNS')
for i in df.columns:
    if i == 'profile_id': 
        k+=1
        print(f'{str(k)}) {i} - id пользователя')
    elif i == 'event_json':
        k+=1
        print(f'{str(k)}) {i} - содержит данные:')
        print('''    - ad_type      – формат рекламы (int [полноэкранная], banner или rv [по желанию])
    - placement    – когда/где был показ рекламы в игре
    - view_index   – номер показа конкретного формата рекламы для юзера (не поддерживается для баннеров)
    - revenue      – доход от конкретного показа рекламы (eCPM = revenue * 1000)
    - ads_ltv      – накапливающийся доход от рекламы, равен сумме всех revenue юзера
    - network_name – рекламная сеть, от которой был показ''')
    else:
        k+=1
        print(f'{str(k)}) {i}')
        

COLUMNS
1) profile_id - id пользователя
2) os_version
3) device_manufacturer
4) device_model
5) device_type
6) device_locale
7) event_name
8) event_json - содержит данные:
    - ad_type      – формат рекламы (int [полноэкранная], banner или rv [по желанию])
    - placement    – когда/где был показ рекламы в игре
    - view_index   – номер показа конкретного формата рекламы для юзера (не поддерживается для баннеров)
    - revenue      – доход от конкретного показа рекламы (eCPM = revenue * 1000)
    - ads_ltv      – накапливающийся доход от рекламы, равен сумме всех revenue юзера
    - network_name – рекламная сеть, от которой был показ
9) event_datetime
10) event_timestamp
11) event_receive_datetime
12) event_receive_timestamp
13) connection_type
14) operator_name
15) country_iso_code
16) city


Посмотрим на данные в колонке event_json

In [26]:
json.loads(df.event_json[0])

{'ad_type': 'banner',
 'placement': '',
 'view_index': 1,
 'session_view_index': 0,
 'cur_ticks': 637795729492245130,
 'session_length': 705.8807,
 'revenue': 0.000510313,
 'ads_ltv': 0.487876676518837,
 'ecpm_sma': 0.511508107185364,
 'normalized_ecpm_sma': 0.511508107185364,
 'value': 0.000510313,
 'currency': 'USD',
 'ad_country_code': 'US',
 'network_name': 'Google AdMob',
 'ad_unit_id': '64c6b1114ea8c1cc',
 'ad_network_placement': 'ca-app-pub-7511632782617496/8825263691',
 'creativeId': 'CJ3XirfD5vUCFYPnKAUdG3MOYQ'}

Исследуем данные по каждой колонке, чтобы убедиться, что у нас все выгрузилось правильно, и чтобы "познакомиться" с данными

In [34]:
# 1
df.profile_id.nunique()  # vs. 860.079 rows in dataset

4226

In [44]:
df.profile_id[0]

'JLjpGzDHBQm'

In [43]:
df.profile_id.dtype

dtype('O')

In [50]:
# 2
print(df.device_manufacturer.unique())  # all are android-devices?
print(df.device_manufacturer.nunique())

['Samsung' 'Google' 'TCL' 'LG' 'OnePlus' 'Motorola' 'Teracube' 'Lenovo'
 'T-Mobile' 'Verizon Wireless' 'Xiaomi' 'Alcatel' 'Cricket' 'Blu'
 'Kyocera' 'Maxwest' 'Nokia' 'FIH' 'Dish' 'Schok' 'deejoy' 'AT&T' 'Zte'
 'Redmi' 'Yulong' 'Wiko' 'Huawei' 'Onn (Walmart)' 'AEEZO' 'Asus' 'JOYAR'
 'POCO' 'Ulefone' 'Razer']
34
