Постановка задачи
В качестве экзамена вам необходимо решить реальный аналитический кейс, который переложен на данные нашего учебного сайта. 

Вам необходимо выяснить, пользователи с какими устройствами приносят наибольший доход. Под доходом мы подразумеваем ARPU (Average Revenue Per User), то есть отношение выручки к размеру аудитории. Таким образом, результатом решения кейса будет конкретная модель устройства.

Какие данные у нас есть
1. Выгрузка  с доходом от рекламы сайта в разбивке по моделям устройств 
Данные по рекламным доходам arpu_revenue_data.csv

В этой выгрузке уже просуммирован общий доход (revenue) по каждому устройству за март 2018 года.

Каждое устройство идентифицируется с помощью трех колонок: mobilePhone, mobilePhoneModel и deviceCategory.

2. Данные Яндекс.Метрики по суточной аудитории сайта в разбивке по устройствам
Эти данные вам необходимо получить по API. Номер счетчика учебного сайта для выгрузки данных из Яндекс.Метрики: 21075004

Набор измерений и метрик для получения отчета Яндекс.Метрики 
'ym:s:date', 'ym:s:deviceCategory', 'ym:s:mobilePhone', 'ym:s:mobilePhoneModel', 'ym:s:users'

Ваша задача
1. Собрать данные о доходах и данные об аудитории в единый отчет

2. Посчитать метрику ARPU по каждому устройству 

ARPU =  revenue/ суммарное количество пользователей

3. Найти модель устройства с наибольшим ARPU

В качестве ответа онлайн-проверка ожидает получить название модели телефона, которой соответствует максимальное значение ARPU. Т. е. если вы получили, например, максимальное значение ARPU для такого устройства:

deviceCategory: Смартфоны

mobilePhone: Sony

mobilePhoneModel: Xperia Z

то в онлайн-проверку надо вставить Xperia Z

In [1]:
import pandas as pd

In [2]:
df_from_csv=pd.read_csv('arpu_revenue_data.csv', sep='\t')

df_from_csv.head()

Unnamed: 0,mobilePhone,mobilePhoneModel,deviceCategory,revenue
0,4Good,Light A104,Смартфоны,987567486
1,Acer,B1-750,Планшеты,952423812
2,Acer,E39,Смартфоны,5240945719
3,Acer,T02,Смартфоны,2637776834
4,Acer,T03,Смартфоны,1020764495


In [3]:
df_from_csv.describe()

Unnamed: 0,mobilePhone,mobilePhoneModel,deviceCategory,revenue
count,738,738.0,738,738
unique,56,727.0,4,738
top,Samsung,,Смартфоны,2946273403
freq,83,7.0,659,1


In [4]:
df_from_csv.to_csv('arpu_revenue_data_.csv')

In [5]:
df_from_csv['revenue']=df_from_csv['revenue'].map(lambda x: x.replace(',','.')).astype('float')
df_from_csv['mobilePhone']=df_from_csv['mobilePhone'].map(lambda x: x.replace('None','Не определено'))
df_from_csv['mobilePhoneModel']=df_from_csv['mobilePhoneModel'].map(lambda x: x.replace('None','Не определено'))

In [6]:
df_from_csv['revenue'].sum()

5800.550916065999

In [7]:
df_from_csv

Unnamed: 0,mobilePhone,mobilePhoneModel,deviceCategory,revenue
0,4Good,Light A104,Смартфоны,0.987567
1,Acer,B1-750,Планшеты,0.952424
2,Acer,E39,Смартфоны,5.240946
3,Acer,T02,Смартфоны,2.637777
4,Acer,T03,Смартфоны,1.020764
5,Acer,T08,Смартфоны,0.786408
6,Alcatel,4013D,Смартфоны,1.144198
7,Alcatel,4027D,Смартфоны,1.895412
8,Alcatel,4032D,Смартфоны,1.024806
9,Alcatel,5010D,Смартфоны,0.486240


#### Номер счетчика учебного сайта для выгрузки данных из Яндекс.Метрики: 2....4

In [8]:
import requests
from yaml import load
f = open('config.yaml', 'r') # токен уже внутри  config файла
config = load(f)
token = config['token']
API_URL = 'https://api-metrika.yandex.ru/stat/v1/data'

startDate = '2018-03-01'
endDate = '2018-03-31'
counter = '21075004'
dimensions = ['ym:s:date', 'ym:s:deviceCategory', 'ym:s:mobilePhone', 'ym:s:mobilePhoneModel']
metrics = ['ym:s:users', ]  # Количество уникальных посетителей.

# т.о. получим: за каждый день сколько уникальных пользователей было по каждому типу устройства. 
# например: 1-го марта: с samsung galaxy - 3 пользователя, sony xperia - 2 пользователя и т.д.
# (но интересны нам тольо если 3 и больше)


In [9]:
# Измерения и метрики для запроса к API нужно передавать как строку. Преобразуем наш лист метрик и измерений в строку:
metrics_string = ','.join(metrics)
dimensions_string = ','.join(dimensions)
print(metrics_string)
print(dimensions_string)

ym:s:users
ym:s:date,ym:s:deviceCategory,ym:s:mobilePhone,ym:s:mobilePhoneModel


### Но можно получить csv гораздо проще.

In [10]:
import io
n_rows=3000
offset=1

params_2 = {
    'date1': startDate,
    'date2': endDate,
    'id': counter,
    'dimensions': dimensions_string,
    'metrics': metrics_string,
    'oauth_token': token,
#    'offset': offset,
    'limit': n_rows
}
    

API_URL = 'https://api-metrika.yandex.ru/stat/v1/data.csv'       
f = requests.get(API_URL, params = params_2).content
df_from_api = pd.read_csv(io.StringIO(f.decode('utf-8')))
df_from_api.head()

Unnamed: 0,Дата визита,Тип устройства,Производитель устройства,Модель устройства,Посетители
0,Итого и средние,,,,5957
1,2018-03-12,ПК,Не определено,Не определено,157
2,2018-03-13,ПК,Не определено,Не определено,114
3,2018-03-02,ПК,Не определено,Не определено,111
4,2018-03-22,ПК,Не определено,Не определено,109


In [11]:
df_from_api_droped = df_from_api.drop(0)
df_from_api_droped.to_csv('___df_from_api_droped.csv',encoding='windows-1251')


In [12]:
# data_from_api.to_csv('data_from_api.csv',encoding='windows-1251')

In [13]:
df_from_api_grouped = df_from_api.groupby(['Тип устройства', 'Производитель устройства','Модель устройства']).sum().reset_index() #.reset_index()
df_from_api_filtered = df_from_api_grouped[df_from_api_grouped['Посетители']>=3]
df_from_api_filtered.describe()
df_from_api_filtered.to_csv('___df_from_api_filtered_corre.csv', encoding='windows-1251')

In [14]:
df_from_api_filtered = df_from_api_filtered.rename(columns={'Модель устройства': 'mobilePhoneModel',
    'Производитель устройства': 'mobilePhone','Тип устройства': 'deviceCategory','Посетители': 'users'})

In [15]:
df_merged = df_from_api_filtered.merge(df_from_csv, how = 'left', on = ['deviceCategory','mobilePhone','mobilePhoneModel'])

In [16]:
pd.options.display.max_rows = 1000

In [17]:
df_merged

Unnamed: 0,deviceCategory,mobilePhone,mobilePhoneModel,users,revenue
0,ПК,Не определено,Не определено,2715,2667.568827
1,Планшеты,Apple,iPad,96,95.151215
2,Планшеты,Explay,sQuad 7.82 3G,5,3.993469
3,Планшеты,Google,Nexus 7,3,1.80194
4,Планшеты,Huawei,AGS-L09,7,8.158945
5,Планшеты,Lenovo,Lenovo A7600-H,9,7.340611
6,Планшеты,Lenovo,Lenovo TAB 2 A7-30DC,3,2.425286
7,Планшеты,Lenovo,Lenovo TAB 2 A7-30HC,6,5.150511
8,Планшеты,Lenovo,Lenovo TB2-X30L,10,7.452422
9,Планшеты,Lenovo,Lenovo TB3-730X,3,2.273233


In [18]:
#df_merged.to_csv('df_merged_2.csv', encoding='windows-1251')

In [19]:
df_merged['ARPU'] = df_merged['revenue'] / df_merged['users']
df_merged.sort_values(by=['ARPU'])

Unnamed: 0,deviceCategory,mobilePhone,mobilePhoneModel,users,revenue,ARPU
139,Смартфоны,Meizu,m2 note,3,1.027,0.342333
138,Смартфоны,Meizu,U20 Plus,3,1.165729,0.388576
135,Смартфоны,Meizu,MZ-m3 note,4,1.63461,0.408653
205,Смартфоны,Tele2,Tele2_Mini,3,1.253665,0.417888
121,Смартфоны,Lenovo,Lenovo P1ma40,5,2.177284,0.435457
144,Смартфоны,Micromax,Micromax Q415,5,2.192824,0.438565
131,Смартфоны,Meizu,MZ-M3s,10,4.498187,0.449819
26,Смартфоны,ASUS,ASUS_Z00VD,5,2.249746,0.449949
30,Смартфоны,ASUS,ZB501KL,5,2.256678,0.451336
31,Смартфоны,ASUS,ZB551KL,3,1.359117,0.453039


Результат: 	Huawei	AGS-L09	