In [1]:
%%HTML
<button onclick="$('.input, .prompt, .output_stderr, .output_error, .output_result').toggle();">隐藏/显示代码</button>

In [2]:
from sqlalchemy import create_engine
import numpy as np
import pandas as pd
from feature_selector import FeatureSelector

from plotly.offline import init_notebook_mode, iplot
from plotly.figure_factory import create_table
from plotly.graph_objs import Scatter, Bar, Pie, Layout, Box, Heatmap

In [3]:
# 启用notebook模式
init_notebook_mode(connected=True)

In [4]:
# 连接数据库
engine = create_engine('mysql+pymysql://root:root@localhost:3306/game_data?charset=utf8')

In [5]:
# 创建连接
conn = engine.connect()

# 追踪部落联盟中的高氪玩家

# 一、背景介绍

《野蛮时代》（Brutal Age）是一款SLG类型手机游戏，通过分析玩家在游戏内前7日的行为数据，能够准确了解每个玩家的价值，对游戏的广告投放策略和高效的运营活动（如精准的促销活动和礼包推荐）具有重要意义，有助于给玩家带来更个性化的体验。

比赛详情见：[游戏玩家付费金额预测大赛](http://www.dcjingsai.com/common/cmpt/游戏玩家付费金额预测大赛_竞赛信息.html)

# 二、分析目标

通过分析新注册玩家7日内行为数据，探索可能影响玩家45日内消费的行为特征，分析主要包括以下四大块内容：
- 新增玩家总体分析
- 玩家付费情况分析
- 玩家活跃度分析
- 付费玩家游戏内行为分析

# 三、主要结论

1.新增玩家总体分析
- 在2018-01-26至2018-03-06区间，共2288007名新注册玩家，期间45988玩家在注册后45天内产生付费行为，45天付费率为2.01%，其中最高付费金额高达32977.81元。
- 期间注册数整体趋势处于下滑状态；几次注册小高峰集中在周四和周日；2018-2-19注册人数达到最高分，但付费率明显低于其他时间点。

2.玩家付费情况分析
- 2018-01-26至2018-03-06期间注册的玩家在45天内产生总收入为4102730.11元，其中ARPU为1.79元，ARPPU为1.79元。
- 当前该款游戏随着时间推移，一方面，期间注册的玩家多数仍然以100元以内付费为主，同时能吸引一部分玩家后期持续付费。另一方面，1000-10000元的玩家尽管人数占比不大，但确是整个游戏的最大收入来源群体。后期应当多考虑从其他消费水平较低群体转化成这类消费群体，同时要尽量保证这类群体不被流失。
- 从另外一个维度来看，注册7日内有消费行为后，尽管后续只有1/3的人继续付费，但这类玩家群体是核心收入群体。

3.玩家活跃度分析
- 期间注册的玩家7日平均在线时长为10.21分钟。其中，未付费玩家的平均在线时长为7.59分钟，付费玩家平均在线时长为137.74分钟。
- 前7日玩家平均在线时长一定程度上会影响到玩家持续付费行为和消费能力。越是高消费的群体，在前7日的在线时长越稳定。

4.付费玩家游戏内行为分析

影响玩家付费能力的可能因素包括：
- PVP主动发起占比和PVP的胜率
- 前7日象牙、魔法的消耗量
- 前7日士兵消耗量
- 前7日士兵恢复量
- 前7日的加速道具消耗比
- 要塞等级
- 其他建筑等级，包括治疗小井等级、据点传送门等级、士兵小屋等级、兵营等级、治疗之泉等级、战争大厅等级、仓库等级、联盟货车等级等
- 科研等级，包括训练速度等级、部队防御等

# 四、特征及思路介绍

## Ⅰ.特征分类

训练数据共包括109个特征，结合实际游戏业务情况，可分为四部分：

![特征分类](./pic/特征分类.png)

## Ⅱ.分析框架

![分析框架](./pic/分析框架.png)

# 五、详细分析

## Ⅰ.新增玩家总体分析

In [6]:
# 时间区间/新增玩家数AU/新增付费玩家数PU/付费率PUR/最高付费
generalinfo_script = 'SELECT MIN(register_time), MAX(register_time), COUNT(DISTINCT user_id) AS ActiveUser, SUM(IF(prediction_pay_price>0, 1, 0)) AS PayingUser, AVG(IF(prediction_pay_price>0, 1, 0)) AS PUR45, MAX(prediction_pay_price) AS MaxPUR45 FROM tap4fun'
generalinfo = conn.execute(generalinfo_script).fetchall()[0]

print('在{}至{}区间，共{}名新注册玩家，期间{}玩家在注册后45天内产生付费行为，45天付费率为{}%，其中最高付费金额高达{}元。'.format(
    generalinfo[0].date(), generalinfo[1].date(), generalinfo[2], generalinfo[3], round(generalinfo[4]*100, 2), generalinfo[5]))

在2018-01-26至2018-03-06区间，共2288007名新注册玩家，期间45988玩家在注册后45天内产生付费行为，45天付费率为2.01%，其中最高付费金额高达32977.81元。


In [7]:
# 玩家付费分布（按日维度）：注册数/付费率
dnu_dpur_script = 'SELECT DATE(register_time) AS rt, COUNT(DISTINCT user_id) AS au, AVG(IF(prediction_pay_price>0,1,0)) AS pur45 FROM tap4fun GROUP BY DATE(register_time)'
dnu_dpur = conn.execute(dnu_dpur_script).fetchall()

df_dnu_dpur = pd.DataFrame(dnu_dpur, columns=['date', 'au', 'pur'])
line_au = Scatter(x=df_dnu_dpur.date, y=df_dnu_dpur.au, name="注册数")
bar_pur = Bar(x=df_dnu_dpur.date, y=df_dnu_dpur.pur, name='付费率', yaxis='y2', marker=dict(color = 'rgb(189,189,189)'))


layout = Layout(title="玩家45天内付费分布",
                xaxis=dict(title='日期'),
                yaxis=dict(title='注册数',range=[20000, 120000]),
                yaxis2=dict(title='付费率', overlaying='y', side='right', range=[0, 0.2]),
                legend=dict(x=0.8, y=1.15))

fig = dict(data=[line_au, bar_pur], layout=layout)
iplot(fig)

In [8]:
print('从每日注册数和每日付费情况来看，有以下3点规律：')
print('1.{}到{}之间，注册数整体趋势在下滑；'.format(generalinfo[0].date(), generalinfo[1].date()))
print('2.除掉2月19日外，其他几次注册小高峰集中在周四和周日，猜测每周四和周日有做推广活动；')
print('3.2月19日注册数高达{}万，可能是春节效应或推广活动，但当日注册玩家在45天内的付费率明显低于其他时间点，仅0.99%的付费率；'.format(round(df_dnu_dpur.au.max()/10000, 1)))

从每日注册数和每日付费情况来看，有以下3点规律：
1.2018-01-26到2018-03-06之间，注册数整体趋势在下滑；
2.除掉2月19日外，其他几次注册小高峰集中在周四和周日，猜测每周四和周日有做推广活动；
3.2月19日注册数高达11.7万，可能是春节效应或推广活动，但当日注册玩家在45天内的付费率明显低于其他时间点，仅0.99%的付费率；


## Ⅱ.玩家付费情况分析

In [9]:
# 总收入/ARPU/ARPPU
payinfo_script = 'SELECT SUM(prediction_pay_price) AS arpu, SUM(prediction_pay_price)/COUNT(DISTINCT user_id) AS arppu, SUM(prediction_pay_price)/COUNT(IF(prediction_pay_price>0,1,0))  FROM tap4fun'
payinfo = conn.execute(payinfo_script).fetchall()[0]

print('{}至{}期间注册的玩家在45天内产生总收入为{}元，其中ARPU为{}元，ARPPU为{}元。'.format(
    generalinfo[0].date(), generalinfo[1].date(), round(payinfo[0], 2), round(payinfo[1], 2), round(payinfo[2], 2)))

2018-01-26至2018-03-06期间注册的玩家在45天内产生总收入为4102730.11元，其中ARPU为1.79元，ARPPU为1.79元。


注：
1. ARPU = 期间注册的玩家在注册后45天内产生总收入/该期间注册的总玩家数
2. ARPPU = 期间注册的玩家在注册后45天内产生总收入/该期间注册后45天内有付费行为的玩家数
3. 期间范围指的是2018-01-26至2018-03-06之间

In [10]:
# 提取7日和45日付费相关数据
revenue_dis_script = 'SELECT user_id, register_time, avg_online_minutes, pay_price, prediction_pay_price FROM tap4fun'
revenue_dis = conn.execute(revenue_dis_script).fetchall()
df_revenue_dis = pd.DataFrame(revenue_dis, columns=['user_id', 'register_time', 'avg_online_minutes', 'pay_price', 'prediction_pay_price'])

In [11]:
# 付费玩家消费结构分布（消费区间维度）
df_pay_dis7 = df_revenue_dis[df_revenue_dis['pay_price']>0].copy()
df_pay_dis45 = df_revenue_dis[df_revenue_dis['prediction_pay_price']>0].copy()

cut_labels = ['1元以下', '1-10元', '10-100元', '100-1000元', '1000元以上']
df_pay_dis7['cut_label'] = pd.cut(df_pay_dis7.pay_price, bins=[0, 1, 10, 100, 1000, df_pay_dis7.pay_price.max()+1], labels=cut_labels, include_lowest=True, right=False)
df_pay_dis45['cut_label'] = pd.cut(df_pay_dis45.prediction_pay_price, bins=[0, 1, 10, 100, 1000, df_pay_dis45.prediction_pay_price.max()+1], labels=cut_labels, include_lowest=True, right=False)

pay_dis7_group = round(df_pay_dis7.groupby('cut_label').size()/df_pay_dis7.shape[0], 4)
pay_dis45_group = round(df_pay_dis45.groupby('cut_label').size()/df_pay_dis45.shape[0], 4)

text7 = [str(round(i,2))+'%' for i in pay_dis7_group.values*100]
bar_pay7 = Bar(x=pay_dis7_group.index, y=pay_dis7_group.values, text=text7, textposition = 'auto', name='前7天')

text45 = [str(round(i,2))+'%' for i in pay_dis45_group.values*100]
bar_pay45 = Bar(x=pay_dis45_group.index, y=pay_dis45_group.values, text=text45, textposition = 'auto', name='前45天')

layout = Layout(title="付费玩家消费结构分布",
                xaxis=dict(title='消费区间'),
                yaxis=dict(title='付费玩家占比'),
                barmode='group')

fig = dict(data=[bar_pay45, bar_pay7], layout=layout)
iplot(fig)

对比付费结构分布图，在注册后7天和注册后45天的变化，有以下两点结论：
- 对比7天和45天内的付费情况，100元以内付费玩家结构变化较小。也就是说在注册45天内，期间注册的这批玩家还是以100元以内付费为主。
- 另一方面，期间注册45天内付费在100元以上的玩家比起前7天，有明显上涨。说明当前该款游戏随着时间推移，能吸引一部分玩家后期持续付费。

In [12]:
# 付费玩家消费贡献分布（消费区间维度）
cut_labels = ['1元以下', '1-10元', '10-100元', '100-1000元', '1000-10000元', '10000元以上']
df_pay_dis45['cut_label'] = pd.cut(df_pay_dis45.prediction_pay_price, bins=[0, 1, 10, 100, 1000, 10000, df_pay_dis45.prediction_pay_price.max()+1], labels=cut_labels, include_lowest=True, right=False)

pay_dis45_group = round(df_pay_dis45.groupby('cut_label')['prediction_pay_price'].sum()/df_pay_dis45.prediction_pay_price.sum(), 4)

text = [str(round(i,2))+'%' for i in pay_dis45_group.values*100]
pie_pay45 = Pie(labels=pay_dis45_group.index, values=pay_dis45_group.values)

layout = Layout(title="付费玩家消费贡献分布",
                xaxis=dict(title='消费区间'),
                yaxis=dict(title='付费贡献率'))

fig = dict(data=[pie_pay45], layout=layout)
iplot(fig)

In [13]:
print('从付费玩家收入贡献分布角度来看，期间内注册玩家在45天内的总收入中，消费水平在{}的玩家贡献了期间{}%的营收。由此可见，{}的玩家尽管人数占比不大，但确是整个游戏的最大收入来源群体。后期应当多考虑从其他消费水平较低群体转化成这类消费群体，同时要尽量保证这类群体不被流失。'.format(
    pay_dis45_group.idxmax(), round(100*pay_dis45_group.max(), 2), pay_dis45_group.idxmax()))

从付费玩家收入贡献分布角度来看，期间内注册玩家在45天内的总收入中，消费水平在1000-10000元的玩家贡献了期间48.13%的营收。由此可见，1000-10000元的玩家尽管人数占比不大，但确是整个游戏的最大收入来源群体。后期应当多考虑从其他消费水平较低群体转化成这类消费群体，同时要尽量保证这类群体不被流失。


In [14]:
# 付费玩家消费/贡献分布（消费行为维度）
df_pay_dis45['is_pay7'] = df_pay_dis45.pay_price.map(lambda x: '7日内付费' if x>0 else '7日未付费')
df_pay_dis45['is_pay45'] = (df_pay_dis45.prediction_pay_price-df_pay_dis45.pay_price).map(lambda x: '7-45日付费' if x>0 else '7-45日未付费')

pay_flow = df_pay_dis45.groupby(['is_pay7', 'is_pay45']).agg(
    {'user_id':'count', 'prediction_pay_price':'sum',}).reset_index().copy()
pay_flow['user_count_ratio'] = (pay_flow['user_id']/pay_flow['user_id'].sum()).map(
    lambda x: round(x*100, 1))
pay_flow['pay_price_ratio'] = (pay_flow['prediction_pay_price']/pay_flow['prediction_pay_price'].sum()).map(
    lambda x: round(x*100, 1))

In [15]:
top_labels = ['{}<br>{}'.format(is_pay7, is_pay45) for is_pay7, is_pay45 in zip(pay_flow.is_pay7, pay_flow.is_pay45)]

colors = ['rgba(38, 24, 74, 0.8)', 'rgba(71, 58, 131, 0.8)', 'rgba(122, 120, 168, 0.8)']

x_data = [pay_flow.pay_price_ratio,
          pay_flow.user_count_ratio.tolist()]

y_data = ['付费贡献率','付费玩家占比']


traces = []

for i in range(0, len(x_data[0])):
    for xd, yd in zip(x_data, y_data):
        traces.append(Bar(
            x=[xd[i]],
            y=[yd],
            orientation='h',
            marker=dict(
                color=colors[i],
                line=dict(
                        color='rgb(248, 248, 249)',
                        width=1)
            )
        ))

layout = Layout(
    title = "付费玩家消费/贡献分布",
    xaxis=dict(
        showgrid=False,
        showline=False,
        showticklabels=False,
        zeroline=False,
        domain=[0.15, 1]
    ),
    yaxis=dict(
        showgrid=False,
        showline=False,
        showticklabels=False,
        zeroline=False,
    ),
    barmode='stack',
#     paper_bgcolor='rgb(248, 248, 255)',
#     plot_bgcolor='rgb(248, 248, 255)',
    margin=dict(
        l=120,
        r=10,
        t=140,
        b=80
    ),
    showlegend=False,
)

annotations = []

for yd, xd in zip(y_data, x_data):
    # labeling the y-axis
    annotations.append(dict(xref='paper', yref='y',
                            x=0.14, y=yd,
                            xanchor='right',
                            text=str(yd),
                            font=dict(family='Arial', size=12,
                                      color='rgb(67, 67, 67)'),
                            showarrow=False, align='right'))
    # labeling the first percentage of each bar (x_axis)
    annotations.append(dict(xref='x', yref='y',
                            x=xd[0] / 2, y=yd,
                            text=str(xd[0]) + '%',
                            font=dict(family='Arial', size=12,
                                      color='rgb(248, 248, 255)'),
                            showarrow=False))
    # labeling the first Likert scale (on the top)
    if yd == y_data[-1]:
        annotations.append(dict(xref='x', yref='paper',
                                x=xd[0] / 2, y=1.1,
                                text=top_labels[0],
                                font=dict(family='Arial', size=12,
                                          color='rgb(67, 67, 67)'),
                                showarrow=False))
    space = xd[0]
    for i in range(1, len(xd)):
            # labeling the rest of percentages for each bar (x_axis)
            annotations.append(dict(xref='x', yref='y',
                                    x=space + (xd[i]/2), y=yd, 
                                    text=str(xd[i]) + '%',
                                    font=dict(family='Arial', size=12,
                                              color='rgb(248, 248, 255)'),
                                    showarrow=False))
            # labeling the Likert scale
            if yd == y_data[-1]:
                annotations.append(dict(xref='x', yref='paper',
                                        x=space + (xd[i]/2), y=1.1,
                                        text=top_labels[i],
                                        font=dict(family='Arial', size=12,
                                                  color='rgb(67, 67, 67)'),
                                        showarrow=False))
            space += xd[i]

            
layout['annotations'] = annotations

fig = dict(data=traces, layout=layout)
iplot(fig)

从付费流水走向维度来看，前7天付款，后续再消费的玩家，占付费玩家数的24.6%，消费贡献却达到87.1%。说明注册7日内有消费行为后，尽管后续只有1/3的人继续付费，但这类玩家群体（指注册7日内且7日后又有消费行为的玩家）是核心收入群体。

## Ⅲ.玩家活跃度分析

In [16]:
# 总体平均在线时长
online_minutes_script = 'SELECT AVG(avg_online_minutes), AVG(avg_online_minutes) FROM tap4fun'
online_minutes = conn.execute(online_minutes_script).fetchall()[0][0]

# 未付费玩家在线时长/付费玩家在线时长
gb_online_minutes_script = 'SELECT IF(prediction_pay_price>0, "paying", "unpaying") AS payuser, AVG(avg_online_minutes) FROM tap4fun GROUP BY payuser'
gb_online_minutes = conn.execute(gb_online_minutes_script).fetchall()

print('在{}到{}期间注册的玩家7日平均在线时长为{}分钟。其中，未付费玩家的平均在线时长为{}分钟，付费玩家平均在线时长为{}分钟。'.format(
    generalinfo[0].date(), generalinfo[1].date(), round(online_minutes, 2),
    round(gb_online_minutes[1][1], 2), round(gb_online_minutes[0][1], 2)))

在2018-01-26到2018-03-06期间注册的玩家7日平均在线时长为10.21分钟。其中，未付费玩家的平均在线时长为7.59分钟，付费玩家平均在线时长为137.74分钟。


In [17]:
# 玩家平均在线时长维度分析（消费行为维度）
df_revenue_dis['first_pay'] = df_revenue_dis['pay_price'].map(lambda x:int(x>0))
df_revenue_dis['second_pay'] = (df_revenue_dis['prediction_pay_price'] - df_revenue_dis['pay_price']).map(lambda x: 2*int(x>0))
df_revenue_dis['pay_action'] = (df_revenue_dis['first_pay']+df_revenue_dis['second_pay']).map(
    {0:'未付费',1:'7日内付费<br>7-45未付费',2:'7日内未付费<br>7-45付费',3:'7日内付费<br>且7-45付费'})

data = []
for i in df_revenue_dis.pay_action.unique():
    y_ = df_revenue_dis['avg_online_minutes'][df_revenue_dis['pay_action']==i]
    y_ = y_.sample(50000) if y_.shape[0]>50000 else y_
    trace = Box(
        y=y_,
        name = i
    )
    data.append(trace)

        
layout={"title":"不同消费行为玩家的平均在线时长"}

iplot(dict(data = data,layout = layout))

按玩家消费行为维度划分四类，可以看出：
- 注册7日前后均有付费行为的玩家，在前7日的平均在线时长明显高于其他消费行为玩家群体。说明前7日玩家平均在线时长一定程度上会影响到玩家持续付费行为。
- 从未付费的玩家群体，在前7日的平均在线时长表现就相对较低，可能在前7日的游戏体验上并没有留住这些玩家，上线玩一阵子就直接流失。

In [18]:
# 玩家平均在线时长维度分析（消费类型维度）
cut_labels = ['未付费玩家', '小鱼玩家', '海豚玩家', '鲸鱼玩家']
df_revenue_dis['cut_label'] = pd.cut(df_revenue_dis.prediction_pay_price, bins=[0, 0.01, 100, 1000, df_pay_dis45.prediction_pay_price.max()+1], labels=cut_labels, include_lowest=True, right=False)

data = []
for i in df_revenue_dis.cut_label.unique():
    y_ = df_revenue_dis['avg_online_minutes'][df_revenue_dis['cut_label']==i]
    y_ = y_.sample(50000) if y_.shape[0]>50000 else y_
    trace = Box(
        y=y_,
        name = i
    )
    data.append(trace)

        
layout={"title":"不同消费等级玩家的平均在线时长"}

iplot(dict(data = data,layout = layout))

按玩家消费等级分成四大类，不难看出：
- 前7日的平均在线时长排名依次是：鲸鱼玩家>海豚玩家>小鱼玩家>未付费玩家。因此玩家前7日的平均在线时长一定程度上决定玩家的消费能力。
- 从偏度和离散程度两个角度分别来看，鲸鱼玩家的平均在线时长显得更集中更正态化，说明越是高消费的群体，在前7日的在线时长越稳定。

关于消费等级玩家的定义如下：
1. 鲸鱼玩家：45日消费金额在1000元（含1000元）以上
2. 海豚玩家：45日消费金额在100-1000元之间（含100元，不含1000元）
3. 小鱼玩家：45日消费金额在0-100元之间（不含0元和100元）
4. 未付费玩家：45日消费金额为0

## Ⅳ.付费玩家游戏内行为分析

In [19]:
# pvp/pve情况分析（消费等级维度）
pvp_pve_script = 'SELECT prediction_pay_price, pvp_lanch_count/(pvp_battle_count+0.0001), pvp_win_count/(pvp_battle_count+0.0001), pve_lanch_count/(pve_battle_count+0.0001), pve_win_count/(pve_battle_count+0.0001) FROM tap4fun'
pvp_pve = conn.execute(pvp_pve_script).fetchall()

df_pvp_pve = pd.DataFrame(pvp_pve, columns=['prediction_pay_price', 'pvp_launch_rate', 'pvp_win_rate', 'pve_launch_rate', 'pve_win_rate'], dtype='float')

In [20]:
cut_labels = ['未付费玩家', '小鱼玩家', '海豚玩家', '鲸鱼玩家']
df_pvp_pve['cut_label'] = pd.cut(df_pvp_pve.prediction_pay_price, bins=[0, 0.01, 100, 1000, df_pvp_pve.prediction_pay_price.max()+1], labels=cut_labels, include_lowest=True, right=False)
df_pv_melt = df_pvp_pve.melt(id_vars=['prediction_pay_price', 'cut_label'], var_name='pv_type', value_name='rate')

data = []
for i in df_pv_melt.cut_label.unique():
    df_pv_melt_ = df_pv_melt[df_pv_melt['cut_label']==i]
    df_pv_melt_ = df_pv_melt_.sample(10000) if df_pv_melt_.shape[0]>160000 else df_pv_melt_
    trace = Box(
        y=df_pv_melt_['rate'],
        x=df_pv_melt_['pv_type'],
        name = i
    )
    data.append(trace)

        
layout=dict(title='不同消费等级玩家PVP/PVE情况',
            boxmode='group',
            yaxis=dict(
            title='占比',
            zeroline=False)
           )
iplot(dict(data = data,layout = layout))

对比不同消费等级玩家PVP/PVE情况，可以看出：
- 前7日PVP，消费等级高的玩家，不论在主动发起频率还是胜率，都有比较高占比。说明付费能力越强的玩家，在PVP主动发起占比和PVP的胜率都有优势。
- 前7日PVE，不同的消费等级，不论在主动发起频率还是胜率，并没有明显的差异。
- 对于未付费的玩家，不论是在PVE还是PVP，分布相对于付费玩家更分散。

In [21]:
# 资源消耗情况分析（消费等级维度）
reduce_ratio_script = 'SELECT (CASE WHEN prediction_pay_price>=1000 THEN "鲸鱼玩家" WHEN prediction_pay_price>=100 THEN "海豚玩家" WHEN prediction_pay_price>0 THEN "小鱼玩家" ELSE "未付费玩家" END) AS cutlabel, SUM(wood_reduce_value)/SUM(wood_add_value), SUM(stone_reduce_value)/SUM(stone_add_value), SUM(ivory_reduce_value)/SUM(ivory_add_value), SUM(meat_reduce_value)/SUM(meat_add_value), SUM(magic_reduce_value)/SUM(magic_add_value) FROM tap4fun GROUP BY cutlabel'
reduce_ratio = conn.execute(reduce_ratio_script).fetchall()

df_reduce_ratio = pd.DataFrame(reduce_ratio, columns=['cutlabel', '木材消耗比', '石头消耗比', '象牙消耗比', '肉消耗比', '魔法消耗比'], dtype='float').melt(id_vars='cutlabel', var_name='resource_type', value_name='ratio')

data = []
for i in df_reduce_ratio.cutlabel.unique():
    text = [str(round(i,1))+'%' for i in df_reduce_ratio[df_reduce_ratio['cutlabel']==i]['ratio']*100]
    trace = Bar(x=df_reduce_ratio[df_reduce_ratio['cutlabel']==i]['resource_type'], y=df_reduce_ratio[df_reduce_ratio['cutlabel']==i]['ratio'], text=text, textposition = 'auto', name=i)
    data.append(trace)

layout = Layout(title="不同消费等级玩家资源消耗比",
                xaxis=dict(title='资源名称'),
                yaxis=dict(title='资源消耗比'),
                barmode='group')

fig = dict(data=data, layout=layout)
iplot(fig)

从图中明显可以看出：
- 除了象牙类和魔法资源使用率差别很大之外，其它的资源（如木材、石头、肉）使用率差别不大。说明付费能力越是强玩家，对于象牙、魔法的前7日消耗量就越大。
- 注册前7日玩家对木头及石头的使用率较高

In [22]:
# 不同消费等级玩家的资产消耗情况：士兵消耗
soldier_ratio_script = 'SELECT (CASE WHEN prediction_pay_price>=1000 THEN "鲸鱼玩家" WHEN prediction_pay_price>=100 THEN "海豚玩家" WHEN prediction_pay_price>0 THEN "小鱼玩家" ELSE "未付费玩家" END) AS cutlabel, SUM(infantry_reduce_value)/SUM(infantry_add_value), SUM(cavalry_reduce_value)/SUM(cavalry_add_value), SUM(shaman_reduce_value)/SUM(shaman_add_value) FROM tap4fun GROUP BY cutlabel'
soldier_ratio = conn.execute(soldier_ratio_script).fetchall()

df_soldier_ratio = pd.DataFrame(soldier_ratio, columns=['cutlabel', '勇士消耗比', '驯兽师消耗比', '萨满消耗比'], dtype='float').melt(id_vars='cutlabel', var_name='soldier_type', value_name='ratio')

data = []
for i in df_soldier_ratio.cutlabel.unique():
    text = [str(round(i,1))+'%' for i in df_soldier_ratio[df_soldier_ratio['cutlabel']==i]['ratio']*100]
    trace = Bar(x=df_soldier_ratio[df_soldier_ratio['cutlabel']==i]['soldier_type'], y=df_soldier_ratio[df_soldier_ratio['cutlabel']==i]['ratio'], text=text, textposition = 'auto', name=i)
    data.append(trace)

layout = Layout(title="玩家士兵消耗比分布",
                xaxis=dict(title='士兵类型'),
                yaxis=dict(title='士兵消耗比'),
                barmode='group')

fig = dict(data=data, layout=layout)
iplot(fig)

对于不同种类的士兵消耗比情况，整体呈现出未付费玩家>小鱼玩家>海豚玩家>鲸鱼玩家。说明付费能力越是强玩家，对于士兵的前7日消耗量就越低。

In [23]:
# 不同消费等级玩家的资产消耗情况：伤兵恢复
wound_soldier_ratio_script = 'SELECT (CASE WHEN prediction_pay_price>=1000 THEN "鲸鱼玩家" WHEN prediction_pay_price>=100 THEN "海豚玩家" WHEN prediction_pay_price>0 THEN "小鱼玩家" ELSE "未付费玩家" END) AS cutlabel, SUM(wound_infantry_reduce_value)/SUM(wound_infantry_add_value), SUM(wound_cavalry_reduce_value)/SUM(wound_cavalry_add_value), SUM(wound_shaman_reduce_value)/SUM(wound_shaman_add_value) FROM tap4fun GROUP BY cutlabel'
wound_soldier_ratio = conn.execute(wound_soldier_ratio_script).fetchall()

df_wound_soldier_ratio = pd.DataFrame(wound_soldier_ratio, columns=['cutlabel', '勇士伤兵恢复比', '驯兽师伤兵恢复比', '萨满伤兵恢复比'], dtype='float').melt(id_vars='cutlabel', var_name='soldier_type', value_name='ratio')

data = []
for i in df_wound_soldier_ratio.cutlabel.unique():
    text = [str(round(i,1))+'%' for i in df_wound_soldier_ratio[df_wound_soldier_ratio['cutlabel']==i]['ratio']*100]
    trace = Bar(x=df_wound_soldier_ratio[df_wound_soldier_ratio['cutlabel']==i]['soldier_type'], y=df_wound_soldier_ratio[df_wound_soldier_ratio['cutlabel']==i]['ratio'], text=text, textposition = 'auto', name=i)
    data.append(trace)

layout = Layout(title="玩家伤兵恢复比分布",
                xaxis=dict(title='士兵类型'),
                yaxis=dict(title='伤兵恢复比'),
                barmode='group')

fig = dict(data=data, layout=layout)
iplot(fig)

对于不同种类的伤兵恢复消耗比情况，整体呈现出未付费玩家<小鱼玩家<海豚玩家<鲸鱼玩家。说明付费能力越是强玩家，对于士兵的前7日恢复量就越高。

In [24]:
# 不同消费等级玩家的资产消耗情况：加速道具
acceleration_ratio_script = 'SELECT (CASE WHEN prediction_pay_price>=1000 THEN "鲸鱼玩家" WHEN prediction_pay_price>=100 THEN "海豚玩家" WHEN prediction_pay_price>0 THEN "小鱼玩家" ELSE "未付费玩家" END) AS cutlabel, SUM(general_acceleration_reduce_value)/SUM(general_acceleration_add_value), SUM(building_acceleration_reduce_value)/SUM(building_acceleration_add_value), SUM(reaserch_acceleration_reduce_value)/SUM(reaserch_acceleration_add_value), SUM(training_acceleration_reduce_value)/SUM(training_acceleration_add_value), SUM(treatment_acceleration_reduce_value)/SUM(treatment_acceleraion_add_value) FROM tap4fun GROUP BY cutlabel'
acceleration_ratio = conn.execute(acceleration_ratio_script).fetchall()

df_acceleration_ratio = pd.DataFrame(acceleration_ratio, columns=['cutlabel', '通用加速消耗比', '建筑加速消耗比', '科研加速消耗比', '训练加速消耗比', '治疗加速消耗比'], dtype='float').melt(id_vars='cutlabel', var_name='acceleration_type', value_name='ratio')

data = []
for i in df_acceleration_ratio.cutlabel.unique():
    text = [str(round(i,1))+'%' for i in df_acceleration_ratio[df_acceleration_ratio['cutlabel']==i]['ratio']*100]
    trace = Bar(x=df_acceleration_ratio[df_acceleration_ratio['cutlabel']==i]['acceleration_type'], y=df_acceleration_ratio[df_acceleration_ratio['cutlabel']==i]['ratio'], text=text, textposition = 'auto', name=i)
    data.append(trace)

layout = Layout(title="玩家加速道具消耗比分布",
                xaxis=dict(title='加速道具类型'),
                yaxis=dict(title='加速道具消耗比'),
                barmode='group')

fig = dict(data=data, layout=layout)
iplot(fig)

对于不同种类的加速道具消耗比情况，整体呈现出未付费玩家<小鱼玩家<海豚玩家<鲸鱼玩家。说明付费能力越是强玩家，对于前7日的加速道具消耗比就越高。

In [25]:
# 要塞等级和付费率分布情况
stronghold_pur_script = 'SELECT bd_stronghold_level, COUNT(prediction_pay_price), AVG(if(prediction_pay_price>0, 1, 0)) FROM tap4fun GROUP BY bd_stronghold_level'
stronghold_pur = conn.execute(stronghold_pur_script).fetchall()

df_stronghold_pur = pd.DataFrame(stronghold_pur, columns=['bd_stronghold_level', 'user_count', 'pur'])

bar_user_count = Bar(x=df_stronghold_pur.bd_stronghold_level, y=df_stronghold_pur.user_count, name="玩家数")
line_pur = Scatter(x=df_stronghold_pur.bd_stronghold_level, y=df_stronghold_pur.pur, name='付费率', yaxis='y2')


layout = Layout(title="要塞等级付费分布",
                xaxis=dict(title='要塞等级'),
                yaxis=dict(title='玩家数'),
                yaxis2=dict(title='付费率', overlaying='y', side='right'),
                legend=dict(x=0.8, y=1.15))

fig = dict(data=[bar_user_count, line_pur], layout=layout)
iplot(fig)

单独考虑玩家前7日要塞等级和付费率的关系，如上图所示：
- 当要塞等级达到10级之后，玩家的付费意愿开始变得较高（猜测注册7日内要想要塞等级超过10级，如果不考虑付费几乎是很难达到的）。
- 另外上图还能发现大部分玩家在注册前7日停留在10级之前。综上，玩家在前7日要塞等级的高低（尤其是在10级这个坎），一定程度上决定了玩家付费意愿。

注：
- 在slg游戏中，通常会有一个核心建筑，该建筑的等级高低决定游戏内一些功能权限的数量。如在该游戏中的核心建筑就是要塞，随着要塞等级的上升，一些道具、新建筑、新玩法也会陆续开放给玩家体验。

In [28]:
# 其他影响玩家付费的特征分析：其他建筑、科研
feature_name = pd.read_excel('./input/tap4fun竞赛数据/tap4fun 数据字段解释.xlsx')[['字段名','字段解释']]
feature_importances = pd.read_csv('./output/feature_importances.csv', ).merge(
    feature_name, how='left', left_on='feature', right_on='字段名')

feature_importances['特征重要程度'] = [str(round(i,3)) for i in feature_importances.normalized_importance]
data = Bar(
            x=feature_importances.head(10)['字段解释'],
            y=feature_importances.head(10)['特征重要程度'],
            text=feature_importances.head(10)['特征重要程度'],
            textposition = 'auto'
    )

layout = Layout(title="Top 10 建筑、科研等级对玩家付费特征",
                yaxis=dict(title='特征重要程度'))

fig = dict(data=[data], layout=layout)
iplot(fig)

基于机器学习模型算法，计算其他特征对玩家注册45日的消费的初步影响，依据特征重要程度选取前10个对付费影响较大的特征，发现以下特征对付费可能存在显著的敏感度：

In [29]:
table = create_table(feature_importances[['字段解释','特征重要程度']].head(10))
iplot(table)