Skip to content

qiangsiwei/campus_wifi_onspark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

校园网移动流量挖掘

移动运营商作为互联网管道,具备天然的大数据优势,能够获取用户的所有类别的行为数据,从而可以获得更为全面的数据。通过在管道中融合云计算技术,深入挖掘这些海量数据中潜在的价值,可由流量经营向信息经营转变,并开拓新的商业模式。多数运营商对基于用户洞察的管道流量的精细化经营,提供差异化服务有明确需求,并关注新的商业模式。同时,少数主流设备商也积极推出了相应的解决方案,但是在数据挖掘方面还处于初级阶段,对用户、网络和应用信息挖掘的广度和深度有限,用户的流量数据中所蕴藏的价值还有很大的挖掘空间。

数据采集与挖掘平台

移动网络流量分析平台(MoNTAP),基于商用计算硬件和开源分析软件建立,如图所示。MoNTAP通过分析从网路边界核心路由器里镜像出来的流量,获取网络流粒度的统计及DPI数据。MoNTAP支持多种流分析客户端并行或分布式工作,具有较强的可扩展性。MoNTAP主要包括两个模块:流量管理模块和流量挖掘模块。流量管理模块主要负责流量获取、过滤、以及复制分发;其包含两个子模块: 流量过滤器和流量分发器。流量过滤器基于规则建立,每条规则可按照四元组(源地址,源端口,目的地址,目的端口)对流量进行匹配,对满足规则的流向上层转发,否则丢弃。流量分发器通过复制、将同一份网络数据分发到不同网络端口,每个端口对应着上层的流处理客户端。对于流量分发器而言,高速的流复制转发对系统资源消耗巨大,通常操作系统所采用的内核态到用户态的复制操作是主要的瓶颈,因此采用网络处理器设备进行分发操作,由于采用“零拷贝”操作将工作量分散到网络处理器设备,对主机资源的开销降到最小。流量挖掘模块包含了多个网络流处理客户端,这些客户端理论上可位于同一个主机或分布式系统上;每个客户端根据需求可进行相应的挖掘分析。各个客户端数据的结果,将被发送到联合分析中心进行处理,在这里首先需要采用数据融合技术对数据进行纠错、去冗余、关联等操作,进而用于上层分析。MoNTAP平台具有以下几个优点:采用被动测量方法,对网络管理和用于均无感知;支持双向流识别和解析,保证了会话的完整性和准确性;支持多端口流量复制和分发,具有较强的可扩展性。

Alt Text

面对海量数据存储和分析,普通的单机的方法不再适用,需要采用特殊的技术,例如Hadoop、HDFS等对离线数据进行分析与存储。如图是采用的Hadoop分析平台的框架,主要包括数据搜集(客户端信息由于数据来源问题并未搜集)、数据关联、数据序列化、用户行为分析等。

Alt Text

用户属性识别

从以门户网站为代表的Web1.0到以购物和社交网站为代表的Web2.0,服务提供商和运营商正在逐步从大众市场转向了个人客户,而个人客户的个人喜好的行为习惯通常差异很大,因此,面向大众市场一概而论的服务方式不再适合,只有考虑到用户的个人身份,包括用户的基本属性,例如用户的性别、年龄、工作等,以及用户的偏好,例如购买倾向、购买力,用户行为,例如在社交网站的行为等,才能给不用的客户提供个性化、差异化的服务,才能更加博得用户的青睐。

用户的特征通常体现在多个而非单个维度,例如用户访问网站的偏好性,以及在不用网站中的行为,例如在购物网站中的购物记录,或在社交网站中的社交关系等,都从不同侧片反应出用户的不同特征,同时,在移动互联网环境下用户所处的带有语义特征的位置记录,也能很好的反映出用户的某些特征。在本课题中,主要通过搜集和关联移动网络中用户带有语义的位置记录和上网记录,对用户按其基本属性,例如性别、年龄等,进行预测和分类。

针对Wi-Fi用户的基本属性的预测和分类问题,可将其细分成3个子问题,即对每个用户进行性别、年龄、学院单独的预测和分类,其中学院一共选取了5个人数较多的学院。用户数在每个子问题的每个类别的分布情况如图,可见三个子分类问题都是不平衡分类问题。

Alt Text

如图所示的箱线图给出了用户所能观测到的时长在一天24小时内的变化情况,如果用户不在任何AP的覆盖范围内,或没有连接任何AP,则不能预知用户的位置和网络行为情况。观测时间越长越有助于获取用户行为。图中的红线则显示了用户上网时间的情况,只有用户成功获取了IP并且发出了HTTP包才表示用户正在使用校园Wi-Fi网络。

Alt Text

如图所示是对HTTP域名和类型的统计。从左图可以看出域名和类型都具有长尾分布,Top500的HTTP域名大概覆盖了70%的HTTP流,Top200的HTTP类型大概覆盖了70%的HTTP流。从右图可以看出通过汇聚后Top前5的应用主要包括了renren、baidu、sina、QQ、taobao等,其总覆盖程度超过了HTTP流总数的50%,而Top前10的HTTP类型主要包括了图片,例如jpeg、gif、png等,文本类型,例如text/html、text/plain,以及json、javascript等主流类型。

Alt Text

如图所示是对关键词分布的统计信息,一个用户可能使用多个关键词,而相同的关键词可能被多个不同用户使用。左图是对使用每个关键词的不同用户的个数进行统计并排序,横坐标是关键词的排序序列,纵坐标是使用这个关键词的不同用户的个数,右图是对每个用户所使用不同关键词的数量进行统计并排序,横坐标是用户的排序序列,纵坐标是用户使用关键词的个数,如图所示,两者分布均服从长尾分布。

Alt Text

针对前文所诉的三个部分信息,即:用户的位置信息、用户的网络行为、用户的语义信息,经过特征提取、数据清洗、特征降维之后,可以分别建立三个独立的子分类器,为了提高最后对用户属性预测和分类的准确度,可以对三个子分类器的输出结果进行综合分析,得出最终的预测和分类结果,最后采用交叉验证的方法进行准确率验证。整个预测与分类算法的数据流如图所示。

由于基于不同机器学习方法的分类器的分类性能有一定的差别,因此采用了包括Decision Tree(决策树)、Random Forest(随机森林)、 SVM(支持向量机)、Gradient Tree(梯度提升树)、Naive Bayes(朴素贝叶斯)等多种方法,并对其预测的准确率进行比较,其中前4种用于用户位置信息以及用户网络行为的子分类模型,朴素贝叶斯则用于用户语义的子分类模型。

Alt Text

如图所示的是年龄与带有语义属性的位置信息间的散点图矩阵分析,主要比较了不同年龄的人在带有不同语义属性的地点之间的停留时长(秒/小时),不同语义属性的地点主要包括了实验室(Acad)、教学区(Teach)、图书馆(Lib)、社交活动区(Soc)、体育馆(Ath)。图中处于非对角线区域的散点图,表示了两两地点之间停留时长的比较,由图中可见年龄区间在小于等于20的低年级本科生更倾向于去教室区上课,而年龄区间在大于等于23的研究生和博士生则更倾向于去实验室,与实际情况相符合,同时,处于对角线区域的密度图显示了用户在各个地点停留时长的分布情况,其中教学区用户停留时长的分布具有两个峰值,可能是由于本科生和研究生的课时长度差异所导致的。

Alt Text

如图所示是用户性别与关键词的贝叶斯概率分析。在用户语义分析中,特征属性即某个关键词的用户使用频率,图中给出了每个关键词对应不同类别的后验概率,说明了不同性别的用户所使用关键词的倾向性,从图10中可以看出女生更倾向于旅游类型的关键词如“西湖”、健康类型的关键词如“维生素”、“减肥”,购物类型的关键词如“专卖店”等,而男生则更倾向于体育类型的关键词如“游戏”、“直播”、“阿森纳”等。

Alt Text

针对不同子问题采用不同数据来源的数据的不同分类器的分类准确率如表9所示,实验证明在用户位置信息、用户网络行为的子分类模型中,SVM在各个子分类问题中都具有较高的准确度。

Alt Text

如图左侧是特征维度对预测和分类的准确率的影响,可以看到不同维度的数据得到的预测和分类准确率具有差异,同时,少量的维度特征已经能够达到一定的准确率,而随维度提升准确率整体趋势有一定提高但逐渐递减。

Alt Text

如表列举出了与各个子分类问题相关的重要特征。

Alt Text

各个子分类器及综合模型在各个子分类问题上的预测准确率如图所示。可见在性别分类子问题上用户的语义特征更为重要,在年龄分类子问题上位置信息和网络行为特征都较为重要,而在学院分类子问题上位置信息占主导地位,其他子分类器效果相对较差;同时,经过综合模块的综合分析后,各个子分类问题的准确率均有一定提升,最后的分类准确度在性别、年龄、学院这三个子分类问题上分别是84.91%、84.91%、81.98%。

Alt Text

如表给出了性别、年龄、学院3个子分类问题不同类别预测的准确度(Precision)、召回率(Recall)、综合评价指标(F-measure)的特性。

Alt Text

用户移动性研究

当前无线网络和移动应用的快速发展和迭代,为用户个性化的服务提供了前所未有的机遇和挑战。机遇在于,包含用户丰富个性化的信息开始出现并变得可控可管,为建立准确的用户行为模型提供了可靠的数据基础和现实依据;挑战同样存在,用户行为具有高维度的复杂特征,这些特征在数据收集过程中被分割并以异构的形式保存下来,这给用户行为挖掘带来了极大的挑战。作为移动特征中最突出的位置特征,其挖掘和预测的问题在网络管理、服务配置、信息推荐等方面应用广泛,因此受到了网络管理者、商业产品设计者和研究人员越来越多的重视。本课题针对用户在无线网络中的位置预测问题,利用群体行为模式的相似性对用户的移动轨迹进行刻画并对用户的移动轨迹的下一地点进行预测,提高现有预测方法的准确度。

如图所示是基于相似轨迹模式的用户位置预测方法,总共分为两个模块,一个是用户轨迹模式分析模块,一个是预测模块。 在轨迹模式分析模块,首先对用户的历史轨迹进行了时间窗划分,将用户整个历史轨迹分为若干个时间窗,每个时间窗中包含一段时间的用户历史轨迹;然后针对每个时间窗口,对这段时间窗中的用户历史轨迹段进行轨迹模式提取;最后基于轨迹模式的相似度,将不同时间窗的轨迹段进行聚类(clustering),寻找轨迹模式相似的时间窗群组(cluster)。

Alt Text

在预测模块中,若要预测该用户在未来某一时刻的位置,只需找到与该时刻所在时间窗的轨迹段模式相似的时间窗即可,这里的相似时间窗可能既包含该用户本身的历史轨迹时间窗,也包括其他用户的轨迹时间窗。利用用户个人的历史轨迹与群组中其他用户的历史轨迹信息分别进行预测,可以得到两个预测结果;再将结果加以不同的权值合并,即可得到最终的预测结果,如图所示。

Alt Text

为了检验基于相似轨迹模式的预测方法对预测结果带来的影响,将马尔可夫预测方法和基于相似的马尔可夫预测方法进行了对比,实验结果如图所示。

Alt Text

流量监控和可视化

Web UI数据概览
Alt Text

用户数和流量统计
Alt Text

Wi-Fi使用热点地图
Alt Text

食堂Wi-Fi使用情况
Alt Text

图书馆Wi-Fi使用情况
Alt Text

用户移动路径模式
Alt Text

About

校园网移动流量挖掘

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages