厦门大数据比赛
竞赛概述
大赛简介 在福建省经济和信息化委员会的指导下,由厦门市经济和信息化局主办的“2017厦门国际大数据大赛”将于 2017 年 5 月至 10月隆重举行。本次大赛突出“国际化、服务产业、人才导向、技术引领”四大特点,主要包括大数据大赛、产业高峰论坛、大数据企业展等内容,共六道赛题,旨在为人才拓宽就业渠道,为企业发现高端人才,推动产业升级,展现创新风采。
赛题简介-通过社交媒体数据分析电影主创对电影票房的贡献价值 应用行业: 影视类
产业环节: 数据分析
任务说明: 根据社交媒体网站抓取数据,分析电影主创与电影票房的关系,分析电影主创对电影票房的贡献价值,并作出预测和指导。
数据来源:参赛者根据出题单位提供的数据样例和说明,自行爬取数据,并附上数据说明。数据可以从微博爬取,电影基本信息可使用豆瓣等垂直网站数据。
时间范围: 电影从上映前一月到上映后一个月
近几年随着电影市场的热度提升,大量资本涌入电影行业。但中国电影产业尚处于发展阶段,市场的不成熟使得电影投资呈现出高风险高回报的特点。为了追求高收入,通常办法是使用众多的“明星大腕”,通过粉丝效应提升票房,当时只有极少的作品获得成功。但是却造成了明星身价飙升,制作成本随之提升的后果。究其原因,明星大碗虽然有庞大的粉丝基础,但明星与作品的匹配程度、明星粉丝特性与作品的匹配程度都是影响最重票房的重要因素。所以我们需要一种办法评估主创对电影票房的贡献价值,使用此办法来作为评估电影投资分析控制的一个依据,而微博这样的社交媒体是社交信息主要的交换平台。
数据要求:通过分析电影从上映前一月到上映后一个月的相关微博数据、明星粉丝数据和发布内容等,评估出一个贡献值。数据可以从微博爬取,电影基本信息可使用豆瓣等垂直网站数据。注意点:1.分析结果要突出明星效应对票房带来的“贡献”,这里的“贡献”需要区分正面贡献和负面贡献。正面贡献指可能带来的票房或者观影意愿的增加;负面是对票房带来的负面以形象,打消了观影意愿。此题不是简单的情感分析,要突出购票转化的影响。
技术要求:使用spark 机器学习或者python 相关算法。
提交成果:原理说明介绍文档/ppt ;可执行演示程序;程序源码。