Skip to content
Cheng-Jun Wang edited this page Nov 15, 2019 · 17 revisions

Welcome to the bigdata wiki!



《大数据挖掘与分析》



个人大作业(Final Individual Project)

  • Deadline: 大年夜 23:59:59 (每迟交一天,降低百分之十的分数)

  • 不分组:一个人一组。

  • 要求在notebook中完成,包括文字的介绍和数据分析的代码。格式如下:

    • 项目题目
    • 项目摘要
    • 引言
    • 研究思路:要有对于研究项目的系统的描述
    • 研究发现
    • 结论:总结研究的发现
  • 必选:OWS推特数据分析

    • 计算每一天有多少条tweets
    • 提取某一天的数据dat,存到硬盘里,
    • 对dat数据进行清洗和描述
    • 文本分析
      • 选取部分数据建立主题模型或情感分析的模型
      • 构建给用户推荐Hashtag的推荐系统(可选):
        • 将数据整理为以下格式:人、hashtag、次数
        • 对以上数据构建基于物的相似性的推荐系统
    • 构建评论网络(可选)
      • 对评论网络进行描述和分析

加分项 (满分五分)

提交个人网站URL, 优化个人网站,可以选择使用mobirise软件,也可以使用其他工具,比如https://html5up.net/,或者Hugo, Jekyll等。不建议使用wordpress。

使用mobirise软件建立自己的个人页面

  1. 下载mobirise软件,拖拽生成个人页面的html文件。
  2. 比如你的github账号是name, 建立一个github的repo,名为name.github.io。
  3. 把生成的html文件放到github的name.github.io文件夹下,即可以公开访问。

个人可选加分项目 (Final Individual Project)

自己抓取其他数据或者使用二手数据进行相应的数据分析。

第十一次作业

  • 下载www数据
    • WWW Data download http://www3.nd.edu/~networks/resources.htm World-Wide-Web: [README] [DATA] Réka Albert, Hawoong Jeong and Albert-László Barabási: Diameter of the World Wide Web Nature 401, 130 (1999) [ PDF ]
  • 构建networkx的网络对象g(提示:有向网络),将www数据添加到g当中
  • 计算网络中的节点数量和链接数量
  • 计算www网络的网络密度
  • 绘制www网络的出度分布、入度分布
  • 使用BA模型生成节点数为m取值为2,N取值分别为10、100、1000、10000时,绘制平均路径长度d与节点数量的关系

第十次作业

    1. 练习实现UserCF和ItemCF的python代码
    1. 使用graphlab对于音乐数据或电影数据构建推荐系统

第九次作业

  • 使用graphlab进行主题模型分析

第八次作业

第七次作业

政府工作报告文本挖掘,分词、词云、时间序列三个部分

第六次作业(机器学习部分)

  • 练习机器学习部分代码(不做强制要求)
  • 选择以下四个竞赛数据当中的一个,将训练集分成train和test两部分,使用多个课程讲过的算法对train数据进行训练,并使用test数据对训练的模型进行检验。
  1. 房价预测 https://www.kaggle.com/c/house-prices-advanced-regression-techniques/
  2. 预测银行用户是否参与定期存款 http://www.dcjingsai.com/common/cmpt/ANZ%20Chengdu%20Data%20Science%20Competition_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html?lang=en_US
  3. 游戏玩家的付费预测 http://www.dcjingsai.com/common/cmpt/%E6%B8%B8%E6%88%8F%E7%8E%A9%E5%AE%B6%E4%BB%98%E8%B4%B9%E9%87%91%E9%A2%9D%E9%A2%84%E6%B5%8B%E5%A4%A7%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html
  4. 预测假新闻 https://www.kaggle.com/c/fake-news

第五次作业

第四次作业

  • 从百度云下载ows-raw.txt数据
  • 参考06.data_cleaning_Tweets.ipynb内容
    • 采用分段读取的策略对数据进行处理
    • 提取其转发网络
  • 将notebook download as html,压缩为zip文件提交到issue里。

第三次作业

  • 根据04.PythonCrawler_beautifulsoup.ipynb中的相关代码抓取top250豆瓣电影的名称、URL、得分、评价数。
  • 将notebook download as html,压缩为zip文件提交到issue里。

第二次作业

        %matplotlib inline
	import random, datetime
	import numpy as np
	import matplotlib.pyplot as plt
	import matplotlib
	import statsmodels.api as sm
	from scipy.stats import norm
	from scipy.stats.stats import pearsonr
  • 将生成的.ipynb文件另存为html文件;
  • 将html文件压缩为zip作为附件上传到issue里。
  • 附件形式上传到issue里,提交方式:
    • 苹果用户download as html,压缩为zip文件提交
    • windows用户download as markdown,压缩为zip提交

第一次作业

说明:所有的代码可以在这里快速浏览 http://nbviewer.jupyter.org/github/computational-class/bigdata/tree/gh-pages/code/