Skip to content

lidingruc/2018R

Repository files navigation

2018R

互联网特别是移动互联网对社会生活产生了巨大影响,非常值得社会学关注和研究。采用传统研究方法能做出好研究,但若能深入了解构建起互联网的技术与信息基础,并能利用新数据对互联网基础上的人类活动及组织运作进行研究,或许会得到不一样的见解。尤其当你还比较年轻,学习能力很强时。

课程针对没有R编程经验、统计基础的本科生、研究生;难度不大,但需要经常性的练习和回顾,基本每周都有作业。完成这些练习、坚持到最后,几乎可得到70%的分数,还有30%的分数根据期末2个小时的随堂开卷实战考试表现来给定,区分出学习投入而效果又较好的学生。

课程的重点在于让学生们对数据科学产生兴趣,明了数据科学技能累积的路径,掌握结构性数据的整理、分析和结果呈现方法,了解非结构性数据的采集、整理和分析思路,为未来进一步的学习打好基础。

本课程2017年上半年以《数据科学与社会研究》自学社团活动的方式进行第一次尝试;2017年秋季学期在中国人民大学以全校选修课《数据科学与社会研究》开设过;2018年春季学期在北京大学以《互联网与社会研究:技术基础》为名开设。2018年秋季将在人民大学以发展指导类全校选修课开设。教学内容和方法在不断迭代发展过程中,相关资料完全开源免费提供。

2018年秋季,我还在人民大学开设一门新的全校选修课《互联网与社会》,总结和梳理技术和互联网与社会之间的互构及相互影响,为互联网与社会研究提供历史及理论基础。此外,2018年秋季学期,我将与社会学系李荷老师合作继承刘少杰老师为人民大学社会学专业研究生开设的《当代西方社会学理论研究》课程,试图通过以教促学的方式,更好地掌握理解当代社会变迁与信息革命的最新思想理论,为未来实质性的研究奠定更好的理论基础。

我也在不断的学习过程中,相关的内容还有很多不成熟的地方,请大家多多批评赐教。

李丁

liding@ruc.edu.cn

中国人民大学中国调查与数据中心

中国人民大学社会与人口学院

《数据科学与社会研究》课程安排如下

第1讲、望远:备战大数据时代

课程介绍:大数据时代对青年人的要求,如何达到这些要求!

PPT文件:https://github.com/lidingruc/2018R/blob/master/%E7%AC%AC%E4%B8%80%E8%AE%B2.pdf

课程指引:http://note.youdao.com/noteshare?id=351a5e712274bd552b70aeb557a9cae5

课后作业(不用提交):尝试安装软件,不懂则问;速读一些与大数据或互联网相关的通俗读物,加深对于大数据的理解。 可以开始阅读《R语言实战》或者下面的章节,了解两本主要的教材风格和结构。

http://moderndive.com/index.html

http://moderndive.com/2-getting-started.html

http://r4ds.had.co.nz/introduction.html

http://r4ds.had.co.nz/workflow-scripts.html

http://r4ds.had.co.nz/workflow-basics.html

http://r4ds.had.co.nz/workflow-projects.html

第2讲、登高:数据、信息、知识与理论

课前预习:找一本社会研究方法教材速读一遍或者看看邱泽奇老师的社会调查研究方法的在线课程,对社会研究有些概念。

课堂演示:社会研究方法体系串讲(PPT )。

PPT文件:https://github.com/lidingruc/2018R/blob/master/%E7%AC%AC%E4%BA%8C%E8%AE%B2.pdf

课后作业(不用提交):针对大数据时代和社会研究方法中的某个问题,你如何学习、积累并将之解决?简单规划一下自己的学习路径。

继续阅读上周没有看完的内容。

第3讲、立靶:R数据汇总和可复制性研究

课前预习:重点阅读r4ds教材中数据可视化和数据分析流程部分

http://r4ds.had.co.nz/data-visualisation.html

http://r4ds.had.co.nz/r-markdown.html

http://r4ds.had.co.nz/r-markdown-formats.html

http://r4ds.had.co.nz/graphics-for-communication.html

课堂演示:R界面和操作的简单介绍,tidyverse数据分析过程展示,github的使用展示,时间允许详细展示data-visualisation并介绍作业的做法。

演示概要:

http://note.youdao.com/noteshare?id=94c815919f88613d071d2254934ca53e

提交作业1:将 http://r4ds.had.co.nz/data-visualisation.html 一章中的命令复制到R scripts中,并运行,如果有错误,找出,并尝试解决。 自己要强化学习。

第4讲、夯基:R基础入门与数据处理

课前预习:肖凯90分钟(推荐,优酷搜索 R语言快速入门 SupStat 分5集 ):http://v.youku.com/v_show/id_XNjYyNzczMTgw.html?spm=a2h0j.11185381.listitem_page1.5!5~A&f=23488136&from=y1.2-3.4.5

重点阅读 http://r4ds.had.co.nz/wrangle-intro.html

http://r4ds.had.co.nz/tibbles.html

http://r4ds.had.co.nz/data-import.html

http://r4ds.had.co.nz/transform.html

课堂演示:R基础入门:R中的对象、函数、控制语句与数据框操作

提交作业2:将 http://r4ds.had.co.nz/transform.html 中的命令转移到R scripts文件中,并完成其中的练习题。

第5讲、备砖:变量处理强化

课前预习:

http://moderndive.com/5-wrangling.html

http://r4ds.had.co.nz/factors.html

http://r4ds.had.co.nz/strings.html

http://r4ds.had.co.nz/dates-and-times.html

提交作业3:将 http://moderndive.com/5-wrangling.html 中的命令转移到R scripts文件中,并完成其中的练习题。

第6讲、备砖:数据管理

课前预习:

http://r4ds.had.co.nz/tidy-data.html

http://moderndive.com/4-tidy.html

http://r4ds.had.co.nz/relational-data.html

提交作业4:将 http://r4ds.had.co.nz/tidy-data.html 中的命令转移到R scripts文件中,并完成其中的练习题。

第7讲、探索:统计汇总与ggplot作图

课前预习:

http://moderndive.com/5-wrangling.html(分类汇总部分)

http://r4ds.had.co.nz/exploratory-data-analysis.html

http://moderndive.com/3-viz.html

http://r4ds.had.co.nz/data-visualisation.html

提交作业5:将 http://r4ds.had.co.nz/exploratory-data-analysis.html 中的命令转移到R scripts文件中,并完成其中的作业题。

第8讲、可视化:R命令作图基础与高级

课前预习:

课堂演示:利用基础命令作图

提交作业6:将http://moderndive.com/3-viz.html 中的命令转移到R scripts文件中,并完成其中的learning check

第9讲、推论:统计检验

课前预习:第二讲讲义中关于抽样和统计推论的部分

http://moderndive.com/7-sim.html

http://moderndive.com/B-appendixB.html

http://moderndive.com/8-sampling.html

http://moderndive.com/9-ci.html

http://moderndive.com/10-hypo.html

https://github.com/andrewpbray/infer

课堂演示:如何用R来进行卡方检验、T检验、方差检验、分析检验,模拟抽样分布

提交作业7:运行 http://moderndive.com/10-hypo.html 中的命令,并完成其中的learning check

第10讲、建模:一般线性回归

课前预习:回归模型相关的内容

http://r4ds.had.co.nz/model-basics.html

http://r4ds.had.co.nz/model-building.html

http://moderndive.com/6-regression.html

http://moderndive.com/7-multiple-regression.html

http://moderndive.com/11-inference-for-regression.html

提交作业8:将http://r4ds.had.co.nz/model-basics.html 对应的rmd文件中的命令誊到R script上 运作一遍。

第11讲、建模:回归诊断与拓展

课前预习:预习回归诊断、模型选择、logit回归内容

交互效应:http://faculty.smu.edu/kyler/courses/7312/interact.pdf

回归诊断:https://socialsciences.mcmaster.ca/jfox/Courses/Brazil-2009/index.html

GLM模型:https://socialsciences.mcmaster.ca/jfox/Courses/SPIDA/index.html

SEM模型:https://socialsciences.mcmaster.ca/jfox/Courses/R/IQSBarcelona/index.html

高级模型与编程: https://socialsciences.mcmaster.ca/jfox/Courses/R/Peking/index.html

统计模型示例:https://stats.idre.ucla.edu/other/dae/

课堂演示:交互效应、回归诊断、logit回归等

课后作业(不提交):将课堂示例操练一下。

第12讲、综合:实例和练习

了解实例的数据和问题,分解出任务步骤,尝试寻找方案。

分成几个小组:复现几个实例。你们小组的结论与原作者的结论相同吗?有改进吗? https://ismayc.github.io/soc301_s2017/group-projects/index.html

提交作业9(课堂小组合作,单独提交)

第13讲、连通:网络分析

课前预习:预习社会网络分析的基本概念和历史

陈华珊课件:http://www.istata.cn/wp-content/uploads/2013/11/huashan_sna_visualization_2017.

学习内容:斯坦福大学网络分析实操资料集http://sna.stanford.edu/rlabs.php 理论教材https://www.cs.cornell.edu/home/kleinber/networks-book/

扩展自学材料列表:http://note.youdao.com/share/?id=28c7b0a4e947ae29462fb424cf11dd21&type=note#/

课堂演示:网络数据的基本概念与描述

提交作业10:选取相关演示命令的一部分或者全部(不少于100行),转换成为rmd文件。

第14讲、邻里:空间分析

课前预习:空间分析的基本原理

入门教材:GIS与空间分析入门https://mgimond.github.io/Spatial/index.html 朱可夫示例:http://www.people.fas.harvard.edu/~zhukov/spatial.html

孙秀林空间建模示例:http://note.youdao.com/noteshare?id=4f4180ea28db7fdd238b882b681c5cd2

扩展自学材料列表:http://note.youdao.com/noteshare?id=92cbe89d3e03cc530ac28c4a0eb6449e

课堂演示:空间数据的基本介绍与作图

提交作业11:选取相关演示命令的一部分或者全部(不少于300行),转换成为rmd文件。

第15讲、异型:文本分析

课前预习:

教材Text Mining with R! http://tidytextmining.com/ sourcecode on GitHub(https://github.com/dgrtwo/tidy-text-mining).

扩展自学材料列表:http://note.youdao.com/noteshare?id=f0d94703ba72b57c54ad9318bdf0f274

课堂演示:文本分词、词云、主题、情感分析

提交作业12:选取相关演示命令的一部分或者全部(不少于300行),转换成为rmd文件。

第16-17讲、采集:爬虫与数据获取

课前预习:网页原理http://note.youdao.com/noteshare?id=6d0aab0f55880292730ff9535488b356

扩展自学资料列表:http://note.youdao.com/noteshare?id=57cc2a7d0f893b58d4fbb217f65f167d

课堂演示:用R爬取数据的原理与实战

提交作业13(课堂小组合作,单独提交):尝试爬取北大未名BBS所有学生社团版面开版时间

https://bbs.pku.edu.cn/v2/board.php?bid=682

python安装说明:http://note.youdao.com/noteshare?id=8b5797ca96ee80737a6a9048c0423b6f

python入门:http://note.youdao.com/noteshare?id=ab8f1f4e84519a6eb3881c8d7ca37841

python爬虫:http://note.youdao.com/noteshare?id=aa3b31703ff6468eb2c884494e11b939

python爬虫:http://note.youdao.com/noteshare?id=8d72a2741f381b292d40c7583047c891

python作业(不提交):安装配置好python后,尝试运行示例命令。

——————————————————————————————————————

附录:

《互联网与社会》课程安排如下

课程梗概:

互联网作为一种代表性的现代技术极大地改变着人类生产和生活的方式,从国家治理、产业创新、企业管理到人们的学习、生产、消费娱乐、交往方方面面。本课程将带领学生们梳理科技社会学的基础理论与框架,关注科学技术对社会的影响。着重分析现代信息技术发展及连通性对产业发展、国家治理、企业管理、群体行动、社会交往的影响;分析社会结构和制度对网络技术发展和应用的塑造,以及网络治理实践;探索不同社会群体网络技术使用实践,线上线下互动模式及亚文化养成,并酌情介绍网络信息获取与分析方法。

教学目标:

让学生们了解科技及互联网发展的基本历史,科技社会学(STS)的基础理论和框架,把握科技、互联网对社会生活影响及影响机制,明白社会因素对于科技发展和技术应用的影响。最终让学生们更清晰地了解和理解自身所处的时代与社会环境,更好地应对技术发展带来的社会变迁。

课程特点:

课程将采用以讲授为主,配合小组作业和讨论进行,旨在帮助本科生搭建起认知“技术-社会”关系的理论框架和研究方法。课程将借鉴西方类似课程的成果,结合具体案例和史实,分析现代信息技术和互联网对国家治理、产业发展、企业管理、群体行动、社会交往等多方面的影响,关注社会制度对技术发展和应用的影响,剖析国家的技术治理和网络治理实践,探索不同社会群体的技术使用特征,总结多种多样的网络生活与亚文化的生成规律,并初步介绍相关的社会研究方法,为跨学科的探索和学习奠定基础。

学习要求与建议

本课程会给大家提纲挈领地介绍科技、互联网与社会发展、变化之间的互构过程,有大量的书目和文献,感兴趣的同学可以自行阅读和消化。但是有些必读的书目,希望大家能够认真阅读,积极总结,并参与到课程的讨论环节。这些参与会很大程度上影响到平时的成绩(占总成绩的70%)。期末考试每个人提交一篇5000左右的论文,选择一个合适的视角讨论技术、互联网的影响及影响机制。希望选择这门课的同学是真正喜欢这个主题和研究方向的同学。

教学进度、内容和要求(具体资料假期逐步更新)

第1周 课程介绍

第2周 科技社会学概要

第3周 科技发展简史

第4周 信息科技简史

第5周 科技-社会互相影响的机制

第6周 中国科技简史 (因国庆节压缩到前面)

第7周 中国信息产业史 (因元旦压缩到前面)

第8周 互联网、信息传播与人际互动

第9周 互联网对商业模式变革

第10周 数字鸿沟与不平等

第11周 信息技术与国家治理

第12周 互联网与集体行动

第13周 互联网与亚文化

第14周 电子游戏及其历史

第15周 网络文学及其变迁

第16周 网络社交及其影响

第17周 互联网与越轨行为