Skip to content

Latest commit

 

History

History
163 lines (134 loc) · 19.8 KB

README.md

File metadata and controls

163 lines (134 loc) · 19.8 KB

CDYHomework

用来交作业的地方,我是17数新的CDY

Week1 9月30日 记录了一天的饮水情况,包括饮水的时间、容器/饮料种类、每次饮水量(用吞咽数测量)。我从9月26日中午开始记录,直到9月29日凌晨结束。

可视化是我用数位板手绘完成的,限于精力,只绘制了第一天(9月26日下半天和9月27上半天)的记录(见9.26PM.jpg和9.27AM.jpg)。每张图以表盘呈现12小时的记录,每个节点用图标表示饮用的水的种类(详见图例),每个区段的颜色呈现的是:每次饮水后直到下一次饮水前我的“水含量”(见key.jpg),具体等于当此饮水吞咽数/直到下次饮水的小时数(记录见喝水情况表.xlsx)。

image
image
image

回答问题:

数据记录记录请见https://github.com/RRC-c/CDYHomework/blob/master/%E5%96%9D%E6%B0%B4%E6%83%85%E5%86%B5%E8%A1%A8.xlsx

感想:统计喝水这样的数据真的很繁琐,我觉得我这种可视化的形式可以用在一些智能水杯的app里—————当然就不需要用吞咽数计量了,可以更加精确。让一天的喝水情况直接可见————最好配一个“提醒喝水小助手”,感觉对生活还挺有帮助!

我的哪些个人数据被收集?被谁收集?答:日常的搜索记录————最明显的是淘宝————不光我在淘宝上的搜索,显然我平常的浏览器搜索数据都被淘宝收集到了。除此之外,我长期的或实时的地理位置显然被收集了————网页侧边栏出现我家乡的房地产广告/人才招聘广告,有时候也有我实时所在地的————不知道是谁在收集,推测应该是百度搜索引擎出卖了我。

Week2 10月9日

问题2
国内政府的
《上海市公共数据开放暂行办法》上海市人民政府网站
《中华人民共和国政府信息公开条例》 百度律师/法律智库
《政务信息资源共享管理暂行办法》中国政府网
《国土资源数据管理暂行办法》自然资源部网站
还有地震局、气象局各种环境、科学数据的共享条例,不再列举
国外的:
美国 https://data.gov
日本 http://www.data.go.jp/
俄罗斯 http://opengovdata.ru/
……

问题3
本意想算个同比数据,选取2011—2018年每一季度的“国内生产总值(不变价)当季值”为指标。
image
算式:季度同比增速=(当季值-上一年同季值)/上一年同季值*100%
不变价已经去除了物价影响,理论上这就是同比增速。
但实际计算中出现了问题——2016年数据存在突出值,增速竟然达到20%以上!
这一计算方法是错误的。
原因在于物价的修正值前后有别,统计局的数据报表有注如下:
"不变价数据按不同基期分段计算。其中,2011-2015年数据按2010年价格计算,2016年及以后各季度数据按2015年价格计算。累计数据由当季数据相加得到。"
这就没法算了,我对照官方同比增速的数据做检验(官方同比增速用国内生产总值指数当季值做指标,算式:季度同比增速=指数当季值/100-1)
发现除了极端值,其他数据也略有不同——这说明它们是用另外一个物价标准来修正的;这就触及我的知识盲区了,可能有待找一下物价方面的数据,目前还没找到正确方法。
结果及检验请见文件 同比增速.xls

Week3

10月9日
我使用了图表秀、百度图说、Tableau和Excel四种工具
用以呈现Kaggle上的数据集Steam 10 09 18 best game
这个数据集为2018年9月10日steam上百大“best game”的当前在线人数(Now_Players)与24小时内的在线人数峰值(Best_Of_24)
据此我们可以看到寥寥几个大型在线多人游戏压倒性的用户数量优势;如果仔细观察,也可以看出:比起单机游戏,在线多人游戏的峰值人数往往与当前游戏人数差别更大。
图表秀
image
体会:比较方便、功能不少的网页版可视化工具。图的种类很多,编辑字段、格式都很方便,给的几个配色模板也还挺漂亮。唯一不足就是作为网页版,导入数据和在有数据的情况下换图表是真的卡,卡死浏览器好几次。
百度图说
image
体会:百度图说更具排版工具的特点——它可以按页面编排多个图表,但它的可视化功能受限严重,太过轻量化,无法显示详细、文本密集之处。我用的数据集在图说就显示不出完整的坐标字段,导出的图片也分辨率不高。如果是简单的、仅仅是为辅助一些文本的图例我觉得可以用百度图说快速完成,其他情况下我认为这绝不是一个使用体验很好的可视化工具。
Tableau
点此查看pdf
体会:上手花了些时间,可以看出这是真正功能强大的可视化软件。但格式可以调整的地方有些少,而且免费版不能导出图片(差评)。还有一点,很多UI太集成了或者太简单了,我觉得右键可以点开有选项的地方,点开一看发现啥也没有,有点新手不友好。
Excel
点此查看pdf
体会:体验完上面几个,才意识到excel是一个多么强大而便利的可视化工具。

Week4

10月29日
严格来讲这不是一篇新闻,这只能算一个科普小片段:
白色污染泛滥,塑料包装或是最大祸首
塑料已经成为现代世界应用最广的人造材料,几乎从诞生之初人们就很关注它对环境的影响。塑料在生产生活中庞大的产量和使用量,以及其难以自然降解等特征给世界环境带来巨大压力。而2017年7月加州大学与佐治亚大学的一项研究显示:比起其他规模化生产的工业门类,包装产业使用塑料最多,同时它也成为产生最多塑料废料的产业。以2015年的数据为例:
image
与塑料总产量屈居第二的建筑产业不同,包装产业在大量运用塑料的同时产生塑料废料的比例相当之高,达到了惊人的97%。导致其废料泛滥的最大原因显然是塑料包装短暂的寿命。大多数塑料包装都属于一次性包装,一旦拆开就成为废料。研究指出,包装产业塑料产品的平均寿命只有半年,在所有门类的产品中垫底。而位列倒二的一般消费品(消费者与机构)平均也有3年的寿命。
image
除了短命这一最大原因外,比起交通、建筑等门类,包装产品在材料和形制上更具多样化,这给其回收利用带来困难。
要缓解塑料废料给地球环境带来的压力,我们就不能回避塑料包装的问题。对于制造商和消费者来说,减少塑料包装的使用,选择便于回收、降解的塑料包装,支持垃圾分类,都有助于改善当前状况。而政府决策者需要更精细的管控经济产业的环境影响,积极运用立法手段改变现状。

过程与思路:
数据主要来源于Roland Geyer1, Jenna R. Jambeck2 and Kara Lavender Law于2017年7月发表的研究Production, use, and fate of all plastics ever made,我所使用的3个数据集都是在Our World in Data网站上获得的,都可在Plastic Pollution这一页面中下载。
过程中还参考了转载在CSDN上的Data Discovery:Global Plastic Waste
我获取的原始数据集是2015年各工业门类的塑料产量、2015年世界各工业门类塑料废料产生量和研究估算出的各门类产品平均寿命。
Our World in Data本身分别在这几个数据集下提供了条形图。一开始我只是希望通过我的可视化体现各门类产生的塑料、塑料废料的比例关系,所以我选用饼状图。但这样显然太简单了,也没有新意,所以我回去看了网站数据来源的这篇研究。我最终决定呈现不同工业门类塑料产量和其废料生产量的比例关系——这意味着这个门类是否是个浪费塑料的产业。所以我最后想出一个有点类似一个饼状图+一个南丁格尔图的可视化方案,表示两重比例。由于扇形面积表示的比例不是直观的(半径应是所表示比例的平方根),所以我给小一级的比例(废料产生量/塑料产量)在图上做了标明。
原研究中对这个比例的论述是建立在他们对塑料产品寿命的研究上的,为了说明高废料比例背后的原因,我补充了产品平均寿命的数据,做出了第二张图。
两张图都是用可视化工具(第一张是图表说,第二张是tableau)制作雏形后转入ps加工成的,而第一张图中小一级比例(废料产生量/塑料产量)的扇形/小扇形,则是经过计算后在ps上单独画出的。

Week6

11月13日 2019年10月20日,大连的一起故意杀人案引起哗然:10岁女孩琪琪身中7刀身亡,而凶手则是一位未满14岁的男孩。由于《刑法》规定:未满14周岁的未成年人犯罪不承担刑事责任,而男孩还差两个月才满14岁,所以男孩不负刑事责任,只被收容教养三年。
同样在10月,《未成年人保护法》《预防未成年人犯罪法》修订草案被提上十三届全国人大常委会。今年我国立法工作的一个重心正是对未成年人的保护与犯罪预防,在这样的背景下,这场命案更是引发了社会的广泛讨论。其中,对杀人者靠未满14周岁免责的质疑一度成为主流。
实际上,随着近年未成年人犯罪的案件受到关注,降低《刑法》规定的最低刑责年龄的呼声一直不断,也已有人大代表提议将最低年龄线降至12周岁——《联合国儿童权利公约》建议的最低刑责年龄。历史上我国《刑法》制订受前苏联影响较大,因此最低刑责年龄也向以前苏联为代表的大陆法系国家看齐。事实上,在世界范围内,我国所采用的14岁最低刑责年龄也算是相当高的。除未作明确规定的国家外,其他国家的最低刑责年龄在7-16岁间不等。
image 最低刑责年龄主要受到国家法律传统与历史的影响。比如由于法律传统,英、美及前、现英联邦国家普遍采用较低的最低刑责年龄。但犯罪水平也是影响最低刑责年龄的重要因素——犯罪高发,社会动荡的国家往往制定更低的最低刑责年龄以维护社会稳定。
image 那我们到底是否应该降低最低刑责年龄呢?这是一个很难回答的问题。
从社会现实出发,我国社会形势基本稳定,没有必要以降低最低刑责年龄的手段打击犯罪。
从法理角度来看,一方面,未成年人智力、心理都处于成长过程,社会化程度较低,对社会规则与惯习需要学习适应,不应过早视为能够完全承担法律责任的独立个体;另一方面,现实中人的智力、心理成长具有差异,这使得确定未成年人的刑事能力更加困难。因此对于违法犯罪的未成年人,在司法实践中,我们仍应贯彻《未成人保护法》第38条中提到的“教育、感化、挽救”的方针。立法层面,将最低刑责年龄降至12岁仍然符合国际标准,完全是合理、可接受的。不过比起通过降低最低刑责年龄惩治罪犯,现有的未成年人犯罪应对机制可能更需关注——更加协调全面的法律体系、更加专业的收容教育机制、更加健全的预防机制,可能才是当今我国更迫切需要的改变。

制作过程:
未成年人犯罪数据找了很久找不到更多,最后看到腾讯·数可视扒的一张世界最低刑责年龄图。我觉得从最低刑责年龄入手,主要找各国最低刑责年龄的差异并尝试找影响差异的因素。我首先找到了最源头的NGO那边的数据,然后从世界银行等处找各国的人均GDP、犯罪率(找不到,只能找到一个网站统计的犯罪指数)、未成年人数量等,交叉在散点图里看有没有什么分布特征。最终我决定呈现一下最低刑责年龄与犯罪指数的关系,同时经济水平也能说明一定问题,因此做了三个变量的泡泡图(第二张图)。后来为了成文需要,又做了一张柱形图,上面用国旗呈现了一些最低刑责年龄不同的主要国家,让读者有个基本概念。

数据来源:
最低刑责年龄来自CRIN
人均GDP来自世界银行
犯罪指数来自numbeo.com

Week9

11月25日
尝试做高级的图,饼状图试了很久做不出来。看来只配做柱状图了。。改了之前作业的两张柱状图。
图1
原图
image R绘图
image

代码:
lifetime <- read.csv("lifetime.csv")
library(ggplot2)
ggplot(lifetime, aes(x =reorder(Entity,-by_year), y = by_year, fill=Entity)) +
geom_col()+scale_fill_brewer(palette = "Pastel1")
原始数据两列分别是图表的x、y轴。用了reorder函数排序,并用了ggplot的配色。

图2
原图
image
R绘图
image

代码:  
sectors <- read.csv("sectors.csv")  
library(ggplot2)  
ggplot(sectors, aes(x = MinimumAge, fill="red")) +  
geom_bar()  
原始数据是一个个国家的年龄值,y轴是计数。
Final

image 制作过程说明:
我最开始报鼠疫这个题主要是想着谈鼠疫可以谈历史。我个人对历史尤其是欧洲史比较感兴趣,而且原本判断这个题找到的数据应该会比较丰富(后来证明确实很多)。认为找数据应该不会有什么大问题的我,选择先把文案写好,再根据我的论证需要去找数据。拜此所赐,我整个行文(我感觉)还是做到了逻辑通顺,能够自洽,比较简略地描述了鼠疫的历史和现状。结果是写文案时我就给自己挖好了几个大坑,实际准备找数据做图的时候才发现数据没有或者不可取。
一开始想做鼠疫这个题本来是想从历史地理的角度做的,本来期待有些地图,但是实际找数据的时候发现鼠疫的历史数据真的很难做可视化:1、中国这边的历史数据很奇怪——在一些论文中找到了建国前一些鼠疫大流行的时间和死亡人数,但我发现不同材料之间存在出入,而且地理信息描述很不统一,比如一些疫情描述的是疫源地,一些则是波及的地区;2、维基上关于世界历史上的鼠疫大流行也很想做,数据很多。但很多条目死亡人数数据缺失的比较多,所以我本来试着仅仅在地图标明疫源地,但发现意义不大——最后做出来估计和WHO给的现在确定的全球鼠疫疫源地地图差不多——然而这已经是WHO做好的图了。我原本寄予最多希望的历史地理数据我反而没做什么可视化,一些基本的数据>>>>最后结论:历史数据真的难找适合可视化的材料,毕竟我不是学术研究者,如果不是出自统一的历史文献(或者数据来源可信的论文),一些全球的、跨文化的历史数据要么找不到,要么就有大量缺失和冲突。
这次作业拜我国疾控中心信息公开所赐,我国国内的传染病数据是非常全的——全部39项法定传染病过去10年的病/死数据及发病率/死亡率,疾控中心数据库还提供了分地区、分年龄段的病例数据。不过,数据本身的复杂性部分限制了我的呈现能力——非常具体地,鼠疫这十年的发病、死亡数据最多的也不过20以内,很多年份还都是0,但肺结核动辄就13万发病。但我确实又是想通过比较鼠疫和肺结核这样的高发流行病的数据,借以说明鼠疫现在的确式微。但一放到图上,由于巨大的差距,鼠疫就几乎变成X轴了。所以最后我选择只找3个最流行的传染病做对照,只呈现死亡数(差距相对更小),并单独标明鼠疫的非0值。
关于呈现,我最开始构思的是中世纪手稿或者博物志的风格,但是由于后来历史内容的减少,显得有些不合时宜。最终为了稍微体现一下我手绘的小技能,我还是画了一些瘟疫医生的简笔来平衡一些图的空白(其实是来不及交作业了)。整体的配色方面,我也花了相当多的时间来做调整。
我完成后重读我的作品时,有两点巨大遗憾:1、开始太晚了,就没有办法精益求精;2、我整个可视化还是插图式的,主要是来辅助我的文字的——文章的思路主要还是在我的文字里。这些图基本都看不出什么结论性的东西,都是来强化或印证我的观点的——这是我感觉我的可视化最大的失败。
但无论如何,这项作业毕竟要交,这门课程也即将告一段落。我已从这次作业中获得教训,料想日后必有相应的进步吧。真的很感谢您作为老师教导我们,这门课实实在在开拓了我的眼界——新的工具、新的形式。并且,通过课上这几次实践,我对可视化确实有更多的感觉了——至少我知道了要从何开始,并如何尝试实现。