final project
作业说明
起初确定了两个选题——公务员考试/自杀,都怪自己拖到最后才开始找采访对象,最后变成同时操作,打算如果找不到合适的采访对象就提交不加采访看起来好一些的那篇(溜掉
因为之前有分不清数据新闻和行业报告的疑惑,这次在与老师交流中听取老师建议在公务员选题中加入个体事例,而且看了一些例子,所以斗胆盲猜数据新闻是依托特稿、评论等传统新闻体裁衍生的新形势,顺着这个想法,我又斗胆把两篇文章分别写成了特稿和评论。以下逐一说明:
选题一:公务员考试的压力与应对
作业(形式:微信公众号文章):《公务员考试——通向安稳生活的“平衡木”》
公务员考试一直是近年来的热议话题,随着廉政建设推进,“逢招必考”成为大趋势(有点红专),国考可谓公务员考试中的“战斗机”,难度高、竞争大。加上自己的一点私心,因为个人不排斥进入公务员体系,也想借这个机会了解一下相关流程和资讯。
主要使用的两处数据(2020年公考报考人数/各省竞争比/结合采访对象个人信息的广东省各职位竞争比)都是在中公网站上找的,几乎没有什么数据处理,网站上的数据挺干净的,唯一的计算是做了2020年各省份竞争比与2019年的差,发现只有上海的竞争比增大了。用到的网站链接如下:
http://zw.offcn.com/gj/tongji/2020/
http://zw.offcn.com/gj/tongji/2019/
主要采访了两个人——王其、黎由。
附:采访提纲(点击展开)
1.您是什么时间决定参加国考的?为什么要参加国考?
2.您目前的专业是什么?报考的职位是什么?为什么这么选择呢?职位选择必须和专业相关吗?
3.您报考的职位对政治面貌等条件有什么要求?您在准备材料的过程中遇到过阻力吗?具体是什么样的阻力?最后是如何处理的?
4.参加省考或考研了吗?同时准备两门压力大吗?压力主要来自哪里?(父母、恋人、自己?)
5.从公告发布到笔试只间隔40天的时间,您是怎么利用这么短暂的时间备考的呢?(那您是从什么时间开始备考的?)可以详细说一说您备考期间的作息?
6.您是怎么协调这几个考试?
7.在国考的备考过程中每个科目分配了多长时间?
8.是在哪里备考的?(家里/学校)地点的选择对您的备考心态和效率有什么影响吗?
9.最后完成度如何?哪些因素导致了这样的完成度,请您具体谈一谈~
10.您是自己备考吗?还是有同伴一起?是否选择同伴对备考有什么影响?您觉得(不)选同伴让准备的效果更好一些吗?
11.刚刚提到压力,您觉得国考的压力大吗?压力主要来自哪里?我看今年考试时间比往年早,报录比也在减小哈,这些信息大概都是什么时间公布的?对备考的方向和心态有什么影响?
12.备考期间给您最大压力的是哪个科目?为什么?最后考得如何?
13.备考期间您压力最大的瞬间是什么?是什么由头导致了这样的压力?最后是如何化解的?
14.曾经是否有过放弃的念头?为什么?最后为什么又坚持了下来?
15.准备国考是否让您对一些人和事的认识发生了改变?具体是怎样的改变?什么事情导致了这样的改变?
16.从准备报考到考完这个过程中,您印象最深的是什么事(遇到最温暖的/最想吐槽的)?
17.如果用三个词形容这次国考的经历您会用哪三个词?
18.您觉得有多大把握能上岸?您未来的打算是什么?更远期有没有什么规划?
19.作为亲历者给后辈有什么建议?如果再有一次选择机会还会选择国考吗?
祝您成功上岸!生活愉快!一切顺利!
王其是在微博找的采访对象,属于边工作边备考的典型代表,说服她接受采访的过程有点复杂,纠缠了整整一天,好在最后顺利结束。
黎由是一位师姐的同学,做了出国、公考、考研的三手准备,她参加中联社考试的经历比较特别,先是被学校推荐,再是在只复习半天的情况下通过了初试。她的经历增强了稿子的故事性。
在寻找采访对象的过程中也发现,确实大四阶段选择继续深造的人会更多,也一定程度上印证了国考竞争比下降这件事。
细化的思路是通过个体故事展现压力,穿插数据解释宏观大背景,以两个人的经历为主线穿插讲述,通过两人对某事相似或完全相反的态度做串连。
三个小标题定的是1/n、1 n*、听“天命”,分别指报考人数多、分母大,而考研、省考等考试大军是另一种“n”;1* n是一人同时操作多件事、承载多人的希望,两个部分递进呈现二人的压力。最后一部分相当于回溯,因为两个人都提到不好估计成绩,不知道能不能过,也都做了另一手准备,尤其是黎由这个人,她觉得上天一直在帮助她实现梦想。
我觉得两个人的故事过于单薄,但4000多字写不了太多人,就加了一段熟悉的阿姨家的对话在结尾处,也算是对公考究竟是否“一劳永逸”的一种补充。
工具:Excel、图表秀、Photoshop、Picular
- 2020国考报考及竞争情况
可能信息量稍微有点大。一方面地图的颜色代表报考人数,模拟热力图的形式;省份上叠的线段通过颜色、长短代表竞争比,上行、下行表示较2019年竞争更激烈还是减小,只有上海一个市竞争比增加了。
利用颜色等距区分数值,因为竞争比使用线段表示的,所以同时标了比例尺,以及终于记得加图注了。
- 广东省职位竞争热度榜
结合采访对象信息和大背景而做,没有排成一条直线。上课学到的:突出主体,所以除了采访对象报考的职位,其余点用灰色表示,竞争比大的色深,竞争比小的色浅。
- 国家公务员考试信息审核要求:
模拟程序流程图而做,以展示能通过审核的条件,简化读者在并列信息中摘取所需条目的步骤。
- 手绘插图
貌似有些违和,但是图太少了,就画了一张,表示人文关怀的(想打“资料即数据”的擦边球),右上到左下颜色的渐变是想表现从压抑到温暖的变化。
- 因为整个第二段都是个体故事,而且是压力集中展现的地方,觉得插图好像会打断阅读,就只在开头和结尾放了图。
几乎没有读文献,看了知乎、微博上网友的表述确定了采访提纲。
以个体故事为主,可能数据不丰富,有些单薄。或许该加点专家访谈之类的,但是确实来不及了拖延症活该
虽然老师说作业扬长避短,但我好像没有什么擅长的,所以就写了相对容易一点的特稿(虽然也不出彩)。
一个硬伤:地图部分南藏的国境线用的是麦克马洪线,所以缺了一块,发现的时候来不及改了,只能在缺失的部分打码补救一下了……
选题二:抑郁症与自杀
作业附在文末
这个选题确定的出发点也比较私人,我的第一份手绘数据的作业有一部分是“人生至暗时刻”,当时就是经历了这样一件事,我的好朋友选择自杀(希望保密),但所幸最后救了回来,没有大碍,当时我的大脑一片空白,我觉得我思考过很多不可能发生的事情,但是亲近的人死亡是我从来没有想到过的。目前她还是时常难过,我的情绪也经常受到影响,当时就想做自杀这个选题,看一下到底是什么会导致自杀的念头。
但是自杀的题太泛,考虑时效的话,想到最近韩国明星的自杀,就想做娱乐工业化的弊端,但似乎又不是直接原因,所以导到了网络暴力,但我还是陷入特别想得一个结论,想要找到合适的计量方法的桎梏中,最后还是做了病理上已确定与自杀有相关关系的抑郁症。
选择芬兰、巴西、德国、澳大利亚、加拿大、美国、日本、意大利,9个气候有代表性的国家,但最后来不及了,没有列出气候,只是按纬度降序排列,除了加拿大最新数据是2013年,求的2011-2013年的自杀率均值,其余8个国家最新数据多在2015、2016年,因此求的2011-2015年的均值,按性别区分。
使用了其中2017年城市居民年龄别疾病别死亡率(男/女)两部分
查找过程使用了翻译插件,最后在一张翻译成中文叫《死亡原因生命表》的文档中找到了自杀数据。
- 《中国社会心态蓝皮书》
其中一个章节是“中国城市网民性格及其在线名片的大数据分析”,一开始想做网络暴力的阶段,打算用这个数据,我在一边借书一边找思路的过程中发现了“中国皮书网”,读后发现报告是给网民行为贴了标签,最后没有用到这一部分。
- 我还给树洞行动救援团(一个使用AI技术挽救有轻生意向的人的组织)发了邮件,17号得到的回复,当时另一个选题已经采访完了,所以没有继续跟他们沟通。
自杀在不同学科的归因差异还是挺大的,《人对抗自己》从心理学角度归因,说人有杀人和被杀的诉求,还挺魔幻的。《自杀论》推翻了心理学因素,从社会归因。
我在试图约访,寻找个体故事的过程中遇到了一个新闻伦理问题,就是我用一贯使用的约访说辞在各平台留言,只有一个人回复了我,后来她提醒我:“抑郁症患者很难走出来,‘抑郁’和‘自杀’是敏感字眼,忌讳在他们面前提。”我一下觉得自己很无礼,就给每一个人发了一条道歉。
最后写了一篇不成熟的评论,思路是自杀不是抑郁症的唯一走向,抑郁症也不是自杀的唯一原因,从社会制度、病人本身等方面注意有利于个人与社会的双重良性发展。
工具:Excel、Adobe Illustrator、Photo shop、Picular
想法是模仿人口结构图,不是太创新,最后基本搁置了这个题,做的质量不高。男性用蓝/绿色表示,女性用的紫/粉色,因为韩国的统计单位和其他国家不一样,用的是百分比,所以在第一张图中没有同时呈现,第二张图也因此没有将韩国与中国对比呈现。
意外发现韩国的数据是倒金字塔而中国的是正金字塔,猜测韩国不堪重压的人及早结束了自己的生命,能活到最后的人抗压能力较强,但也没有验证。
因为自杀话题比较压抑,所以背景用了深夜的颜色——深蓝。
做这一篇收获还是挺大的,一个是新闻伦理的教训,还有收到了树洞行动救援团的回信,虽然最后没有使用他们的数据,听一些个体故事,有点遗憾,但知道之后可能心情也会变沉重吧……
homework_6
> setwd("C:/Users/pc/Desktop/大三上/可视化软件工具与应用/homework4")
> library(readxl)
> library(ggplot2)
> datab <- read_excel("垃圾邮件数据.xlsx",sheet=6) #读取数据
> rose_long <- melt(datab,id.vars="country",variable.name="index",value.name="count") #生成长表
> p <- ggplot(rose_long,aes(x=index, y=count, fill=country))+ geom_bar(stat="identity", color="black") #先绘制条形图
> p <- p+coord_polar()+scale_fill_brewer(palette="Blues") #转为玫瑰图并调色
> p <- p+labs(title="垃圾邮件目标国不一定是被击中率最高的国家")+theme(title=element_text(size=12,color="black")) #添加图表标题并修改样式
> p <- p+geom_text(aes(y = count+0.3, label = count), size = 3,color="#949494",position=position_dodge(width=0.85)) #添加数据标签
> setwd("C:/Users/pc/Desktop/大三上/可视化软件工具与应用/homework5")
> library(readxl)
> read_excel("数据1.xlsx",sheet=4)
# A tibble: 4 x 3
年份 CR YL
1 2011 14.2 0.242
2 2012 13.5 0.232
3 2013 10.8 0.204
4 2014 9.43 0.185
> dataa <- read_excel("数据1.xlsx",sheet=4)
> library(ggplot2)
> p <- ggplot(dataa, aes(x = CR, y = YL)) +xlab("惩罚的严厉程度(%)")+ylab("未成年人犯罪率(%)")+ geom_line(colour="#34446C",size=1) # 修改坐标轴名称并制图
> p+geom_point(colour="#34446C") # 加点
> p2 <- p+labs(title="长期来看下调入刑年龄不利于降低未成年人犯罪率")+theme(title=element_text(size=12,color="black")) #加标题
> p3 <- p2+geom_text(x=11.5,y=0.201,color="#8C838A",label = paste0("y=",format(lm(YL ~ CR,dataa)$coef[1],digits = 2),"+",format(lm(YL ~ CR,dataa)$coef[2],digits = 2),"x"))+geom_smooth(method = "lm", se=FALSE, color="#B63D44", formula = y ~ x,size=1.5)
> p3+theme(plot.title = element_text(hjust = 0.5)) # 标题居中
homework_5
在知乎平台键入“未成年人犯罪”,位列榜首的问题即“未成年人保护法修订草案、预防未成年人犯罪法修订草案征集意见,你有什么想要提出的”,把支持修改刑法的回答包括在内,近90% 的答主支持修改现行政策,同时超过半数评论对我国法律制度持悲观态度,认为“提归提,能否改是另一码事”,且看前者,为什么大家呼吁修改现行政策呢?
不妨一探现行未成年人犯罪判刑规则和效力。《刑法》第十七条将十四、十六周岁作为是否负刑事责任或完全刑事责任的分水岭,并列出八项严重情节。综合《未成年人保护法》和《预防未成年人犯罪法》可以看出国家极力保护未成年人,并给予充足改过自新的机会。近年来,甚至有人提出“隐匿未成年人犯罪记录”的说法,但是这种保护似乎并非收效良好,这一判断暂且通过上海市“未成年人再犯率”数据一探究竟。
既然现行政策有无效成分在,那目前呼声较高的举措——下调刑事责任年龄是否就是否有效、科学的呢?
刑事责任年龄下调实则是在变相加重政策的严厉程度,通过格兰杰因果关系检验(一种计量方法),可以确定政策的严厉性的确是引起未成年人犯罪率改变的原因,从短期来看,可以起到一定的威慑作用,但并非一劳永逸,将目光放到更长远的角度,下调刑事责任年龄可能导致未成年人犯罪率的不降反增。
虽然有数据显示,在未成年罪犯占全部罪犯比例上升的同时,成年青少年(18~25岁)罪犯占全部罪犯人数比例在逐年下降,这种上升-下降的反差,一定程度上可以说明罪犯的低龄化。但是目前,这一简单、笼统的结论被反复强调,最终演变成为“16岁甚至14岁以下未成年人犯罪急剧增加”的粗糙印象。深究其关键,根据最高人民法院的统计来看,14岁以下的少年犯,尤其是严重犯罪案件虽然存在,但是极少数。由此也可以看出,单纯下调刑事责任年龄有盲目的成分在其中。
目前政策存在漏洞是不可否认的事实,但同时仍有较大的讨论空间。比如北京大学法学院的王新教授在访谈中就提到,英国有个处理方法叫恶意补足年龄,是与判例法法制土壤相结合的,可以借鉴,但是在套用的过程中仍然需要做本土化处理。
至于是否需要降低刑事责任年龄,有待进行深入调研,征求全社会的意见,并按照法律修订程序来严格操作,但至少有一点可以肯定,不能单纯停留在惩罚打击的层面。专家指出,法律与时俱进的调整,一定是从对未成年人保护政策的角度出发。社会、学校、家庭等因素对于青少年犯罪事前事后处置机制加以完善和修改,同样非常重要。
-
朱妙,李振武,张世欣.关于上海市未成年人重新犯罪情况的调研报告[J].上海公安高等专科学校学报,2014,24(03):31-39.
-
林维.未成年人犯罪统计数据研究[J].中国青年政治学院学报,2010,29(03):29-36.
-
《中国统计年鉴》(2012-2015)
-
《中国法律年鉴》(2012-2015)
-
人民网:《未成年人极端犯罪如何量刑处置》
- 曾鹏,陈嘉浩.我国青少年犯罪的影响因素分析——基于时间序列数据的实证研究[J].青年研究,2019(03):47-56+95.
Eviews、PS、Excel、Picular、web scraper、微词云
整体思路是先说明现行政策确实有问题在,具体收效不好可以通过未成年人再犯率来表现。
之后通过爬取知乎上“未成年人保护法修订草案、预防未成年人犯罪法修订草案征集意见,你有什么想要提出的”这个问题的评论,判断目前的态度走向,结合之前读到的一些评论,发现“下调刑事责任”年龄是目前比较火的议题,随后即探究这种举措是否有效。
证明的思路有两种:一是通过统计各国入刑年龄与该国未成年人犯罪率进行对比;二是通过计量模型判断因果关系。最终没有使用前者是考虑到各国文化、心理、经济等因素存在偏差,不容易控制变量。因此,通过使用格兰杰因果关系检验来确定“下调刑事责任年龄”是否真的能引起未成年人犯罪率下降。
格兰杰因果关系检验的原理是加入变量B后对变量A的预测效果优于未加入时,则说明变量B是引起变量A变化的原因。
本题选定的变量A即“未成年人犯罪率”,变量B是“下调刑事责任年龄”。
关于如何计算变量A,共看到两种方式:未成年罪犯数/未成年人总数;未成年罪犯数/罪犯总数。前者是查找的论文《我国青少年犯罪的影响因素分析——基于时间序列数据的实证研究》给出的计算方式,以及在询问6名同学之后得到的一致回答;后者是通过《中国儿童发展纲要》中给出的未成年人犯罪率得到的方法。综合考虑,选用前者。
《中国法律年鉴》可以直接看到未成年人罪犯的具体数值,用作分子。《中国统计年鉴》>人口>按年龄和性别分人口数给出0-4、5-9(……)年龄段的人数,即以5为距;但未成年人应当为18岁以下的群体,因此使用线性回归的方式计算出17岁及以下年龄的人数,用作分母。
等价代替“下调刑事责任年龄”的变量B选定思路如下:下调入刑年龄之后受刑人数必然增多,因为之前不被判刑的一部分人会被划进去,这就一定程度上代表政策严厉程度加重;而政策的严厉程度再转换一下可以通过判处五年及以上有期徒刑和死刑的人数占判决罪犯总数的比例来替代。
在确定变量B是引起变量A变化的原因之后,分别将二者视作自变量和因变量制作了折线图并拟合,R²>0.9接近1,说明拟合效果较好,也的确能看出随严厉程度加重,未成年人犯罪率上升的趋势。
制图本来想用flourish,后来还是对Excel更熟悉一些就用了Excel;背景色本来用了偏粉一些的颜色,后来觉得这个话题比较压抑,就改成了蓝色;第二张图主要想表现一个变量随另一个变化的趋势,因此把拟合用成红色,而实际的线做成了灰色。
一开始不知道什么角度切入就去问了很多同学“关于未成年人犯罪你最想了解什么问题”,大家的回答基本上都是关于边界问题的探讨,比如什么样算严重、劳教应该是什么形式、如何去量化等等,甚至会有一些情绪化的表述,诸如“故意行为实在是恶劣,应该死刑”一类。后来回宿舍后又跟室友讨论,我们更觉得这是一个需要心理学、社会学等多因素定性判断的东西,很难用纯量化的指标去做解释,涉及人的议题似乎是有更多个体差异因素在里面。在讨论的过程中,涉及最多的话题就是“刑事责任年龄下调”,我想迟迟不去落实这种措施一方面跟我们国家司法工作人员不愿担责的态度有关,另一方面还需要客观衡量它的有效程度。为了形成一个闭环,我做了现行政策并非收效良好的证明,因此最后的落脚点是“现行政策有漏洞,要改,是个复杂的议题,不能单纯从入刑年龄一刀切上下手”。
在操作的过程中“入刑年龄下调”跟“未成年人犯罪率”的关系一直是一种被探讨的关系,倒是没有先入为主,这个时候做简单的线性回归不能说明谁是自变量、谁是因变量,于是就引入了格兰杰因果关系检验的方法,我也不知道该不该在新闻里用这种稍微有点复杂的计量方法,但为了说明问题还是用了。可是用完又发现有点像论文,不敢做格兰杰的图,就把两个变量根据因果关系分别当横轴和纵轴做了拟合,本来公式是摆在直线旁边的,后来觉得新闻里有公式好像有点奇怪就放在了注释了。直接看图说话好像不太科学,不敢下结论,可是用了又不像新闻……
这次作业还有一个纠结的地方就是未成年人犯罪率的计算,感觉统计公报有点魔幻。首先是《中国儿童发展纲要》中关于未成年人犯罪率的计算,似乎应该说是“罪犯的未成年率”,不过后来看到《中国统计年鉴》中人口统计方式好像就有点理解它的方法了,虽然人口统计指标有很多分类,但是没有按成年/未成年这样划分的,18岁以下的人数还要单算。
另外一方面没有做国内外对比的原因是,我认为文化、心理等因素对未成年人行为的影响是相当大的,因此法条对未成年人犯罪率的影响可能因国家、民族而异,这种对比没有办法控制变量,不够严谨,但是用公式说明问题实在有些枯燥,所以新闻到底有没有必要这么严格(?)
homework_4(1.0)
提到“垃圾+科技”,你的脑海中最先出现的检索出来的是什么?或许是流行的垃圾处理黑科技。但正如流行的商铺电子化一样,垃圾也不一定是实体的存在,“垃圾邮件”就是我们日常生活中逃离不开的形式之一。
自2016年以来,“垃圾邮件”的占比呈波动态势,看不出明显上升或下降的走势,但从2016年第4季度和2017年第3季度两处峰值不难发现,金融理财、依附于体育赛事的博彩项目是“垃圾邮件”的高发地带。
再进一步,发送“垃圾邮件”多的国家同样会成为靶子吗?那成为靶子的国家又一定会陷入“垃圾邮件”的圈套吗?
数据表明,上述两个问题的答案都是否定的。有趣的一点是,中国近年来发送“垃圾邮件”的比重日益升高,而内容多为电子促销券,这也在一定程度上反映出我国电商行业的蓬勃发展。
当然,随着科技的迭代、热点事件的发生,“垃圾邮件”的内容和数目也在不断变化,因此,为了不成为“被钓之鱼”,在解决实体垃圾的同时,警惕电子垃圾也十分必要。
数据来源:卡巴斯基实验室官网关于垃圾邮件的报告
2015年及以前的记录单位是月份且没有年报,因此选择自2016年起记录每季度的数据。
选择的第一个指标是“Proportion of spam in email traffic”在整理过程中发现每年只有前三季度和年报,没有第四季度的数据,因此手动计算了每季度数据即当季三个月的均值,因此通过年报中显示的10-12月的数值计算出第四季度的对应值。
分析的时候发现没有规律,思路转变为寻找“垃圾邮件”发送高峰的起因,对应报告中的热点事件,找到一个是金融理财,再一个是与体育相关的博彩。
选择的第二个切入点与各国的发送、被针对和被成功针对的数据。分析的是2016-2018年每个维度内均在top10的国家,所占比例为三年数据的均值,将三项数据放在同一张图内,可以比较直观的看到每个维度下对应国家的“贡献值”。
第一张图基于柱状图呈现,想用一些跟邮件相关的元素就使用了蓝色铺满、红色填充的形式,一开始做的是只用红色邮件的叠加来体现柱子的高度,因为有些数据区分不是太明显,而且排列过密,效果不是很好,就更换了方式,最后叠上了对应数据的折线图并标出数据,在两峰值出注释了对应原因,为了不过于紧凑,删掉了部分位置的蓝色信封。
第二张本来想做桑基图,但是发现没有办法确定对应关系,而且国家不固定没有办法做雷达图,因此做了一张玫瑰图的拼图。
配色参考的网站是picular。使用的工具是镝数平台(玫瑰图)和PS。
最先想到的是垃圾分类和可持续发展,同时想到的是能分类的不只是实体垃圾,电子垃圾也算,就打算从垃圾邮件这个角度切入。
在1991T上找到了两份相关报告,分别是《2019年电子邮件发送者评分报告》《2019年电子邮件基准报告》,在阅读第二份报告的过程根据该网页的推荐发现了卡巴斯基实验室的官网,在该网站追踪找到的比较详细的“垃圾邮件”数据报告。
一开始在kaggle上找到的数据是关于美国的邮件的,而卡巴斯基的数据恰好有全球的数据,在读报告的时候就想谁发的最多?没想到2018年中国超越美国成了top1,报告给出的解释是“内容多为电子购物券”,感觉这确实是一个比较流行且有时代特点的现象;同时也发现被针对的国家不一定容易“宕机”,比如德国一致是“靶榜”的top1,但巴西却一直是被成功针对的top1。
考虑到“垃圾邮件”对应“钓鱼”这种网络行为,所以最终把落点定在了警惕成为“被钓之鱼”上。
homework_3
本次作业使用的数据集瑞典斯德哥尔摩国际和平研究所(SIPRI)发布的武器工业数据库(1949-2017)。
因为数据量大,涉及国家众多,所以设计了在世界地图上通过散点图的形式反映2015-2017三年来的数据(年份过多会造成点排布密集,影响阅读效度),国家军备投资力度通过“军事支出数据占政府总支出的百分比”表示。使用的平台是图表秀,但期待掌握的工具是Tableau,因为从配色、呈现效果等多方面看,后者是更优一些的,但前者比较适合“手残新手党”,只需填充数据和调整配色。
另一种处理数据的思路是展现综合实力排名前10位国家(美国、俄罗斯、中国、英国、法国、德国、印度、日本、加拿大、巴西)的武装力量。一方面,通过带有时间轴的散点图,分别将“军事支出数据占政府总支出的百分比”和“国家军事支出数据占GDP的百分比”作为横纵坐标,以“按当前美元(百万)计的国家军事支出数据”作为调整气泡大小的依据绘制成图。因为太过拖延,所以使用的平台还是“一键制图”的图表秀,希望我能在周末用AE完善这张图,因为在使用图表秀的过程中发现导出GIF的时长至多5秒,导致不得不删掉部分年份的数据。
最后一张图比较简单,其实可以直接Excel生成,但为了美观(和多用几个工具)我用了“镝数”平台完成折线图,使用的数据是2001-2017年“人均军费数据”通过趋势和数值看出10国个人为单位的武器购买力和动态,一定程度上反映非政府武装力量的强弱。
本来还做了一张关于10个国家21世纪政府和非政府武装投入的桑基图,但个人投入比例过于小,图片不具观赏性,因此删除了图片。
其实还想制作一张以手枪为元素各国军事支出的图,在试图制作的过程中也产生一个疑问:数据新闻制作的结点在哪里?我本以为厘清数据、想好图表类型、找到工具就可以了,但在试图做这张图的过程中,我发现每一个图表大类下还有若干具细的分类,而具体到每一张图还有很多细节的问题要思考,比如手枪的图例要与整篇作品的风格相符等,当然原罪是我自己技能太弱以及英语太差(在做作业的过程中,我甚至因为没有找到英国而Google了所有国家的中文,最后发现英国是AK,之后觉得America好像怪怪的,检索发现美国是USA……)
除了之前了解和使用过的工具,结合选题的性质,我查阅了一篇题为“情报产品可视化展示模式和方法研究”的论文,论文中对于图表类型与信息呈现、平台工具的解释拓宽了我的视域,但在了解到众多工具并立下尽可能多学的flag之后我也不免疑问:究竟将几个工具掌握精还是在入门层面掌握更多工具的使用规则对于行业实操更有意义?
homework_2(待修改)
1.《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号)
2.天津市促进大数据发展应用条例(2018/12/14) 数据源:天津人大网
具体位置:第二章 政务数据 第二节 数据共享 第三节 数据开放 第四章 开发应用
3.杭州市政务数据资源共享管理暂行办法(杭政办函〔2015〕11号)
数据源:杭州市人民政府网
具体位置:八、数据共享以你雇佣
4.武汉市政务数据资源共享管理暂行办法(武政办〔2015〕146号)
数据源:武汉市人民政府网
具体位置:第三章 数据共享应用
5.常德市政府数据资源共享管理暂行办法(常政办发〔2016〕18号)
数据源:常德市人民政府
具体位置:第四章 共享应用
6.温州市政务数据资源共享管理办法(试行) (温政办〔2016〕138号)
数据源:温州政府网
具体位置:第四章 数据资源共享
7.浙江省公共数据和电子政务管理办法(省政府令354号 2017/3/27)
数据源:浙江政府服务网
具体位置:第三部分 管理和应用
数据源:贵阳市人民政府网
具体位置:第三章 数据共享
9.延安市政务数据资源共享管理暂行办法(延政办发〔2017〕44号)
数据源:延安市人民政府网
具体位置:第四章 数据资源共享 第五章 数据资源开放
10.巢湖市政务数据资源共享开放管理暂行办法(巢政办〔2018〕2号)
数据源:合肥市政府信息公开网
具体位置:第三章 数据共享 第四章 数据开放
11.江门市政务数据资源共享和开放管理暂行办法(草案)(2018/3/13)
数据源:江门市人民政府网
具体位置:第四章 政务数据共享 第五章 政务数据开放
12.吉安市政务数据共享管理暂行办法(吉府办发〔2018〕10号)
数据源:吉安市人民政府网
具体位置:第五章 共享使用
13.西安市政务数据资源共享管理办法(市政发〔2018〕47号)
数据源:西安市人民政府网
具体位置:第六章 共享与使用 第七章 开放与开发
14.吉林省公共数据和一网通办管理办法(试行)(吉政发〔2019〕4号)
数据源:吉林省人民政府官网
具体位置:第四章 公共数据共享和开放
15.佛山市政务数据资源管理办法(公众征求意见稿)(2019/5/7)
数据源:佛山市人民政府网
具体位置:第六章 数据共享使用 第七章 数据开放应用
16.沈阳市政务数据资源共享开放条例(征求意见稿)(2019/7/11)
数据源:沈阳市人民政府网
具体位置:第三章 政务数据资源的共享 第四章 政务数据资源的开放
17.部省水运政务数据共享工作方案(交办水函〔2019〕1156号)
数据源:中央人民政府网
18.上海市公共数据开放暂行办法(沪府令21号 2019/9/10)
数据源:上海政府网
思路
在了解条例和法规的定义(条例是国家权力机关或行政机关依照政策和法令而制定并发布的;法规是法令、条例、规则和章程等法定文件的总称)之后,我首先尝试寻找有相关政策制定诉求和能力的相关政府和部门,发现一篇报道王蕤,杨春立,余坦.政务数据共享的必要性[N].中国计算机报,2019-09-09(14).中提到目前我国有山东省、广东省、贵州省、浙江省、福建省、吉林省、广西壮族自治区、河南省、江西省、内蒙古自治区、重庆市、上海市12个省级大数据管理机构,以及广州市大数据管理局、沈阳市大数据管理局、成都市大数据管理局、兰州市大数据管理局、黄石市大数据管理局、保山市大数据管理局、咸阳市大数据管理局、昆明市大数据管理局、贵阳市大数据发展管理委员会、银川市大数据管理服务、宁波市大数据管理局、杭州市数据资源管理局、中卫市云计算和大数据发展服务局、合肥市数据资源局、酒泉市大数据管理局、黔南州大数据管理局、南通市大数据管理局、江门市大数据管理局、徐州市大数据管理局、深圳市龙岗区大数据管理局、五华区大数据管理局21个地市大数据管理局。
但在山东省和广东省数据管理局网站搜索之后,并没有找到类似《上海市公共数据开放暂行办法》的政策,意识到存在制定政策的有可能是上级部门等各种因素,以及通过名为国脉电子商务网的商业网站找到了上述具体33个管理局的名称,因此在该网站通过“国脉电子政务网 > 政策 > 政策库 > 大数据(内容标签)”的路径搜索相关条例、法规。最终共检索出294条相关信息,在Excel中分别通过“数据+条例/法规”“公共数据/政府数据+共享/公开”六种关键字组合筛选出17条满足条件的文件,罗列如上。
[資料一線通](DATA.GOV.HK https://data.gov.hk/sc/)
云南、内蒙古、广西、西藏、重庆、辽宁省、吉林省、河北省、山西省、甘肃省、青海省暂无。
信源:《最全的中国开放数据(open data)及政府数据开放平台汇总》
旧金山政府开发数据网站San Fransisco Government Open Data
美国人口普查局United States Census Bureau
美国国家环境信息中心National Climatic Data Center – NOAA
印度开放政府数据Open Government Data Platform India
信源:《【Open Data】国外开放数据中心及政府数据开放平台汇总》
除了上述网站外,《数据新闻概论(第二版)一书》还提到以下满足要求的平台:
在国家统计局数据库>季度数据>指标>国民经济核算目录下分别找到国内生产总值(现价)和国内生产总值(不变价)自2018年第四季度至2011年第一季度的数据,由于网站只能一次性出现18个季度的数据,因此2014年及之前的数据需通过键入“年份+代表季度的字母”查找。
通过季度间差值/上一季度的数据和同期差值/上一期数据分别计算得出名义环比/同比(现价)和实际环比/同比(不变价)的值,通过查找资料发现实际与名义增速之间的区别在于平减指数,有时用CPI替换,但使用这两个指数的意义也在于消除通货膨胀等现实因素造成的差距,所以推断不变价数据计算得出的增速为实际增速。
但是,在与官方网站给出的环比数据进行对比发现与我个人的计算结果不同,这其中可能还有一些繁杂的计算有待之后深入了解,具体数据和计算过程如下(鼠标悬停在图片上可以看到图表标题)。
homework_1
其实最开始想到的选题是每天听了哪些歌(网易云音乐有“最近播放”列表,但我总是会忘记当天听的第一首歌是什么),跟哪些人聊了天、聊了什么,每天在微博上浏览了哪些话题,但最后我考虑了很多天,因为觉得我一旦想要搜集,而且还属于比较隐私的数据,我的行为必定会受到影响,比如我肯定会为了表现自己坚定好学而少点击娱乐消息,会为了让自己看起来有点音乐品味而少听旋律洗脑的“口水歌”,以及为了表现出彬彬有礼、说话得体而克制发最常用的“哈哈哈哈哈哈哈”。
综合考虑,在初步定下的选定中,可行性最高的是搜集“在看”列表中的好友姓名和阅读的文章。但考虑到这样搜集最后呈现出来的效果可能会涉及好友的隐私,这个思路便作罢。
回到我自己身上,我想或许我可以综合一下各类指标平衡来对自己的日常生活做一个评估,看看自己把时间都花在了哪里,也顺便挖掘一下自己的兴趣爱好和性格特点的内在联系。
抱着这样的想法我初步决定把自己的生活分为四个维度:学习(读书、写作业、背单词等)、娱乐(听音乐、刷微博、看综艺等)、日常环节(吃饭、洗漱)以及社交(聊天、朋友圈点赞、评论等)。
随着条目的逐渐细化,我发现我试图建立的评价体系并没有越来越清晰,反而更繁复、更说不清了。于是我决定在三级指标的基础上捏合一些指标为二级指标。也随着自己第一步没有掌握好绘图的尺寸,导致圆盘不能过度细分,因此将错就错,做出了上课、吃饭、看书、睡觉、参加国庆爱国活动这样几个大类,其中特殊标出的是给我留下深刻印象的事件。
在我自己的第一张手绘作业中,我选择用变体时间轴的形式展示9月21日0:00至9月25日24:00五天的日常,之所以选这几天以及作业交迟的原因是因为我个人遇到一件我自认为20年人生经历的至暗时刻,也就是我在手稿中完全涂黑的时段。
为了让自己尽可能多的运用图形思维,也尽可能少地使用汉字,我选择用色彩表示情绪和分类。首先是蓝色,既代表我的日常活动——溜达,又代表睡眠。前者通常与音乐相伴随,虽然我没有做最后的定量统计,但根据我个人的回忆,在情绪低落期间我通常听“李荣浩”的歌曲,情绪高亢的阶段,我通常听比较“甜”的韩文歌曲;而后者,在区域较大的地方,我画了最常用的“晚安”表情包,区域较小的位置则用三个Z或“Hulu”的拟声词来指代。绿色代表日常起居:洗漱、在路上行走以及餐食非常不同的三餐。紫色代表读书,这段期间我主要读了《飘》,因此用此书的英文名、缩写或作者名字指代。棕色、黄色代表上课时间,为了简便处理不把时间切的过碎,我将课间时间等分到课堂和前一个活动上。
此外,我用颜色的深浅和圆形的位置来代表我的情绪状态。圆形与时钟形状类似,因此24等分可以代表一天24小时,我将纸张对折,折痕代表我毫无情绪波动的状态,折痕以下的区域代表我心情低落的状态,我用圆的位置逐渐上升至折痕以上表达我的心情逐渐有所好转。折痕以下的部分颜色比较深,而以上的部分颜色更为明亮。我认为这样表示情绪更为直观。
,这是我与同学通话过程中的一个小插曲,他的耳机坏了,所以其中一个耳机的部分音量采用了静音的图表;再一个是爬虫课,我试图用乱序排列的#、*、Python图表、换行符等来表示;还有一个是Monday的小喇叭代表我跟妈妈的争吵,梗出自我的爸爸,他会说妈妈是“小喇叭开始广播啦”。
第二张手绘作品是我在没有统计“在看”、每天听的音乐、看的话题等操作后曲线救国的路线。这个灵感来自于QQ空间的“周报”,其内容是分析用户这一周访客的性别占比、年龄占比和第一个访客及访问次数最多的访客。这是基于数据抓取给出的一个相对巨细的用户访客画像,但实际上再细一步,根据我们自己对好友的了解,我们可以将信息进一步细化,我统计了跟第一张手绘图同期的QQ说说和微信朋友圈内容,用两个平台特有的图标代表点赞和评论,因为与我互动的只有高中和大学同学,且女生居多,大学男同学和高中男同学未在同一动态的点赞和评论中同时出现,所以我将每一条动态的互动好友分为三类:男生、大学女同学和高中女同学,并用同一色系的不同颜色表示,其中比较特殊的是9月23号的微信朋友圈混入了我的表哥,我用橙色标注了出来。脱敏的处理就非常拙劣了,看起来像是一些不可名状的内容,但其实是我个人比较负面或者幼稚的言论,我觉得不好意思放在作业里上交。
这次作业是我第一次尝试不将数据认为是纯数字的基础上所做的呈现。我对“数据新闻”中的“数据”第一次改观发生在阅读《数据新闻概论》之后,按照我初始的理解,也是我报考这个专业的原因,数据新闻较传统新闻的区别在于引入数据使报道在纯文字的基础上更为客观,加之对数理知识的热爱,我对数据的认知就更局限于数字处理的技巧决定了数据新闻水平的高低。后来通过学习,我意识到这是一种较技术决定更为局限的认知,数据不仅是数字,更为广义的层面它代表一种处理资料的方式。
确实,当数据被理解为资料的时候有一种打开新世界大门的感觉。但在实操过程中我还意识到很多不足,首先我第一份手绘作业的数据收集方式是回忆,虽然这使得我对情绪的评价较为客观,但也是我所罗列的时间基本上都是正点的原因,我没有办法回忆起更巨细的东西,但如果我真的即时记下的话,就像我想立社交媒体人设一样,我的行为一定会受到影响,所以我甚至想是不是真的只有大数据才公正呢?可是我做第二张手绘作业的时候我又发现,大数据的结果看似有针对性性实际不然,我的空间访客女同学居多不假,但我的历个阶段女同学多于男同学也是事实。非常希望老师在课堂上能给出解答、指点:究竟什么样的数据收集方式更合理一些?即时收集还是“出其不备”?
我认为被搜集的数据大致分为两种:一种是被主动透露出去的,另一种是被被动搜集走的。主动的方式可以举这样一个例子:我们想要领取某种福利,比如领取取暖补助,为满足要求就要事先说清楚自己的住房面积、家庭人口数,地方办事处接收到的数据就是被有特定需求的人主动透露出去的。被动被搜集的数据也分自愿和非自愿两类,自愿的,比如说学校每年的信息采集,作为个人而言我们是很难自己主动去找个机器输入自己认为的基本信息,但学校在搜集的时候我们也不会拒绝,因为我们也知道这是为了我们自己日后更好的享受校园生活而做的前期准备;非自愿被搜集比如很多APP,我们为了正常使用不得不开一些权限,但很多时候可以发现,针对性内容的推送其实跟开了权限有很大关系,这不仅会造成内卷化,甚至可能窃取不必要的隐私;再如社会上流通的贩卖信息的行为,我们不定期街道的推销电话就是很好的例证。
被谁搜集了?在我看来是被有利可图者搜集了,APP搜集了用户喜好,针对性推送产品,一定程度上就提高了电商市场的活力;电话推销也是如此,容易上当受骗的老年群体就是正中下划的典型;而被主动透露的数据看起来提供方需求更强烈,但接收方也是或为了更顺利的工作、或为了日后存档等目的而搜集,只是对比之下表现不算突出罢了。
总体来看,我认为善用数据能获得的利好是很多的,但前提是善用,也希望自己能够掌握在不侵犯别人权利的前提下搜集有用数据的能力。

















