# 本节课主要针对一维数据的读取、切片、分析

In [1]:
import pandas as pd

# 读取数据
对数据进行总体查看

In [2]:
# 读取数据
# df_zb_data是总的数据集
# df_zb_meta是元数据，在这里指的是“指标”
# 元数据是关于数据的数据
# df_level2是地区

df_zb_data = pd.read_csv("fsnd_zb_data.tsv",encoding="utf8",sep="\t", \
                        keep_default_na=False,na_values="na_rep",index_col=[0,1,2])  # 用0，1，2行做索引
df_zb_meta = pd.read_csv("fsnd_zb_meta.tsv",encoding="utf8",sep="\t",keep_default_na=False,na_values="na_rep",index_col=[0])
df_reg_level2 = pd.read_csv("reg_treeId_level2.tsv",encoding="utf8",sep="\t",keep_default_na=False,na_values="na_rep")

# keep_default_na参数用来控制是否要将被判定的缺失值转换为NaN这一过程，默认为True
# 当keep_default_na=False时，源文件中出现的什么值，DataFrame中就是什么值
# na_values用来控制那些值会被判定为缺失值，它接收一个列表或者集合，当列表或者几个中出现的字符串在文件中出现时，它也会被判定为缺失值

In [3]:
# 查看第一个数据
display(df_zb_data)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,data
zb,reg,sj,Unnamed: 3_level_1
A010101,110000,2018,
A010101,110000,2017,
A010101,110000,2016,
A010101,110000,2015,
A010101,110000,2014,
A010101,110000,2013,
A010101,110000,2012,
A010101,110000,2011,
A010101,110000,2010,
A010101,110000,2009,


In [4]:
# 查看数据的行、列统计信息
df_zb_data.shape

(908300, 1)

In [5]:
# 查看第二个数据（指标）
df_zb_meta

Unnamed: 0_level_0,cname,dotcount,exp,ifshowcode,memo,name,nodesort,sortcode,tag,unit
code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
A010101,地级区划数,0,指地级行政单位即介于省级和县级之间的一级地方行政区域的个数，包括地区、自治州、行政区和盟。,False,,地级区划数,1,2,,个
A010102,地级市数,0,市是省、自治区内人口较集中，政治、经济、文化等方面较重要的城市。市人民政府为一级地方行政组织...,False,,地级市数,1,3,,个
A010103,县级区划数,0,县级行政单位指中国地方二级行政区域，是地方政权的基础。县级行政单位包括县、自治县、旗、自治旗...,False,,县级区划数,1,4,,个
A010104,市辖区数,0,市辖区（简称区）城市基层政权组织的行政区域。直辖市和较大的市多将市区范围划分为若干区，设立区...,False,,市辖区数,1,5,,个
A010105,县级市数,0,县级市是中国大陆行政区划名称，行政地位与县相同的县级行政区,False,,县级市数,1,6,,个
A010106,县数,0,县级行政区是中国地方一级行政区域。按中国现行行政区域体制，县可属于省、自治区、直辖市，可属于...,False,,县数,1,7,,个
A010107,自治县数,0,自治县是相当于县的民族自治地方。,False,,自治县数,1,8,,个
A010108,乡镇级区划数,0,县级以下的基层行政区域──乡和镇，是地方三级行政单位。,False,,乡镇级区划数,1,9,,个
A010109,镇数,0,指报告期末不设区的市、市辖区、县（自治县、旗、自治旗、特区、林区）在辖区内实际设有的镇人民政...,False,,镇数,1,10,,个
A01010A,乡数,0,指报告期末不设区的市、市辖区、县（自治县、旗、自治旗、特区、林区）在辖区内实际设有的乡人民政...,False,,乡数,1,11,,个


In [6]:
# 创建指标字典
指标字典 = df_zb_meta['cname'].to_dict()
指标字典

{'A010101': '地级区划数',
 'A010102': '地级市数',
 'A010103': '县级区划数',
 'A010104': '市辖区数',
 'A010105': '县级市数',
 'A010106': '县数',
 'A010107': '自治县数',
 'A010108': '乡镇级区划数',
 'A010109': '镇数',
 'A01010A': '乡数',
 'A01010B': '街道办事处',
 'A010201': '三次产业法人单位数',
 'A010202': '分机构类型法人单位数',
 'A010203': '分行业法人单位数',
 'A010301': '按控股情况分企业法人单位数',
 'A010302': '按登记注册类型分企业法人单位数',
 'A020101': '地区生产总值',
 'A020102': '第一产业增加值',
 'A020103': '第二产业增加值',
 'A020104': '第三产业增加值',
 'A020105': '农林牧渔业增加值',
 'A020106': '工业增加值',
 'A020107': '建筑业增加值',
 'A020108': '批发和零售业增加值',
 'A020109': '批发和零售贸易餐饮业增加值',
 'A02010A': '交通运输、仓储和邮政业增加值',
 'A02010B': '交通运输、仓储和邮电通信业增加值',
 'A02010C': '住宿和餐饮业增加值',
 'A02010D': '金融业增加值',
 'A02010E': '房地产业增加值',
 'A02010F': '其他行业增加值',
 'A02010G': '人均地区生产总值',
 'A020201': '地区生产总值指数(上年=100)',
 'A020202': '第一产业增加值指数(上年=100)',
 'A020203': '第二产业增加值指数(上年=100)',
 'A020204': '第三产业增加值指数(上年=100)',
 'A020301': '收入法生产总值',
 'A020302': '劳动者报酬',
 'A020303': '生产税净额',
 'A020304': '固定资产折旧',
 'A020305': '营业盈余',
 'A020401': '支出法生

In [7]:
# 查看第三个数据（地区）
df_reg_level2

Unnamed: 0,i,dbcode,exp,id,isParent,name,open,pid,wd
0,0,fsnd,,110000,True,北京市,False,100001,reg
1,1,fsnd,,120000,True,天津市,False,100001,reg
2,2,fsnd,,130000,True,河北省,False,100001,reg
3,3,fsnd,,140000,True,山西省,False,100001,reg
4,4,fsnd,,150000,True,内蒙古自治区,False,100001,reg
5,0,fsnd,,210000,True,辽宁省,False,100002,reg
6,1,fsnd,,220000,True,吉林省,False,100002,reg
7,2,fsnd,,230000,True,黑龙江省,False,100002,reg
8,0,fsnd,,310000,True,上海市,False,100003,reg
9,1,fsnd,,320000,True,江苏省,False,100003,reg


In [8]:
# 创建地区字典
地区字典 = df_reg_level2.set_index("id")['name'].to_dict()
地区字典

{110000: '北京市',
 120000: '天津市',
 130000: '河北省',
 140000: '山西省',
 150000: '内蒙古自治区',
 210000: '辽宁省',
 220000: '吉林省',
 230000: '黑龙江省',
 310000: '上海市',
 320000: '江苏省',
 330000: '浙江省',
 340000: '安徽省',
 350000: '福建省',
 360000: '江西省',
 370000: '山东省',
 410000: '河南省',
 420000: '湖北省',
 430000: '湖南省',
 440000: '广东省',
 450000: '广西壮族自治区',
 460000: '海南省',
 500000: '重庆市',
 510000: '四川省',
 520000: '贵州省',
 530000: '云南省',
 540000: '西藏自治区',
 610000: '陕西省',
 620000: '甘肃省',
 630000: '青海省',
 640000: '宁夏回族自治区',
 650000: '新疆维吾尔自治区'}

In [9]:
# 使用字典进行数据框转换
# 用指标字典替换zb列的数据
df = df_zb_data.reset_index().set_index("zb").rename(index=指标字典)
df

Unnamed: 0_level_0,reg,sj,data
zb,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
地级区划数,110000,2018,
地级区划数,110000,2017,
地级区划数,110000,2016,
地级区划数,110000,2015,
地级区划数,110000,2014,
地级区划数,110000,2013,
地级区划数,110000,2012,
地级区划数,110000,2011,
地级区划数,110000,2010,
地级区划数,110000,2009,


In [10]:
# 用地区字典替换reg列的数据
df = df.reset_index().set_index("reg").rename(index=地区字典)
df

Unnamed: 0_level_0,zb,sj,data
reg,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
北京市,地级区划数,2018,
北京市,地级区划数,2017,
北京市,地级区划数,2016,
北京市,地级区划数,2015,
北京市,地级区划数,2014,
北京市,地级区划数,2013,
北京市,地级区划数,2012,
北京市,地级区划数,2011,
北京市,地级区划数,2010,
北京市,地级区划数,2009,


In [11]:
# 对行索引进行重命名
df_new = df.reset_index().rename(columns={"reg":"地区","zb":"指标","sj":"年","data":"数据"})
df_new

Unnamed: 0,地区,指标,年,数据
0,北京市,地级区划数,2018,
1,北京市,地级区划数,2017,
2,北京市,地级区划数,2016,
3,北京市,地级区划数,2015,
4,北京市,地级区划数,2014,
5,北京市,地级区划数,2013,
6,北京市,地级区划数,2012,
7,北京市,地级区划数,2011,
8,北京市,地级区划数,2010,
9,北京市,地级区划数,2009,


# 数据切片：快速查找数据
要有问题意识地去进行切片

In [12]:
# 切片：筛选指标为“城镇单位就业人员”的数据
data = df_new[df_new.指标.str.contains("城镇单位就业人员")]
data

Unnamed: 0,地区,指标,年,数据
19530,北京市,城镇单位就业人员,2018,
19531,北京市,城镇单位就业人员,2017,812.8589
19532,北京市,城镇单位就业人员,2016,791.5197
19533,北京市,城镇单位就业人员,2015,777.3448
19534,北京市,城镇单位就业人员,2014,755.8601
19535,北京市,城镇单位就业人员,2013,742.2565
19536,北京市,城镇单位就业人员,2012,717.3717
19537,北京市,城镇单位就业人员,2011,685.9018
19538,北京市,城镇单位就业人员,2010,646.6000
19539,北京市,城镇单位就业人员,2009,619.3478


In [61]:
# 另一种数据切片的方法
df_new.set_index("指标").loc["城镇单位就业人员工资总额","年":"数据"]

Unnamed: 0_level_0,年,数据
指标,Unnamed: 1_level_1,Unnamed: 2_level_1
城镇单位就业人员工资总额,2018,
城镇单位就业人员工资总额,2017,10675.97363
城镇单位就业人员工资总额,2016,9463.26084
城镇单位就业人员工资总额,2015,8643.54357
城镇单位就业人员工资总额,2014,7687.60206
城镇单位就业人员工资总额,2013,6869.76159
城镇单位就业人员工资总额,2012,6012.44875
城镇单位就业人员工资总额,2011,5099.66236
城镇单位就业人员工资总额,2010,4136.10000
城镇单位就业人员工资总额,2009,3545.62114


In [14]:
# 查看指标的分类
# unique()：返回参数数组中所有不同的值，并按照从小到大排序
指标分的可能性 = data.指标.unique()
指标分的可能性

array(['城镇单位就业人员', '农林牧渔业城镇单位就业人员', '采矿业城镇单位就业人员', '制造业城镇单位就业人员',
       '电力、燃气及水的生产和供应业城镇单位就业人员', '建筑业城镇单位就业人员', '交通运输、仓储及邮电通信业城镇单位就业人员',
       '信息传输、计算机服务和软件业城镇单位就业人员', '批发和零售业城镇单位就业人员', '住宿和餐饮业城镇单位就业人员',
       '金融业城镇单位就业人员', '房地产业城镇单位就业人员', '租赁和商务服务业城镇单位就业人员',
       '科学研究、技术服务和地质勘查业城镇单位就业人员', '水利、环境和公共设施管理业城镇单位就业人员',
       '居民服务和其他服务业城镇单位就业人员', '教育业城镇单位就业人员', '卫生、社会保障和社会福利业城镇单位就业人员',
       '文化、体育和娱乐业城镇单位就业人员', '公共管理和社会组织城镇单位就业人员', '城镇单位就业人员工资总额',
       '国有城镇单位就业人员工资总额', '其他城镇单位就业人员工资总额', '城镇单位就业人员工资总额指数(上年=100)',
       '国有城镇单位就业人员工资总额指数(上年=100)', '其他城镇单位就业人员工资总额指数(上年=100)',
       '城镇单位就业人员平均工资', '城镇单位就业人员平均货币工资指数(上年=100)',
       '国有城镇单位就业人员平均货币工资指数(上年=100)', '其他城镇单位就业人员平均货币工资指数(上年=100)',
       '城镇单位就业人员平均实际工资指数(上年=100)', '国有城镇单位就业人员平均实际工资指数(上年=100)',
       '其他城镇单位就业人员平均实际工资指数(上年=100)', '农、林、牧、渔业城镇单位就业人员工资总额',
       '采矿业城镇单位就业人员工资总额', '制造业城镇单位就业人员工资总额', '电力、燃气及水的生产和供应业城镇单位就业人员工资总额',
       '建筑业城镇单位就业人员工资总额', '交通运输、仓储和邮政业城镇单位就业人员工资总额',
       '信息传输、计算机服务和软件业城镇单位就业人员工资总额', 

In [15]:
# 拆分带有“城镇单位就业”的词
指标分的可能性 = [x.split("城镇单位就业") for x in data.指标.unique()]
指标分的可能性

[['', '人员'],
 ['农林牧渔业', '人员'],
 ['采矿业', '人员'],
 ['制造业', '人员'],
 ['电力、燃气及水的生产和供应业', '人员'],
 ['建筑业', '人员'],
 ['交通运输、仓储及邮电通信业', '人员'],
 ['信息传输、计算机服务和软件业', '人员'],
 ['批发和零售业', '人员'],
 ['住宿和餐饮业', '人员'],
 ['金融业', '人员'],
 ['房地产业', '人员'],
 ['租赁和商务服务业', '人员'],
 ['科学研究、技术服务和地质勘查业', '人员'],
 ['水利、环境和公共设施管理业', '人员'],
 ['居民服务和其他服务业', '人员'],
 ['教育业', '人员'],
 ['卫生、社会保障和社会福利业', '人员'],
 ['文化、体育和娱乐业', '人员'],
 ['公共管理和社会组织', '人员'],
 ['', '人员工资总额'],
 ['国有', '人员工资总额'],
 ['其他', '人员工资总额'],
 ['', '人员工资总额指数(上年=100)'],
 ['国有', '人员工资总额指数(上年=100)'],
 ['其他', '人员工资总额指数(上年=100)'],
 ['', '人员平均工资'],
 ['', '人员平均货币工资指数(上年=100)'],
 ['国有', '人员平均货币工资指数(上年=100)'],
 ['其他', '人员平均货币工资指数(上年=100)'],
 ['', '人员平均实际工资指数(上年=100)'],
 ['国有', '人员平均实际工资指数(上年=100)'],
 ['其他', '人员平均实际工资指数(上年=100)'],
 ['农、林、牧、渔业', '人员工资总额'],
 ['采矿业', '人员工资总额'],
 ['制造业', '人员工资总额'],
 ['电力、燃气及水的生产和供应业', '人员工资总额'],
 ['建筑业', '人员工资总额'],
 ['交通运输、仓储和邮政业', '人员工资总额'],
 ['信息传输、计算机服务和软件业', '人员工资总额'],
 ['批发和零售业', '人员工资总额'],
 ['住宿和餐饮业', '人员工资总额'],
 ['金融业', '人员工资总额'],
 ['房地产

In [16]:
# 只取 “人员” “人员平均工资”
指标分的可能性_取 = [[x,y] for (x,y) in 指标分的可能性 if (y=='人员平均工资' or y=='人员') and x != '']
指标分的可能性_取

[['农林牧渔业', '人员'],
 ['采矿业', '人员'],
 ['制造业', '人员'],
 ['电力、燃气及水的生产和供应业', '人员'],
 ['建筑业', '人员'],
 ['交通运输、仓储及邮电通信业', '人员'],
 ['信息传输、计算机服务和软件业', '人员'],
 ['批发和零售业', '人员'],
 ['住宿和餐饮业', '人员'],
 ['金融业', '人员'],
 ['房地产业', '人员'],
 ['租赁和商务服务业', '人员'],
 ['科学研究、技术服务和地质勘查业', '人员'],
 ['水利、环境和公共设施管理业', '人员'],
 ['居民服务和其他服务业', '人员'],
 ['教育业', '人员'],
 ['卫生、社会保障和社会福利业', '人员'],
 ['文化、体育和娱乐业', '人员'],
 ['公共管理和社会组织', '人员'],
 ['农、林、牧、渔业', '人员平均工资'],
 ['采矿业', '人员平均工资'],
 ['制造业', '人员平均工资'],
 ['电力、燃气及水的生产和供应业', '人员平均工资'],
 ['建筑业', '人员平均工资'],
 ['交通运输、仓储和邮政业', '人员平均工资'],
 ['信息传输、计算机服务和软件业', '人员平均工资'],
 ['批发和零售业', '人员平均工资'],
 ['住宿和餐饮业', '人员平均工资'],
 ['金融业', '人员平均工资'],
 ['房地产业', '人员平均工资'],
 ['租赁和商务服务业', '人员平均工资'],
 ['科学研究、技术服务和地质勘查业', '人员平均工资'],
 ['水利、环境和公共设施管理业', '人员平均工资'],
 ['居民服务和其他服务业', '人员平均工资'],
 ['教育', '人员平均工资'],
 ['卫生、社会保障和社会福利业', '人员平均工资'],
 ['文化、体育和娱乐业', '人员平均工资'],
 ['公共管理和社会组织', '人员平均工资']]

In [17]:
# 将上面筛选出来的结果合并拼接
指标分的可能性_取_all = ["城镇单位就业".join(x) for x in 指标分的可能性_取]
指标分的可能性_取_all

['农林牧渔业城镇单位就业人员',
 '采矿业城镇单位就业人员',
 '制造业城镇单位就业人员',
 '电力、燃气及水的生产和供应业城镇单位就业人员',
 '建筑业城镇单位就业人员',
 '交通运输、仓储及邮电通信业城镇单位就业人员',
 '信息传输、计算机服务和软件业城镇单位就业人员',
 '批发和零售业城镇单位就业人员',
 '住宿和餐饮业城镇单位就业人员',
 '金融业城镇单位就业人员',
 '房地产业城镇单位就业人员',
 '租赁和商务服务业城镇单位就业人员',
 '科学研究、技术服务和地质勘查业城镇单位就业人员',
 '水利、环境和公共设施管理业城镇单位就业人员',
 '居民服务和其他服务业城镇单位就业人员',
 '教育业城镇单位就业人员',
 '卫生、社会保障和社会福利业城镇单位就业人员',
 '文化、体育和娱乐业城镇单位就业人员',
 '公共管理和社会组织城镇单位就业人员',
 '农、林、牧、渔业城镇单位就业人员平均工资',
 '采矿业城镇单位就业人员平均工资',
 '制造业城镇单位就业人员平均工资',
 '电力、燃气及水的生产和供应业城镇单位就业人员平均工资',
 '建筑业城镇单位就业人员平均工资',
 '交通运输、仓储和邮政业城镇单位就业人员平均工资',
 '信息传输、计算机服务和软件业城镇单位就业人员平均工资',
 '批发和零售业城镇单位就业人员平均工资',
 '住宿和餐饮业城镇单位就业人员平均工资',
 '金融业城镇单位就业人员平均工资',
 '房地产业城镇单位就业人员平均工资',
 '租赁和商务服务业城镇单位就业人员平均工资',
 '科学研究、技术服务和地质勘查业城镇单位就业人员平均工资',
 '水利、环境和公共设施管理业城镇单位就业人员平均工资',
 '居民服务和其他服务业城镇单位就业人员平均工资',
 '教育城镇单位就业人员平均工资',
 '卫生、社会保障和社会福利业城镇单位就业人员平均工资',
 '文化、体育和娱乐业城镇单位就业人员平均工资',
 '公共管理和社会组织城镇单位就业人员平均工资']

In [18]:
# 设置新索引
# 将上述拼接的结果变成新索引
df_就业切片 = df_new.set_index("指标").loc[指标分的可能性_取_all].reset_index()
df_就业切片

Unnamed: 0,指标,地区,年,数据
0,农林牧渔业城镇单位就业人员,北京市,2018,
1,农林牧渔业城镇单位就业人员,北京市,2017,3.4116
2,农林牧渔业城镇单位就业人员,北京市,2016,3.6867
3,农林牧渔业城镇单位就业人员,北京市,2015,3.8949
4,农林牧渔业城镇单位就业人员,北京市,2014,3.2331
5,农林牧渔业城镇单位就业人员,北京市,2013,3.1346
6,农林牧渔业城镇单位就业人员,北京市,2012,2.5446
7,农林牧渔业城镇单位就业人员,北京市,2011,2.3632
8,农林牧渔业城镇单位就业人员,北京市,2010,3.2000
9,农林牧渔业城镇单位就业人员,北京市,2009,3.2282


In [19]:
# 对上述数据进行所有统计的分析，并观察数据类型
df_就业切片.describe(include="all")

Unnamed: 0,指标,地区,年,数据
count,11780,11780,11780.0,10591.0
unique,38,31,,
top,采矿业城镇单位就业人员平均工资,山东省,,
freq,310,380,,
mean,,,2013.5,25995.610415
std,,,2.872403,31837.310363
min,,,2009.0,0.0249
25%,,,2011.0,11.32385
50%,,,2013.5,11478.0
75%,,,2016.0,46218.5


# 分组数据 

In [20]:
# 进行一维数据的分组
df_就业切片.groupby(by="指标").agg({"数据":["min","max","mean"]})

Unnamed: 0_level_0,数据,数据,数据
Unnamed: 0_level_1,min,max,mean
指标,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
交通运输、仓储及邮电通信业城镇单位就业人员,0.5997,85.3999,24.55632
交通运输、仓储和邮政业城镇单位就业人员平均工资,25098.0,116763.0,56241.240143
住宿和餐饮业城镇单位就业人员,0.3,39.3419,8.331891
住宿和餐饮业城镇单位就业人员平均工资,13455.0,61095.0,31198.731183
信息传输、计算机服务和软件业城镇单位就业人员,0.2235,77.44,9.204604
信息传输、计算机服务和软件业城镇单位就业人员平均工资,22186.0,212063.0,72507.896057
公共管理和社会组织城镇单位就业人员,7.8169,116.1762,50.301842
公共管理和社会组织城镇单位就业人员平均工资,25275.0,128855.0,55019.594982
农、林、牧、渔业城镇单位就业人员平均工资,8832.0,74975.0,30661.90681
农林牧渔业城镇单位就业人员,0.3089,93.9292,10.091744


In [21]:
# 多层次数据分析
# 在表格最后一列直接赋值
df_就业切片["行业"] = [x.split("城镇单位就业")[0] for x in df_就业切片.指标]
df_就业切片["行业指标"] = [x.split("城镇单位就业")[1] for x in df_就业切片.指标]
df_就业切片

Unnamed: 0,指标,地区,年,数据,行业,行业指标
0,农林牧渔业城镇单位就业人员,北京市,2018,,农林牧渔业,人员
1,农林牧渔业城镇单位就业人员,北京市,2017,3.4116,农林牧渔业,人员
2,农林牧渔业城镇单位就业人员,北京市,2016,3.6867,农林牧渔业,人员
3,农林牧渔业城镇单位就业人员,北京市,2015,3.8949,农林牧渔业,人员
4,农林牧渔业城镇单位就业人员,北京市,2014,3.2331,农林牧渔业,人员
5,农林牧渔业城镇单位就业人员,北京市,2013,3.1346,农林牧渔业,人员
6,农林牧渔业城镇单位就业人员,北京市,2012,2.5446,农林牧渔业,人员
7,农林牧渔业城镇单位就业人员,北京市,2011,2.3632,农林牧渔业,人员
8,农林牧渔业城镇单位就业人员,北京市,2010,3.2000,农林牧渔业,人员
9,农林牧渔业城镇单位就业人员,北京市,2009,3.2282,农林牧渔业,人员


In [22]:
df_就业切片.groupby(["地区","行业","行业指标"]).agg({"数据":["min","max","mean"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,数据,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,max,mean
地区,行业,行业指标,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
上海市,交通运输、仓储及邮电通信业,人员,35.6329,51.4541,45.014167
上海市,交通运输、仓储和邮政业,人员平均工资,49847.0000,116763.0000,81817.888889
上海市,住宿和餐饮业,人员,10.8191,25.5494,19.851000
上海市,住宿和餐饮业,人员平均工资,29564.0000,60153.0000,45158.777778
上海市,信息传输、计算机服务和软件业,人员,6.5150,30.7312,17.706767
上海市,信息传输、计算机服务和软件业,人员平均工资,101367.0000,212063.0000,153913.666667
上海市,公共管理和社会组织,人员,18.2518,21.1526,19.983900
上海市,公共管理和社会组织,人员平均工资,65919.0000,118964.0000,92678.222222
上海市,农、林、牧、渔业,人员平均工资,38093.0000,69903.0000,54100.666667
上海市,农林牧渔业,人员,1.2254,2.7646,1.876556


In [23]:
# query()是对数据框进行（挑选行）的操作
人员平均工资 = df_就业切片.query("行业指标=='人员平均工资'")
人员平均工资

Unnamed: 0,指标,地区,年,数据,行业,行业指标
5890,农、林、牧、渔业城镇单位就业人员平均工资,北京市,2018,,农、林、牧、渔业,人员平均工资
5891,农、林、牧、渔业城镇单位就业人员平均工资,北京市,2017,55218.0,农、林、牧、渔业,人员平均工资
5892,农、林、牧、渔业城镇单位就业人员平均工资,北京市,2016,51941.0,农、林、牧、渔业,人员平均工资
5893,农、林、牧、渔业城镇单位就业人员平均工资,北京市,2015,50797.0,农、林、牧、渔业,人员平均工资
5894,农、林、牧、渔业城镇单位就业人员平均工资,北京市,2014,49478.0,农、林、牧、渔业,人员平均工资
5895,农、林、牧、渔业城镇单位就业人员平均工资,北京市,2013,48352.0,农、林、牧、渔业,人员平均工资
5896,农、林、牧、渔业城镇单位就业人员平均工资,北京市,2012,39334.0,农、林、牧、渔业,人员平均工资
5897,农、林、牧、渔业城镇单位就业人员平均工资,北京市,2011,34110.0,农、林、牧、渔业,人员平均工资
5898,农、林、牧、渔业城镇单位就业人员平均工资,北京市,2010,29889.0,农、林、牧、渔业,人员平均工资
5899,农、林、牧、渔业城镇单位就业人员平均工资,北京市,2009,27020.0,农、林、牧、渔业,人员平均工资


In [66]:
# 按数据的平均值进行排序
人员平均工资.groupby(["行业","地区"]).agg({"数据":["min","max","mean"]}).sort_values(by=("数据","mean"))

Unnamed: 0_level_0,Unnamed: 1_level_0,数据,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
行业,地区,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
农、林、牧、渔业,辽宁省,8832.0,17027.0,12813.111111
农、林、牧、渔业,河北省,11330.0,23327.0,16067.333333
农、林、牧、渔业,黑龙江省,11079.0,30638.0,21949.555556
农、林、牧、渔业,西藏自治区,13522.0,41370.0,22214.888889
水利、环境和公共设施管理业,山西省,15831.0,30961.0,23166.111111
住宿和餐饮业,山西省,13455.0,31030.0,23168.000000
农、林、牧、渔业,海南省,10855.0,34665.0,23275.000000
农、林、牧、渔业,湖南省,14519.0,37936.0,23690.888889
农、林、牧、渔业,吉林省,13636.0,36826.0,24213.333333
农、林、牧、渔业,广西壮族自治区,15397.0,36875.0,24535.000000


In [25]:
# 按地区进行分组，查看哪个地区的平均工资较高
人员平均工资.groupby(["地区"]).agg({"数据":["min","max","mean"]}).sort_values(by=("数据","mean"),ascending=False)

Unnamed: 0_level_0,数据,数据,数据
Unnamed: 0_level_1,min,max,mean
地区,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
上海市,29564.0,247568.0,95373.45614
北京市,25006.0,253637.0,89086.046784
天津市,20992.0,151778.0,73773.017544
浙江省,22456.0,165532.0,66680.111111
广东省,14469.0,149936.0,63142.736842
江苏省,17904.0,143002.0,61104.783626
西藏自治区,13522.0,186085.0,60094.643275
福建省,15790.0,109757.0,52346.28655
重庆市,17129.0,126739.0,52280.444444
山东省,19568.0,94704.0,50366.672515


In [26]:
# 再按行业进行分组，查看哪个行业的工资较高
_df_ = 人员平均工资.groupby(["行业"]).agg({"数据":["min","max","mean"]})
_df_

Unnamed: 0_level_0,数据,数据,数据
Unnamed: 0_level_1,min,max,mean
行业,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
交通运输、仓储和邮政业,25098.0,116763.0,56241.240143
住宿和餐饮业,13455.0,61095.0,31198.731183
信息传输、计算机服务和软件业,22186.0,212063.0,72507.896057
公共管理和社会组织,25275.0,128855.0,55019.594982
农、林、牧、渔业,8832.0,74975.0,30661.90681
制造业,21508.0,106835.0,45198.247312
卫生、社会保障和社会福利业,22302.0,169191.0,59073.053763
居民服务和其他服务业,16022.0,67013.0,35929.476703
建筑业,16423.0,99718.0,40809.896057
房地产业,15938.0,120379.0,45288.530466


In [27]:
print(_df_.columns)

MultiIndex(levels=[['数据'], ['min', 'max', 'mean']],
           codes=[[0, 0, 0], [0, 1, 2]])


In [28]:
人员平均工资.groupby(["行业"]).agg({"数据":["min","max","mean"]}).columns

MultiIndex(levels=[['数据'], ['min', 'max', 'mean']],
           codes=[[0, 0, 0], [0, 1, 2]])

In [29]:
人员平均工资.groupby(["地区","行业"]).agg({"数据":["min","max","mean"]}).sort_values(by=("数据","mean"),ascending=False).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,数据,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
地区,行业,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
北京市,金融业,143187.0,253637.0,204188.555556
上海市,金融业,134581.0,247568.0,188385.0
上海市,信息传输、计算机服务和软件业,101367.0,212063.0,153913.666667
北京市,信息传输、计算机服务和软件业,100794.0,183183.0,139098.888889
西藏自治区,金融业,76650.0,186085.0,133585.222222
上海市,科学研究、技术服务和地质勘查业,76108.0,176383.0,133555.111111
上海市,电力、燃气及水的生产和供应业,83958.0,174252.0,127959.666667
浙江省,金融业,84714.0,132411.0,117956.0
广东省,金融业,84721.0,149936.0,115820.555556
北京市,科学研究、技术服务和地质勘查业,77632.0,150611.0,114464.555556


In [30]:
# 多层次数据
df_就业切片.groupby(["行业","行业指标","地区"]).agg({"数据":["min","max","mean"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,数据,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,max,mean
行业,行业指标,地区,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
交通运输、仓储及邮电通信业,人员,上海市,35.6329,51.4541,45.014167
交通运输、仓储及邮电通信业,人员,云南省,13.4000,17.8598,15.667100
交通运输、仓储及邮电通信业,人员,内蒙古自治区,16.2429,22.7777,19.266189
交通运输、仓储及邮电通信业,人员,北京市,50.0662,60.2262,56.857056
交通运输、仓储及邮电通信业,人员,吉林省,14.2939,17.1587,15.836233
交通运输、仓储及邮电通信业,人员,四川省,22.5911,41.3341,32.641667
交通运输、仓储及邮电通信业,人员,天津市,11.4261,15.0084,13.687956
交通运输、仓储及邮电通信业,人员,宁夏回族自治区,2.9000,4.0421,3.538267
交通运输、仓储及邮电通信业,人员,安徽省,14.7374,24.2102,19.554044
交通运输、仓储及邮电通信业,人员,山东省,33.2476,50.6405,42.983356


In [31]:
# 对字词进行统一，减小数据分析时的误差
统一字词 = {"交通运输、仓储及邮电通信业":"交通运输、仓储和邮政业",\
            "交通运输、仓储和邮政业":"交通运输、仓储和邮政业",\
            "农、林、牧、渔业":"农林牧渔业",\
            "教育":"教育业","教育业业":"教育业"}
df_就业切片_new = df_就业切片.set_index("行业").rename(index=统一字词).reset_index()
df_就业切片_new.行业.unique()
#df_就业切片_new

array(['农林牧渔业', '采矿业', '制造业', '电力、燃气及水的生产和供应业', '建筑业', '交通运输、仓储和邮政业',
       '信息传输、计算机服务和软件业', '批发和零售业', '住宿和餐饮业', '金融业', '房地产业', '租赁和商务服务业',
       '科学研究、技术服务和地质勘查业', '水利、环境和公共设施管理业', '居民服务和其他服务业', '教育业',
       '卫生、社会保障和社会福利业', '文化、体育和娱乐业', '公共管理和社会组织'], dtype=object)

In [32]:
df_就业切片_new.groupby(["行业","行业指标"]).agg({"数据":["min","max","mean"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,数据,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean
行业,行业指标,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
交通运输、仓储和邮政业,人员,0.5997,85.3999,24.55632
交通运输、仓储和邮政业,人员平均工资,25098.0,116763.0,56241.240143
住宿和餐饮业,人员,0.3,39.3419,8.331891
住宿和餐饮业,人员平均工资,13455.0,61095.0,31198.731183
信息传输、计算机服务和软件业,人员,0.2235,77.44,9.204604
信息传输、计算机服务和软件业,人员平均工资,22186.0,212063.0,72507.896057
公共管理和社会组织,人员,7.8169,116.1762,50.301842
公共管理和社会组织,人员平均工资,25275.0,128855.0,55019.594982
农林牧渔业,人员,0.3089,93.9292,10.091744
农林牧渔业,人员平均工资,8832.0,74975.0,30661.90681


# 自主练习
我想查看各个地区、各个行业的城镇单位就业人员的工资总额

In [34]:
# 只取 人员工资总额
人员工资总额 = [[x,y] for (x,y) in 指标分的可能性 if (y=='人员工资总额') and x != '']
人员工资总额

[['国有', '人员工资总额'],
 ['其他', '人员工资总额'],
 ['农、林、牧、渔业', '人员工资总额'],
 ['采矿业', '人员工资总额'],
 ['制造业', '人员工资总额'],
 ['电力、燃气及水的生产和供应业', '人员工资总额'],
 ['建筑业', '人员工资总额'],
 ['交通运输、仓储和邮政业', '人员工资总额'],
 ['信息传输、计算机服务和软件业', '人员工资总额'],
 ['批发和零售业', '人员工资总额'],
 ['住宿和餐饮业', '人员工资总额'],
 ['金融业', '人员工资总额'],
 ['房地产业', '人员工资总额'],
 ['租赁和商务服务业', '人员工资总额'],
 ['科学研究、技术服务和地质勘查业', '人员工资总额'],
 ['水利、环境和公共设施管理业', '人员工资总额'],
 ['居民服务和其他服务业', '人员工资总额'],
 ['教育', '人员工资总额'],
 ['卫生、社会保障和社会福利业', '人员工资总额'],
 ['文化、体育和娱乐业', '人员工资总额'],
 ['公共管理和社会组织', '人员工资总额']]

In [35]:
人员工资总额_all = ["城镇单位就业".join(x) for x in 人员工资总额]
人员工资总额_all

['国有城镇单位就业人员工资总额',
 '其他城镇单位就业人员工资总额',
 '农、林、牧、渔业城镇单位就业人员工资总额',
 '采矿业城镇单位就业人员工资总额',
 '制造业城镇单位就业人员工资总额',
 '电力、燃气及水的生产和供应业城镇单位就业人员工资总额',
 '建筑业城镇单位就业人员工资总额',
 '交通运输、仓储和邮政业城镇单位就业人员工资总额',
 '信息传输、计算机服务和软件业城镇单位就业人员工资总额',
 '批发和零售业城镇单位就业人员工资总额',
 '住宿和餐饮业城镇单位就业人员工资总额',
 '金融业城镇单位就业人员工资总额',
 '房地产业城镇单位就业人员工资总额',
 '租赁和商务服务业城镇单位就业人员工资总额',
 '科学研究、技术服务和地质勘查业城镇单位就业人员工资总额',
 '水利、环境和公共设施管理业城镇单位就业人员工资总额',
 '居民服务和其他服务业城镇单位就业人员工资总额',
 '教育城镇单位就业人员工资总额',
 '卫生、社会保障和社会福利业城镇单位就业人员工资总额',
 '文化、体育和娱乐业城镇单位就业人员工资总额',
 '公共管理和社会组织城镇单位就业人员工资总额']

In [37]:
newest = df_new.set_index("指标").loc[人员工资总额_all].reset_index()
newest

Unnamed: 0,指标,地区,年,数据
0,国有城镇单位就业人员工资总额,北京市,2018,
1,国有城镇单位就业人员工资总额,北京市,2017,2663.84409
2,国有城镇单位就业人员工资总额,北京市,2016,2350.74965
3,国有城镇单位就业人员工资总额,北京市,2015,2106.60123
4,国有城镇单位就业人员工资总额,北京市,2014,1932.38647
5,国有城镇单位就业人员工资总额,北京市,2013,1771.35664
6,国有城镇单位就业人员工资总额,北京市,2012,1624.84200
7,国有城镇单位就业人员工资总额,北京市,2011,1460.24719
8,国有城镇单位就业人员工资总额,北京市,2010,1264.30000
9,国有城镇单位就业人员工资总额,北京市,2009,1115.99723


In [47]:
newest.groupby(by = ["地区","年","指标"]).agg({"数据":["min","max"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,max
地区,年,指标,Unnamed: 3_level_2,Unnamed: 4_level_2
上海市,2009,交通运输、仓储和邮政业城镇单位就业人员工资总额,180.79406,180.79406
上海市,2009,住宿和餐饮业城镇单位就业人员工资总额,31.62839,31.62839
上海市,2009,信息传输、计算机服务和软件业城镇单位就业人员工资总额,67.31563,67.31563
上海市,2009,公共管理和社会组织城镇单位就业人员工资总额,124.05815,124.05815
上海市,2009,其他城镇单位就业人员工资总额,1310.48128,1310.48128
上海市,2009,农、林、牧、渔业城镇单位就业人员工资总额,4.71130,4.71130
上海市,2009,制造业城镇单位就业人员工资总额,667.20578,667.20578
上海市,2009,卫生、社会保障和社会福利业城镇单位就业人员工资总额,112.83671,112.83671
上海市,2009,国有城镇单位就业人员工资总额,938.65973,938.65973
上海市,2009,居民服务和其他服务业城镇单位就业人员工资总额,12.06220,12.06220


In [50]:
newest["行业"] = [x.split("城镇单位就业")[0] for x in newest.指标]
newest

Unnamed: 0,指标,地区,年,数据,行业
0,国有城镇单位就业人员工资总额,北京市,2018,,国有
1,国有城镇单位就业人员工资总额,北京市,2017,2663.84409,国有
2,国有城镇单位就业人员工资总额,北京市,2016,2350.74965,国有
3,国有城镇单位就业人员工资总额,北京市,2015,2106.60123,国有
4,国有城镇单位就业人员工资总额,北京市,2014,1932.38647,国有
5,国有城镇单位就业人员工资总额,北京市,2013,1771.35664,国有
6,国有城镇单位就业人员工资总额,北京市,2012,1624.84200,国有
7,国有城镇单位就业人员工资总额,北京市,2011,1460.24719,国有
8,国有城镇单位就业人员工资总额,北京市,2010,1264.30000,国有
9,国有城镇单位就业人员工资总额,北京市,2009,1115.99723,国有


In [67]:
newest.groupby(["行业","地区","指标"]).agg({"数据":["min","max"]}).sort_values(by=("数据","max"),ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,max
行业,地区,指标,Unnamed: 3_level_2,Unnamed: 4_level_2
其他,广东省,其他城镇单位就业人员工资总额,1964.56403,11519.25457
其他,江苏省,其他城镇单位就业人员工资总额,1213.43937,8380.48475
其他,北京市,其他城镇单位就业人员工资总额,2372.05489,7927.45607
其他,上海市,其他城镇单位就业人员工资总额,1310.48128,6966.53920
制造业,广东省,制造业城镇单位就业人员工资总额,1205.73020,6267.68210
其他,浙江省,其他城镇单位就业人员工资总额,1662.22139,5563.67892
其他,山东省,其他城镇单位就业人员工资总额,1114.76531,4633.21354
制造业,江苏省,制造业城镇单位就业人员工资总额,847.64346,3903.32384
国有,广东省,国有城镇单位就业人员工资总额,1718.70694,3742.61634
其他,河南省,其他城镇单位就业人员工资总额,786.03534,3593.64666
