## 国家数据分析实践

In [1]:
%%html
<style>
/* 本电子讲义使用之CSS */
div.code_cell {
    background-color: #e5f1fe;
}
div.cell.selected {
    background-color: #effee2;
    font-size: 2rem;
    line-height: 2.4rem;
}
div.cell.selected .rendered_html table {
    font-size: 2rem !important;
    line-height: 2.4rem !important;
}
.rendered_html pre code {
    background-color: #C4E4ff;   
    padding: 2px 25px;
}
.rendered_html pre {
    background-color: #99c9ff;
}
div.code_cell .CodeMirror {
    font-size: 2rem !important;
    line-height: 3.6rem !important;
}
.rendered_html img, .rendered_html svg {
    max-width: 60%;
    height: auto;
    float: right;
}

.rendered_html img[src*="#full"], .rendered_html svg[src*="#full"] {
    max-width: 100%;
    height: auto;
    float: none;
}

.rendered_html img[src*="#thumbnail"], .rendered_html svg[src*="#thumbnail"] {
    max-width: 15%;
    height: auto;
}
.rendered_html img[src*="#thumbnailauto"], .rendered_html svg[src*="#thumbnail"] {
    max-width: auto;
    height: auto;
}

/* Gradient transparent - color - transparent */
hr {
    border: 0;
    border-bottom: 1px dashed #ccc;
}
.emoticon{
    font-size: 5rem;
    line-height: 4.4rem;
    text-align: center;
    vertical-align: middle;
}
.bg-reshape {
    width: 550px;
    height: 205px;
    background: url('../20春_pandas_CheatSheet.svg') -205px -110px;
    float: left;
}
.break {
                   page-break-after: right; 
                   width:100%;
                   clear:both;
}
</style>

### step01:准备数据

In [50]:
import pandas as pds

In [31]:
# 读取数据
df = pd.read_csv("fsnd_zb_meta.tsv", encoding="utf8", sep="\t")
df.head()

Unnamed: 0,code,cname,dotcount,exp,ifshowcode,memo,name,nodesort,sortcode,tag,unit
0,A010101,地级区划数,0,指地级行政单位即介于省级和县级之间的一级地方行政区域的个数，包括地区、自治州、行政区和盟。,False,,地级区划数,1,2,,个
1,A010102,地级市数,0,市是省、自治区内人口较集中，政治、经济、文化等方面较重要的城市。市人民政府为一级地方行政组织...,False,,地级市数,1,3,,个
2,A010103,县级区划数,0,县级行政单位指中国地方二级行政区域，是地方政权的基础。县级行政单位包括县、自治县、旗、自治旗...,False,,县级区划数,1,4,,个
3,A010104,市辖区数,0,市辖区（简称区）城市基层政权组织的行政区域。直辖市和较大的市多将市区范围划分为若干区，设立区...,False,,市辖区数,1,5,,个
4,A010105,县级市数,0,县级市是中国大陆行政区划名称，行政地位与县相同的县级行政区,False,,县级市数,1,6,,个


In [32]:
# 国家数据库分省数据准备
df_raw = pd.read_csv("fsnd_zb_data.tsv", encoding="utf8", sep="\t", \
                    keep_default_na=False, na_values = 'na_rep',
                    index_col = [0, 1, 2])
df_m =  pd.read_csv("fsnd_zb_meta.tsv", encoding="utf8", sep="\t", \
                    keep_default_na=False,)
df_r =  pd.read_csv("reg_treeId_level2.tsv", encoding="utf8", sep="\t", \
                    keep_default_na=False, )
display(df_raw)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,data
zb,reg,sj,Unnamed: 3_level_1
A010101,110000,2018,
A010101,110000,2017,
A010101,110000,2016,
A010101,110000,2015,
A010101,110000,2014,
A010101,110000,2013,
A010101,110000,2012,
A010101,110000,2011,
A010101,110000,2010,
A010101,110000,2009,


In [33]:
# 查看数组有多少
df_raw.shape

(908300, 1)

### step02:创建字典

In [44]:
# 创建指标字典
指标字典 = df_m.set_index("code")['cname'].to_dict() # 取cname转化为字典
指标字典

{'A010101': '地级区划数',
 'A010102': '地级市数',
 'A010103': '县级区划数',
 'A010104': '市辖区数',
 'A010105': '县级市数',
 'A010106': '县数',
 'A010107': '自治县数',
 'A010108': '乡镇级区划数',
 'A010109': '镇数',
 'A01010A': '乡数',
 'A01010B': '街道办事处',
 'A010201': '三次产业法人单位数',
 'A010202': '分机构类型法人单位数',
 'A010203': '分行业法人单位数',
 'A010301': '按控股情况分企业法人单位数',
 'A010302': '按登记注册类型分企业法人单位数',
 'A020101': '地区生产总值',
 'A020102': '第一产业增加值',
 'A020103': '第二产业增加值',
 'A020104': '第三产业增加值',
 'A020105': '农林牧渔业增加值',
 'A020106': '工业增加值',
 'A020107': '建筑业增加值',
 'A020108': '批发和零售业增加值',
 'A020109': '批发和零售贸易餐饮业增加值',
 'A02010A': '交通运输、仓储和邮政业增加值',
 'A02010B': '交通运输、仓储和邮电通信业增加值',
 'A02010C': '住宿和餐饮业增加值',
 'A02010D': '金融业增加值',
 'A02010E': '房地产业增加值',
 'A02010F': '其他行业增加值',
 'A02010G': '人均地区生产总值',
 'A020201': '地区生产总值指数(上年=100)',
 'A020202': '第一产业增加值指数(上年=100)',
 'A020203': '第二产业增加值指数(上年=100)',
 'A020204': '第三产业增加值指数(上年=100)',
 'A020301': '收入法生产总值',
 'A020302': '劳动者报酬',
 'A020303': '生产税净额',
 'A020304': '固定资产折旧',
 'A020305': '营业盈余',
 'A020401': '支出法生

In [35]:
df_m

Unnamed: 0,code,cname,dotcount,exp,ifshowcode,memo,name,nodesort,sortcode,tag,unit
0,A010101,地级区划数,0,指地级行政单位即介于省级和县级之间的一级地方行政区域的个数，包括地区、自治州、行政区和盟。,False,,地级区划数,1,2,,个
1,A010102,地级市数,0,市是省、自治区内人口较集中，政治、经济、文化等方面较重要的城市。市人民政府为一级地方行政组织...,False,,地级市数,1,3,,个
2,A010103,县级区划数,0,县级行政单位指中国地方二级行政区域，是地方政权的基础。县级行政单位包括县、自治县、旗、自治旗...,False,,县级区划数,1,4,,个
3,A010104,市辖区数,0,市辖区（简称区）城市基层政权组织的行政区域。直辖市和较大的市多将市区范围划分为若干区，设立区...,False,,市辖区数,1,5,,个
4,A010105,县级市数,0,县级市是中国大陆行政区划名称，行政地位与县相同的县级行政区,False,,县级市数,1,6,,个
5,A010106,县数,0,县级行政区是中国地方一级行政区域。按中国现行行政区域体制，县可属于省、自治区、直辖市，可属于...,False,,县数,1,7,,个
6,A010107,自治县数,0,自治县是相当于县的民族自治地方。,False,,自治县数,1,8,,个
7,A010108,乡镇级区划数,0,县级以下的基层行政区域──乡和镇，是地方三级行政单位。,False,,乡镇级区划数,1,9,,个
8,A010109,镇数,0,指报告期末不设区的市、市辖区、县（自治县、旗、自治旗、特区、林区）在辖区内实际设有的镇人民政...,False,,镇数,1,10,,个
9,A01010A,乡数,0,指报告期末不设区的市、市辖区、县（自治县、旗、自治旗、特区、林区）在辖区内实际设有的乡人民政...,False,,乡数,1,11,,个


In [36]:
# 创建地区字典
地区字典 = df_r.set_index("id")['name'].to_dict() #取id为key，name为value
地区字典

{110000: '北京市',
 120000: '天津市',
 130000: '河北省',
 140000: '山西省',
 150000: '内蒙古自治区',
 210000: '辽宁省',
 220000: '吉林省',
 230000: '黑龙江省',
 310000: '上海市',
 320000: '江苏省',
 330000: '浙江省',
 340000: '安徽省',
 350000: '福建省',
 360000: '江西省',
 370000: '山东省',
 410000: '河南省',
 420000: '湖北省',
 430000: '湖南省',
 440000: '广东省',
 450000: '广西壮族自治区',
 460000: '海南省',
 500000: '重庆市',
 510000: '四川省',
 520000: '贵州省',
 530000: '云南省',
 540000: '西藏自治区',
 610000: '陕西省',
 620000: '甘肃省',
 630000: '青海省',
 640000: '宁夏回族自治区',
 650000: '新疆维吾尔自治区'}

In [37]:
df_r.head()

Unnamed: 0,i,dbcode,exp,id,isParent,name,open,pid,wd
0,0,fsnd,,110000,True,北京市,False,100001,reg
1,1,fsnd,,120000,True,天津市,False,100001,reg
2,2,fsnd,,130000,True,河北省,False,100001,reg
3,3,fsnd,,140000,True,山西省,False,100001,reg
4,4,fsnd,,150000,True,内蒙古自治区,False,100001,reg


### step03:使用字典进行数据框转换

In [45]:
# 指标字典==>zb指标
df = df_raw.reset_index().set_index("zb").rename(index=指标字典)
df
# zb变为索引

Unnamed: 0_level_0,reg,sj,data
zb,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
地级区划数,110000,2018,
地级区划数,110000,2017,
地级区划数,110000,2016,
地级区划数,110000,2015,
地级区划数,110000,2014,
地级区划数,110000,2013,
地级区划数,110000,2012,
地级区划数,110000,2011,
地级区划数,110000,2010,
地级区划数,110000,2009,


In [46]:
# 地区字典==>reg地区
# [地区字典[x] for x in set(df.reset_index()['reg'].to_list())]
df = df.reset_index().set_index("reg").rename(index=地区字典)
df

Unnamed: 0_level_0,zb,sj,data
reg,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
北京市,地级区划数,2018,
北京市,地级区划数,2017,
北京市,地级区划数,2016,
北京市,地级区划数,2015,
北京市,地级区划数,2014,
北京市,地级区划数,2013,
北京市,地级区划数,2012,
北京市,地级区划数,2011,
北京市,地级区划数,2010,
北京市,地级区划数,2009,


In [48]:
# 重命名columns
df_zh = df.reset_index().rename(columns={"zb":"指标","reg":"地区",\
                                         "sj":"年","data":"数据",})
df_zh

Unnamed: 0,地区,指标,年,数据
0,北京市,地级区划数,2018,
1,北京市,地级区划数,2017,
2,北京市,地级区划数,2016,
3,北京市,地级区划数,2015,
4,北京市,地级区划数,2014,
5,北京市,地级区划数,2013,
6,北京市,地级区划数,2012,
7,北京市,地级区划数,2011,
8,北京市,地级区划数,2010,
9,北京市,地级区划数,2009,


### step04:切数据：实现快速查找

In [79]:
# 例：查找国有城镇单位就业人员工资总额数据
df_zh.set_index('指标').loc["国有城镇单位就业人员工资总额","年":"数据"]

Unnamed: 0_level_0,年,数据
指标,Unnamed: 1_level_1,Unnamed: 2_level_1
国有城镇单位就业人员工资总额,2018,
国有城镇单位就业人员工资总额,2017,2663.84409
国有城镇单位就业人员工资总额,2016,2350.74965
国有城镇单位就业人员工资总额,2015,2106.60123
国有城镇单位就业人员工资总额,2014,1932.38647
国有城镇单位就业人员工资总额,2013,1771.35664
国有城镇单位就业人员工资总额,2012,1624.84200
国有城镇单位就业人员工资总额,2011,1460.24719
国有城镇单位就业人员工资总额,2010,1264.30000
国有城镇单位就业人员工资总额,2009,1115.99723


In [49]:
# 按问题意识去切数据
dslice = df_zh [ df_zh.指标.str.contains("城镇单位就业人员")] # 筛选出“城镇单位就业人员”
dslice

Unnamed: 0,地区,指标,年,数据
19530,北京市,城镇单位就业人员,2018,
19531,北京市,城镇单位就业人员,2017,812.8589
19532,北京市,城镇单位就业人员,2016,791.5197
19533,北京市,城镇单位就业人员,2015,777.3448
19534,北京市,城镇单位就业人员,2014,755.8601
19535,北京市,城镇单位就业人员,2013,742.2565
19536,北京市,城镇单位就业人员,2012,717.3717
19537,北京市,城镇单位就业人员,2011,685.9018
19538,北京市,城镇单位就业人员,2010,646.6000
19539,北京市,城镇单位就业人员,2009,619.3478


### step05：思考“分”进合击之“分”的可能性

In [51]:
# 思考“分”进合击之“分”的可能性
指标分的可能性 = dslice.指标.unique() # unique:以数组形式（numpy.ndarray）返回列的所有唯一值（特征的所有唯一值）
指标分的可能性
# 结构是？
# “人员、工资总额、平均工资、平均实际工资”的全行业总和与各行业数据

array(['城镇单位就业人员', '农林牧渔业城镇单位就业人员', '采矿业城镇单位就业人员', '制造业城镇单位就业人员',
       '电力、燃气及水的生产和供应业城镇单位就业人员', '建筑业城镇单位就业人员', '交通运输、仓储及邮电通信业城镇单位就业人员',
       '信息传输、计算机服务和软件业城镇单位就业人员', '批发和零售业城镇单位就业人员', '住宿和餐饮业城镇单位就业人员',
       '金融业城镇单位就业人员', '房地产业城镇单位就业人员', '租赁和商务服务业城镇单位就业人员',
       '科学研究、技术服务和地质勘查业城镇单位就业人员', '水利、环境和公共设施管理业城镇单位就业人员',
       '居民服务和其他服务业城镇单位就业人员', '教育业城镇单位就业人员', '卫生、社会保障和社会福利业城镇单位就业人员',
       '文化、体育和娱乐业城镇单位就业人员', '公共管理和社会组织城镇单位就业人员', '城镇单位就业人员工资总额',
       '国有城镇单位就业人员工资总额', '其他城镇单位就业人员工资总额', '城镇单位就业人员工资总额指数(上年=100)',
       '国有城镇单位就业人员工资总额指数(上年=100)', '其他城镇单位就业人员工资总额指数(上年=100)',
       '城镇单位就业人员平均工资', '城镇单位就业人员平均货币工资指数(上年=100)',
       '国有城镇单位就业人员平均货币工资指数(上年=100)', '其他城镇单位就业人员平均货币工资指数(上年=100)',
       '城镇单位就业人员平均实际工资指数(上年=100)', '国有城镇单位就业人员平均实际工资指数(上年=100)',
       '其他城镇单位就业人员平均实际工资指数(上年=100)', '农、林、牧、渔业城镇单位就业人员工资总额',
       '采矿业城镇单位就业人员工资总额', '制造业城镇单位就业人员工资总额', '电力、燃气及水的生产和供应业城镇单位就业人员工资总额',
       '建筑业城镇单位就业人员工资总额', '交通运输、仓储和邮政业城镇单位就业人员工资总额',
       '信息传输、计算机服务和软件业城镇单位就业人员工资总额', 

In [52]:
指标分的可能性 = [ x.split("城镇单位就业") for x in dslice.指标.unique()]
指标分的可能性

[['', '人员'],
 ['农林牧渔业', '人员'],
 ['采矿业', '人员'],
 ['制造业', '人员'],
 ['电力、燃气及水的生产和供应业', '人员'],
 ['建筑业', '人员'],
 ['交通运输、仓储及邮电通信业', '人员'],
 ['信息传输、计算机服务和软件业', '人员'],
 ['批发和零售业', '人员'],
 ['住宿和餐饮业', '人员'],
 ['金融业', '人员'],
 ['房地产业', '人员'],
 ['租赁和商务服务业', '人员'],
 ['科学研究、技术服务和地质勘查业', '人员'],
 ['水利、环境和公共设施管理业', '人员'],
 ['居民服务和其他服务业', '人员'],
 ['教育业', '人员'],
 ['卫生、社会保障和社会福利业', '人员'],
 ['文化、体育和娱乐业', '人员'],
 ['公共管理和社会组织', '人员'],
 ['', '人员工资总额'],
 ['国有', '人员工资总额'],
 ['其他', '人员工资总额'],
 ['', '人员工资总额指数(上年=100)'],
 ['国有', '人员工资总额指数(上年=100)'],
 ['其他', '人员工资总额指数(上年=100)'],
 ['', '人员平均工资'],
 ['', '人员平均货币工资指数(上年=100)'],
 ['国有', '人员平均货币工资指数(上年=100)'],
 ['其他', '人员平均货币工资指数(上年=100)'],
 ['', '人员平均实际工资指数(上年=100)'],
 ['国有', '人员平均实际工资指数(上年=100)'],
 ['其他', '人员平均实际工资指数(上年=100)'],
 ['农、林、牧、渔业', '人员工资总额'],
 ['采矿业', '人员工资总额'],
 ['制造业', '人员工资总额'],
 ['电力、燃气及水的生产和供应业', '人员工资总额'],
 ['建筑业', '人员工资总额'],
 ['交通运输、仓储和邮政业', '人员工资总额'],
 ['信息传输、计算机服务和软件业', '人员工资总额'],
 ['批发和零售业', '人员工资总额'],
 ['住宿和餐饮业', '人员工资总额'],
 ['金融业', '人员工资总额'],
 ['房地产

In [54]:
# 只取“人员”，“人员平均工资”
指标分的可能性_取 = [ [x,y] for (x,y) in 指标分的可能性 if (y=='人员平均工资' or y=='人员') and x!='']
指标分的可能性_取

[['农林牧渔业', '人员'],
 ['采矿业', '人员'],
 ['制造业', '人员'],
 ['电力、燃气及水的生产和供应业', '人员'],
 ['建筑业', '人员'],
 ['交通运输、仓储及邮电通信业', '人员'],
 ['信息传输、计算机服务和软件业', '人员'],
 ['批发和零售业', '人员'],
 ['住宿和餐饮业', '人员'],
 ['金融业', '人员'],
 ['房地产业', '人员'],
 ['租赁和商务服务业', '人员'],
 ['科学研究、技术服务和地质勘查业', '人员'],
 ['水利、环境和公共设施管理业', '人员'],
 ['居民服务和其他服务业', '人员'],
 ['教育业', '人员'],
 ['卫生、社会保障和社会福利业', '人员'],
 ['文化、体育和娱乐业', '人员'],
 ['公共管理和社会组织', '人员'],
 ['农、林、牧、渔业', '人员平均工资'],
 ['采矿业', '人员平均工资'],
 ['制造业', '人员平均工资'],
 ['电力、燃气及水的生产和供应业', '人员平均工资'],
 ['建筑业', '人员平均工资'],
 ['交通运输、仓储和邮政业', '人员平均工资'],
 ['信息传输、计算机服务和软件业', '人员平均工资'],
 ['批发和零售业', '人员平均工资'],
 ['住宿和餐饮业', '人员平均工资'],
 ['金融业', '人员平均工资'],
 ['房地产业', '人员平均工资'],
 ['租赁和商务服务业', '人员平均工资'],
 ['科学研究、技术服务和地质勘查业', '人员平均工资'],
 ['水利、环境和公共设施管理业', '人员平均工资'],
 ['居民服务和其他服务业', '人员平均工资'],
 ['教育', '人员平均工资'],
 ['卫生、社会保障和社会福利业', '人员平均工资'],
 ['文化、体育和娱乐业', '人员平均工资'],
 ['公共管理和社会组织', '人员平均工资']]

In [55]:
# 进一步切片
指标分的可能性_取_all = ["城镇单位就业".join(x) for x in 指标分的可能性_取]
指标分的可能性_取_all

['农林牧渔业城镇单位就业人员',
 '采矿业城镇单位就业人员',
 '制造业城镇单位就业人员',
 '电力、燃气及水的生产和供应业城镇单位就业人员',
 '建筑业城镇单位就业人员',
 '交通运输、仓储及邮电通信业城镇单位就业人员',
 '信息传输、计算机服务和软件业城镇单位就业人员',
 '批发和零售业城镇单位就业人员',
 '住宿和餐饮业城镇单位就业人员',
 '金融业城镇单位就业人员',
 '房地产业城镇单位就业人员',
 '租赁和商务服务业城镇单位就业人员',
 '科学研究、技术服务和地质勘查业城镇单位就业人员',
 '水利、环境和公共设施管理业城镇单位就业人员',
 '居民服务和其他服务业城镇单位就业人员',
 '教育业城镇单位就业人员',
 '卫生、社会保障和社会福利业城镇单位就业人员',
 '文化、体育和娱乐业城镇单位就业人员',
 '公共管理和社会组织城镇单位就业人员',
 '农、林、牧、渔业城镇单位就业人员平均工资',
 '采矿业城镇单位就业人员平均工资',
 '制造业城镇单位就业人员平均工资',
 '电力、燃气及水的生产和供应业城镇单位就业人员平均工资',
 '建筑业城镇单位就业人员平均工资',
 '交通运输、仓储和邮政业城镇单位就业人员平均工资',
 '信息传输、计算机服务和软件业城镇单位就业人员平均工资',
 '批发和零售业城镇单位就业人员平均工资',
 '住宿和餐饮业城镇单位就业人员平均工资',
 '金融业城镇单位就业人员平均工资',
 '房地产业城镇单位就业人员平均工资',
 '租赁和商务服务业城镇单位就业人员平均工资',
 '科学研究、技术服务和地质勘查业城镇单位就业人员平均工资',
 '水利、环境和公共设施管理业城镇单位就业人员平均工资',
 '居民服务和其他服务业城镇单位就业人员平均工资',
 '教育城镇单位就业人员平均工资',
 '卫生、社会保障和社会福利业城镇单位就业人员平均工资',
 '文化、体育和娱乐业城镇单位就业人员平均工资',
 '公共管理和社会组织城镇单位就业人员平均工资']

In [56]:
df_就业切片 = df_zh.set_index("指标").loc[指标分的可能性_取_all].reset_index() #把“指标”换成“指标分的可能性_取_all”
df_就业切片

Unnamed: 0,指标,地区,年,数据
0,农林牧渔业城镇单位就业人员,北京市,2018,
1,农林牧渔业城镇单位就业人员,北京市,2017,3.4116
2,农林牧渔业城镇单位就业人员,北京市,2016,3.6867
3,农林牧渔业城镇单位就业人员,北京市,2015,3.8949
4,农林牧渔业城镇单位就业人员,北京市,2014,3.2331
5,农林牧渔业城镇单位就业人员,北京市,2013,3.1346
6,农林牧渔业城镇单位就业人员,北京市,2012,2.5446
7,农林牧渔业城镇单位就业人员,北京市,2011,2.3632
8,农林牧渔业城镇单位就业人员,北京市,2010,3.2000
9,农林牧渔业城镇单位就业人员,北京市,2009,3.2282


In [57]:
# 查看参数的意义
df_就业切片.describe(include="all")

Unnamed: 0,指标,地区,年,数据
count,11780,11780,11780.0,10591.0
unique,38,31,,
top,科学研究、技术服务和地质勘查业城镇单位就业人员平均工资,新疆维吾尔自治区,,
freq,310,380,,
mean,,,2013.5,25995.610415
std,,,2.872403,31837.310363
min,,,2009.0,0.0249
25%,,,2011.0,11.32385
50%,,,2013.5,11478.0
75%,,,2016.0,46218.5


In [58]:
df_就业切片

Unnamed: 0,指标,地区,年,数据
0,农林牧渔业城镇单位就业人员,北京市,2018,
1,农林牧渔业城镇单位就业人员,北京市,2017,3.4116
2,农林牧渔业城镇单位就业人员,北京市,2016,3.6867
3,农林牧渔业城镇单位就业人员,北京市,2015,3.8949
4,农林牧渔业城镇单位就业人员,北京市,2014,3.2331
5,农林牧渔业城镇单位就业人员,北京市,2013,3.1346
6,农林牧渔业城镇单位就业人员,北京市,2012,2.5446
7,农林牧渔业城镇单位就业人员,北京市,2011,2.3632
8,农林牧渔业城镇单位就业人员,北京市,2010,3.2000
9,农林牧渔业城镇单位就业人员,北京市,2009,3.2282


### step06: 分进合击出报表

### 分组数据

In [59]:
df_就业切片.groupby(['指标']).agg({"数据":["min","mean","max"]})

Unnamed: 0_level_0,数据,数据,数据
Unnamed: 0_level_1,min,mean,max
指标,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
交通运输、仓储及邮电通信业城镇单位就业人员,0.5997,24.55632,85.3999
交通运输、仓储和邮政业城镇单位就业人员平均工资,25098.0,56241.240143,116763.0
住宿和餐饮业城镇单位就业人员,0.3,8.331891,39.3419
住宿和餐饮业城镇单位就业人员平均工资,13455.0,31198.731183,61095.0
信息传输、计算机服务和软件业城镇单位就业人员,0.2235,9.204604,77.44
信息传输、计算机服务和软件业城镇单位就业人员平均工资,22186.0,72507.896057,212063.0
公共管理和社会组织城镇单位就业人员,7.8169,50.301842,116.1762
公共管理和社会组织城镇单位就业人员平均工资,25275.0,55019.594982,128855.0
农、林、牧、渔业城镇单位就业人员平均工资,8832.0,30661.90681,74975.0
农林牧渔业城镇单位就业人员,0.3089,10.091744,93.9292


### 多层次数据

In [60]:
df_就业切片['行业'] = [x.split("城镇单位就业")[0] for x in df_就业切片.指标]
df_就业切片['行业指标'] = [x.split("城镇单位就业")[1] for x in df_就业切片.指标]
df_就业切片

Unnamed: 0,指标,地区,年,数据,行业,行业指标
0,农林牧渔业城镇单位就业人员,北京市,2018,,农林牧渔业,人员
1,农林牧渔业城镇单位就业人员,北京市,2017,3.4116,农林牧渔业,人员
2,农林牧渔业城镇单位就业人员,北京市,2016,3.6867,农林牧渔业,人员
3,农林牧渔业城镇单位就业人员,北京市,2015,3.8949,农林牧渔业,人员
4,农林牧渔业城镇单位就业人员,北京市,2014,3.2331,农林牧渔业,人员
5,农林牧渔业城镇单位就业人员,北京市,2013,3.1346,农林牧渔业,人员
6,农林牧渔业城镇单位就业人员,北京市,2012,2.5446,农林牧渔业,人员
7,农林牧渔业城镇单位就业人员,北京市,2011,2.3632,农林牧渔业,人员
8,农林牧渔业城镇单位就业人员,北京市,2010,3.2000,农林牧渔业,人员
9,农林牧渔业城镇单位就业人员,北京市,2009,3.2282,农林牧渔业,人员


In [61]:
df_就业切片.groupby(['地区','行业','行业指标']).agg({"数据":["min","mean","max"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,数据,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,mean,max
地区,行业,行业指标,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
上海市,交通运输、仓储及邮电通信业,人员,35.6329,45.014167,51.4541
上海市,交通运输、仓储和邮政业,人员平均工资,49847.0000,81817.888889,116763.0000
上海市,住宿和餐饮业,人员,10.8191,19.851000,25.5494
上海市,住宿和餐饮业,人员平均工资,29564.0000,45158.777778,60153.0000
上海市,信息传输、计算机服务和软件业,人员,6.5150,17.706767,30.7312
上海市,信息传输、计算机服务和软件业,人员平均工资,101367.0000,153913.666667,212063.0000
上海市,公共管理和社会组织,人员,18.2518,19.983900,21.1526
上海市,公共管理和社会组织,人员平均工资,65919.0000,92678.222222,118964.0000
上海市,农、林、牧、渔业,人员平均工资,38093.0000,54100.666667,69903.0000
上海市,农林牧渔业,人员,1.2254,1.876556,2.7646


### 尝试做城镇单位就业人员数量分析

In [62]:
df_就业切片.to_csv("就业切片.tsv",encoding="utf8",sep="\t")

In [85]:
# 只取“人员”
人员 = df_就业切片.query("行业指标=='人员'") #query:字符串表达式查询 

In [86]:
# 根据数据的平均值进行排序
人员.groupby(['行业','地区']).agg({"数据":["min","mean","max"]}).sort_values(by=('数据','mean'),ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,数据,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,min,mean,max
行业,地区,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
制造业,广东省,443.4591,765.059322,1020.2491
制造业,江苏省,308.2048,470.074022,612.3192
制造业,山东省,337.2251,390.859067,437.1586
制造业,浙江省,315.0247,344.893656,376.7476
制造业,河南省,154.7755,271.643900,363.2567
建筑业,浙江省,155.8483,269.044322,329.4524
建筑业,江苏省,46.0405,258.315689,450.1977
制造业,福建省,213.1199,246.410300,292.3783
制造业,上海市,140.7073,183.501878,218.7271
制造业,湖北省,118.5083,168.209033,193.3310


In [88]:
人员平均工资.groupby(['地区']).agg({"数据":["min","mean","max"]}).sort_values(by=('数据','mean'),ascending=False)

Unnamed: 0_level_0,数据,数据,数据
Unnamed: 0_level_1,min,mean,max
地区,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
广东省,2.4535,84.940409,1020.2491
江苏省,1.0,62.964261,612.3192
山东省,1.3845,59.8908,437.1586
浙江省,0.4262,53.427877,376.7476
河南省,1.5968,51.412716,363.2567
北京市,2.3632,38.299189,107.9701
四川省,1.0,37.544399,204.5781
湖北省,1.2,33.40008,193.331
福建省,1.3135,32.270201,292.3783
河北省,1.4368,31.146511,150.3358


In [89]:
_df_ = 人员.groupby(['行业']).agg({"数据":["min","mean","max"]})
display(人员)
display(_df_)
print(_df_.columns)

Unnamed: 0,指标,地区,年,数据,行业,行业指标
0,农林牧渔业城镇单位就业人员,北京市,2018,,农林牧渔业,人员
1,农林牧渔业城镇单位就业人员,北京市,2017,3.4116,农林牧渔业,人员
2,农林牧渔业城镇单位就业人员,北京市,2016,3.6867,农林牧渔业,人员
3,农林牧渔业城镇单位就业人员,北京市,2015,3.8949,农林牧渔业,人员
4,农林牧渔业城镇单位就业人员,北京市,2014,3.2331,农林牧渔业,人员
5,农林牧渔业城镇单位就业人员,北京市,2013,3.1346,农林牧渔业,人员
6,农林牧渔业城镇单位就业人员,北京市,2012,2.5446,农林牧渔业,人员
7,农林牧渔业城镇单位就业人员,北京市,2011,2.3632,农林牧渔业,人员
8,农林牧渔业城镇单位就业人员,北京市,2010,3.2000,农林牧渔业,人员
9,农林牧渔业城镇单位就业人员,北京市,2009,3.2282,农林牧渔业,人员


Unnamed: 0_level_0,数据,数据,数据
Unnamed: 0_level_1,min,mean,max
行业,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
交通运输、仓储及邮电通信业,0.5997,24.55632,85.3999
住宿和餐饮业,0.3,8.331891,39.3419
信息传输、计算机服务和软件业,0.2235,9.204604,77.44
公共管理和社会组织,7.8169,50.301842,116.1762
农林牧渔业,0.3089,10.091744,93.9292
制造业,0.6612,145.443355,1020.2491
卫生、社会保障和社会福利业,1.383,24.421601,65.8223
居民服务和其他服务业,0.0557,2.277055,11.0436
建筑业,0.5018,72.355329,450.1977
房地产业,0.0249,10.849628,66.3147


MultiIndex(levels=[['数据'], ['min', 'mean', 'max']],
           codes=[[0, 0, 0], [0, 1, 2]])


In [90]:
人员.groupby(['地区']).agg({"数据":["min","mean","max"]}).columns

MultiIndex(levels=[['数据'], ['min', 'mean', 'max']],
           codes=[[0, 0, 0], [0, 1, 2]])

In [93]:
人员.groupby(['行业','地区']).agg({"数据":["min","mean","max"]})\
            .sort_values(by=('数据','mean'),ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,数据,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,min,mean,max
行业,地区,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
制造业,广东省,443.4591,765.059322,1020.2491
制造业,江苏省,308.2048,470.074022,612.3192
制造业,山东省,337.2251,390.859067,437.1586
制造业,浙江省,315.0247,344.893656,376.7476
制造业,河南省,154.7755,271.643900,363.2567
建筑业,浙江省,155.8483,269.044322,329.4524
建筑业,江苏省,46.0405,258.315689,450.1977
制造业,福建省,213.1199,246.410300,292.3783
制造业,上海市,140.7073,183.501878,218.7271
制造业,湖北省,118.5083,168.209033,193.3310


In [73]:
df_就业切片
df_就业切片.groupby(['行业','行业指标','地区']).agg({"数据":["min","mean","max"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,数据,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,mean,max
行业,行业指标,地区,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
交通运输、仓储及邮电通信业,人员,上海市,35.6329,45.014167,51.4541
交通运输、仓储及邮电通信业,人员,云南省,13.4000,15.667100,17.8598
交通运输、仓储及邮电通信业,人员,内蒙古自治区,16.2429,19.266189,22.7777
交通运输、仓储及邮电通信业,人员,北京市,50.0662,56.857056,60.2262
交通运输、仓储及邮电通信业,人员,吉林省,14.2939,15.836233,17.1587
交通运输、仓储及邮电通信业,人员,四川省,22.5911,32.641667,41.3341
交通运输、仓储及邮电通信业,人员,天津市,11.4261,13.687956,15.0084
交通运输、仓储及邮电通信业,人员,宁夏回族自治区,2.9000,3.538267,4.0421
交通运输、仓储及邮电通信业,人员,安徽省,14.7374,19.554044,24.2102
交通运输、仓储及邮电通信业,人员,山东省,33.2476,42.983356,50.6405


In [96]:
统一字词 = {"交通运输、仓储及邮电通信业":"交通运输、仓储和邮政业",\
            "交通运输、仓储和邮政业":"交通运输丶仓储和邮政业",\
            "农、林、牧、渔业":"农林牧渔业",\
            "教育":"教育业", "教育业业":"教育业"}
df_就业切片_新 = df_就业切片.set_index('行业').rename(index=统一字词).reset_index()
df_就业切片_新.行业.unique()

array(['农林牧渔业', '采矿业', '制造业', '电力、燃气及水的生产和供应业', '建筑业', '交通运输、仓储和邮政业',
       '信息传输、计算机服务和软件业', '批发和零售业', '住宿和餐饮业', '金融业', '房地产业', '租赁和商务服务业',
       '科学研究、技术服务和地质勘查业', '水利、环境和公共设施管理业', '居民服务和其他服务业', '教育业',
       '卫生、社会保障和社会福利业', '文化、体育和娱乐业', '公共管理和社会组织', '交通运输丶仓储和邮政业'],
      dtype=object)

In [101]:
df_就业切片_新.groupby(['行业','地区','行业指标']).agg({"数据":["min","mean","max"]})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,数据,数据,数据
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,mean,max
行业,地区,行业指标,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
交通运输、仓储和邮政业,上海市,人员,35.6329,45.014167,51.4541
交通运输、仓储和邮政业,云南省,人员,13.4000,15.667100,17.8598
交通运输、仓储和邮政业,内蒙古自治区,人员,16.2429,19.266189,22.7777
交通运输、仓储和邮政业,北京市,人员,50.0662,56.857056,60.2262
交通运输、仓储和邮政业,吉林省,人员,14.2939,15.836233,17.1587
交通运输、仓储和邮政业,四川省,人员,22.5911,32.641667,41.3341
交通运输、仓储和邮政业,天津市,人员,11.4261,13.687956,15.0084
交通运输、仓储和邮政业,宁夏回族自治区,人员,2.9000,3.538267,4.0421
交通运输、仓储和邮政业,安徽省,人员,14.7374,19.554044,24.2102
交通运输、仓储和邮政业,山东省,人员,33.2476,42.983356,50.6405


### 总结（拿到一份数据应该如何用pandas分析？）

1. 读取数据（此时可以看到数据量可能很庞大）
2. 筛选某些列作为index（可以把这些列先转化为字典，再转换到数据框内）
3. 根据分析问题导向“切”数据（再次细化index）
4. 思考“分进合击”之“分”的可能性（查看当前问题导向index下还有哪些细分，并选取最终确定的index）
5. 分进合击出报表（把数据进行groupby，呈现出最终想要获得的数据报表）