# 层级索引（hierarchical indexing）

In [1]:
import numpy as np
import pandas as pd

## MultiIndex索引对象
- 打印这个Series的索引类型，显示是MultiIndex
- 直接将索引打印出来，可以看到有lavels,和labels两个信息。
- levels表示两个层级中分别有那些标签，labels是每个位置分别是什么标签。

In [14]:
s1 = pd.Series(np.random.randn(12), index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'd',],
                                           [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]])
s1

a  0    0.754405
   1    2.124456
   2   -0.569952
b  0    1.991175
   1    0.291576
   2    0.192995
c  0    0.234780
   1    1.000047
   2   -0.388336
d  0   -0.381780
   1   -1.012620
   2    0.481164
dtype: float64

In [3]:
print(type(s1.index))

<class 'pandas.core.indexes.multi.MultiIndex'>


In [4]:
print(s1.index)

MultiIndex(levels=[['a', 'b', 'c', 'd'], [0, 1, 2]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]])


## 选取子集 
- 根据索引获取数据。因为现在有两层索引，当通过外层索引获取数据的时候，可以直接利用外层索引的标签来获取。
- 当要通过内层索引获取数据的时候，在list中传入两个元素，前者是表示要选取的外层索引，后者表示要选取的内层索引。

In [5]:
# 外层索引选取
s1['b']

0    0.229780
1    0.786223
2    0.108535
dtype: float64

In [7]:
# 内层索引选取
s1[:, 2]

a    0.859232
b    0.108535
c   -2.474388
d   -0.695587
dtype: float64

In [9]:
s1['b', 2]

0.10853482844719693

## 交换分层顺序
- swaplevel() 
- .swaplevel()交换内层与外层索引。

In [11]:
# swaplevel() 
s1.swaplevel()

0  a   -0.719496
1  a    0.696832
2  a    0.859232
0  b    0.229780
1  b    0.786223
2  b    0.108535
0  c    0.196270
1  c   -1.374184
2  c   -2.474388
0  d   -0.516214
1  d   -0.056308
2  d   -0.695587
dtype: float64

## 交换并排序分层 
- sortlevel() 
- .sortlevel( )先对外层索引进行排序，再对内层索引进行排序，默认是升序。

In [15]:
# sortlevel() 注意只是排序，对外层索引进行排序，再对内层索引进行排序，默认是升序。
print(s1.sortlevel())

a  0    0.754405
   1    2.124456
   2   -0.569952
b  0    1.991175
   1    0.291576
   2    0.192995
c  0    0.234780
   1    1.000047
   2   -0.388336
d  0   -0.381780
   1   -1.012620
   2    0.481164
dtype: float64


  


In [18]:
# 交换并排序分层
print(s1.swaplevel().sortlevel())

0  a    0.754405
   b    1.991175
   c    0.234780
   d   -0.381780
1  a    2.124456
   b    0.291576
   c    1.000047
   d   -1.012620
2  a   -0.569952
   b    0.192995
   c   -0.388336
   d    0.481164
dtype: float64


  


# Pandas统计计算和描述

In [19]:
import numpy as np
import pandas as pd

In [21]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], 
                  [np.nan, np.nan], [0.75, -1.3]],
                  index=list('abcd'), 
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


## 常用的统计计算 
- sum, mean, max, min…
- axis=0 按列统计，axis=1按行统计
- skipna 排除缺失值， 默认为True

In [24]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [25]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [32]:
# skipna=False 
df.sum(axis=1, skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

## 常用的统计描述
- describe 产生多个统计数据
- 常用的统计描述方法
    - ???

In [43]:
# describe 查看汇总
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [53]:
# 返回每列的最大值所对应的行索引（默认axis=0, axis=1时对应的行列互换）
df.idxmax()

one    b
two    d
dtype: object

In [41]:
# 样本值的累计和！！！！
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [51]:
s1 = pd.Series(['a', 'a', 'b', 'c']*4)
print(s1)

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object


In [57]:
print(s1.describe())

count     16
unique     3
top        a
freq       8
dtype: object
