# 第4篇：索引

Pandas 数据的索引就像一本书的目录，让我们很快地找到想要看的章节，作为大量数据，创建合理的具有业务意义的索引对我们分析数据至关重要。本篇内容将会带领你学习pandas索引相关的知识。

## 认识索引

不指定索引的DataFrame
![](https://zhangyafei-1258643511.cos.ap-nanjing.myqcloud.com/Python/blog/pandas-index-1.png)
指定索引的DataFrame
![](https://zhangyafei-1258643511.cos.ap-nanjing.myqcloud.com/Python/blog/pandas-index-2.png)

其中：

- 行索引是数据的索引，列索引指向的是一个 Series,如果不显式指定，默认为从0开始的序号
- DataFrame 的索引也是系列形成的 Series 的索引
- 建立索引让数据更加直观明确，如每行数据是针对一个国家的
- 建立索引方便数据处理
- 索引允许重复，但业务上一般不会让它重复
- 有时一个行和列层级较多的数据会出现多层索引 的情况。

**导入所需模块**

In [89]:
import numpy as np
import pandas as pd

## 建立索引

### 构建DataFrame时指定索引

构建DataFrame时不指定索引

In [90]:
data = {
    "name": ["Tom", "Bob", "Mary", "James", "Yafei"],
    "age": [18, 30, 25, 40, 20],
    "city": ["北京", "上海", "广州", "深圳", "晋城"],
    "hobby": ["篮球", "足球", "羽毛球", "读书；国学", "篮球；修己"],
}
user_info = pd.DataFrame(data=data)
user_info

Unnamed: 0,name,age,city,hobby
0,Tom,18,北京,篮球
1,Bob,30,上海,足球
2,Mary,25,广州,羽毛球
3,James,40,深圳,读书；国学
4,Yafei,20,晋城,篮球；修己


构建DataFrame时指定索引

In [91]:
index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Yafei"], name="name")
data = {
    "age": [18, 30, 25, 40, 20],
    "city": ["北京", "上海", "广州", "深圳", "晋城"],
    "hobby": ["篮球", "足球", "羽毛球", "读书；国学", "篮球；修己"],
}
user_info = pd.DataFrame(data=data, index=index)
user_info

Unnamed: 0_level_0,age,city,hobby
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Tom,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


### 读取文件时指定索引

读取文件时不指定索引列

In [92]:
user_df = pd.read_excel('data/users.xlsx')
user_df

Unnamed: 0,name,age,city,hobby
0,Tom,18,北京,篮球
1,Bob,30,上海,足球
2,Mary,25,广州,羽毛球
3,James,40,深圳,读书；国学
4,Yafei,20,晋城,篮球；修己


读取文件时指定索引列

In [93]:
user_df = pd.read_excel('data/users.xlsx',index_col="name")
user_df

Unnamed: 0_level_0,age,city,hobby
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Tom,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


### 使用set_index设置索引
>  set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)

In [94]:
data = {
    "name": ["Tom", "Bob", "Mary", "James", "Yafei"],
    "age": [18, 30, 25, 40, 20],
    "city": ["北京", "上海", "广州", "深圳", "晋城"],
    "hobby": ["篮球", "足球", "羽毛球", "读书；国学", "篮球；修己"],
}
user_info = pd.DataFrame(data=data)
user_info

Unnamed: 0,name,age,city,hobby
0,Tom,18,北京,篮球
1,Bob,30,上海,足球
2,Mary,25,广州,羽毛球
3,James,40,深圳,读书；国学
4,Yafei,20,晋城,篮球；修己


In [95]:
# 指定索引列
user_info.set_index('name')

Unnamed: 0_level_0,age,city,hobby
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Tom,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


利用append参数可以将当前索引维持不变

In [96]:
user_info.set_index('name').set_index(['age'], append=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,city,hobby
name,age,Unnamed: 2_level_1,Unnamed: 3_level_1
Tom,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


In [97]:
# 指定多个索引列
user_info.set_index(['name', 'age'])

Unnamed: 0_level_0,Unnamed: 1_level_0,city,hobby
name,age,Unnamed: 2_level_1,Unnamed: 3_level_1
Tom,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


**其他的参数**

In [98]:
user_info.set_index('name', drop=False) # 保留原列

Unnamed: 0_level_0,name,age,city,hobby
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Tom,Tom,18,北京,篮球
Bob,Bob,30,上海,足球
Mary,Mary,25,广州,羽毛球
James,James,40,深圳,读书；国学
Yafei,Yafei,20,晋城,篮球；修己


In [99]:
user_info.set_index('name', append=True) # 保留原来的索引

Unnamed: 0_level_0,Unnamed: 1_level_0,age,city,hobby
Unnamed: 0_level_1,name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Tom,18,北京,篮球
1,Bob,30,上海,足球
2,Mary,25,广州,羽毛球
3,James,40,深圳,读书；国学
4,Yafei,20,晋城,篮球；修己


In [100]:
user_info.set_index('name', inplace=True) # 建立索引并重写覆盖
user_info

Unnamed: 0_level_0,age,city,hobby
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Tom,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


### 通过index属性设置索引

In [101]:
data = {
    "age": [18, 30, 25, 40, 20],
    "city": ["北京", "上海", "广州", "深圳", "晋城"],
    "hobby": ["篮球", "足球", "羽毛球", "读书；国学", "篮球；修己"],
}
user_info = pd.DataFrame(data=data)
user_info.index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Yafei"], name="name")
user_info

Unnamed: 0_level_0,age,city,hobby
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Tom,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


## 重置索引

有时我们想取消已有的索引，以重新来过，可以使用 reset_index()

In [102]:
user_info.reset_index()  # 清除索引 
# user_info.reset_index(inploace=True) # 覆盖使生效

Unnamed: 0,name,age,city,hobby
0,Tom,18,北京,篮球
1,Bob,30,上海,足球
2,Mary,25,广州,羽毛球
3,James,40,深圳,读书；国学
4,Yafei,20,晋城,篮球；修己


In [103]:
# 删除原索引，name 列没了
user_info.reset_index().set_index('name').reset_index(drop=True)

Unnamed: 0,age,city,hobby
0,18,北京,篮球
1,30,上海,足球
2,25,广州,羽毛球
3,40,深圳,读书；国学
4,20,晋城,篮球；修己


删除某行，索引值需要重置

In [104]:
dropped_user_info = user_info.reset_index().drop(2)
print(dropped_user_info)
dropped_user_info.reset_index(inplace=True, drop=True)
dropped_user_info

    name  age city  hobby
0    Tom   18   北京     篮球
1    Bob   30   上海     足球
3  James   40   深圳  读书；国学
4  Yafei   20   晋城  篮球；修己


Unnamed: 0,name,age,city,hobby
0,Tom,18,北京,篮球
1,Bob,30,上海,足球
2,James,40,深圳,读书；国学
3,Yafei,20,晋城,篮球；修己


多级索引

In [105]:
user_info.set_index('age', append=True, inplace=True)
user_info

Unnamed: 0_level_0,Unnamed: 1_level_0,city,hobby
name,age,Unnamed: 2_level_1,Unnamed: 3_level_1
Tom,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


In [106]:
user_info.reset_index()

Unnamed: 0,name,age,city,hobby
0,Tom,18,北京,篮球
1,Bob,30,上海,足球
2,Mary,25,广州,羽毛球
3,James,40,深圳,读书；国学
4,Yafei,20,晋城,篮球；修己


In [107]:
user_info.reset_index(level=1) # 使用层级索引序号

Unnamed: 0_level_0,age,city,hobby
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Tom,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


In [108]:
user_info.reset_index(level='name') # 使用层级索引名

Unnamed: 0_level_0,name,city,hobby
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
18,Tom,北京,篮球
30,Bob,上海,足球
25,Mary,广州,羽毛球
40,James,深圳,读书；国学
20,Yafei,晋城,篮球；修己


## 修改索引

### 修改索引名

rename_axis是针对多级索引的方法，作用是修改某一层的索引名，而不是索引标签

In [109]:
user_info.rename_axis(index={'name': '姓名', 'age': '年龄'})

Unnamed: 0_level_0,Unnamed: 1_level_0,city,hobby
姓名,年龄,Unnamed: 2_level_1,Unnamed: 3_level_1
Tom,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


### 修改索引标签
rename方法用于修改列或者行索引标签，而不是索引名：

In [110]:
user_info.rename(index={'Tom': '汤姆'}, columns={'city': '城市'})

Unnamed: 0_level_0,Unnamed: 1_level_0,城市,hobby
name,age,Unnamed: 2_level_1,Unnamed: 3_level_1
汤姆,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


## 索引类型

为了适应各种业务数据的处理，索引又针对各种类型数据定义了不同的索引类型：

### 数字索引 Numeric Index
共有以下几种：

- RangeIndex: 单调整数范围的不可变索引。
- Int64Index: int64类型，有序可切片集合的不可变ndarray。
- UInt64Index: 无符号整数标签的
- Float64Index: Float64 类型

In [111]:
pd.RangeIndex(1,100,2)
# RangeIndex(start=1, stop=100, step=2)

RangeIndex(start=1, stop=100, step=2)

In [112]:
pd.Int64Index([1,2,3,-4], name='num')
# Int64Index([1, 2, 3, -4], dtype='int64', name='num')

AttributeError: module 'pandas' has no attribute 'Int64Index'

In [None]:
pd.UInt64Index([1,2,3,4])
# UInt64Index([1, 2, 3, 4], dtype='uint64')

UInt64Index([1, 2, 3, 4], dtype='uint64')

In [None]:
pd.Float64Index([1.2,2.3,3,4])
# Float64Index([1.2, 2.3, 3.0, 4.0], dtype='float64')

Float64Index([1.2, 2.3, 3.0, 4.0], dtype='float64')

### 类别索引 CategoricalIndex

类别只能包含有限数量的（通常是固定的）可能值（类别）。 可以理解成枚举，比如性别只有男女，但在数据中每行都有，如果按文本处理会效率不高。  
类别的底层是 pandas.Categorical。

In [None]:
pd.CategoricalIndex(['a', 'b', 'a', 'b'])
# CategoricalIndex(['a', 'b', 'a', 'b'], categories=['a', 'b'], ordered=False, dtype='category')

CategoricalIndex(['a', 'b', 'a', 'b'], categories=['a', 'b'], ordered=False, dtype='category')

类别后边后有专门的讲解，只有在体量非常大的数据面前才能显示其优势。

### 间隔索引 IntervalIndex

In [None]:
pd.interval_range(start=0, end=5)
'''
IntervalIndex([(0, 1], (1, 2], (2, 3], (3, 4], (4, 5]],
              closed='right',
              dtype='interval[int64]')
'''

"\nIntervalIndex([(0, 1], (1, 2], (2, 3], (3, 4], (4, 5]],\n              closed='right',\n              dtype='interval[int64]')\n"

### 多层索引 MultiIndex
教程后边会有专门的讲解。

In [None]:
arrays = [[1, 1, 2, 2], ['red', 'blue', 'red', 'blue']]
pd.MultiIndex.from_arrays(arrays, names=('number', 'color'))
'''
MultiIndex([(1,  'red'),
            (1, 'blue'),
            (2,  'red'),
            (2, 'blue')],
           names=['number', 'color'])
'''

"\nMultiIndex([(1,  'red'),\n            (1, 'blue'),\n            (2,  'red'),\n            (2, 'blue')],\n           names=['number', 'color'])\n"

### 时间索引 DatetimeIndex

In [None]:
pd.date_range(start='1/1/2018', end='1/08/2018')

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06', '2018-01-07', '2018-01-08'],
              dtype='datetime64[ns]', freq='D')

In [None]:
# 指定开始时间和周期
pd.date_range(start='1/1/2018', periods=8)

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06', '2018-01-07', '2018-01-08'],
              dtype='datetime64[ns]', freq='D')

In [None]:
# 以月为周期
pd.period_range(start='2017-01-01', end='2018-01-01', freq='M')

PeriodIndex(['2017-01', '2017-02', '2017-03', '2017-04', '2017-05', '2017-06',
             '2017-07', '2017-08', '2017-09', '2017-10', '2017-11', '2017-12',
             '2018-01'],
            dtype='period[M]', freq='M')

In [None]:
# 周期嵌套
pd.period_range(start=pd.Period('2017Q1', freq='Q'),
                end=pd.Period('2017Q2', freq='Q'), freq='M')

PeriodIndex(['2017-03', '2017-04', '2017-05', '2017-06'], dtype='period[M]', freq='M')

### 时间差 TimedeltaIndex

In [None]:
pd.TimedeltaIndex(data =['06:05:01.000030', '+23:59:59.999999',
                         '22 day 2 min 3us 10ns', '+23:29:59.999999',
                         '+12:19:59.999999'])

TimedeltaIndex([    '0 days 06:05:01.000030',     '0 days 23:59:59.999999',
                '22 days 00:02:00.000003010',     '0 days 23:29:59.999999',
                    '0 days 12:19:59.999999'],
               dtype='timedelta64[ns]', freq=None)

In [None]:
# 使用 datetime
import datetime
pd.TimedeltaIndex(['1 days', '1 days, 00:00:05',
                   np.timedelta64(2, 'D'),
                   datetime.timedelta(days=2, seconds=2)])

TimedeltaIndex(['1 days 00:00:00', '1 days 00:00:05', '2 days 00:00:00',
                '2 days 00:00:02'],
               dtype='timedelta64[ns]', freq=None)

### 周期索引 PeriodIndex

In [None]:
t = pd.period_range('2021-1-21 10:00:05', periods=8, freq='S')
pd.PeriodIndex(t,freq='S')

PeriodIndex(['2021-01-21 10:00:05', '2021-01-21 10:00:06',
             '2021-01-21 10:00:07', '2021-01-21 10:00:08',
             '2021-01-21 10:00:09', '2021-01-21 10:00:10',
             '2021-01-21 10:00:11', '2021-01-21 10:00:12'],
            dtype='period[S]', freq='S')

## 索引对象
行和列的索引在 Pandas 里其实是一个 Index 对象，以下是创建一个 index 对象的方法：

### 创建对象

In [None]:
pd.Index([1, 2, 3])
# Int64Index([1, 2, 3], dtype='int64')

Int64Index([1, 2, 3], dtype='int64')

In [None]:
pd.Index(list('abc'))
# Index(['a', 'b', 'c'], dtype='object')

Index(['a', 'b', 'c'], dtype='object')

In [None]:
# 可以定义一相 name
pd.Index(['e', 'd', 'a', 'b'], name='something')

Index(['e', 'd', 'a', 'b'], dtype='object', name='something')

### 查看

In [None]:
df = user_info
df

Unnamed: 0_level_0,Unnamed: 1_level_0,city,hobby
name,age,Unnamed: 2_level_1,Unnamed: 3_level_1
Tom,18,北京,篮球
Bob,30,上海,足球
Mary,25,广州,羽毛球
James,40,深圳,读书；国学
Yafei,20,晋城,篮球；修己


In [None]:
df.index

MultiIndex([(  'Tom', 18),
            (  'Bob', 30),
            ( 'Mary', 25),
            ('James', 40),
            ('Yafei', 20)],
           names=['name', 'age'])

In [None]:
df.columns

Index(['city', 'hobby'], dtype='object')

### 属性

以下方法也适用于 df.columns, 因为都是 index 对象：
- df.index.name # 名称
- df.index.array: array 数组
- df.index.dtype: 数据类型
- df.index.shape: 形状
- df.index.size: 元素数量
- df.index.values: array 数组
其他，不常用
- df.index.empty: 是否为空
- df.index.is_unique: 是否不重复
- df.index.names: 名称列表
- df.index.is_all_dates: 是否全是日期时间
- df.index.has_duplicates: 是否有重复值
- df.index.values: 索引的值 array

### 操作
以下方法也适用于 - df.columns, 因为都是 index 对象，有些也支持 Series：

**基本方法** 
- df.index.astype('int64'): 转换类型
- df.index.isin(): 是否存在，见下方示例
- df.index.rename('number'): 修改索引名称
- df.index.nunique(): 不重复值的数量
- df.index.sort_values(ascending=False,): 排序,倒序
- df.index.map(lambda x:x+'_'): map 函数处理
- df.index.str.replace('_', ''): str 替换
- df.index.str.split('_'): 分隔
- df.index.to_list(): 转为列表
- df.index.to_frame(index=False, name='a'): 转成 DataFrame
- df.index.to_series(): 转 series
- df.index.to_numpy(): 转为 numpy
- df.index.unique(): 去重
- df.index.value_counts(): 去重及数量
- df.index.where(- df.index=='a'): 筛选
- df.index.rename('grade', inplace=False): 重命名索引名称
- df.index.rename(['species', 'year']): 多层，重命名索引名称
- df.index.max(): 最大值
- df.index.argmax(): 最大索引值
- df.index.any()
- df.index.all()
- df.index.T: 转置，多层索引里很有用

**其他，不常用**
- df.index.append(pd.Index([4,5])): 追加
- df.index.repeat(2): 重复几次
- df.index.inferred_type: 推测数据类型
- df.index.hasnans: 有没有空值
- df.index.is_monotonic_decreasing: 是否单调递减
- df.index.is_monotonic: 是否单调递增
- df.index.is_monotonic_increasing: 是否单调递增
- df.index.nbytes: 基础数据中的字节数
- df.index.ndim: 维度数，维数
- df.index.nlevels: 索引层级数，通常为 1
- df.index.min(): 最小值
- df.index.argmin(): 最小索引值
- df.index.argsort(): 顺序值组成的数组
- df.index.asof(2): 返回最近的索引

**拷贝**
- df.index.astype('int64', copy=True): 深拷贝
- df.index.copy(name='new', deep=True, dtype='int64')

**删除指定位置**
- df.index.delete(1): 删除指定位置

**对比不同**
- df.index.difference(pd.Index([1,2,4]), sort=False)
- df.index.drop('a', errors='ignore'): 删除
- df.index.drop_duplicates(keep='first'): 去重值
- df.index.droplevel(0): 删除层级
- df.index.dropna(how='all'): 删除空值
- df.index.duplicated(keep='first'): 重复值在结果数组中为True
- df.index.equals(- df.index): 与另外一个索引对象是否相同
- df.index.factorize(): 分解成（array:0-n, Index）
- df.index.fillna(0, {0:'nan'}): 填充空值

**字符列表, 把 name 值加在第一位, 每个值加10**
- df.index.format(name=True, formatter=lambda x:x+10)

**返回一个 array, 指定值的索引位数组，不在的为 -1**
- df.index.get_indexer([2,9])

**获取 指定层级 Index 对象**
- df.index.get_level_values(0)

**指定索引的位置**
- df.index.get_loc('b')
- df.index.insert(2, 'f'): 在索引位 2 插入 f
- df.index.intersection(- df.index): 交集
- df.index.is_(- df.index): 类似 is 检查
- df.index.is_categorical(): 是否分类数据
- df.index.is_type_compatible(- df.index): 类型是否兼容
- df.index.is_type_compatible(1): 类型是否兼容

- df.index.isna(): array 是否为空
- df.index.isnull(): array 是否缺失值
- df.index.join(- df.index, how='left'): 连接
- df.index.notna(): 是否不存在的值
- df.index.notnull(): 是否不存在的值
- df.index.ravel(): 展平值的ndarray
- df.index.reindex(['a','b']): 新索引 (Index,array:0-n)
- df.index.searchsorted('f'): 如果插入这个值排序后在哪个索引位
- df.index.searchsorted([0, 4]): array([0, 3]) 多个
- df.index.set_names('quarter'): 设置索引名称
- df.index.set_names('species', level=0)
- df.index.set_names(['kind', 'year'], inplace=True)
- df.index.shift(10, freq='D'): 日期索引向前移动 10 天
- idx1.symmetric_difference(idx2): 两个索引不同的内容
- idx1.union(idx2): 拼接

- df.add_prefix('t_'): 表头加前缀
- df.add_suffix('_d'): 表头加后缀
- df.first_valid_index(): 第一个有值的索引
- df.last_valid_index(): 最后一个有值的索引

## 重复索引
注：Pandas 版本要求 1.2.0+，这是一项实验功能

Pandas 默认地行列索引对象不需要唯一，可以有重复的行或列标签。但有时候比如通过 SQL 将数据存入数据库，就不能有重复的索引和列名，我们可以通过设置来限制重复索引：

In [None]:
# df = pd.DataFrame({"A": [1, 2]}, index=['a', 'a'])
# df

In [None]:
# 默认是允许重复的
# df.flags["allows_duplicate_labels"] # True
# df.flags.allows_duplicate_labels # True
# df.flags
# <Flags(allows_duplicate_labels=True)>

In [None]:
# # 已重复的就不能再设置为不重复的了
# df.flags.allows_duplicate_labels = False
# # DuplicateLabelError: Index has duplicates. positions....

# # 生成时设置为标签为不可重复，后继操作就不能有重复的索引了
# s = (pd.Series([1, 2], index=['a', 'b'])
#  .set_flags(allows_duplicate_labels=False)
# )
# s.reindex(['a', 'a'])
# DuplicateLabelError: Index has duplicates...

## 多级索引
多级索引（也称层次化索引）是pandas的重要功能，可以在Series、DataFrame对象上拥有2个以及2个以上的索引。
实质上，单级索引对应Index对象,多级索引对应MultiIndex对象。

### series对象的多级索引

#### 创建

In [None]:
se1=pd.Series(np.random.randn(4),index=[list("aabb"),[1,2,1,2]])
se1

a  1   -0.829829
   2   -0.344319
b  1   -0.495467
   2    1.672378
dtype: float64

#### 子集的选取

In [None]:
se1['a']

1   -0.829829
2   -0.344319
dtype: float64

In [None]:
se1['a': 'b']

a  1   -0.829829
   2   -0.344319
b  1   -0.495467
   2    1.672378
dtype: float64

#### 内层选取

In [None]:
se1[:, 1]

a   -0.829829
b   -0.495467
dtype: float64

In [None]:
se1[:, 2]

a   -0.344319
b    1.672378
dtype: float64

### DataFrame的多级索引

#### 创建多层行索引

##### 隐式构造: 列表套列表

In [None]:
df = pd.DataFrame(np.random.randint(0, 150, size=(6,3)), columns=['语文', '数学', 'Python'], index=[['Michal', 'Michal', 'Kobe','Kobe', 'James', 'James'],['Mid','End', 'Mid', 'End','Mid', 'End']])
df

Unnamed: 0,Unnamed: 1,语文,数学,Python
Michal,Mid,17,113,134
Michal,End,63,141,147
Kobe,Mid,4,107,99
Kobe,End,13,46,12
James,Mid,33,38,28
James,End,44,36,88


##### 显式构造

**from_arrays**

In [None]:
# 使用数组
df = pd.DataFrame(np.random.randint(0, 150, size=(6,3)), columns=['语文', '数学', 'Python'], index=pd.MultiIndex.from_arrays([['Michal', 'Michal', 'Kobe','Kobe', 'James', 'James'],['Mid','End', 'Mid', 'End','Mid', 'End']]))
df

Unnamed: 0,Unnamed: 1,语文,数学,Python
Michal,Mid,145,66,14
Michal,End,0,67,113
Kobe,Mid,147,122,141
Kobe,End,2,31,71
James,Mid,8,56,88
James,End,76,109,124


**from_tuples**

In [None]:
# 使用元组
df = pd.DataFrame(np.random.randint(0, 150, size=(6,3)), columns=['语文', '数学', 'Python'], index=pd.MultiIndex.from_tuples([('Michal','期中'), ('Michal','期末'), ('Kobe','期中'), ('Kobe','期末'), ('James','期中'), ('James','期末')]))
df

Unnamed: 0,Unnamed: 1,语文,数学,Python
Michal,期中,65,17,98
Michal,期末,21,29,118
Kobe,期中,51,37,70
Kobe,期末,35,57,6
James,期中,145,125,139
James,期末,36,132,68


**from_product**

In [None]:
# 使用product
df = pd.DataFrame(np.random.randint(0, 150, size=(6,3)), columns=['语文', '数学', 'Python'], index=pd.MultiIndex.from_product([['Michal','Kobe','James'],['Mid','End']]))
df

Unnamed: 0,Unnamed: 1,语文,数学,Python
Michal,Mid,63,61,85
Michal,End,133,71,27
Kobe,Mid,133,72,132
Kobe,End,60,115,15
James,Mid,146,128,129
James,End,10,110,9


#### 指定df中的列创建（set_index方法）

In [None]:
df.reset_index(inplace=True)
df.rename(columns={'level_0': '姓名', 'level_1': '学期'}, inplace=True)
df

Unnamed: 0,姓名,学期,语文,数学,Python
0,Michal,Mid,63,61,85
1,Michal,End,133,71,27
2,Kobe,Mid,133,72,132
3,Kobe,End,60,115,15
4,James,Mid,146,128,129
5,James,End,10,110,9


In [None]:
df.set_index(['姓名', '学期'])

Unnamed: 0_level_0,Unnamed: 1_level_0,语文,数学,Python
姓名,学期,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Michal,Mid,63,61,85
Michal,End,133,71,27
Kobe,Mid,133,72,132
Kobe,End,60,115,15
James,Mid,146,128,129
James,End,10,110,9


#### 创建多层列索引

In [None]:
df = pd.DataFrame(np.random.randint(0, 150, size=(3,6)), index=['语文', '数学', 'Python'], columns=pd.MultiIndex.from_product([['Michal','Kobe','James'],['Mid','End']]))
df

Unnamed: 0_level_0,Michal,Michal,Kobe,Kobe,James,James
Unnamed: 0_level_1,Mid,End,Mid,End,Mid,End
语文,4,117,115,66,33,7
数学,34,10,54,149,17,118
Python,42,143,135,144,109,49


#### 索引赋值和交换

In [None]:
df1=pd.DataFrame(np.arange(12).reshape(4,3),index=[list("AABB"),[1,2,1,2]],columns=[list("XXY"),[10,11,10]])
df1

Unnamed: 0_level_0,Unnamed: 1_level_0,X,X,Y
Unnamed: 0_level_1,Unnamed: 1_level_1,10,11,10
A,1,0,1,2
A,2,3,4,5
B,1,6,7,8
B,2,9,10,11


##### 索引命名

In [None]:
df1.columns.names=['XY','sum']
df1.index.names=['AB','num']
df1

Unnamed: 0_level_0,XY,X,X,Y
Unnamed: 0_level_1,sum,10,11,10
AB,num,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,1,0,1,2
A,2,3,4,5
B,1,6,7,8
B,2,9,10,11


##### 创建MultiIndex对象再作为索引

In [None]:
df1.index=pd.MultiIndex.from_arrays([list("AABB"),[3,4,3,4]],names=["AB","num"])
df1

Unnamed: 0_level_0,XY,X,X,Y
Unnamed: 0_level_1,sum,10,11,10
AB,num,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,3,0,1,2
A,4,3,4,5
B,3,6,7,8
B,4,9,10,11


##### 索引交换

In [None]:
df1.swaplevel('AB','num')

Unnamed: 0_level_0,XY,X,X,Y
Unnamed: 0_level_1,sum,10,11,10
num,AB,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
3,A,0,1,2
4,A,3,4,5
3,B,6,7,8
4,B,9,10,11


reorder_levels方法（多层交换）

In [None]:
df1.reorder_levels(['AB','num'],axis=0).sort_index().head()

Unnamed: 0_level_0,XY,X,X,Y
Unnamed: 0_level_1,sum,10,11,10
AB,num,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,3,0,1,2
A,4,3,4,5
B,3,6,7,8
B,4,9,10,11


#### 获取索引值

In [None]:
df = pd.DataFrame(np.random.randint(0, 150, size=(6,3)), columns=['语文', '数学', 'Python'], index=pd.MultiIndex.from_product([['Michal','Kobe','James'],['Mid','End']]))
df

Unnamed: 0,Unnamed: 1,语文,数学,Python
Michal,Mid,7,139,95
Michal,End,137,68,58
Kobe,Mid,50,65,80
Kobe,End,63,112,125
James,Mid,62,101,98
James,End,30,125,91


In [None]:
df.index

MultiIndex([('Michal', 'Mid'),
            ('Michal', 'End'),
            (  'Kobe', 'Mid'),
            (  'Kobe', 'End'),
            ( 'James', 'Mid'),
            ( 'James', 'End')],
           )

In [None]:
df.index.get_level_values(0)

Index(['Michal', 'Michal', 'Kobe', 'Kobe', 'James', 'James'], dtype='object')

In [None]:
df.index.get_level_values(1)

Index(['Mid', 'End', 'Mid', 'End', 'Mid', 'End'], dtype='object')

In [None]:
df.loc['James', :]

Unnamed: 0,语文,数学,Python
Mid,62,101,98
End,30,125,91


In [None]:
df[df.index.get_level_values(0) == 'Michal']

Unnamed: 0,Unnamed: 1,语文,数学,Python
Michal,Mid,7,139,95
Michal,End,137,68,58


In [None]:
df[df.index.get_level_values(1) == 'Mid']

Unnamed: 0,Unnamed: 1,语文,数学,Python
Michal,Mid,7,139,95
Kobe,Mid,50,65,80
James,Mid,62,101,98


#### 数据查询

In [None]:
df.loc[('James', 'Mid'), :]

语文         62
数学        101
Python     98
Name: (James, Mid), dtype: int32