In [1]:
from pandas import Series,DataFrame
import pandas as pd
import numpy as np

#  一.索引对象的属性和方法

pandas中的索引都是Index对象, 又称为索引对象

In [2]:
s1 = Series(range(5), index=['a', 'b', 'c', 'd', 'e'])
s1

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [3]:
index_obj = s1.index # 利用index属性获取Index对象
index_obj

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [4]:
# index_obj[2] = 'f' # 尝试修改Index对象 -> 索引对象不支持可变操作, 增加了数据安全性

In [5]:
s2 = Series(['101', '102', '103', '104', '105'], index=index_obj) # 创建两个共用一个Index对象的Series对象
s2

a    101
b    102
c    103
d    104
e    105
dtype: object

# 二.重新索引

reindex -> 对原索引和新索引进行匹配, 新索引含有原索引的数据, 若没有原索引数据, 则用NaN填充

In [6]:
s1 = Series([-1, 2, -3, 4], index=['c', 'a', 'e', 'b'])
s1

c   -1
a    2
e   -3
b    4
dtype: int64

In [7]:
s1.reindex(['a', 'b', 'c', 'd', 'e', 'f']) # 有返回值

a    2.0
b    4.0
c   -1.0
d    NaN
e   -3.0
f    NaN
dtype: float64

In [8]:
s1.reindex(['a', 'b', 'c', 'd', 'e', 'f'], fill_value=9630) # 缺失值用9630填充

a       2
b       4
c      -1
d    9630
e      -3
f    9630
dtype: int64

In [9]:
s1 = Series(range(5), index=['a', 'b', 'c', 'd', 'e'])
s1

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [10]:
s1.reindex(['a', 'b', 'c', 'd', 'e', 'f'], method='ffill') # 缺失值用前一个数据填充(forword fill), 同理还有向后填充(bfill(backword fill))

a    0
b    1
c    2
d    3
e    4
f    4
dtype: int64

In [11]:
s1 # reindex生成一个副本, 原数据不改变

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [12]:
d1 = DataFrame(np.arange(9).reshape(3, 3), index=['a', 'c' ,'d'], columns=['N1', 'N2', 'N3'])
d1

Unnamed: 0,N1,N2,N3
a,0,1,2
c,3,4,5
d,6,7,8


In [13]:
d1.reindex(['a', 'b', 'c', 'd', 'e', 'f'], fill_value='-') # 缺失值用'-'填充

Unnamed: 0,N1,N2,N3
a,0,1,2
b,-,-,-
c,3,4,5
d,6,7,8
e,-,-,-
f,-,-,-


In [14]:
d1.reindex(columns=['N1', 'W1', 'N2', 'W2'], fill_value='-') # 缺失值用'-'填充

Unnamed: 0,N1,W1,N2,W2
a,0,-,1,-
c,3,-,4,-
d,6,-,7,-


# 三.层次索引

## 1.创建Series的层次索引

In [15]:
s1 = Series(['小王', '一班', '小李', '二班'], index=[[1, 1, 2, 2],['姓名', '班级', '姓名', '班级']])
s1

1  姓名    小王
   班级    一班
2  姓名    小李
   班级    二班
dtype: object

## 2.创建DataFrame的层次索引

In [16]:
arr_2d = np.array([['小张', '男', 20], ['小李', '男', 19], ['小王', '女', 21], ['小余', '女', 18]]) # 用二维列表生成二维数组
d1 = DataFrame(arr_2d)
d1

Unnamed: 0,0,1,2
0,小张,男,20
1,小李,男,19
2,小王,女,21
3,小余,女,18


In [17]:
d1 = DataFrame(arr_2d, columns=['姓名', '性别', '年龄']) # 修改列索引
d1

Unnamed: 0,姓名,性别,年龄
0,小张,男,20
1,小李,男,19
2,小王,女,21
3,小余,女,18


In [18]:
d1 = DataFrame(arr_2d, columns=['姓名', '性别', '年龄'],
               index=[['一班', '一班', '二班', '二班'], ['班长', '副班长', '班长', '副班长']]) # 增加行索引
d1

Unnamed: 0,Unnamed: 1,姓名,性别,年龄
一班,班长,小张,男,20
一班,副班长,小李,男,19
二班,班长,小王,女,21
二班,副班长,小余,女,18


In [19]:
d1 = DataFrame(arr_2d, columns=['姓名', '性别', '年龄'],
               index=pd.MultiIndex.from_arrays([['一班', '一班', '二班', '二班'], ['班长', '副班长', '班长', '副班长']])
              ) # from_arrays -> 从数组中创建MultiIndex对象
d1

Unnamed: 0,Unnamed: 1,姓名,性别,年龄
一班,班长,小张,男,20
一班,副班长,小李,男,19
二班,班长,小王,女,21
二班,副班长,小余,女,18


In [20]:
d1 = DataFrame(arr_2d, columns=['姓名', '性别', '年龄'],
               index=pd.MultiIndex.from_tuples([('一班', '班长'), ('一班', '副班长'), ('二班', '班长'), ('二班', '副班长')])
              ) # from_tuples -> 从元组中创建MultiIndex对象
d1

Unnamed: 0,Unnamed: 1,姓名,性别,年龄
一班,班长,小张,男,20
一班,副班长,小李,男,19
二班,班长,小王,女,21
二班,副班长,小余,女,18
