### Pandas 索引操作

In [45]:
import pandas as pd
import numpy as np

#### 索引对象

In [2]:
ser1 = pd.Series(range(5),index=['a', 'b', 'c', 'd', 'e'])

In [3]:
ser1

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [4]:
# 获取ser1的索引对象
ser1_index = ser1.index
ser1_index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [5]:
# 索引对象具有不可变的特征
# ser1_index['c'] = 'cc'

In [6]:
ser2 = pd.Series(range(3), index=['a', 'b', 'c'])
ser2

a    0
b    1
c    2
dtype: int64

In [8]:
ser3 = pd.Series(['a', 'b', 'c'], index=ser2.index)
ser3

a    a
b    b
c    c
dtype: object

In [13]:
ser2.index is ser3.index

True

#### 重置索引

In [14]:
ser4 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
ser4

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [18]:
# 重置索引：reindex()函数
ser5 = ser4.reindex(['e', 'd', 'c', 'b', 'a'])
ser4

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [19]:
ser5

e    5
d    4
c    3
b    2
a    1
dtype: int64

In [20]:
# 缺失数据，默认填充NaN
ser6 = ser4.reindex(['a', 'b', 'c', 'd', 'e', 'f'])
ser6

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
f    NaN
dtype: float64

In [29]:
# 如果不想默认填充NaN,则可以使用 fill_value 参数来指定缺失值
ser7 = ser4.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g'], fill_value='')
ser7

a    1
b    2
c    3
d    4
e    5
f     
g     
dtype: object

In [30]:
#fill_value 参数会为所有的缺失数据都填充为同一个值,如果希望填充的是相邻的值，
#则可以使用method参数
ser1 = pd.Series([1, 3, 5, 7], index=[0, 2, 4, 6])
ser1

0    1
2    3
4    5
6    7
dtype: int64

In [34]:
# 重新索引, ffill函数：向前填充值
ser2 = ser1.reindex(range(6), method="ffill")
ser2

0    1
1    1
2    3
3    3
4    5
5    5
dtype: int64

In [35]:
# 重新索引, bfill函数：向前填充值
ser3 = ser1.reindex(range(6), method="bfill")
ser3

0    1
1    3
2    3
3    5
4    5
5    7
dtype: int64

#### 索引操作

##### Series索引操作

In [36]:
ser1 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
ser1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [37]:
# 通过索引的名称来获取数据
ser1['c']

3

In [38]:
# 通过索引的位置来获取数据（索引位置默认从0开始）
ser1[2]

3

In [39]:
# 通过索引名称进行切片
ser1['c':'e']

c    3
d    4
e    5
dtype: int64

In [40]:
# 通过索引位置进行切片(不包括结束位置)
ser1[2:4]

c    3
d    4
dtype: int64

In [41]:
# 通过不连续的位置索引获取名称
ser1[[0, 2, 4]]

a    1
c    3
e    5
dtype: int64

In [42]:
# 通过不连续的索引名称获取数据
ser1[['a', 'c', 'e']]

a    1
c    3
e    5
dtype: int64

In [43]:
# 获取数据大于2的数据

# 创建一个布尔型的 Series 对象
ser1 > 2

a    False
b    False
c     True
d     True
e     True
dtype: bool

In [44]:
ser1[ser1>2]

c    3
d    4
e    5
dtype: int64

#### DataFrame索引操作

In [47]:
arr = np.arange(12).reshape(3,4)
df1 = pd.DataFrame(arr)
df1

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [48]:
df1 = pd.DataFrame(arr, columns=['a', 'b', 'c', 'd'])
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [49]:
df1['c']

0     2
1     6
2    10
Name: c, dtype: int32

In [50]:
# DataFrame中每列的数据都是一个Series对象
type(df1['c'])

pandas.core.series.Series

In [51]:
# 获取不连续的Series对象
df1[['b', 'c']]

Unnamed: 0,b,c
0,1,2
1,5,6
2,9,10


In [53]:
# 先使用切片通过行索引来获取第0-1行数据，然后通过不连续列索引来获取第b,d列
df1[:2][['b','d']]

Unnamed: 0,b,d
0,1,3
1,5,7
