## reindex重新索引
- `reindex`使用参数里的索引，创建一个新对象。若新索引值在原对象中不存在，则表示为NaN。
- `method`选项：若原对象的索引个是有序数据（[0,1,2]或['a','b','c']均可），在使用`reindex`进行重新索引时可加入`method`选项，新索引值中若在原对象中不存在，则根据`method`选项指定的方法对不存在的索引值进行填充
- 对于DataFrame，不指定参数名只传递一个序列时，默认修改index项即行索引，建议加上参数名index（行索引）或columns（列索引）

In [1]:
import pandas as pd
obj=pd.Series(['a','b','c'],index=[4,7,0])
obj

4    a
7    b
0    c
dtype: object

In [2]:
obj=obj.reindex([0,4,7]) # 按参数里指定索引顺序进行重新索引，生成新的对象
obj

0    c
4    a
7    b
dtype: object

In [3]:
obj.reindex([0,1,2,3,4,5,6,7,8,9]) # 按照参数里的索引值及顺序重新索引，在obj里不存在的索引值，表示为NaN

0      c
1    NaN
2    NaN
3    NaN
4      a
5    NaN
6    NaN
7      b
8    NaN
9    NaN
dtype: object

In [4]:
# 加入method选项，对缺失的值按method指定的方法进行填充，ffill-向前填充，bfill-向后填充
# 比如例子中使用ffill向前填充，新对象的索引值0和4对应原对象的索引值0和4，对应值是c和a，而新对象中1，2，3是没有可以对应的值
# 因此使用索引0的对应值c向前（向较大的索引值方向）填充，填充了索引1，2，3的值后，遇到下个有值的索引4
# 然后用索引4对应值a继续向前填充，直到遇到索引7，再用索引7的值b继续填充，直到最后
# bfill的原理相同，填充方向相反
obj.reindex([0,1,2,3,4,5,6,7,8,9],method='ffill')

0    c
1    c
2    c
3    c
4    a
5    a
6    a
7    b
8    b
9    b
dtype: object

In [5]:
frame=pd.DataFrame([[0,1,2],[3,4,5],[6,7,8]],index=['a','c','d'],columns=['A','B','C'])
frame

Unnamed: 0,A,B,C
a,0,1,2
c,3,4,5
d,6,7,8


In [6]:
frame.reindex(['a','b','c','d']) # 传入参数没指定参数名，且只有一列序列，默认对行索引进行修改

Unnamed: 0,A,B,C
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [7]:
frame.reindex(index=['a','b','c','d'],columns=['B','C','D','A']) # 建议加上参数名

Unnamed: 0,B,C,D,A
a,1.0,2.0,,0.0
b,,,,
c,4.0,5.0,,3.0
d,7.0,8.0,,6.0


- reindex函数的各参数及说明
![title](img/reindex.jpg)

## drop删除指定轴上的项
- `drop`将需要删除项的索引以参数方式传入，同时删除多个项时索引以列表方式传入
- 返回的是一个已经删除了指定项的新对象
- 若需删除的索引项不存在，则抛出`KeyError`错误
- 对于DataFrame，默认删除index项（`axis=0`或`axis='index'`）即行索引，若需删除columns项即列索引需添加参数`axis=1`或`axis='columns'`
- 使用`inplace=True`参数，直接操作原对象，不生成新对象

In [8]:
obj

0    c
4    a
7    b
dtype: object

In [9]:
new_obj=obj.drop(4) # 传入需要删除项的索引4，返回一个删除后的新对象
new_obj

0    c
7    b
dtype: object

In [10]:
new_obj=obj.drop([4,7]) # 以列表传入多个索引值进行删除
new_obj

0    c
dtype: object

In [11]:
frame

Unnamed: 0,A,B,C
a,0,1,2
c,3,4,5
d,6,7,8


In [12]:
frame.drop(['a','d']) # 默认删除行索引

Unnamed: 0,A,B,C
c,3,4,5


In [13]:
frame.drop(['A','C'],axis='columns') # 指定删除列索引

Unnamed: 0,B
a,1
c,4
d,7


In [14]:
frame_bck=frame

In [15]:
frame.drop('B',axis=1,inplace=True) # inplace=True，直接在原对象中删除B列
frame

Unnamed: 0,A,C
a,0,2
c,3,5
d,6,8


## 索引切片、过滤
- 类似用Numpy数组的索引操作，只是Series和DataFrame的索引不一定是整数
- 切片最大的区别：若索引不是整数，则切片是包含末端的

In [16]:
obj=pd.Series([1,2,3,4,5])
obj

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [17]:
obj[1:3] # 整数索引，切片不包含末端的索引3

1    2
2    3
dtype: int64

In [18]:
obj=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
obj['b':'d'] # 切片包含了末端的索引'd'

b    2
c    3
d    4
dtype: int64

In [19]:
obj=pd.Series([1,2,3,4,5],index=[1.1,1.2,1.3,1.4,1.5])
obj[1.2:1.4] # 切片包含了末端的索引1.4

1.2    2
1.3    3
1.4    4
dtype: int64

- 对于DataFrame，使用一个值或序列进行索引，就是获取一个或多列
- 使用切片则获取指定的行

In [20]:
frame=pd.DataFrame([[0,1,2],[3,4,5],[6,7,8]],index=['a','c','d'],columns=['A','B','C'])
frame

Unnamed: 0,A,B,C
a,0,1,2
c,3,4,5
d,6,7,8


In [21]:
frame[['A','C']] # 使用一个序列选取多列

Unnamed: 0,A,C
a,0,2
c,3,5
d,6,8


In [22]:
frame[:2] # 使用切片选取行

Unnamed: 0,A,B,C
a,0,1,2
c,3,4,5


In [23]:
frame[['A','C']][:2] # 行列结合进行选取

Unnamed: 0,A,C
a,0,2
c,3,5


In [24]:
frame['B']>3 # 得到布尔型DataFrame

a    False
c     True
d     True
Name: B, dtype: bool

In [25]:
frame[frame['B']>3] # 过滤，先进行布尔运算得到布尔型DataFrame，使用该DataFrame对原DataFrame进行过滤

Unnamed: 0,A,B,C
c,3,4,5
d,6,7,8


In [26]:
frame[(frame['B']>3)&(frame['B']<5)] # 使用多条件进行过滤

Unnamed: 0,A,B,C
c,3,4,5


In [27]:
frame[frame[:2]<4] # 前两行里小于4的

Unnamed: 0,A,B,C
a,0.0,1.0,2.0
c,3.0,,
d,,,


In [28]:
frame[frame[:2]<4]=0 # 给符合条件的赋值
frame

Unnamed: 0,A,B,C
a,0,0,0
c,0,4,5
d,6,7,8


## 用loc和iloc进行选取
`loc`：使用标签值选取，loc[行标签,列标签]

`iloc`：使用索引位置进行选取，iloc[行索引,列索引]

- 若参数指定的是多行和多列，得到的仍旧是DataFrame；
- 若参数里单独指定某一行或某一列，得到的是name为该行标签或该列标签的Series，但如果以列表形式指定某一行或某一列如['B']，得到的是DataFrame；
- 若行列都指定某一个标签，得到的是指定位置的数据，类型即为该数据的数据类型
- loc使用标签切片包含末端项，iloc使用索引位置切片不包含末端项。
- loc和iloc还可以根据指定顺序进行选取，如传递给行/列一个表示索引序号/标签选取顺序的序列，得到一个根据顺序选取后的DataFrame

In [29]:
data=pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],index=['a','b','c'],columns=['A','B','C'])

In [30]:
data.loc['a'] # 选取行标签为'a'的行，得到一个name为行标签的Series

A    1
B    2
C    3
Name: a, dtype: int64

In [31]:
data.loc[['a','c']] # 选取多行，得到DataFrame

Unnamed: 0,A,B,C
a,1,2,3
c,7,8,9


In [32]:
data.loc[['a','c'],'B'] # 选取多行和指定的某一列，得到name为列标签的Series

a    2
c    8
Name: B, dtype: int64

In [33]:
data.loc[:'b'] # loc使用标签进行切片，包含末端项

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


In [34]:
data.loc[:,['B','C']] # 使用切片方式选取所有行并选取指定列

Unnamed: 0,B,C
a,2,3
b,5,6
c,8,9


In [35]:
data.iloc[:1] # iloc使用索引位置进行切片，不包含末端项

Unnamed: 0,A,B,C
a,1,2,3


In [36]:
data.iloc[:,[1,2,0]] # 按指定顺序选取，传入一个指定选取顺序的序列到 行/列，根据序列顺序进行选取

Unnamed: 0,B,C,A
a,2,3,1
b,5,6,4
c,8,9,7


- DataFrame的选取方式总结
![title](img/DataFrame选取.png)

>若索引的标签值是整数，在使用标签值进行索引选取的时候会造成混乱，比如要选取标签值为1的项目，使用`data[1]`，但得到的却是索引位置为1的项目。  
>因此若索引的标签值含有整数，在进行选取时应该总是使用标签。为了更准确，请使用loc（标签）或iloc（整数）。