In [1]:
import pandas as pd
import numpy as np

In [18]:
##################### reindex : #####################
# 现有数据重新排序，目标并不在于重新设置新的索引
# Series和DataFrame都有此方法
# 
# Series 的reindex
ser = pd.Series([1,3,4,7],index=['d','c','b','a'])

In [5]:
ser

d    1
c    3
b    4
a    7
dtype: int64

In [6]:
ser.reindex(['a','b','c','d'])

a    7
b    4
c    3
d    1
dtype: int64

In [7]:
# 原数据中不存在的索引会以NaN填充，(e对应的值)
ser.reindex(['a','b','c','d','e'])

a    7.0
b    4.0
c    3.0
d    1.0
e    NaN
dtype: float64

In [8]:
# 使用fill_value参数填充缺失值
ser.reindex(['a','b','c','d','e'],fill_value=0)

a    7
b    4
c    3
d    1
e    0
dtype: int64

In [9]:
# DataFrame的reindex
df = pd.DataFrame({'水果':['苹果','桔子','香蕉'],
                   '数量':[4,7,9],
                   '价格':[17,20,18]
                  })

In [10]:
df

Unnamed: 0,水果,数量,价格
0,苹果,4,17
1,桔子,7,20
2,香蕉,9,18


In [14]:
df.reindex([1,0,2])

Unnamed: 0,水果,数量,价格
1,桔子,7,20
0,苹果,4,17
2,香蕉,9,18


In [15]:
df.reindex(columns=['数量','价格','水果'])

Unnamed: 0,数量,价格,水果
0,4,17,苹果
1,7,20,桔子
2,9,18,香蕉


In [16]:
df.reindex([2,1,0],columns=['价格','数量','水果'])

Unnamed: 0,价格,数量,水果
2,18,9,香蕉
1,20,7,桔子
0,17,4,苹果


In [17]:
# 使用loc实现同样效果
df.loc[[2,1,0],['水果','价格','数量']]

Unnamed: 0,水果,价格,数量
2,香蕉,18,9
1,桔子,20,7
0,苹果,17,4


In [19]:
##################### set_index : #####################
# 使用一个或多个现有列设置索引,   默认情况下生成一个新对象
# DataFrame的方法
df = pd.DataFrame({'a':['bar','bar','foo','foo'],
                   'b':['one','two','one','two'],
                   'c':['z','y','w','u'],
                   'd':[1.0,2.0,3.0,4.0]
                  })

In [20]:
df

Unnamed: 0,a,b,c,d
0,bar,one,z,1.0
1,bar,two,y,2.0
2,foo,one,w,3.0
3,foo,two,u,4.0


In [23]:
# 原来的c列做为了索引
df.set_index('c')

Unnamed: 0_level_0,a,b,d
c,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
z,bar,one,1.0
y,bar,two,2.0
w,foo,one,3.0
u,foo,two,4.0


In [25]:
# 复合索引，原来的a、b列成为索引
df.set_index(['a','b'])

Unnamed: 0_level_0,Unnamed: 1_level_0,c,d
a,b,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,z,1.0
bar,two,y,2.0
foo,one,w,3.0
foo,two,u,4.0


In [26]:
##################### reset_index : #####################
# 重新生成索引( 0~len(df) ）,原来的索引将变成一个数据列
# 比如两个DataFrame对象使用concat合并之后，索引可能变得不连续，可以使用reset_index()方法重新生成索引
# DataFrame的方法
df1 = pd.DataFrame({'a':[1,6,4,7],
                    'b':[5,3,8,2]
                   })

In [28]:
df1

Unnamed: 0,a,b
0,1,5
1,6,3
2,4,8
3,7,2


In [29]:
df2 = pd.DataFrame({'a':[4,6],
                    'b':[7,9]
                   })

In [30]:
df2

Unnamed: 0,a,b
0,4,7
1,6,9


In [31]:
df = pd.concat([df1,df2])

In [32]:
# 索引变得不再连续
df

Unnamed: 0,a,b
0,1,5
1,6,3
2,4,8
3,7,2
0,4,7
1,6,9


In [33]:
# 重新生成新的index,原来的index变成了一列，列名为'index'
df.reset_index()

Unnamed: 0,index,a,b
0,0,1,5
1,1,6,3
2,2,4,8
3,3,7,2
4,0,4,7
5,1,6,9


In [35]:
# 使用参数drop=True避免生成'index'列
df.reset_index(drop=True)

Unnamed: 0,a,b
0,1,5
1,6,3
2,4,8
3,7,2
4,4,7
5,6,9
