# 修改 Series 和 DataFrame 对象

前一部分我们已经对 Series 和 DataFrame 有了基本了解，这一部分主要关注如何修改 Series、DataFrame 对象。修改涉及到两大类操作：  
1） 增加或重排：重新索引  reindex  
2） 删除：drop 

In [1]:
import pandas as pd

### 1.  reindex() 方法改变或重排 Series 和 DataFrame 索引

In [2]:
price = {'城市':['北京','上海','广州','深圳','沈阳'],
         '环比':[101.5, 101.2, 101.3, 102.0, 100.1],
         '同比':[120.7, 127.3, 119.4, 140.9, 101.4],
         '定基':[121.4, 127.8, 120.0, 145.5, 101.6]}
df = pd.DataFrame(price, index=['c1','c2','c3','c4','c5'])
df

Unnamed: 0,城市,环比,同比,定基
c1,北京,101.5,120.7,121.4
c2,上海,101.2,127.3,127.8
c3,广州,101.3,119.4,120.0
c4,深圳,102.0,140.9,145.5
c5,沈阳,100.1,101.4,101.6


如果我们想要修改它的索引，可以使用 reindex 方法：传入参数 index 或者 columns 可以修改其行索引或者是列索引。  
这种修改会返回一个新的数据对象，而非直接修改了原始的dataframe

In [7]:
df.reindex(index=['c5','c4','c3','c2','c1'])

Unnamed: 0,城市,环比,同比,定基
c5,沈阳,100.1,101.4,101.6
c4,深圳,102.0,140.9,145.5
c3,广州,101.3,119.4,120.0
c2,上海,101.2,127.3,127.8
c1,北京,101.5,120.7,121.4


In [8]:
df

Unnamed: 0,城市,环比,同比,定基
c1,北京,101.5,120.7,121.4
c2,上海,101.2,127.3,127.8
c3,广州,101.3,119.4,120.0
c4,深圳,102.0,140.9,145.5
c5,沈阳,100.1,101.4,101.6


In [9]:
df = df.reindex(index=['c5','c4','c3','c2','c1'])
df

Unnamed: 0,城市,环比,同比,定基
c5,沈阳,100.1,101.4,101.6
c4,深圳,102.0,140.9,145.5
c3,广州,101.3,119.4,120.0
c2,上海,101.2,127.3,127.8
c1,北京,101.5,120.7,121.4


In [3]:
df = df.reindex(columns=['城市','同比','环比','定基'])
df

Unnamed: 0,城市,同比,环比,定基
c1,北京,120.7,101.5,121.4
c2,上海,127.3,101.2,127.8
c3,广州,119.4,101.3,120.0
c4,深圳,140.9,102.0,145.5
c5,沈阳,101.4,100.1,101.6


如果我们想要给df增加新的一列数据，比如增加新的一列，列名为“新增”，就可以通过 reindex 来完成。

In [5]:
new_columns = df.columns.insert(4,'新增')
new_columns

Unnamed: 0,城市,同比,环比,定基
c1,北京,120.7,101.5,121.4
c2,上海,127.3,101.2,127.8
c3,广州,119.4,101.3,120.0
c4,深圳,140.9,102.0,145.5
c5,沈阳,101.4,100.1,101.6


In [18]:
df2 = df.reindex(columns=new_columns, fill_value=200) # 这里的 fill_value 指新的一列用什么数据来填充(只能是一个固定的值)
df2

Unnamed: 0,城市,同比,环比,定基,新增
c5,沈阳,101.4,100.1,101.6,200
c4,深圳,140.9,102.0,145.5,200
c3,广州,119.4,101.3,120.0,200
c2,上海,127.3,101.2,127.8,200
c1,北京,120.7,101.5,121.4,200


Series 和 DataFrame 的索引都是Index类型，Index 类型支持以下方法：

In [19]:
# .append(index):连接另一个Index对象，产生新的Index对象；

In [20]:
# .diff(index):计算差集，产生新的Index对象；

In [21]:
# .intersection(index): 计算交集；

In [22]:
# .union(index):计算并集；

In [26]:
# .delete(loc): 删除 loc 位置处的元素

In [26]:
# .insert(loc,e):在loc位置插入一个元素

In [23]:
df

Unnamed: 0,城市,同比,环比,定基
c5,沈阳,101.4,100.1,101.6
c4,深圳,140.9,102.0,145.5
c3,广州,119.4,101.3,120.0
c2,上海,127.3,101.2,127.8
c1,北京,120.7,101.5,121.4


In [6]:
idx1 = df.columns.delete(2) # 删除列索引的第2个元素
idx2 = df.index.insert(5,'c0') # 给行索引的第5个位置加新的元素 c0
print(idx1, idx2, sep='\n')
df

Index(['城市', '同比', '定基'], dtype='object')
Index(['c1', 'c2', 'c3', 'c4', 'c5', 'c0'], dtype='object')


Unnamed: 0,城市,同比,环比,定基
c1,北京,120.7,101.5,121.4
c2,上海,127.3,101.2,127.8
c3,广州,119.4,101.3,120.0
c4,深圳,140.9,102.0,145.5
c5,沈阳,101.4,100.1,101.6


In [39]:
df3 = df.reindex(index=idx2, columns=idx1).fillna(method="ffill") # fillna: 填充 nan 值，指定填充方式为 ffill。
df3

Unnamed: 0,城市,同比,定基
c5,沈阳,101.4,101.6
c4,深圳,140.9,145.5
c3,广州,119.4,120.0
c2,上海,127.3,127.8
c1,北京,120.7,121.4
c0,北京,120.7,121.4


### 2. drop 方法删除 Series 和 DataFrame 指定行或列索引

In [40]:
df

Unnamed: 0,城市,同比,环比,定基
c5,沈阳,101.4,100.1,101.6
c4,深圳,140.9,102.0,145.5
c3,广州,119.4,101.3,120.0
c2,上海,127.3,101.2,127.8
c1,北京,120.7,101.5,121.4


In [41]:
df.drop(['定基'],axis=1) # 删除某列，返回的是新DataFrame，axis=1，在列的方向上删除元素

Unnamed: 0,城市,同比,环比
c5,沈阳,101.4,100.1
c4,深圳,140.9,102.0
c3,广州,119.4,101.3
c2,上海,127.3,101.2
c1,北京,120.7,101.5


In [43]:
df.drop(['c5']) # axis 默认删除某行

Unnamed: 0,城市,同比,环比,定基
c4,深圳,140.9,102.0,145.5
c3,广州,119.4,101.3,120.0
c2,上海,127.3,101.2,127.8
c1,北京,120.7,101.5,121.4


注意 axis 参数的使用。