上一节介绍了如何对数据进行筛选，这一节将介绍如何对数据框实现增删改等操作来帮助我们管理数据。

以下列数据框为例:

In [51]:
import pandas as pd

# 创建示例数据:
# 姓名、年龄、性别为列名
data = {'姓名': ['张三', '李四', '王五', '赵钱', '孙李'],
        '年龄': [25, 30, 35, 28, 22],
        '性别': ['M', 'F', 'M', 'F', 'M']}

df = pd.DataFrame(data)
df

Unnamed: 0,姓名,年龄,性别
0,张三,25,M
1,李四,30,F
2,王五,35,M
3,赵钱,28,F
4,孙李,22,M


## 添加新列

目前的案例数据是5行三列，添加新的一列，有两种方法：

### 直接对数据框df添加列

In [52]:
import numpy as np
df['薪资'] = [5000, 6000, 9000, 7000, np.nan]  # 缺失值可以用一对不包含任何内容的引号代替
df

Unnamed: 0,姓名,年龄,性别,薪资
0,张三,25,M,5000.0
1,李四,30,F,6000.0
2,王五,35,M,9000.0
3,赵钱,28,F,7000.0
4,孙李,22,M,


::: {.callout-note}

`[值]`必须对应行数，这里有四个人就必须有四个值，没有则可以为空白`''` 或者 `NaN`；[]里面的值的顺序也需要和原数据框保持一致。

:::

### 使用assign()添加列

assign()不会直接改变原数据框df，需要用新数据框覆盖原数据框的数据。

In [53]:
df = df.assign(工龄=[1, 1, 3, 2, 0.5])
df

Unnamed: 0,姓名,年龄,性别,薪资,工龄
0,张三,25,M,5000.0,1.0
1,李四,30,F,6000.0,1.0
2,王五,35,M,9000.0,3.0
3,赵钱,28,F,7000.0,2.0
4,孙李,22,M,,0.5


### 基于已有数据添加列

In [54]:
# 一个例子，假设薪资不变
df['年薪'] = df['薪资']*12
df['总薪资'] = df['年薪']*df['工龄']
df

Unnamed: 0,姓名,年龄,性别,薪资,工龄,年薪,总薪资
0,张三,25,M,5000.0,1.0,60000.0,60000.0
1,李四,30,F,6000.0,1.0,72000.0,72000.0
2,王五,35,M,9000.0,3.0,108000.0,324000.0
3,赵钱,28,F,7000.0,2.0,84000.0,168000.0
4,孙李,22,M,,0.5,,


## 添加新行

### 使用append方法

```df = df.append(new_row, ignore_index=True)```

其中，new_row是一个包含新行数据的字典或Series对象。`ignore_index=True`确保新行的索引在原始DataFrame的索引基础上继续增加，而不是使用原来的索引。

In [55]:
# 示例数据
data = {'姓名': ['张三', '李四', '王五', '赵钱', '孙李'],
        '年龄': [25, 30, 35, 28, 22],
        '性别': ['M', 'F', 'M', 'F', 'M']}

df = pd.DataFrame(data)
df

Unnamed: 0,姓名,年龄,性别
0,张三,25,M
1,李四,30,F
2,王五,35,M
3,赵钱,28,F
4,孙李,22,M


In [56]:
new_row = {'姓名': '熊大', '年龄': 35, '性别': 'M'}

df = df.append(new_row, ignore_index=True)
df


  df = df.append(new_row, ignore_index=True)


Unnamed: 0,姓名,年龄,性别
0,张三,25,M
1,李四,30,F
2,王五,35,M
3,赵钱,28,F
4,孙李,22,M
5,熊大,35,M


### 使用concat()合并数据框

将新行转换为数据框，然后将其与原数据框df进行合并。

In [57]:
new_row = {'姓名': '熊二', '年龄': 30, '性别': 'M'}
new_df = pd.DataFrame([new_row])

# df = pd.concat([df, new_df]) # 不设置ignore_index的话，新行索引沿用旧索引 0
df = pd.concat([df, new_df], ignore_index=True)
df

Unnamed: 0,姓名,年龄,性别
0,张三,25,M
1,李四,30,F
2,王五,35,M
3,赵钱,28,F
4,孙李,22,M
5,熊大,35,M
6,熊二,30,M


## 删除行/列
### 使用drop方法删除列
`df = df.drop('column_name', axis=1)`

需要提供要删除的列名，然后指定axis=1表示按列轴进行操作。删除列后，DataFrame会自动调整列的顺序。

In [58]:
df = df.drop('性别', axis=1)
df

Unnamed: 0,姓名,年龄
0,张三,25
1,李四,30
2,王五,35
3,赵钱,28
4,孙李,22
5,熊大,35
6,熊二,30


### 使用drop方法删除行

```df = df.drop(row_index)```

使用drop方法根据行的```索引```来删除特定的行

In [59]:
# 删除第一行数据
df = df.drop(0)
df

Unnamed: 0,姓名,年龄
1,李四,30
2,王五,35
3,赵钱,28
4,孙李,22
5,熊大,35
6,熊二,30


## 修改数据

### at方法

In [60]:
# 指定行列
df.at[4, '年龄'] = 32
df

Unnamed: 0,姓名,年龄
1,李四,30
2,王五,35
3,赵钱,28
4,孙李,32
5,熊大,35
6,熊二,30


### 根据条件过滤修改数据

In [61]:
# 找到姓名为熊大的行，将年龄修改为31
df.loc[df['姓名'] == '熊大', '年龄'] = 31
df

Unnamed: 0,姓名,年龄
1,李四,30
2,王五,35
3,赵钱,28
4,孙李,32
5,熊大,31
6,熊二,30


### 转换类型

有时候，计算出来的数据是浮点数，可以运用`astype(‘int')`转换数据列为整数类型:

In [62]:
df['薪资'] = [6000, 6000, 9000, 7000, 8000, 10000]
df['年薪'] = df['薪资']*12
# 将年薪列转换为整数类型
df['年薪'] = df['年薪'].astype('int')
df

Unnamed: 0,姓名,年龄,薪资,年薪
1,李四,30,6000,72000
2,王五,35,6000,72000
3,赵钱,28,9000,108000
4,孙李,32,7000,84000
5,熊大,31,8000,96000
6,熊二,30,10000,120000


### apply()+lambda()

可以使用`apply()`和`lambda函数`对数据进行修改：查看下列示例：


In [63]:
# df.apply()函数将括号内的内容运用到df的所有元素
# lambda: 如果年薪大于10w，显示`>10w`，如果年薪小于10w，显示`<10w`
df['年薪'] = df['年薪'].apply(lambda x: '>10w' if x>100000 else '<10w')
df

Unnamed: 0,姓名,年龄,薪资,年薪
1,李四,30,6000,<10w
2,王五,35,6000,<10w
3,赵钱,28,9000,>10w
4,孙李,32,7000,<10w
5,熊大,31,8000,<10w
6,熊二,30,10000,>10w


## 重命名列
### 使用rename
`df = df.rename(columns={'old_column_name':'new_column_name'})`

其中，old_column_name是旧列名，new_column_name是新的列名。

`df.rename(index={'old_label':'new_label'})`也能用来修改行标签。

In [64]:
df = df.rename(columns={'姓名': '职员姓名', '年龄':'职员年龄'})
df

Unnamed: 0,职员姓名,职员年龄,薪资,年薪
1,李四,30,6000,<10w
2,王五,35,6000,<10w
3,赵钱,28,9000,>10w
4,孙李,32,7000,<10w
5,熊大,31,8000,<10w
6,熊二,30,10000,>10w


### 直接设置columns

In [65]:
df.columns = ['姓名', '年龄', '月薪', '年薪水平']
df

Unnamed: 0,姓名,年龄,月薪,年薪水平
1,李四,30,6000,<10w
2,王五,35,6000,<10w
3,赵钱,28,9000,>10w
4,孙李,32,7000,<10w
5,熊大,31,8000,<10w
6,熊二,30,10000,>10w


::: {.callout-tip}

`drop()`和`rename()`也可以通过设置`inplace=True`直接修改原数据框。

:::

## 按值排序
### 使用sort_values方法
```df = df.sort_values(by='column_name', ascending=True)```

其中，column_name是你想要按其值进行排序的列名。ascending=True表示按升序——从小到大排列，若要按降序——从大到小排列，将ascending设置为False即可。

通过sort_values方法可以根据特定列的值对DataFrame进行排序。可以选择按单个列或多个列的值排序，只需在by参数中提供相应的列名列表即可。

In [66]:
df = df.sort_values(by='年龄', ascending=True)
df

Unnamed: 0,姓名,年龄,月薪,年薪水平
3,赵钱,28,9000,>10w
1,李四,30,6000,<10w
6,熊二,30,10000,>10w
5,熊大,31,8000,<10w
4,孙李,32,7000,<10w
2,王五,35,6000,<10w


In [67]:
# 先按月薪降序排列，薪资相同则按年龄升序排列
df = df.sort_values(by=['月薪', '年龄'], ascending=[False, True]) # 如果排序方式相同，只需要一个布尔值就好 
df

Unnamed: 0,姓名,年龄,月薪,年薪水平
6,熊二,30,10000,>10w
3,赵钱,28,9000,>10w
5,熊大,31,8000,<10w
4,孙李,32,7000,<10w
1,李四,30,6000,<10w
2,王五,35,6000,<10w
