上一节介绍了如何对数据进行筛选，这一节将介绍如何对数据框实现添加、删除、修改等操作来帮助我们管理数据。

以下列数据框为例。

In [1]:
import pandas as pd

# 创建示例数据:
# 姓名、年龄、性别为列名
data = {'姓名': ['张三', '李四', '王五', '赵六'],
        '年龄': [25, 30, 35, 28],
        '性别': ['M', 'F', 'M', 'F']}

df = pd.DataFrame(data)
df

Unnamed: 0,姓名,年龄,性别
0,张三,25,M
1,李四,30,F
2,王五,35,M
3,赵六,28,F


## 添加新列

目前的案例数据是四行三列，添加新的一列，有两种方法：

### 直接对数据框df添加列

In [2]:
df['薪资'] = [5000, 6000, 9000, 7000]  # 有缺失值用一对不包含任何内容的引号代替
df

Unnamed: 0,姓名,年龄,性别,薪资
0,张三,25,M,5000
1,李四,30,F,6000
2,王五,35,M,9000
3,赵六,28,F,7000


::: {.callout-note}

`[值]`必须对应行数，这里有四个人就必须有四个值，没有则可以为空白`''` 或者 `'NA'`；[]里面的值的顺序也需要和原数据框保持一样

:::

### 使用assign()添加列

assign()不会直接改变原数据框df，需要用新数据框覆盖原数据框的数据。

In [3]:
df = df.assign(工龄=[1, 1, 3, 2])
df

Unnamed: 0,姓名,年龄,性别,薪资,工龄
0,张三,25,M,5000,1
1,李四,30,F,6000,1
2,王五,35,M,9000,3
3,赵六,28,F,7000,2


### 基于已有数据添加列

In [4]:
# 一个例子，假设薪资不变
df["年薪"] = df["薪资"]*12
df

Unnamed: 0,姓名,年龄,性别,薪资,工龄,年薪
0,张三,25,M,5000,1,60000
1,李四,30,F,6000,1,72000
2,王五,35,M,9000,3,108000
3,赵六,28,F,7000,2,84000


除了手动添加新列，也可以从其他数据源（如文件、数据库等）中导入数据，并将其作为新列添加到DataFrame中。

## 添加新行

### 使用append方法

```df = df.append(new_row, ignore_index=True)```

其中，new_row是一个包含新行数据的字典或Series对象。

In [5]:
# 重新选取数据
data = {'姓名': ['张三', '李四', '王五', '赵六'],
        '年龄': [25, 30, 35, 28],
        '性别': ['M', 'F', 'M', 'F']}

df = pd.DataFrame(data)

In [6]:
#`ignore_index=True`是确保新行的索引在原始DataFrame的索引基础上继续增加，而不是使用原来的索引。

new_row = {'姓名': '熊大', '年龄': 35, '性别': 'M'}

df = df.append(new_row, ignore_index=True)
df


  df = df.append(new_row, ignore_index=True)


Unnamed: 0,姓名,年龄,性别
0,张三,25,M
1,李四,30,F
2,王五,35,M
3,赵六,28,F
4,熊大,35,M


### 使用concat()合并数据框

将新行转换为数据框，然后将其与原数据框df进行合并。

In [7]:
new_row = {'姓名': '熊二', '年龄': 30, '性别': 'M'}
new_df = pd.DataFrame([new_row])

# df = pd.concat([df, new_df]) # 不设置ignore_index的话，新行索引沿用旧索引 0
df = pd.concat([df, new_df], ignore_index=True)
df

Unnamed: 0,姓名,年龄,性别
0,张三,25,M
1,李四,30,F
2,王五,35,M
3,赵六,28,F
4,熊大,35,M
5,熊二,30,M


## 删除行/列
### 使用drop方法删除列
`df = df.drop('column_name', axis=1)`

需要提供要删除的列名，然后指定axis=1表示按列轴进行操作。删除列后，DataFrame会自动调整列的顺序。

In [8]:
df = df.drop('性别', axis=1)
df

Unnamed: 0,姓名,年龄
0,张三,25
1,李四,30
2,王五,35
3,赵六,28
4,熊大,35
5,熊二,30


### 使用drop方法删除行

```df = df.drop(row_index)```

使用drop方法根据行的```索引```来删除特定的行

In [9]:
# 删除第六行数据
df = df.drop(5)
df

Unnamed: 0,姓名,年龄
0,张三,25
1,李四,30
2,王五,35
3,赵六,28
4,熊大,35


## 修改数据值

### at方法

In [10]:
# 指定行列
df.at[4, '年龄'] = 32
df

Unnamed: 0,姓名,年龄
0,张三,25
1,李四,30
2,王五,35
3,赵六,28
4,熊大,32


### 根据条件过滤修改数据

In [11]:
df.loc[df['姓名'] == '熊大', '年龄'] = 31
df

Unnamed: 0,姓名,年龄
0,张三,25
1,李四,30
2,王五,35
3,赵六,28
4,熊大,31


## 重命名列
### 使用rename
`df = df.rename(columns={'old_column_name':'new_column_name'})`

其中，old_column_name是旧列名，new_column_name是新的列名。

`df.rename(index={'old_label':'new_label'})`也能用来修改行标签，但通常情况下我们不会对行标签进行修改。

In [12]:
df = df.rename(columns={'姓名': '职员姓名', '年龄':'职员年龄'})
df

Unnamed: 0,职员姓名,职员年龄
0,张三,25
1,李四,30
2,王五,35
3,赵六,28
4,熊大,31


::: {.callout-tip}

`drop()`和`rename()`也可以通过设置`inplace=True`直接修改原数据框。

:::

## 按值排序
### 使用sort_values方法
```df = df.sort_values(by='column_name', ascending=True)```

其中，column_name是你想要按其值进行排序的列名。ascending=True表示按升序——从小到大排列，若要按降序——从大到小排列，将ascending设置为False即可。

通过sort_values方法可以根据特定列的值对DataFrame进行排序。可以选择按单个列或多个列的值排序，只需在by参数中提供相应的列名列表即可。

In [13]:
df = df.sort_values(by='职员年龄', ascending=True)
df

Unnamed: 0,职员姓名,职员年龄
0,张三,25
3,赵六,28
1,李四,30
4,熊大,31
2,王五,35


In [14]:
df['薪资'] = [9000, 8000, 9000, 11000, 10000]
# 先按薪资降序排列，薪资相同则按年龄升序排列
df = df.sort_values(by=['薪资', '职员年龄'], ascending=[False, True]) # 如果排序方式相同，只需要一个布尔值就好 
df

Unnamed: 0,职员姓名,职员年龄,薪资
4,熊大,31,11000
2,王五,35,10000
0,张三,25,9000
1,李四,30,9000
3,赵六,28,8000
