---
title: "增删排序(DataFrame)"
format:
  html:
   code-fold: true
   code-tools: true
jupyter: python3
---

In [1]:
import pandas as pd

# 创建示例数据
data = {'姓名': ['张三', '李四', '王五', '赵六'],
        '年龄': [25, 30, 35, 28],
        '性别': ['M', 'F', 'M', 'F']}

df = pd.DataFrame(data)
df

Unnamed: 0,姓名,年龄,性别
0,张三,25,M
1,李四,30,F
2,王五,35,M
3,赵六,28,F


查看行数```df.shape```

In [2]:
df.shape

(4, 3)

## 添加新列
可以看到目前的案例中是四行三列，如果我想添加新的一列“薪资”，有两种方法：

### 方法一： df['列名'] = 值

In [3]:

df['工资'] = [5000, 6000, '', 7000]
df

Unnamed: 0,姓名,年龄,性别,工资
0,张三,25,M,5000.0
1,李四,30,F,6000.0
2,王五,35,M,
3,赵六,28,F,7000.0


::: {.callout-note}
```[值]```必须对应行数，这里有四个人就必须有四个值，没有则可以为空白```' '``` 或者 ```'NA'```；[]里面的顺序也会保持一样
:::

### 方法二：使用assign()

In [4]:

df = df.assign(工资=[5000, 6000, 4500, 7000])
df

Unnamed: 0,姓名,年龄,性别,工资
0,张三,25,M,5000
1,李四,30,F,6000
2,王五,35,M,4500
3,赵六,28,F,7000


我们可以在原有表格中添加新列，也可以从其他数据源（如文件、数据库等）中导入数据，并将其作为新列添加到DataFrame中。

## 添加新行

### 方法一： 使用append方法

```df = df.append(new_row, ignore_index=True)```

其中，new_row是一个包含新行数据的字典或Series对象。

In [5]:
# 重新选取数据
data = {'姓名': ['张三', '李四', '王五', '赵六'],
        '年龄': [25, 30, 35, 28],
        '性别': ['M', 'F', 'M', 'F']}

df = pd.DataFrame(data)

In [6]:
#`ignore_index=True`是确保新行的索引与原始DataFrame的索引保持一致。

new_row = {'姓名': '熊大', '年龄': 35, '性别': 'M'}

df = df.append(new_row, ignore_index=True)
df


  df = df.append(new_row, ignore_index=True)


Unnamed: 0,姓名,年龄,性别
0,张三,25,M
1,李四,30,F
2,王五,35,M
3,赵六,28,F
4,熊大,35,M


### 方法二：使用concat()

先创建一个新的DataFrame，然后将其与原始DataFrame进行合并

In [7]:
new_row = {'姓名': '熊二', '年龄': 30, '性别': 'M'}

new_df = pd.DataFrame([new_row])

df = pd.concat([df, new_df], ignore_index=True)
df

Unnamed: 0,姓名,年龄,性别
0,张三,25,M
1,李四,30,F
2,王五,35,M
3,赵六,28,F
4,熊大,35,M
5,熊二,30,M


## 删除行/列
### 使用drop方法删除列
```df = df.drop('column_name', axis=1)```

需要提供要删除的列名，然后指定axis=1表示按列进行操作。删除列后，DataFrame会自动调整列的顺序。

In [8]:
df = df.drop('性别', axis=1)
df

Unnamed: 0,姓名,年龄
0,张三,25
1,李四,30
2,王五,35
3,赵六,28
4,熊大,35
5,熊二,30


### 使用drop方法删除行

```df = df.drop(row_index)```

使用drop方法根据行的```索引```来删除特定的行

In [9]:
# 删除第五行数据
df = df.drop(5)
df

Unnamed: 0,姓名,年龄
0,张三,25
1,李四,30
2,王五,35
3,赵六,28
4,熊大,35


## 重命名列
### 使用rename方法：
```df = df.rename(columns={'old_column_name': 'new_column_name'})```

其中，old_column_name是要重命名的旧列名，new_column_name是新的列名。



In [10]:
df = df.rename(columns={'姓名': '乘客id', '年龄':'乘客年龄'})
df

Unnamed: 0,乘客id,乘客年龄
0,张三,25
1,李四,30
2,王五,35
3,赵六,28
4,熊大,35


## 按值排序
### 使用sort_values方法：
```df = df.sort_values(by='column_name', ascending=True)```

其中，column_name是你想要按其值进行排序的列名。ascending=True表示按升序排序，若要按降序排序，将ascending设置为False。

通过sort_values方法，你可以根据特定列的值对DataFrame进行排序。你可以选择按单个列的值排序，也可以按多个列的值排序，只需在by参数中提供相应的列名列表即可。

In [11]:
df = df.sort_values(by='乘客年龄', ascending=True)
df

Unnamed: 0,乘客id,乘客年龄
0,张三,25
3,赵六,28
1,李四,30
2,王五,35
4,熊大,35
