# 增删改查

In [None]:
import pandas as pd

## 查询

`Pandas`中提供了多种查询函数，方便我们的数据查询操作。

In [None]:
df = pd.read_csv('data/sales1.csv')
df

### `loc`

`loc`用于查询指定数据，使用方法很灵活。

#### 单个值查询

通过行索引，可以获取`DataFrame`的某行数据，返回的结果为`Series`类型。

In [None]:
df.loc[2]

In [None]:
print(type(df.loc[2]))

除了传入行索引外，还可以再传入列名，来获取某一列的值。

In [None]:
df.loc[2, '单价']

#### 多个值查询

In [None]:
df.loc[[1, 2, 5]]

In [None]:
df.loc[[1, 2, 5], ['单价', '数量']]

【例】获取第`0`、`4`、`7`、`8`行的`日期`、`商品`、`总销售额`信息

In [None]:
df.loc[[0, 4, 7, 8], ["日期", "商品", "总销售额"]]

#### 区间查询

In [None]:
df.loc[3:6, ['商品', '类别']]

**注意：这里的区间范围与列表的切片不同，是包含结束值的！**

【例】获取第`1~6`行的`日期`、`商品`、`总销售额`信息

In [None]:
df.loc[1:6, ["日期", "商品", "总销售额"]]

#### 条件查询

In [None]:
df.loc[df['总销售额'] <= 100]

In [None]:
df.loc[(df['总销售额'] >= 100) & (df['总销售额'] <= 300)]  

【例】获取所有类别为`食品`或`罐头食品`的商品

In [None]:
df.loc[(df['类别'] == '食品') | (df['类别'] == '罐头食品')]

#### 函数查询

`isin()`用于判断某列数据是否出现。

In [None]:
df.loc[df['日期'].isin(['2023/11/5', '2023/10/24', '2023/5/9'])]

【例】获取所有商品名为`糕点`、`酱油`、`洗发水`、`苹果`、`冰淇淋`的商品。

In [None]:
df.loc[df['商品'].isin(['糕点', '酱油', '洗发水', '苹果', '冰淇淋'])]

## 增加

### 新增列

In [None]:
df = pd.read_csv('data/sales1.csv')
df

In [None]:
df['折扣'] = [0.85, 0.88, 0.75, 0.6, 0.9, 0.95, 0.88, 0.99, 0.4]
df

`insert()`用于在指定列插入新列。

`insert(loc, column, value, allow_duplicates=False)`

| 参数 | 说明 |
| --- | --- |
| loc | 插入列的序号 |
| column | 列名 |
| value | 列数据 |
| allow_duplicates | 是否允许插入列与已存在列重复 |

In [None]:
df.insert(3, '库存', [5784, 202, 150, 1200, 3501, 500, 2187, 58, 63])
df

【例】在`类别`和`库存`之间添加一列`有效期`：`['2024/12/6', '2023/11/10', '2024/1/1', '2026/8/3', '2025/11/3', '2023/6/15', '2024/12/5', '2023/12/2', '2023/9/30']`

In [None]:
df.insert(3, "有效期", ['2024/12/6', '2023/11/10', '2024/1/1', '2026/8/3', '2025/11/3', '2023/6/15', '2024/12/5', '2023/12/2', '2023/9/30'])
df

### 新增行

In [None]:
df = pd.read_csv('data/sales1.csv')
df

`loc()`可以指定要新增的行索引，并传入对应的行数据。

In [None]:
df.loc[9] = ['2023/11/28', '苹果', '水果', 33, 6.5, 214.5]
df

使用已有的行索引会修改原本的数据。

【例】将第`4`行数据修改为：`['2023/11/10', '沐浴露', '个人护理', 60, 10, 600]`

In [None]:
df.loc[4] = ['2023/11/10', '沐浴露', '个人护理', 60, 10, 600]
df

`pd.concat()`用于新增一行或多行数据，也可以合并两个`DataFrame`。

In [None]:
df1 = pd.read_csv('data/sales1.csv')
df1

In [None]:
df2 = pd.read_csv('data/sales2.csv')
df2

In [None]:
df = pd.concat([df1, df2])
df

`pd.concat()`默认会使用原本的行索引，如需根据合并后的结果重新排列，可以设置`ignore_index=True`。

In [None]:
df = pd.concat([df1, df2], ignore_index=True)
df

## 删除

In [None]:
df = pd.read_csv('data/sales1.csv')
df

`drop()`用于删除指定的行或列。

`drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')`

| 参数 | 说明 |
| --- | --- |
| labels | 行标签或列标签 |
| axis | `0`表示删除行，`1`表示删除列 |
| index | 删除的行索引名 |
| columns | 删除的列索引名 |
| inplace | 是否原地修改，默认为`False` |

### 删除行

In [None]:
df.drop(labels=[0, 3], inplace=True)
df

【例】删除序号为`6`和`8`两行数据

In [None]:
df.drop(labels=[6, 8], inplace=True)
df

### 删除列

In [None]:
df = pd.read_csv('data/sales1.csv')
df

In [None]:
df.drop(labels=['类别'], axis=1, inplace=True)
df

【例】删除`日期`和`数量`两列数据

In [None]:
df.drop(labels=["日期", "数量"], axis=1, inplace=True)
df

### 删除行和列

In [None]:
df = pd.read_csv('data/sales1.csv')
df

如果需要同时删除行和列，需要分别指定`index`和`columns`参数。

In [None]:
df.drop(index=[0, 3], columns=['类别', '单价'], inplace=True)
df

【例】删除序号为`2`、`4`、`5`的商品，并删除`日期`列

In [None]:
df.drop(index=[2, 4, 5], columns=['日期'], inplace=True)
df

### 筛选

有时候需要删除特定数据，可以使用筛选的方式过滤。从效果上看，也可以当作是一种删除。



In [None]:
df = pd.read_csv('data/sales1.csv')
df

In [None]:
df[df['总销售额'] > 100]

【例】筛选出单价在$ 10 \sim 17 $范围内的商品

In [None]:
df[(df['单价'] >= 10) & (df['单价'] <= 17)]

## 修改

### 修改索引

创建数据的时，索引都是默认生成的。在有些场景下，为了方便数据分析，会需要对索引进行修改。

`rename()`用于索引值的修改。

`rename(mapper=None, index=None, columns=None, axis=None, copy=True, inplace=False, level=None, errors='ignore')`

| 参数 | 说明 |
| --- | --- |
| mapper | 映射关系，可以是字典或函数 |
| index | 指定行索引 |
| columns | 指定列索引 |
| axis | `0`表示行索引，`1`表示列索引 |
| inplace | 是否原地修改 |

In [None]:
df = pd.read_csv('data/sales1.csv')
df

In [None]:
df.rename(index={
    0: '零', 1: '一', 2: '二', 3: '三', 4: '四',
    5: '五', 6: '六', 7: '七', 8: '八', 9: '九'
})

In [None]:
df.rename(columns={"日期": "生产日期", "商品": "产品名称"})

【例】将`总销售额`更改为`营业额`

In [None]:
df.rename(columns={'总销售额': '营业额'})

### 修改数据

#### 修改单个数据

In [None]:
df = pd.read_csv('data/sales1.csv')
df

`loc[]`、`iloc[]`、`at[]`、`iat[]`可用于查询数据，并修改数据。

| 运算符 | 说明 |
| --- | --- |
| loc[] | 只能使用**标签**索引 |
| iloc[] | 只能使用**整数**索引 |
| at[] | 只能使用**标签**索引，必须传入**行索引和列索引** |
| iat[] | 只能使用**整数**索引，必须传入**行索引和列索引** |

In [None]:
df.loc[2, '数量'] = 35
df

In [None]:
df.iloc[5, 0] = '2023/4/30'
df

In [None]:
df.at[3, '数量'] = 17
df

In [None]:
df.iat[6, 1] = '草莓酱'
df

【例】将第`8`行商品的`类别`更改为`冷冻食品`

In [None]:
df.loc[8, '类别'] = '冷冻食品'
df

### 修改区间数据

`loc[]`和`iloc[]`还可以对区间内的数据进行修改。

In [None]:
df.iloc[[1, 2, 6]] = [
    ['2023/7/14', '牛奶', '饮品', 30, 2.99, 89.7],
    ['2023/8/27', '洗衣机', '家电', 3, 289.99, 869.97],
    ['2023/9/5', '笔记本电脑', '电子产品', 8, 799.99, 6399.92]
]

df

【例】将第`2`~`4`行的数据替换为：

```
[
    ['2023/5/12', '瑜伽垫', '运动器材', 7, 14.99, 104.93],
    ['2023/6/28', '沙发', '家具', 1, 599.99, 599.99],
    ['2023/11/20', '手机', '电子产品', 3, 699.99, 2099.97]
]
```

In [None]:
df.iloc[2:5]=[
    ['2023/5/12', '瑜伽垫', '运动器材', 7, 14.99, 104.93],
    ['2023/6/28', '沙发', '家具', 1, 599.99, 599.99],
    ['2023/11/20', '手机', '电子产品', 3, 699.99, 2099.97]
]

df

### 修改某类数据

有时候需要对数据集中的一类数据进行修改，`replace()`可用于替换数据。

In [None]:
df = pd.read_csv('data/sales1.csv')
df

In [None]:
df.replace('食品', '食物', inplace=True)
df