# 1 数据分析最常用的文件格式——CSV文件介绍
在数据分析里，Excel表格是最常用的数据源之一，其中`.csv`文件是最为简单易用的且能被Excel识别的一种文件格式。

如果你用文本方式打开，就能看到CSV（Comma-Separated Values，逗号分隔值）文件的格式是：
1. 每行一条记录，即Excel表里的一行
2. 每条记录中的数据采用逗号分隔，也即Excel表里的一个单元格

例如，你可以在飞书猫鸭账单导出2025年的账单数据，并选择CSV格式导出，将它放在本项目的`data\`目录下面，得到一个能用Excel打开的`.csv`文件。

如果你直接使用Excel或者WPS打开，看到的就是一张账单数据表。但如果你右击选择用记事本打开（文本方式查看），就会发现文件的实际存储格式是：
```
摘要,日期,分类,金额,收支,流水,月份
晚餐潮牛牛,2025/01/01,饮食,182,支出,-¥182.00,1 月
午餐鲜烫牛肉粉,2025/01/01,饮食,34.9,支出,-¥34.90,1 月
百果园充值,2025/01/01,水果,94,支出,-¥94.00,1 月
```
其中第一行是表格的表头，第二行开始每一行是表格里的一项账单记录，无论是表头还是记录，都是使用逗号分割每个数据项的。

# 2 如何使用Pandas读取CSV文件中的数据？

## 2.1 导入Pandas库
`import`和`as`是两个常用的关键字，用于导入模块并为模块或对象设置别名。 

“模块”可以简单理解成“别人写好的代码库”，Pandas就是Python中的一种“模块”，也即别人写好的用于进行数据处理和分析的代码库。

我们已经预先给本地Python环境下载安装了Pandas库，下面使用`import`关键字将`pandas`模块导入，并设置别名为`pd`，这样就可以方便地在后续的代码里使用`pd.xxx`来使用`pandas`模块中的功能了。

运行一下下面的代码块（点击代码块里，然后按下`Shift`+`Enter`键）。

In [1]:
import pandas as pd

导入模块通常是没有输出的，只要运行一下没有输出报错信息，就说明模块被成功导入了。

> 之后阅读到的每个代码块，你都要用这样的方式才能运行和检查有没有没正确执行，以及获取输出。

## 2.2 加载数据
刚刚我们已经导入了`pandas`模块，并为其设置了别名`pd`。接下来我们尝试使用Pandas将猫鸭账单读取到内存里，这样我们才能用Pandas的各种强有力的功能来操作它！

下面一行代码，使用Pandas模块里的`read_csv`方法读取`data\猫鸭账单_2025年.csv`数据文件，由于我们当前的Jupyter记事本文件放在`Pandas-Learning\src\lecture`下面，而这个账单数据文件放在了`Pandas-Learning\data`下面，因此我们要从当前记事本文件找到这个数据文件，就需要先父级目录走两次，然后进入`data`目录下，因此我们需要设置**相对路径**为`..\..\data\猫鸭账单_2025年.csv`。

`read_csv`的第一个参数是要读取的CSV文件的路径，后面的`engine`和`encoding`参数是和文件编码格式相关的，先不用太在意。

In [2]:
df = pd.read_csv('..\\..\\data\\猫鸭账单_2025年.csv', engine='python', encoding='utf-8-sig')

`read_csv`将会返回读取的数据。我们使用了一个变量`df`来接受这个函数的返回值，先来看看这个返回值是什么类型：

> 在Python中，可以使用`type(v)`来查看变量`v`的数据类型
>
> 在Jupyter Notebook中，不用`print()`就能直接将输出显示在下面，因此，下面的代码等价于`print(type(df))`

In [3]:
type(df)

pandas.core.frame.DataFrame

从上面这行的输出可以看到，变量`df`的数据类型是`pandas.core.frame.DataFrame`，也就是说`read_csv`返回的是一个类型为`DataFrame`的对象。

通常，刚拿到一个`DataFrame`对象，我们可以用它的`info()`方法查看一下它的结构：

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 432 entries, 0 to 431
Data columns (total 7 columns):
摘要    432 non-null object
日期    432 non-null object
分类    432 non-null object
金额    432 non-null float64
收支    432 non-null object
流水    432 non-null object
月份    432 non-null object
dtypes: float64(1), object(6)
memory usage: 23.7+ KB


从上面输出的信息可以看出，一共有7列以及每列的非空数据行数，其中“金额”这一列的数据类型是`float64`，其他列都是`object`类型的数据。

# 3 如何查看DataFrame对象里的数据？
简单的说，Pandas里的`DataFrame`是一个二维标签化的数据结构，由行和列组成。那么，怎么使用它呢？目前我们虽然导入了猫鸭账单，还什么都看不到呢。

实际上，在Jupyter里直接写一行`df`就能查看这个`DataFrame`类型的变量`df`里所有的数据了，但是这个猫鸭账单表里的数据行太多了，我们学习一些其他的查看方法。
## 3.1 查看头尾几行数据

### 3.1.1 查看头几行数据
使用`DataFrame`对象的`head(n)`方法查看数据的前`n`行，如果不输入`n`，默认查看前5行。

什么场景下需要使用`head`？
1. 在数据分析工作里，表格里的数据条目通常很多，分析师有时想看看表里的数据长什么样子，所以才会有这个`head`方法。
2. 在数据分析的过程中可能会对表格做一些变换，多数时候变换的结果也是`DataFrame`，这个时候也需要直观的看看这个`DataFrame`里的数据长什么样子。

In [5]:
df.head(6)

Unnamed: 0,摘要,日期,分类,金额,收支,流水,月份
0,晚餐潮牛牛,2025/01/01,饮食,182.0,支出,-¥182.00,1 月
1,午餐鲜烫牛肉粉,2025/01/01,饮食,34.9,支出,-¥34.90,1 月
2,百果园充值,2025/01/01,水果,94.0,支出,-¥94.00,1 月
3,美团买菜,2025/01/02,饮食,42.88,支出,-¥42.88,1 月
4,一次性棉球,2025/01/01,宠物,0.6,支出,-¥0.60,1 月
5,午餐桂山禾,2025/01/02,饮食,19.8,支出,-¥19.80,1 月


使用这种方式，`DataFrame`会把表头显示在最上方，把除了表头之外的行作为实际的数据行，并将这些行从`0`开始编号，编号后的行号显示在左侧。

### 3.2 查看尾几行数据
类似的方式，使用`tail(n)`可以查看数据表的后`n`行：

In [6]:
df.tail(4)

Unnamed: 0,摘要,日期,分类,金额,收支,流水,月份
428,晚餐杭州小笼包,2025/03/14,饮食,13.47,支出,-¥13.47,3 月
429,百果园,2025/03/14,水果,18.39,支出,-¥18.39,3 月
430,午餐农耕记,2025/03/15,饮食,25.91,支出,-¥25.91,3 月
431,白色蕾丝丝巾,2025/03/15,服饰,0.39,支出,-¥0.39,3 月


## 3.2 查看指定的行区间的数据
### 3.2.1 采用切片方法
还记得之前学过Python的列表切片吗？如：

In [7]:
num_list = [i for i in range(10)]
num_list

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

采用`num_list[a:b:c]`可以对列表`num_list`进行切片形成新列表，新列表从`num_list`的索引等于`a`的位置开始，切片结束点是索引不超过`b`的

In [8]:
num_list[5:1:-2]

[5, 3]

查看`DataFrame`指定区间的信息

In [9]:
df[10:20:2]

Unnamed: 0,摘要,日期,分类,金额,收支,流水,月份
10,地铁,2025/01/04,交通,10.0,支出,-¥10.00,1 月
12,晚餐鸭蛋瘦肉粥,2025/01/04,饮食,10.37,支出,-¥10.37,1 月
14,自然光环试吃装,2025/01/04,宠物,17.9,支出,-¥17.90,1 月
16,小猫小鸭中山医院挂号,2025/01/04,医疗,31.0,支出,-¥31.00,1 月
18,百果园,2025/01/04,水果,61.3,支出,-¥61.30,1 月


### 3.2.2 采用`iloc`方法
只能传行标签，可以切片

In [10]:
df.iloc[10:20:2]

Unnamed: 0,摘要,日期,分类,金额,收支,流水,月份
10,地铁,2025/01/04,交通,10.0,支出,-¥10.00,1 月
12,晚餐鸭蛋瘦肉粥,2025/01/04,饮食,10.37,支出,-¥10.37,1 月
14,自然光环试吃装,2025/01/04,宠物,17.9,支出,-¥17.90,1 月
16,小猫小鸭中山医院挂号,2025/01/04,医疗,31.0,支出,-¥31.00,1 月
18,百果园,2025/01/04,水果,61.3,支出,-¥61.30,1 月


In [11]:
df.iloc[10]

摘要            地铁
日期    2025/01/04
分类            交通
金额            10
收支            支出
流水       -¥10.00
月份           1 月
Name: 10, dtype: object

### 3.2.3 采用`loc`方法

In [12]:
df.loc[10]

摘要            地铁
日期    2025/01/04
分类            交通
金额            10
收支            支出
流水       -¥10.00
月份           1 月
Name: 10, dtype: object

## 3.3 查看指定的列的数据
### 3.3.1 查看有哪些列
返回的是一个`pandas.core.indexes.base.Index`类型的东西

In [13]:
cols = df.columns
cols

Index(['摘要', '日期', '分类', '金额', '收支', '流水', '月份'], dtype='object')

In [14]:
type(cols)

pandas.core.indexes.base.Index

如果有时候用起来不方便，可以直接强制转换成`list`

In [15]:
cols = list(cols)
cols

['摘要', '日期', '分类', '金额', '收支', '流水', '月份']

### 3.3.2 选取指定列/指定行的数据
比如我要5到20行的，摘要数据

格式是：`df.loc[行切片, 列名标签]`

In [16]:
df.loc[5:20, '摘要']

5           午餐桂山禾
6          次氯酸消毒液
7           午餐农耕记
8           晚餐沪佳兰
9            飞车勋章
10             地铁
11       晚餐云南小锅米线
12        晚餐鸭蛋瘦肉粥
13          午餐肯德基
14        自然光环试吃装
15    小鸭中山医院买药+抽血
16     小猫小鸭中山医院挂号
17             地铁
18            百果园
19        午餐咸蛋瘦肉粥
20          晚餐许府牛
Name: 摘要, dtype: object

那如果要所有行的呢？只要用一个`:`作为"行切片"就可以了

那如果要多列的呢？只要传递一个“列名组成的列表”就可以了

In [17]:
df.loc[10:20, ['摘要', '日期']]

Unnamed: 0,摘要,日期
10,地铁,2025/01/04
11,晚餐云南小锅米线,2025/01/04
12,晚餐鸭蛋瘦肉粥,2025/01/04
13,午餐肯德基,2025/01/04
14,自然光环试吃装,2025/01/04
15,小鸭中山医院买药+抽血,2025/01/04
16,小猫小鸭中山医院挂号,2025/01/04
17,地铁,2025/01/04
18,百果园,2025/01/04
19,午餐咸蛋瘦肉粥,2025/01/05


行如果想要自己选，也是传一个“行列表”就可以了

In [18]:
df.loc[[50, 7, 89], ['摘要', '金额']]

Unnamed: 0,摘要,金额
50,晚餐kfc,45.5
7,午餐农耕记,19.91
89,百果园,17.41


### 3.3.3 直接用方括号访问列
返回的是一个Series

In [19]:
df['摘要']

0                       晚餐潮牛牛
1                     午餐鲜烫牛肉粉
2                       百果园充值
3                        美团买菜
4                       一次性棉球
5                       午餐桂山禾
6                      次氯酸消毒液
7                       午餐农耕记
8                       晚餐沪佳兰
9                        飞车勋章
10                         地铁
11                   晚餐云南小锅米线
12                    晚餐鸭蛋瘦肉粥
13                      午餐肯德基
14                    自然光环试吃装
15                小鸭中山医院买药+抽血
16                 小猫小鸭中山医院挂号
17                         地铁
18                        百果园
19                    午餐咸蛋瘦肉粥
20                      晚餐许府牛
21                      午餐农耕记
22                         地铁
23                         地铁
24                  猫咪饮水机-笼子用
25                  猫咪喂食器-笼子用
26                        磨药器
27                        百果园
28                      一次性尿垫
29                       隔离笼子
                ...          
402                       汇满购
403                 午餐桂山禾（小猫）
404       

## 3.4 条件选择（选择满足指定条件的条目）
我们先试一下如果给df的列加条件得到的是一个什么东西

得到的还是一个`pandas.core.series.Series`，但是里面的值表示每一行是否满足条件，满足就是`True`，否则就是`False`

### 3.4.1 使用方括号（或者`.loc`查询）
那么我拿着这个Series再次扔给df，就从df里筛选出了所有满足条件的行

如果有多个条件，用括号括住每一个条件，然后用`&`符号拼起来

In [20]:
df[(df['金额'] > 50) & (df['分类'] == '水果')]

Unnamed: 0,摘要,日期,分类,金额,收支,流水,月份
2,百果园充值,2025/01/01,水果,94.0,支出,-¥94.00,1 月
18,百果园,2025/01/04,水果,61.3,支出,-¥61.30,1 月
76,百果园,2025/01/12,水果,58.2,支出,-¥58.20,1 月
92,百果园,2025/01/14,水果,52.2,支出,-¥52.20,1 月
189,百果园充值,2025/02/04,水果,188.0,支出,-¥188.00,2 月


### 3.4.2 使用query方法

In [21]:
df.query('金额 > 50 and 分类 == "水果"')

Unnamed: 0,摘要,日期,分类,金额,收支,流水,月份
2,百果园充值,2025/01/01,水果,94.0,支出,-¥94.00,1 月
18,百果园,2025/01/04,水果,61.3,支出,-¥61.30,1 月
76,百果园,2025/01/12,水果,58.2,支出,-¥58.20,1 月
92,百果园,2025/01/14,水果,52.2,支出,-¥52.20,1 月
189,百果园充值,2025/02/04,水果,188.0,支出,-¥188.00,2 月


### 3.4.3 使用isin方法
筛选某列中包含多个值的行，比如我想要分类是水果、饮食、日用的所有行

如果用`分类 == 水果 & ... `这种写法太长了，用isin就比较短

isin传的是一个取值构成的列表，也即`['水果','饮食','日用']`

In [23]:
df[df['分类'].isin(['水果','饮食','日用'])].head()

Unnamed: 0,摘要,日期,分类,金额,收支,流水,月份
0,晚餐潮牛牛,2025/01/01,饮食,182.0,支出,-¥182.00,1 月
1,午餐鲜烫牛肉粉,2025/01/01,饮食,34.9,支出,-¥34.90,1 月
2,百果园充值,2025/01/01,水果,94.0,支出,-¥94.00,1 月
3,美团买菜,2025/01/02,饮食,42.88,支出,-¥42.88,1 月
5,午餐桂山禾,2025/01/02,饮食,19.8,支出,-¥19.80,1 月


### 3.4.4 同时筛选行和列
把前面学的内容组织起来一起使用，用`loc`是可以同时筛选行和列的，当时学的是：`df.loc[行切片, 列名标签]`

但是行切片可以用这次学的判断条件来代替，也即`df.loc[筛选行的条件, 列名标签]`

In [28]:
df.loc[(df['金额'] > 50) & (df['分类'] == '水果'), ['摘要','分类','流水']]

Unnamed: 0,摘要,分类,流水
2,百果园充值,水果,-¥94.00
18,百果园,水果,-¥61.30
76,百果园,水果,-¥58.20
92,百果园,水果,-¥52.20
189,百果园充值,水果,-¥188.00


# 4 总结
会了啥？
1. 会读取csv文件
2. 会查看读出来的DataFrame
3. 会查询任意的行和列，从大表格得到任意的满足条件的小的表格