## Pandas——强大的Python数据分析库

"人生苦短，吾用Python"   "Life is short, you need Python"

---

##### 安装

`pip install pandas`

建议额外安装 `numpy`、`matplotlib`、`pillow` 等库，与 `pandas` 搭配使用，实现数据分析、处理、作图自动化。

##### 学习指南（官方文档）

[Pandas](https://www.pypandas.cn/)

[NumPy](https://www.numpy.org.cn/)

[Matplotlib](https://www.matplotlib.org.cn/)

### 基本使用

In [1]:
import numpy as np
import pandas as pd

```python
# pd.函数名(参数)
```

### 从本地导入数据

In [3]:
df = pd.read_excel("数据/data3.1.xlsx")
df

Unnamed: 0,会计期,合同号,类型,交易币种,交易金额
0,202309,1,收入,USD,100
1,202310,1,收入,USD,100
2,202310,1,收入,CNY,100
3,202309,1,成本,USD,40
4,202310,1,成本,CNY,30
5,202310,1,成本,CNY,20
6,202310,1,收入,USD,100
7,202309,1,成本,USD,10
8,202309,1,成本,USD,10


In [4]:
df = pd.read_excel("数据/data3.1.xlsx", dtype=str)
df

Unnamed: 0,会计期,合同号,类型,交易币种,交易金额
0,202309,1,收入,USD,100
1,202310,1,收入,USD,100
2,202310,1,收入,CNY,100
3,202309,1,成本,USD,40
4,202310,1,成本,CNY,30
5,202310,1,成本,CNY,20
6,202310,1,收入,USD,100
7,202309,1,成本,USD,10
8,202309,1,成本,USD,10


In [5]:
df = pd.read_excel("数据/data3.1.xlsx", dtype = {'会计期':str,'合同号':str,'交易金额':float})
df

Unnamed: 0,会计期,合同号,类型,交易币种,交易金额
0,202309,1,收入,USD,100.0
1,202310,1,收入,USD,100.0
2,202310,1,收入,CNY,100.0
3,202309,1,成本,USD,40.0
4,202310,1,成本,CNY,30.0
5,202310,1,成本,CNY,20.0
6,202310,1,收入,USD,100.0
7,202309,1,成本,USD,10.0
8,202309,1,成本,USD,10.0


### 养成不使用原表的习惯
```python
DataFrame.copy(数据源)
```

In [6]:
df1 = df.copy()
df1

Unnamed: 0,会计期,合同号,类型,交易币种,交易金额
0,202309,1,收入,USD,100.0
1,202310,1,收入,USD,100.0
2,202310,1,收入,CNY,100.0
3,202309,1,成本,USD,40.0
4,202310,1,成本,CNY,30.0
5,202310,1,成本,CNY,20.0
6,202310,1,收入,USD,100.0
7,202309,1,成本,USD,10.0
8,202309,1,成本,USD,10.0


### 新增列
```python
DataFrame['新建列名'] = 赋值
```

In [7]:
df1['国家'] = '中国'
df1

Unnamed: 0,会计期,合同号,类型,交易币种,交易金额,国家
0,202309,1,收入,USD,100.0,中国
1,202310,1,收入,USD,100.0,中国
2,202310,1,收入,CNY,100.0,中国
3,202309,1,成本,USD,40.0,中国
4,202310,1,成本,CNY,30.0,中国
5,202310,1,成本,CNY,20.0,中国
6,202310,1,收入,USD,100.0,中国
7,202309,1,成本,USD,10.0,中国
8,202309,1,成本,USD,10.0,中国


### 定位 （数字坐标，实际坐标）

```python
DataFrame.iloc[x,y]
DataFrame.iloc[x1:x2, y1:y2]
DataFrame.loc[A,B]
DataFrame.loc[A:a,B:b]
```

In [14]:
# 通过数字坐标定位某个值 DataFrame.iloc[x,y]
df1.iloc[2,3]

'CNY'

In [15]:
# 通过实际坐标定位某个值  DataFrame.loc[A,B]
df1.loc[3,'交易金额']

40.0

In [12]:
# 通过数字坐标定位某一区间的值 DataFrame.iloc[x1:x2,y1:y2]
df1.iloc[:3,:4]

Unnamed: 0,会计期,合同号,类型,交易币种
0,202309,1,收入,USD
1,202310,1,收入,USD
2,202310,1,收入,CNY


In [17]:
df1.loc[:3,:'交易币种']

Unnamed: 0,会计期,合同号,类型,交易币种
0,202309,1,收入,USD
1,202310,1,收入,USD
2,202310,1,收入,CNY
3,202309,1,成本,USD


### 定位后修改内容

```python
DataFrame.iloc[x,y] = '要修改的内容'
DataFrame.loc[x1:x2,y1:y2] = '要修改的内容'
```

In [18]:
#定位后修改内容 DataFrame.loc[A,B] = 目标值
df1.loc[:,'合同号'] = '0002'
df1

Unnamed: 0,会计期,合同号,类型,交易币种,交易金额,国家
0,202309,2,收入,USD,100.0,中国
1,202310,2,收入,USD,100.0,中国
2,202310,2,收入,CNY,100.0,中国
3,202309,2,成本,USD,40.0,中国
4,202310,2,成本,CNY,30.0,中国
5,202310,2,成本,CNY,20.0,中国
6,202310,2,收入,USD,100.0,中国
7,202309,2,成本,USD,10.0,中国
8,202309,2,成本,USD,10.0,中国


### 筛选（单个条件，与/或条件的筛选）

```python
# 筛选某列内容
DataFrame.loc[DataFrame['列名'] == '条件']
# 与 条件的筛选
DataFrame.loc[(DataFrame['列名1'] == '条件1')&(DataFrame['列名2'] == '条件2')]  
# 或 条件的筛选
DataFrame.loc[(DataFrame['列名1'] == '条件1')|(DataFrame['列名2'] == '条件2')] 
```

In [20]:
# 筛选某列内容 DataFrame.loc[DataFrame['列名'] == '条件']
df1.loc[df1['类型'] == '收入']

Unnamed: 0,会计期,合同号,类型,交易币种,交易金额,国家
0,202309,2,收入,USD,100.0,中国
1,202310,2,收入,USD,100.0,中国
2,202310,2,收入,CNY,100.0,中国
6,202310,2,收入,USD,100.0,中国


In [22]:
## 与筛选 DataFrame.loc[(DataFrame['列名1'] == '条件1')&(DataFrame['列名2'] == '条件2')]
df1.loc[(df1['类型']=='收入')&(df1['会计期'] == '202309')]

Unnamed: 0,会计期,合同号,类型,交易币种,交易金额,国家
0,202309,2,收入,USD,100.0,中国


In [23]:
# 或筛选 DataFrame.loc[(DataFrame['列名1'] == '条件1')|(DataFrame['列名2'] == '条件2')]
df1.loc[(df1['类型'] == '收入')|(df1['交易币种'] == 'CNY')]

Unnamed: 0,会计期,合同号,类型,交易币种,交易金额,国家
0,202309,2,收入,USD,100.0,中国
1,202310,2,收入,USD,100.0,中国
2,202310,2,收入,CNY,100.0,中国
4,202310,2,成本,CNY,30.0,中国
5,202310,2,成本,CNY,20.0,中国
6,202310,2,收入,USD,100.0,中国


### 筛选后修改内容

```python
DataFrame.loc[DataFrame['列名'] == '条件','要修改的列名'] = '目标值'
```

In [25]:
# 筛选后修改内容 DataFrame.loc[DataFrame['列名'] == '条件','要修改的列名'] = '目标值'
df1.loc[df1['类型'] == '收入','交易金额'] = 200
df1

Unnamed: 0,会计期,合同号,类型,交易币种,交易金额,国家
0,202309,2,收入,USD,200.0,中国
1,202310,2,收入,USD,200.0,中国
2,202310,2,收入,CNY,200.0,中国
3,202309,2,成本,USD,40.0,中国
4,202310,2,成本,CNY,30.0,中国
5,202310,2,成本,CNY,20.0,中国
6,202310,2,收入,USD,200.0,中国
7,202309,2,成本,USD,10.0,中国
8,202309,2,成本,USD,10.0,中国
