# 基于Python的数据分析
**工具：**jupyter notebook   **第三方库：**Pandas  
  
**Pandas简介：**  
- Pandas是一个开源的第三方`Python`库，从`Numpy`和`Matplotlib`的基础上构建而来，享有数据分析“三剑客之一”的盛名（`NumPy`、`Matplotlib`、`Pandas`）。
- Pandas这个名字来源于面板数据（Panel Data）与数据分析（data analysis）这两个名词的组合；
- Pandas 已经成为`Python`数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
---
## 导入pandas库
由于一般都会用到numpy库，所以，我们也一起导入。

In [1]:
import pandas as pd  # 导入pandas库
import numpy as np   # 导入numpy库

## 数据选择
**Pandas常用的数据选择操作：**  
- 使用列名选择列数据：`df[列名]`
- 使用索引选择行数据：`df[num1:num2:step]`
- 数据选择函数：loc、iloc、at、iat

---
### 使用列名选择列数据
#### 单列数据选择
**表达式：**`df[列名]`或`df.列名`    
> 使用`df.列名`选择数据时，列名要符合Python关于标识符的命名规则；

**作用：**选取一列数据，并返回<Series类型>的数据。

In [2]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 选取单列数据
display(df['姓名'])
display(df.年龄)

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


0     李逍遥
1     赵灵儿
2     林月如
3      阿奴
4     司徒钟
5    独孤宇云
6     刘晋元
7     林天南
Name: 姓名, dtype: object

0    19.0
1    16.0
2    18.0
3    14.0
4    47.0
5     NaN
6     NaN
7    56.0
Name: 年龄, dtype: float64

#### 多列数据选择
**表达式：**`df[[列名]]`  
**作用：**可以选取单列或多列数据，并返回<DataFrame类型>数据。

In [3]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
# display(df)

# 选取多列数据
df[['姓名','年龄','性别']]

Unnamed: 0,姓名,年龄,性别
0,李逍遥,19.0,男
1,赵灵儿,16.0,女
2,林月如,18.0,女
3,阿奴,14.0,女
4,司徒钟,47.0,男
5,独孤宇云,,男
6,刘晋元,,男
7,林天南,56.0,男


### 使用索引选取行数据（切片）
**表达式：**`df[num1:num2:step]`  
**作用：**Pandas支持象Python列表一样，按传统的左闭右开的切片方式选择部分行数据。

In [4]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
# display(df)

# 选取行数据(数据范围：左开右闭)
display(df[0:2])    # 前两行数据
display(df[::-1])   # 反转数据顺序
display(df[0:9:3])  # 按步长选取数据

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑


Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
7,林天南,,56.0,男,,,,剑
6,刘晋元,,,男,174.0,60.0,读书,
5,独孤宇云,剑圣,,男,,,,拂尘
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑


Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
6,刘晋元,,,男,174.0,60.0,读书,


### Pandas相关的数据选择函数
**常用的数据选择函数：**`df.loc`，`df.iloc`，`df.at`，`df.iat`  
**loc、iloc、at、iat之间区别：**  
`df.loc`：基于标签进行切片；用行名、列名或行号、列号进行索引；选取数据量不限。  
`df.iloc`：基于位置进行切片；用行号、列号进行索引（仅支持数字索引）；选取数据量不限。  
`df.at`：基于标签进行切片；用行名、列名或行号、列号进行索引；只能选取单一数据。  
`df.iat`：基于位置进行切片；用行号、列号进行索引（仅支持数字索引）；只能选取单一数据。  
`备注：若带列筛选，必须有行筛选。`

---
#### loc函数
**表达式：**`df.loc[<行表达式>,<列表达式>]`  

In [5]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')

# ---------------------
# 示例1：单个索引选取数据
# ---------------------
display(df.loc[1,['姓名','年龄','武器']])      # 选取单行数据

# 将姓名设置为索引
df1 = df.set_index('姓名', drop=True)  
display(df1)

# 选取并显示数据
display(df1.loc['赵灵儿'])  # 选取单行数据

# 若数据的索引列为str类型，则loc函数不能再使用数字索引；
# display(df1.loc[0])  # 错误示范

姓名     赵灵儿
年龄    16.0
武器      双剑
Name: 1, dtype: object

Unnamed: 0_level_0,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
李逍遥,,19.0,男,173.0,60.0,午睡,长剑
赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
林月如,,18.0,女,167.0,50.0,打猎,长鞭
阿奴,,14.0,女,153.0,40.0,吃饭,法杖
司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
独孤宇云,剑圣,,男,,,,拂尘
刘晋元,,,男,174.0,60.0,读书,
林天南,,56.0,男,,,,剑


称号         NaN
年龄        16.0
性别           女
身高/cm    162.0
体重/kg     48.0
喜好          沐浴
武器          双剑
Name: 赵灵儿, dtype: object

In [6]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')

# ---------------------
# 示例2：列表索引选取数据
# ---------------------
display(df.loc[[1,3,5],['姓名','年龄','武器']])  # 带列筛选

# 将姓名设置为索引，然后选取并显示数据
df1 = df.set_index('姓名', drop=True)  
display(df1.loc[['林月如','林天南']])  # 选取单行数据

Unnamed: 0,姓名,年龄,武器
1,赵灵儿,16.0,双剑
3,阿奴,14.0,法杖
5,独孤宇云,,拂尘


Unnamed: 0_level_0,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
林月如,,18.0,女,167.0,50.0,打猎,长鞭
林天南,,56.0,男,,,,剑


In [7]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')

# ---------------------
# 示例3：索引切片选取数据
# ---------------------
display(df.loc[1:5,['姓名','年龄','武器']])  # 带列筛选

# 将姓名设置为索引，然后选取并显示数据
df1 = df.set_index('姓名', drop=True)  
display(df1.loc['赵灵儿':'阿奴'])  # 选取多行数据

Unnamed: 0,姓名,年龄,武器
1,赵灵儿,16.0,双剑
2,林月如,18.0,长鞭
3,阿奴,14.0,法杖
4,司徒钟,47.0,长剑
5,独孤宇云,,拂尘


Unnamed: 0_level_0,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
林月如,,18.0,女,167.0,50.0,打猎,长鞭
阿奴,,14.0,女,153.0,40.0,吃饭,法杖


#### iloc函数
**表达式：**`df.iloc[<行表达式>,<列表达式>]`  
备注：仅支持数字索引

In [8]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')

# ---------------------
# 示例1：单个索引选取数据
# ---------------------
display(df.iloc[1])

# ---------------------
# 示例2：列表索引选取数据
# ---------------------
display(df.iloc[[1,3,6],[0,2]])

# ---------------------
# 示例3：索引切片选取数据
# ---------------------
display(df.iloc[1:5,:4])

姓名         赵灵儿
称号         NaN
年龄        16.0
性别           女
身高/cm    162.0
体重/kg     48.0
喜好          沐浴
武器          双剑
Name: 1, dtype: object

Unnamed: 0,姓名,年龄
1,赵灵儿,16.0
3,阿奴,14.0
6,刘晋元,


Unnamed: 0,姓名,称号,年龄,性别
1,赵灵儿,,16.0,女
2,林月如,,18.0,女
3,阿奴,,14.0,女
4,司徒钟,酒剑仙,47.0,男


#### at & iat函数
**表达式：**`df.at[<行表达式>,<列表达式>]`、`df.iat[<行表达式>,<列表达式>]`  
**作用：**at和iat（仅支持数字索引）函数除了只能选择单一数据，其他功能与loc和iloc一致，运行速度会较快些。

In [9]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 使用at函数选取数据
display(df.at[0,'喜好'])

# 使用iat函数选取函数
display(df.iat[1,6])

# 将姓名设置为索引后，使用at函数选取数据
df1 = df.set_index('姓名', drop=True)
display(df1.at['林月如', '喜好'])

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


'午睡'

'沐浴'

'打猎'