# 基于Python的数据分析
**工具：**jupyter notebook   **第三方库：**Pandas  
  
**Pandas简介：**  
- Pandas是一个开源的第三方`Python`库，从`Numpy`和`Matplotlib`的基础上构建而来，享有数据分析“三剑客之一”的盛名（`NumPy`、`Matplotlib`、`Pandas`）。
- Pandas这个名字来源于面板数据（Panel Data）与数据分析（data analysis）这两个名词的组合；
- Pandas 已经成为`Python`数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
---
## 导入pandas库
由于一般都会用到numpy库，所以，我们也一起导入。

In [1]:
import pandas as pd  # 导入pandas库
import numpy as np   # 导入numpy库

## 查看数据的属性

### 查看数据的信息
#### 查看数据的基本信息
**表达式：**`df.info()`

In [2]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)  # 显示数据

# 数据的基本信息
df.info()

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   姓名      8 non-null      object 
 1   称号      2 non-null      object 
 2   年龄      6 non-null      float64
 3   性别      8 non-null      object 
 4   身高/cm   6 non-null      float64
 5   体重/kg   5 non-null      float64
 6   喜好      6 non-null      object 
 7   武器      7 non-null      object 
dtypes: float64(3), object(5)
memory usage: 640.0+ bytes


#### 查看数据的形状
**表达式：** `df.shape`  
**作用：**查看数据形状，并返回一个元组；

In [3]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 数据的形状
df.shape

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


(8, 8)

#### 查看数据的维度
**表达式：** `df.ndim`  

In [4]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 数据的维度
df.ndim

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


2

#### 查看数据的大小
**表达式：** `df.size`  

In [5]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 数据的大小
df.size

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


64

#### 查看数据是否为“空”
**表达式：** `df.empty`  
**作用：**查看数据是否为空，并返回一个布尔值；

In [6]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
# display(df)

# 数据是否为“空”
df.empty

False

### 查看数据类型
#### 查看所有数据类型
**表达式：** `df.dtypes`  

In [7]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
# display(df)

# 数据类型
df.dtypes

姓名        object
称号        object
年龄       float64
性别        object
身高/cm    float64
体重/kg    float64
喜好        object
武器        object
dtype: object

#### 查看某一列数据类型
**表达式：** `df[''].dtype`  

In [8]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
# display(df)

# 某一列数据的数据类型
df['年龄'].dtype

dtype('float64')

### 查看数据的值
#### 查看所有数据的空值
**表达式：** `df.isnull()`  

In [9]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
# display(df)

# 查看空值
df.isnull()

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,False,True,False,False,False,False,False,False
1,False,True,False,False,False,False,False,False
2,False,True,False,False,False,False,False,False
3,False,True,False,False,False,False,False,False
4,False,False,False,False,False,True,False,False
5,False,False,True,False,True,True,True,False
6,False,True,True,False,False,False,False,True
7,False,True,False,False,True,True,True,False


#### 查看某一列数据的空值
**表达式：** `df[''].isnull()`  

In [10]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
# display(df)

# 查看某一列数据是否存在空值
df['年龄'].isnull()

0    False
1    False
2    False
3    False
4    False
5     True
6     True
7    False
Name: 年龄, dtype: bool

### 查看数据的值
#### 查看数据表的值
**表达式：** `df.values`  
**作用：**返回数据所有值的列表矩阵\<array数据类型>

In [11]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 查看数据的内容
df.values

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


array([['李逍遥', nan, 19.0, '男', 173.0, 60.0, '午睡', '长剑'],
       ['赵灵儿', nan, 16.0, '女', 162.0, 48.0, '沐浴', '双剑'],
       ['林月如', nan, 18.0, '女', 167.0, 50.0, '打猎', '长鞭'],
       ['阿奴', nan, 14.0, '女', 153.0, 40.0, '吃饭', '法杖'],
       ['司徒钟', '酒剑仙', 47.0, '男', 171.0, nan, '酒', '长剑'],
       ['独孤宇云', '剑圣', nan, '男', nan, nan, nan, '拂尘'],
       ['刘晋元', nan, nan, '男', 174.0, 60.0, '读书', nan],
       ['林天南', nan, 56.0, '男', nan, nan, nan, '剑']], dtype=object)

#### 查看列名称(表头)的值
**表达式：** `df.columns`  

In [12]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 查看列名的值
df.columns

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


Index(['姓名', '称号', '年龄', '性别', '身高/cm', '体重/kg', '喜好', '武器'], dtype='object')

#### 查看索引列的值
**表达式：** `df.index`  

In [13]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 查看索引列的值
df.index

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


RangeIndex(start=0, stop=8, step=1)

### 显示数据
#### 显示前5行数据
**表达式：** `df.head()`  
**作用：** 前部数据，默认5条，可指定条数；

In [14]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 显示数据
df.head()  # 默认显示前5行数据

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑


#### 显示后5行数据
**表达式：** `df.tail()`  
**作用：** 后部数据，默认5条，可指定条数；

In [15]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 显示数据
df.tail()  # 默认显示后3行数据

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


#### 显示随机数据
**表达式：** `df.sample()`  
**作用：** 一条随机数据，可指定条数；

In [16]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 显示数据
df.sample(3)  # 默认显示后5行数据

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
6,刘晋元,,,男,174.0,60.0,读书,
5,独孤宇云,剑圣,,男,,,,拂尘


## 数据的索引操作
### 认识索引
**一个简单的DataFrame索引的示例：**
![image-2.png](attachment:image-2.png)

---
### 设置索引
**表达式：**`df.set_index(keys, drop=True, append=False, inplace=False)`  
**作用：**设置数据的索引列。  
**参数说明：**
- `keys`：表示要设置为索引的列名（如有多个应放在一个列表里）。
- `drop`：表示将设置为索引的列删除，默认为 True。
- `append`：表示是否将新的索引追加到原索引后（即是否保留原索引），默认为 False。
- `inplace`：表示是否在原 DataFrame 上修改，默认为 False。

In [17]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
display(df)

# 设置索引
df.set_index('姓名')

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
2,林月如,,18.0,女,167.0,50.0,打猎,长鞭
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
7,林天南,,56.0,男,,,,剑


Unnamed: 0_level_0,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
李逍遥,,19.0,男,173.0,60.0,午睡,长剑
赵灵儿,,16.0,女,162.0,48.0,沐浴,双剑
林月如,,18.0,女,167.0,50.0,打猎,长鞭
阿奴,,14.0,女,153.0,40.0,吃饭,法杖
司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
独孤宇云,剑圣,,男,,,,拂尘
刘晋元,,,男,174.0,60.0,读书,
林天南,,56.0,男,,,,剑


### 重置索引
**表达式：**`df.reset_index(level=None, drop=False, inplace=False)`  
**作用：**用索引重置生成一个新的DataFrame或Series。  
**参数说明：**  
- level: 如果索引(index)有多个列，仅从索引中删除level指定的列，默认删除所有列；
- drop: 重新设置索引后是否将原索引作为新的一列并入DataFrame，默认为False；
- inplace: 是否在原DataFrame上改动，默认为False。

In [18]:
# 获取数据
df = pd.read_csv('data/person_introduction.csv')
df = df.sample(5)  # 随机选取数据
display(df)

df.reset_index(drop=True)

Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
5,独孤宇云,剑圣,,男,,,,拂尘
6,刘晋元,,,男,174.0,60.0,读书,
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑


Unnamed: 0,姓名,称号,年龄,性别,身高/cm,体重/kg,喜好,武器
0,李逍遥,,19.0,男,173.0,60.0,午睡,长剑
1,独孤宇云,剑圣,,男,,,,拂尘
2,刘晋元,,,男,174.0,60.0,读书,
3,阿奴,,14.0,女,153.0,40.0,吃饭,法杖
4,司徒钟,酒剑仙,47.0,男,171.0,,酒,长剑
