## **一、实验目的**

python数据统计挖掘与应用编程练习

熟练运用numpy和pandas，本实验首先安装配置好Anaconda以及Python环境，通过代码编写，从而使同学们熟练掌握pandas和numpy库的基本操作，并学会将其运用到实践中。


## **二、实验原理**

### （一）Numpy基础
#### 1. np数组的构造
最一般的方法是通过`array`来构造：

In [1]:
import numpy as np
np.array([1,2,3])

array([1, 2, 3])

下面讨论一些特殊数组的生成方式：

【a】等差序列：`np.linspace`, `np.arange`

In [2]:
np.linspace(1,5,11) # 起始、终止（包含）、样本个数

array([1. , 1.4, 1.8, 2.2, 2.6, 3. , 3.4, 3.8, 4.2, 4.6, 5. ])

In [3]:
np.arange(1,5,2) # 起始、终止（不包含）、步长

array([1, 3])

【b】特殊矩阵：`zeros`, `eye`, `full`

In [4]:
np.zeros((2,3)) # 传入元组表示各维度大小

array([[0., 0., 0.],
       [0., 0., 0.]])

In [5]:
np.eye(3) # 3*3的单位矩阵

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

【c】随机矩阵：`np.random`

最常用的随机生成函数为`rand`, `randn`, `randint`, `choice`，它们分别表示0-1均匀分布的随机数组、标准正态的随机数组、随机整数组和随机列表抽样：

In [6]:
np.random.uniform(5, 15, 3) # 从5到15随机生成3个数

array([13.37552229, 11.63726883, 10.9764975 ])

`randn`生成了`N(0,I)`的标准正态分布：

In [7]:
np.random.randn(3)

array([-0.23172579, -0.59263889, -1.16871454])

In [8]:
np.random.randn(2, 2)

array([[-0.22388032,  0.39571588],
       [-0.79573199, -0.16026703]])

对于服从方差为$\sigma^2$均值为$\mu$的一元正态分布可以如下生成：

In [9]:
sigma, mu = 2.5, 3
mu + np.random.randn(3) * sigma

array([2.30626737, 4.92547701, 1.49878444])

同样的，也可选择从已有函数生成：

In [10]:
np.random.normal(3, 2.5, 3)

array([ 3.42868576,  5.75615446, -0.32206542])

`randint`可以指定生成随机整数的最小值最大值（不包含）和维度大小：

In [11]:
low, high, size = 5, 15, (2,2) # 生成5到14的随机整数
np.random.randint(low, high, size)

array([[14,  9],
       [12,  8]])

`choice`可以从给定的列表中，以一定概率和方式抽取结果，当不指定概率时为均匀采样，默认抽取方式为有放回抽样：

In [12]:
my_list = ['a', 'b', 'c', 'd']
np.random.choice(my_list, 2, replace=False, p=[0.1, 0.7, 0.1 ,0.1])

array(['b', 'c'], dtype='<U1')

In [13]:
np.random.choice(my_list, (3,3))

array([['a', 'a', 'd'],
       ['c', 'd', 'b'],
       ['a', 'a', 'a']], dtype='<U1')

当返回的元素个数与原列表相同时，不放回抽样等价于使用`permutation`函数，即打散原列表：

In [14]:
np.random.permutation(my_list)

array(['c', 'd', 'a', 'b'], dtype='<U1')

最后，需要提到的是随机种子，它能够固定随机数的输出结果：

In [15]:
np.random.seed(0)
np.random.rand()

0.5488135039273248

In [16]:
np.random.seed(0)
np.random.rand()

0.5488135039273248

#### 2. np数组的变形与合并
【a】转置：`T`

In [17]:
np.zeros((2,3)).T

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

【b】合并操作：`r_`, `c_`

对于二维数组而言，`r_`和`c_`分别表示上下合并和左右合并：

In [18]:
np.r_[np.zeros((2,3)),np.zeros((2,3))]

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [19]:
np.c_[np.zeros((2,3)),np.zeros((2,3))]

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

【c】维度变换：`reshape`

`reshape`能够帮助用户把原数组按照新的维度重新排列。在使用时有两种模式，分别为`C`模式和`F`模式，分别以逐行和逐列的顺序进行填充读取。

In [20]:
target = np.arange(8).reshape(2,4)
target

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [21]:
target.reshape((4,2), order='C') # 按照行读取和填充

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [22]:
target.reshape((4,2), order='F') # 按照列读取和填充

array([[0, 2],
       [4, 6],
       [1, 3],
       [5, 7]])

特别地，由于被调用数组的大小是确定的，`reshape`允许有一个维度存在空缺，此时只需填充-1即可：

In [23]:
target.reshape((4,-1))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

下面将`n*1`大小的数组转为1维数组的操作是经常使用的：

In [24]:
target = np.ones((3,1))
target

array([[1.],
       [1.],
       [1.]])

In [25]:
target.reshape(-1)

array([1., 1., 1.])

#### 3. np数组的切片与索引
数组的切片模式支持使用`slice`类型的`start:end:step`切片，还可以直接传入列表指定某个维度的索引进行切片：

In [26]:
target = np.arange(9).reshape(3,3)
target

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [27]:
target[:-1, [0,2]]  # 取出第0行到第-1行的第0列和第2列

array([[0, 2],
       [3, 5]])

In [28]:
target

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

此外，还可以利用`np.ix_`在对应的维度上使用布尔索引，但此时不能使用`slice`切片：

In [29]:
target[np.ix_([True, False, True], [True, False, True])]

array([[0, 2],
       [6, 8]])

In [30]:
target[np.ix_([1,2], [True, False, True])]

array([[3, 5],
       [6, 8]])

当数组维度为1维时，可以直接进行布尔索引，而无需`np.ix_`：

In [31]:
new = target.reshape(-1)
new[new%2==0]

array([0, 2, 4, 6, 8])

#### 4. 常用函数
为了简单起见，这里假设下述函数输入的数组都是一维的。

【a】`where`

`where`是一种条件函数，可以指定满足条件与不满足条件位置对应的填充值：

In [32]:
a = np.array([-1,1,-1,0])
np.where(a>0, a, 5) # 对应位置为True时填充a对应元素，否则填充5

array([5, 1, 5, 5])

【b】`nonzero`, `argmax`, `argmin`

这三个函数返回的都是索引，`nonzero`返回非零数的索引，`argmax`, `argmin`分别返回最大和最小数的索引：

In [33]:
a = np.array([-2,-5,0,1,3,-1])
np.nonzero(a)

(array([0, 1, 3, 4, 5], dtype=int64),)

In [34]:
a.argmax()

4

In [35]:
a.argmin()

1

【c】`any`, `all`

`any`指当序列至少 **存在一个** `True`或非零元素时返回`True`，否则返回`False`

`all`指当序列元素 **全为** `True`或非零元素时返回`True`，否则返回`False`

In [36]:
a = np.array([0,1])
a.any()

True

In [37]:
a.all()

False

【e】 统计函数

常用的统计函数包括`max, min, mean, median, std, var, sum, quantile`，其中分位数`quantile`计算是全局方法，因此不能通过`array.quantile`的方法调用：

In [38]:
target = np.arange(5)
target

array([0, 1, 2, 3, 4])

In [39]:
target.max()

4

但是对于含有缺失值的数组，它们返回的结果也是缺失值，如果需要略过缺失值，必须使用`nan*`类型的函数，上述的几个统计函数都有对应的`nan*`函数。

In [40]:
target = np.array([1, 2, np.nan])
target

array([ 1.,  2., nan])

In [41]:
target.max()

nan

In [42]:
np.nanmax(target)

2.0

最后，需要说明二维`Numpy`数组中统计函数的`axis`参数，它能够进行某一个维度下的统计特征计算，当`axis=0`时结果为列的统计指标，当`axis=1`时结果为行的统计指标：

In [43]:
target = np.arange(1,10).reshape(3,-1)
target

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [44]:
target.sum(axis=0)

array([12, 15, 18])

In [45]:
target.sum(axis=1)

array([ 6, 15, 24])

### （二）Pandas基础

In [46]:
import numpy as np
import pandas as pd

在开始学习前，请保证`pandas`的版本号不低于 1.2.0 版本，否则请务必升级！

In [47]:
pd.__version__

'1.5.2'

#### 1、文件的读取和写入
##### (1). 文件读取

`pandas`可以读取的文件格式有很多，这里主要介绍读取`csv, txt`文件。

In [48]:
df_csv = pd.read_csv('../data/my_csv.csv')
df_csv

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020/1/1
1,3,b,3.4,banana,2020/1/2
2,6,c,2.5,orange,2020/1/5
3,5,d,3.2,lemon,2020/1/7


In [49]:
df_txt = pd.read_table('../data/my_table.txt')
df_txt

Unnamed: 0,col1,col2,col3,col4
0,2,a,1.4,apple 2020/1/1
1,3,b,3.4,banana 2020/1/2
2,6,c,2.5,orange 2020/1/5
3,5,d,3.2,lemon 2020/1/7


这里有一些常用的公共参数，`header=None`表示第一行不作为列名，`index_col`表示把某一列或几列作为索引，`usecols`表示读取列的集合，默认读取所有的列，`parse_dates`表示需要转化为时间的列，`nrows`表示读取的数据行数。上面这些参数在上述的三个函数里都可以使用。

In [50]:
pd.read_table('../data/my_table.txt', header=None)

Unnamed: 0,0,1,2,3
0,col1,col2,col3,col4
1,2,a,1.4,apple 2020/1/1
2,3,b,3.4,banana 2020/1/2
3,6,c,2.5,orange 2020/1/5
4,5,d,3.2,lemon 2020/1/7


In [51]:
pd.read_csv('../data/my_csv.csv', index_col=['col1', 'col2'])

Unnamed: 0_level_0,Unnamed: 1_level_0,col3,col4,col5
col1,col2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,a,1.4,apple,2020/1/1
3,b,3.4,banana,2020/1/2
6,c,2.5,orange,2020/1/5
5,d,3.2,lemon,2020/1/7


In [52]:
pd.read_table('../data/my_table.txt', usecols=['col1', 'col2'])

Unnamed: 0,col1,col2
0,2,a
1,3,b
2,6,c
3,5,d


In [53]:
pd.read_csv('../data/my_csv.csv', parse_dates=['col5'])

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020-01-01
1,3,b,3.4,banana,2020-01-02
2,6,c,2.5,orange,2020-01-05
3,5,d,3.2,lemon,2020-01-07



#### 【END】

##### (2). 数据写入

一般在数据写入中，最常用的操作是把`index`设置为`False`，特别当索引没有特殊意义的时候，这样的行为能把索引在保存的时候去除。

In [54]:
df_csv.to_csv('../data/my_csv_saved.csv', index=False)

`pandas`中没有定义`to_table`函数，但是`to_csv`可以保存为`txt`文件，并且允许自定义分隔符，常用制表符`\t`分割：

In [55]:
df_txt.to_csv('../data/my_txt_saved.txt', sep='\t', index=False)

#### 2、基本数据结构
`pandas`中具有两种基本的数据存储结构，存储一维`values`的`Series`和存储二维`values`的`DataFrame`，在这两种结构上定义了很多的属性和方法。

##### (1). Series
`Series`一般由四个部分组成，分别是序列的值`data`、索引`index`、存储类型`dtype`、序列的名字`name`。其中，索引也可以指定它的名字，默认为空。

In [56]:
s = pd.Series(data = [100, 'a', {'dic1':5}],
              index = pd.Index(['id1', 20, 'third'], name='my_idx'),
              dtype = 'object',
              name = 'my_name')
s

my_idx
id1              100
20                 a
third    {'dic1': 5}
Name: my_name, dtype: object

#### 【NOTE】`object`类型

`object`代表了一种混合类型，正如上面的例子中存储了整数、字符串以及`Python`的字典数据结构。此外，目前`pandas`把纯字符串序列也默认认为是一种`object`类型的序列，但它也可以用`string`类型存储

#### 【END】

对于这些属性，可以通过 . 的方式来获取：

In [57]:
s.values

array([100, 'a', {'dic1': 5}], dtype=object)

In [58]:
s.index

Index(['id1', 20, 'third'], dtype='object', name='my_idx')

In [59]:
s.dtype

dtype('O')

In [60]:
s.name

'my_name'

利用`.shape`可以获取序列的长度：

In [61]:
s.shape

(3,)

如果想要取出单个索引对应的值，可以通过`[index_item]`可以取出。

##### (2). DataFrame
`DataFrame`在`Series`的基础上增加了列索引，一个数据框可以由二维的`data`与行列索引来构造：

In [62]:
data = [[1, 'a', 1.2], [2, 'b', 2.2], [3, 'c', 3.2]]
df = pd.DataFrame(data = data,
                  index = ['row_%d'%i for i in range(3)],
                  columns=['col_0', 'col_1', 'col_2'])
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


但一般而言，更多的时候会采用从列索引名到数据的映射来构造数据框，同时再加上行索引：

In [63]:
df = pd.DataFrame(data = {'col_0': [1,2,3],
                          'col_1':list('abc'),
                          'col_2': [1.2, 2.2, 3.2]},
                  index = ["col_{0}".format(i) for i in range(3)])
df

Unnamed: 0,col_0,col_1,col_2
col_0,1,a,1.2
col_1,2,b,2.2
col_2,3,c,3.2


由于这种映射关系，在`DataFrame`中可以用`[col_name]`与`[col_list]`来取出相应的列与由多个列组成的表，结果分别为`Series`和`DataFrame`：

In [64]:
df['col_0']

col_0    1
col_1    2
col_2    3
Name: col_0, dtype: int64

In [65]:
df[['col_0','col_2' ]]

Unnamed: 0,col_0,col_2
col_0,1,1.2
col_1,2,2.2
col_2,3,3.2


与`Series`类似，在数据框中同样可以取出相应的属性：

In [66]:
df.values

array([[1, 'a', 1.2],
       [2, 'b', 2.2],
       [3, 'c', 3.2]], dtype=object)

In [67]:
df.index

Index(['col_0', 'col_1', 'col_2'], dtype='object')

In [68]:
df.columns

Index(['col_0', 'col_1', 'col_2'], dtype='object')

In [69]:
df.dtypes # 返回的是值为相应列数据类型的Series

col_0      int64
col_1     object
col_2    float64
dtype: object

In [70]:
df.shape

(3, 3)

通过`.T`可以把`DataFrame`进行转置：

In [71]:
df.T

Unnamed: 0,col_0,col_1,col_2
col_0,1,2,3
col_1,a,b,c
col_2,1.2,2.2,3.2


#### 3、常用基本函数
为了进行举例说明，在接下来的部分和其余章节都将会使用一份`learn_pandas.csv`的虚拟数据集，它记录了四所学校学生的体测个人信息。

In [72]:
df = pd.read_csv('../data/learn_pandas.csv')
df.columns

Index(['School', 'Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer',
       'Test_Number', 'Test_Date', 'Time_Record'],
      dtype='object')

上述列名依次代表学校、年级、姓名、性别、身高、体重、是否为转系生、体测场次、测试时间、1000米成绩，这里只需使用其中的前七列。

In [73]:
df = df[df.columns[:7]]

##### (1). 汇总函数
`head, tail`函数分别表示返回表或者序列的前`n`行和后`n`行，其中`n`默认为5：

In [74]:
df.head(2)

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
0,Shanghai Jiao Tong University,Freshman,Gaopeng Yang,Female,158.9,46.0,N
1,Peking University,Freshman,Changqiang You,Male,166.5,70.0,N


In [75]:
df.tail(3)

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
197,Shanghai Jiao Tong University,Senior,Chengqiang Chu,Female,153.9,45.0,N
198,Shanghai Jiao Tong University,Senior,Chengmei Shen,Male,175.3,71.0,N
199,Tsinghua University,Sophomore,Chunpeng Lv,Male,155.7,51.0,N


`info, describe`分别返回表的信息概况和表中数值列对应的主要统计量 ：

In [76]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   School    200 non-null    object 
 1   Grade     200 non-null    object 
 2   Name      200 non-null    object 
 3   Gender    200 non-null    object 
 4   Height    183 non-null    float64
 5   Weight    189 non-null    float64
 6   Transfer  188 non-null    object 
dtypes: float64(2), object(5)
memory usage: 11.1+ KB


In [77]:
df.describe()

Unnamed: 0,Height,Weight
count,183.0,189.0
mean,163.218033,55.015873
std,8.608879,12.824294
min,145.4,34.0
25%,157.15,46.0
50%,161.9,51.0
75%,167.5,65.0
max,193.9,89.0


#### 【NOTE】更全面的数据汇总

`info, describe`只能实现较少信息的展示，如果想要对一份数据集进行全面且有效的观察，特别是在列较多的情况下，推荐使用[pandas-profiling]包，如果有兴趣的话大家可以自行查阅学习。

#### 【END】

##### (2). 特征统计函数
在`Series`和`DataFrame`上定义了许多统计函数，最常见的是`sum, mean, median, var, std, max, min`。例如，选出身高和体重列进行演示：

In [78]:
df_demo = df[['Height', 'Weight']]
df_demo.mean()

Height    163.218033
Weight     55.015873
dtype: float64

In [79]:
df_demo.max()

Height    193.9
Weight     89.0
dtype: float64

此外，需要介绍的是`quantile, count, idxmax`这三个函数，它们分别返回的是分位数（概率论内容目前未学，分位数相关内容可先不管）、非缺失值个数、最大值对应的索引：

In [80]:
df_demo.quantile(0.75)

Height    167.5
Weight     65.0
Name: 0.75, dtype: float64

In [81]:
df_demo.count()

Height    183
Weight    189
dtype: int64

In [82]:
df_demo.idxmax() # idxmin是对应的函数

Height    193
Weight      2
dtype: int64

上面这些所有的函数，由于操作后返回的是标量，所以又称为聚合函数，它们有一个公共参数`axis`，默认为0代表逐列聚合，如果设置为1则表示逐行聚合：

In [83]:
df_demo.mean(axis=1).head() # 这里是求（身高+体重）/2，在这个数据集上体重和身高的均值并没有意义

0    102.45
1    118.25
2    138.95
3     41.00
4    124.00
dtype: float64

##### (3). 唯一值函数
对序列使用`unique`和`nunique`可以分别得到其唯一值组成的列表和唯一值的个数：

In [84]:
df['School'].unique()

array(['Shanghai Jiao Tong University', 'Peking University',
       'Fudan University', 'Tsinghua University'], dtype=object)

In [85]:
df['School'].nunique()

4

`value_counts`可以得到唯一值和其对应出现的频数，并且默认从高到低排序：

In [86]:
df['School'].value_counts()

Tsinghua University              69
Shanghai Jiao Tong University    57
Fudan University                 40
Peking University                34
Name: School, dtype: int64

如果想要观察多个列组合的唯一值，可以使用`drop_duplicates`。其中的关键参数是`keep`，默认值`first`表示每个组合保留第一次出现的所在行，`last`表示保留最后一次出现的所在行，`False`表示把所有重复组合所在的行剔除。

In [87]:
df_demo = df[['Gender','Transfer','Name']]
df_demo.drop_duplicates(['Gender', 'Transfer'])

Unnamed: 0,Gender,Transfer,Name
0,Female,N,Gaopeng Yang
1,Male,N,Changqiang You
12,Female,,Peng You
21,Male,,Xiaopeng Shen
36,Male,Y,Xiaojuan Qin
43,Female,Y,Gaoli Feng


In [88]:
df_demo.drop_duplicates(['Gender', 'Transfer'], keep='last')

Unnamed: 0,Gender,Transfer,Name
147,Male,,Juan You
150,Male,Y,Chengpeng You
169,Female,Y,Chengquan Qin
194,Female,,Yanmei Qian
197,Female,N,Chengqiang Chu
199,Male,N,Chunpeng Lv


In [89]:
df.drop_duplicates(['Name', 'Gender'], keep=False).head() # 保留只出现过一次的性别和姓名组合


Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
0,Shanghai Jiao Tong University,Freshman,Gaopeng Yang,Female,158.9,46.0,N
1,Peking University,Freshman,Changqiang You,Male,166.5,70.0,N
2,Shanghai Jiao Tong University,Senior,Mei Sun,Male,188.9,89.0,N
4,Fudan University,Sophomore,Gaojuan You,Male,174.0,74.0,N
5,Tsinghua University,Freshman,Xiaoli Qian,Female,158.0,51.0,N


In [90]:
df['School'].drop_duplicates() # 在Series上也可以使用

0    Shanghai Jiao Tong University
1                Peking University
3                 Fudan University
5              Tsinghua University
Name: School, dtype: object

此外，`duplicated`和`drop_duplicates`的功能类似，但前者返回了是否为唯一值的布尔列表，其`keep`参数与后者一致。其返回的序列，把重复元素设为`True`，否则为`False`。 `drop_duplicates`等价于把`duplicated`为`True`的对应行剔除。

In [91]:
df_demo.duplicated(['Gender', 'Transfer']).head()

0    False
1    False
2     True
3     True
4     True
dtype: bool

In [92]:
df['School'].duplicated().head() # 在Series上也可以使用

0    False
1    False
2     True
3    False
4     True
Name: School, dtype: bool

##### (4). 替换函数
一般而言，替换操作是针对某一个列进行的，因此下面的例子都以`Series`举例。`pandas`中的替换函数可以归纳为三类：映射替换、逻辑替换、数值替换。此处介绍映射替换的`replace`的用法。

在`replace`中，可以通过字典构造，或者传入两个列表来进行替换：

In [93]:
df['Gender'].replace({'Female':0, 'Male':1}).head()

0    0
1    1
2    1
3    0
4    1
Name: Gender, dtype: int64

In [94]:
df['Gender'].replace(['Female', 'Male'], [0, 1]).head()

0    0
1    1
2    1
3    0
4    1
Name: Gender, dtype: int64

另外，`replace`还有一种特殊的方向替换，指定`method`参数为`ffill`则为用前面一个最近的未被替换的值进行替换，`bfill`则使用后面最近的未被替换的值进行替换。从下面的例子可以看到，它们的结果是不同的：

In [95]:
s = pd.Series(['a', 1, 'b', 2, 1, 1, 'a'])
s.replace([1, 2], method='ffill')

0    a
1    a
2    b
3    b
4    b
5    b
6    a
dtype: object

In [96]:
s.replace([1, 2], method='bfill')

0    a
1    b
2    b
3    a
4    a
5    a
6    a
dtype: object


#### 【END】

逻辑替换包括了`where`和`mask`，这两个函数是完全对称的：`where`函数在传入条件为`False`的对应行进行替换，而`mask`在传入条件为`True`的对应行进行替换，当不指定替换值时，替换为缺失值。

In [97]:
s = pd.Series([-1, 1.2345, 100, -50])
s.where(s<0)

0    -1.0
1     NaN
2     NaN
3   -50.0
dtype: float64

In [98]:
s.where(s<0, 100)

0     -1.0
1    100.0
2    100.0
3    -50.0
dtype: float64

In [99]:
s.mask(s<0)

0         NaN
1      1.2345
2    100.0000
3         NaN
dtype: float64

In [100]:
s.mask(s<0, -50)
s

0     -1.0000
1      1.2345
2    100.0000
3    -50.0000
dtype: float64

需要注意的是，传入的条件只需是与被调用的`Series`索引一致的布尔序列即可：

In [101]:
s_condition= pd.Series([True,False,False,True],index=s.index)
s.mask(s_condition, -50)

0    -50.0000
1      1.2345
2    100.0000
3    -50.0000
dtype: float64

数值替换包含了`round, abs, clip`方法，它们分别表示按照给定精度四舍五入、取绝对值和截断：

In [102]:
s = pd.Series([-1, 1.2345, 100, -50])
s.round(2) # 保留两位小数

0     -1.00
1      1.23
2    100.00
3    -50.00
dtype: float64

In [103]:
s.abs() # 取绝对值

0      1.0000
1      1.2345
2    100.0000
3     50.0000
dtype: float64

In [104]:
s.clip(0, 2) # 前两个数分别表示上下截断边界

0    0.0000
1    1.2345
2    2.0000
3    0.0000
dtype: float64

在 clip 中，超过边界的只能截断为边界值

#### 【END】

##### (5). 排序函数
排序共有两种方式，其一为值排序，其二为索引排序，对应的函数是`sort_values`和`sort_index`。

为了演示排序函数，下面先利用`set_index`方法把年级和姓名两列作为索引

In [105]:
df_demo = df[['Grade', 'Name', 'Height', 'Weight']].set_index(['Grade','Name'])
df_demo.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Freshman,Gaopeng Yang,158.9,46.0
Freshman,Changqiang You,166.5,70.0
Senior,Mei Sun,188.9,89.0
Sophomore,Xiaojuan Sun,,41.0
Sophomore,Gaojuan You,174.0,74.0
Freshman,Xiaoli Qian,158.0,51.0
Freshman,Qiang Chu,162.5,52.0
Junior,Gaoqiang Qian,161.9,50.0
Freshman,Changli Zhang,163.0,48.0
Junior,Juan Xu,164.8,


对身高进行排序，默认参数`ascending=True`为升序：

In [106]:
df_demo.sort_values('Height').head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Junior,Xiaoli Chu,145.4,34.0
Senior,Gaomei Lv,147.3,34.0
Sophomore,Peng Han,147.8,34.0
Senior,Changli Lv,148.7,41.0
Sophomore,Changjuan You,150.5,40.0


In [107]:
df_demo.sort_values('Height', ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Senior,Xiaoqiang Qin,193.9,79.0
Senior,Mei Sun,188.9,89.0
Senior,Gaoli Zhao,186.5,83.0
Freshman,Qiang Han,185.3,87.0
Senior,Qiang Zheng,183.9,87.0


在排序中，经常遇到多列排序的问题，比如在体重相同的情况下，对身高进行排序，并且保持身高降序排列，体重升序排列：

In [108]:
df_demo.sort_values(['Weight','Height'],ascending=[True,False]).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Sophomore,Peng Han,147.8,34.0
Senior,Gaomei Lv,147.3,34.0
Junior,Xiaoli Chu,145.4,34.0
Sophomore,Qiang Zhou,150.5,36.0
Freshman,Yanqiang Xu,152.4,38.0


索引排序的用法和值排序完全一致，只不过元素的值在索引中，此时需要指定索引层的名字或者层号，用参数`level`表示。另外，需要注意的是字符串的排列顺序由字母顺序决定。

In [109]:
df_demo.sort_index(level=['Grade','Name'],ascending=[True,False]).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Freshman,Yanquan Wang,163.5,55.0
Freshman,Yanqiang Xu,152.4,38.0
Freshman,Yanqiang Feng,162.3,51.0
Freshman,Yanpeng Lv,,65.0
Freshman,Yanli Zhang,165.1,52.0


##### (6). apply方法（较难，选读）
`apply`方法常用于`DataFrame`的行迭代或者列迭代，它的`axis`含义与第2小节中的统计聚合函数一致，`apply`的参数往往是一个以序列为输入的函数。例如对于`.mean()`，使用`apply`可以如下地写出：

In [110]:
df_demo = df[['Height', 'Weight']]
def my_mean(x):
     res = x.mean()
     return res
df_demo.apply(my_mean)

Height    163.218033
Weight     55.015873
dtype: float64

同样的，可以利用`lambda`表达式使得书写简洁，这里的`x`就指代被调用的`df_demo`表中逐个输入的序列：

In [111]:
df_demo.apply(lambda x:x.mean())

Height    163.218033
Weight     55.015873
dtype: float64

若指定`axis=1`，那么每次传入函数的就是行元素组成的`Series`，其结果与之前的逐行均值结果一致。

In [112]:
df_demo.apply(lambda x:x.mean(), axis=1).head()

0    102.45
1    118.25
2    138.95
3     41.00
4    124.00
dtype: float64

#### 【WARNING】谨慎使用`apply`

得益于传入自定义函数的处理，`apply`的自由度很高，但这是以性能为代价的。一般而言，使用`pandas`的内置函数处理和`apply`来处理同一个任务，其速度会相差较多，因此只有在确实存在自定义需求的情境下才考虑使用`apply`。

#### 【END】

## **三、实验平台**

1. 操作系统：Windows10；
2. Anaconda 版本：5.3.0； 
3. Python 版本：3.6.8；
4. pandas 版本：版本号不低于1.2.0


## **四、实验内容**

### 口袋妖怪数据集
现有一份口袋妖怪的数据集，下面进行一些背景说明：

* `#`代表全国图鉴编号，不同行存在相同数字则表示为该妖怪的不同状态

* 妖怪具有单属性和双属性两种，对于单属性的妖怪，`Type 2`为缺失值
* `Total, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed`分别代表种族值、体力、物攻、防御、特攻、特防、速度，其中种族值为后6项之和
* 文件操作代码示例：

In [123]:
df = pd.read_csv('../data/pokemon.csv')
df.head(3)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False


**题目内容：**
1. 对`HP, Attack, Defense, Sp. Atk, Sp. Def, Speed`进行加总，验证是否有不为`Total`值的数据行存在。

2. 对于`#`重复的妖怪只保留第一条记录，解决以下问题：

>* 求第一属性的种类数量和前三多数量对应的种类
>* 求第一属性和第二属性的组合种类
>* 求尚未出现过的属性组合      
*PS:可用setA.difference(setB)求取两集合不相交的部分.且如果列有nan值，则默认转换为float类型，可用isinstance(x, float)来识别nan的存在

3. 按照下述要求，分别构造三个`pandas`数据结构：

>* a.取出物攻，超过120的替换为`high`，不足50的替换为`low`，否则设为`mid`
>* b.取出第一属性，用`replace`替换所有字母为大写
>* c.求每个妖怪六项能力的离差，即所有能力中偏离中位数(median（）)最大的值，添加到`df`并从大到小排序
*PS:str.upper(x)可将字符串转换为大写



In [124]:
# 题目一:
# 计算六项能力的加总
df["Sum"] = df["HP"] + df["Attack"] + df["Defense"] + df["Sp. Atk"] + df["Sp. Def"] + df["Speed"]

# 比较加总值和Total值是否相等，返回布尔值
df["Equal"] = df["Sum"] == df["Total"]

# 查看是否有不相等的数据行，如果有则打印出来
if not df["Equal"].all():
    print(df[df["Equal"] == False])
else:
    print("所有数据总和都相等")

所有数据总和都相等


In [125]:
# 去除重复记录，保留第一条
df_2 = df.drop_duplicates(["#"], keep="first")

# 求第一属性的种类数量和前三多数量对应的种类
type1_count = df_2["Type 1"].value_counts()
print("第一属性的种类数量为:"+str(type1_count.count()))
print("前三多数量对应的种类:")
for i in range(3):
    print("属性：{:<12}    数量：{}".format(type1_count.index[i],type1_count.iloc[i]))


第一属性的种类数量为:18
前三多数量对应的种类:
属性：Water           数量：105
属性：Normal          数量：93
属性：Grass           数量：66


In [116]:
# 求第一属性和第二属性的组合种类
df_2_sub=df_2[['Type 1','Type 2']]
type_combination = set(df_2_sub[~df_2_sub["Type 2"].isnull()][["Type 1", "Type 2"]].apply(tuple, axis=1))
for i,j in enumerate(type_combination):
    print("第{0}种组合为: {1}".format(i+1,j))

第1种组合为: ('Water', 'Dragon')
第2种组合为: ('Ground', 'Ghost')
第3种组合为: ('Rock', 'Grass')
第4种组合为: ('Dark', 'Flying')
第5种组合为: ('Electric', 'Ghost')
第6种组合为: ('Grass', 'Dark')
第7种组合为: ('Water', 'Electric')
第8种组合为: ('Poison', 'Fighting')
第9种组合为: ('Dragon', 'Psychic')
第10种组合为: ('Bug', 'Rock')
第11种组合为: ('Rock', 'Flying')
第12种组合为: ('Bug', 'Steel')
第13种组合为: ('Bug', 'Poison')
第14种组合为: ('Fire', 'Rock')
第15种组合为: ('Fire', 'Steel')
第16种组合为: ('Rock', 'Fairy')
第17种组合为: ('Ground', 'Dragon')
第18种组合为: ('Water', 'Fighting')
第19种组合为: ('Poison', 'Dragon')
第20种组合为: ('Grass', 'Fighting')
第21种组合为: ('Ground', 'Electric')
第22种组合为: ('Bug', 'Ground')
第23种组合为: ('Rock', 'Dark')
第24种组合为: ('Flying', 'Dragon')
第25种组合为: ('Dragon', 'Flying')
第26种组合为: ('Ice', 'Water')
第27种组合为: ('Ghost', 'Poison')
第28种组合为: ('Dark', 'Steel')
第29种组合为: ('Fire', 'Ground')
第30种组合为: ('Ice', 'Psychic')
第31种组合为: ('Dark', 'Ghost')
第32种组合为: ('Dragon', 'Ice')
第33种组合为: ('Rock', 'Steel')
第34种组合为: ('Steel', 'Psychic')
第35种组合为: ('Ground', 'Psychic')
第36种组合为: ('

In [126]:
# 获取对应的属性值
df_2_sub=df_2[['Type 1','Type 2']]
# 进行清洗和属性的组合操作
type_combination=df_2_sub.dropna().drop_duplicates(['Type 1','Type 2'])
type_combination=type_combination.apply(tuple,axis=1)
for i,j in enumerate(type_combination):
    print("第{0}种组合为: {1}".format(i+1,j))

第1种组合为: ('Grass', 'Poison')
第2种组合为: ('Fire', 'Flying')
第3种组合为: ('Bug', 'Flying')
第4种组合为: ('Bug', 'Poison')
第5种组合为: ('Normal', 'Flying')
第6种组合为: ('Poison', 'Ground')
第7种组合为: ('Normal', 'Fairy')
第8种组合为: ('Poison', 'Flying')
第9种组合为: ('Bug', 'Grass')
第10种组合为: ('Water', 'Fighting')
第11种组合为: ('Water', 'Poison')
第12种组合为: ('Rock', 'Ground')
第13种组合为: ('Water', 'Psychic')
第14种组合为: ('Electric', 'Steel')
第15种组合为: ('Water', 'Ice')
第16种组合为: ('Ghost', 'Poison')
第17种组合为: ('Grass', 'Psychic')
第18种组合为: ('Ground', 'Rock')
第19种组合为: ('Psychic', 'Fairy')
第20种组合为: ('Ice', 'Psychic')
第21种组合为: ('Water', 'Flying')
第22种组合为: ('Rock', 'Water')
第23种组合为: ('Rock', 'Flying')
第24种组合为: ('Ice', 'Flying')
第25种组合为: ('Electric', 'Flying')
第26种组合为: ('Dragon', 'Flying')
第27种组合为: ('Water', 'Electric')
第28种组合为: ('Fairy', 'Flying')
第29种组合为: ('Psychic', 'Flying')
第30种组合为: ('Water', 'Fairy')
第31种组合为: ('Grass', 'Flying')
第32种组合为: ('Water', 'Ground')
第33种组合为: ('Dark', 'Flying')
第34种组合为: ('Normal', 'Psychic')
第35种组合为: ('Bug', 'Steel'

In [127]:
# 求尚未出现过的属性组合
# 将Type 1和Type 2中所有出现过的属性放到一个set中
type_set = set(df_2["Type 1"]) | set(df_2["Type 2"].dropna())
type_all_combination = set()
# 将互异的属性值进行两两组合
for t1 in type_set:
    for t2 in type_set:
        # 第一属性和第二属性不同
        if t1 != t2:
            type_all_combination.add(tuple([t1,t2]))
#   取出互异的元素
type_not_appear = type_all_combination.difference(type_combination)
for i,j in enumerate(type_not_appear):
    print("第{0}种组合为: {1}".format(i+1,j))


第1种组合为: ('Dark', 'Poison')
第2种组合为: ('Flying', 'Bug')
第3种组合为: ('Poison', 'Ghost')
第4种组合为: ('Rock', 'Poison')
第5种组合为: ('Ghost', 'Fairy')
第6种组合为: ('Water', 'Bug')
第7种组合为: ('Normal', 'Ghost')
第8种组合为: ('Dark', 'Fairy')
第9种组合为: ('Grass', 'Bug')
第10种组合为: ('Flying', 'Fighting')
第11种组合为: ('Electric', 'Ground')
第12种组合为: ('Fairy', 'Dark')
第13种组合为: ('Fire', 'Poison')
第14种组合为: ('Fighting', 'Normal')
第15种组合为: ('Dragon', 'Grass')
第16种组合为: ('Fighting', 'Dragon')
第17种组合为: ('Fighting', 'Fire')
第18种组合为: ('Fighting', 'Electric')
第19种组合为: ('Flying', 'Normal')
第20种组合为: ('Ghost', 'Steel')
第21种组合为: ('Electric', 'Bug')
第22种组合为: ('Flying', 'Fire')
第23种组合为: ('Bug', 'Dark')
第24种组合为: ('Flying', 'Electric')
第25种组合为: ('Dragon', 'Water')
第26种组合为: ('Grass', 'Normal')
第27种组合为: ('Fairy', 'Fighting')
第28种组合为: ('Grass', 'Dragon')
第29种组合为: ('Fire', 'Dark')
第30种组合为: ('Electric', 'Fighting')
第31种组合为: ('Fighting', 'Water')
第32种组合为: ('Grass', 'Fire')
第33种组合为: ('Grass', 'Electric')
第34种组合为: ('Fire', 'Bug')
第35种组合为: ('Ice', 'Gra

In [119]:
# 取出物攻，超过120的替换为high，不足50的替换为low，否则设为mid
def helper_func(x):
    if x>120:
        return "high"
    elif x<50:
        return "low"
    else:
        return "mid"

df_3=df['Attack'].apply(helper_func)
df_copy=df
df_copy['Attack']=df_3
df_3

0       low
1       mid
2       mid
3       mid
4       mid
       ... 
795     mid
796    high
797     mid
798    high
799     mid
Name: Attack, Length: 800, dtype: object

In [120]:
# 取出第一属性，用replace替换所有字母为大写
type_1_upper = df["Type 1"].str.upper()
dictionary=dict(zip(df["Type 1"],type_1_upper))
type1=df["Type 1"]
type1=type1.replace(dictionary)
type1
# df_copy['Type 1'].replace(type_1_upper)
# df_copy

0        GRASS
1        GRASS
2        GRASS
3        GRASS
4         FIRE
        ...   
795       ROCK
796       ROCK
797    PSYCHIC
798    PSYCHIC
799       FIRE
Name: Type 1, Length: 800, dtype: object

In [121]:
# 求每个妖怪六项能力的离差，即所有能力中偏离中位数(median（）)最大的值，添加到df并从大到小排序
# 按照索引获得中位数
stats = ["HP", "Attack", "Defense", "Sp. Atk", "Sp. Def", "Speed"]
median = df[stats].median()
# 按照行获得中位数的偏移量
deviation = df[stats].apply(lambda x: abs(x - median), axis=1)
# 按照行获得中位数偏移量的最大值
max_deviation = deviation.max(axis=1)
df["Max Deviation"] = max_deviation
df = df.sort_values(by="Max Deviation", ascending=False)
df

  median = df[stats].median()


Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Sum,Equal,Max Deviation
261,242,Blissey,Normal,,540,255,low,10,75,135,55,2,False,540,True,190.0
121,113,Chansey,Normal,,450,250,low,5,35,105,50,1,False,450,True,185.0
230,213,Shuckle,Bug,Rock,505,20,low,230,10,230,5,2,False,505,True,160.0
333,306,AggronMega Aggron,Steel,,630,70,high,230,60,80,50,3,False,630,True,160.0
224,208,SteelixMega Steelix,Steel,Ground,610,75,high,230,55,95,30,2,False,610,True,160.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10,8,Wartortle,Water,,405,59,mid,80,65,80,58,1,False,405,True,10.0
173,159,Croconaw,Water,,405,65,mid,80,59,63,58,2,False,405,True,10.0
695,634,Zweilous,Dark,Dragon,420,72,mid,70,65,70,58,5,False,420,True,7.0
160,148,Dragonair,Dragon,,420,61,mid,65,70,70,70,1,False,420,True,5.0
