# pandas 基础

In [1]:
import numpy as np
import pandas as pd

In [2]:
# 查看当前pandas版本号
pd.__version__

'1.1.5'

## 文件的读取和写入

### 文件读取

pandas读取文件的常用命令总结如下：

|文件类型|读取命令|
|:---|:---|
|.csv|pd.read_csv('my_csv.csv')|
|.xlsx|pd.read_excel('my_excel.xlsx')|
|.txt|pd.read_table('my_table.txt')|

上述读取命令有以下常用的公共参数可选择：

|参数名|含义|
|:---|:----|
|header|header = None表示第一行不作为列名|
|index_col|把某一列或几列作为索引|
|usecols|读取所选列（默认为所有列）|
|parse_dates|将所选列转化为时间格式|
|nrows|读取的数据行数|

`.txt`文件可能会出现不以空格为分隔符的情况，此时需要对`read_table`命令指定参数`sep`以实现自定义分隔符号，同时还需**指定引擎**为<font color = red>python</font>。

例如，若文本文件`my_table_special.txt`以`|||`为分隔符，则读取它的命令应该为：`pd.read_table('my_table_special.txt', sep = '\|\|\|', engine = 'python')`。这里需要注意的是`sep`参数中使用的是**正则表达式**，因此需要对`|`进行转义。

### 数据写入

假设我们想将当前正在处理数据框`df`导出为指定格式的文件：

|写入格式|命令|
|:----|:-----|
|.csv|df.to_csv('my_csv_saved.csv', index=False)|
|.txt|df.to_csv('my_txt_saved.txt', sep='\t', index=False)|
|.xlsx|df.to_excel('my_excel_saved.xlsx', index=False)|

这里需要注意的是，导出`.txt`格式数据使用的命令为`to_csv`，并且可以自定义分隔符（常用`\t`）。

此外，将<font color=red>index</font>设置为<font color=red>False</font>是很常见的操作，它可以在保存时去除缩印。

## 基本数据结构

pandas中有两种基本的数据存储结构：<font color=red>Series</font>和<font color=red>DataFrame</font>，他们分别用来储存一维和二维的values。

### Series

In [3]:
# 定义一个Series
s = pd.Series(
              data = [100, 'a', {'dic1': 5}], # 定义Series的值
              index = pd.Index(['id1', 20, 'third'], name='my_idx'), # 定义索引并指定名字
              dtype = 'object', # 定义存储类型
              name = 'my_name' # 定义Series的名字
              )
s

my_idx
id1              100
20                 a
third    {'dic1': 5}
Name: my_name, dtype: object


在上述过程中，存储类型被定义为`'object'`，这是一种**混合类型**，可以看到`s`中的元素同时包含数字、字符串以及字典数据。

In [4]:
# 查看Series的值
s.values

array([100, 'a', {'dic1': 5}], dtype=object)

In [5]:
# 查看Series的索引
s.index

Index(['id1', 20, 'third'], dtype='object', name='my_idx')

In [6]:
# 查看Series的类型
s.dtype

dtype('O')

In [7]:
# 获取Series的长度
s.shape

(3,)

In [8]:
# 可以通过索引调取Series中的对应元素
s['id1']

100

### DataFrame

DataFrame可以由两种方式进行构造。

第一种方法是将二维的data附上行和列索引进行构造：

In [9]:
data = [[1, 'a', 1.2], [2, 'b', 2.2], [3, 'c', 3.2]]
# 定义DataFrame
df = pd.DataFrame(data = data,
                  index = ['row_%d'%i for i in range(3)],# 行索引
                  columns = ['col_%d'%i for i in range(3)] # 列索引
                  )
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


值得注意的是，上述例子在定义行列索引时利用了**列表推导式**，这是实现字符类型循环的好例子。

第二种方法（也是更常用的方法）是构造*从列索引名到数据的* **映射**，并加上行索引：

In [10]:
df = pd.DataFrame(data = {'col_0': [1,2,3], 'col_1':list('abc'),
                          'col_2': [1.2, 2.2, 3.2]},
                  index = ['row_%d'%i for i in range(3)])
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


可以利用列索引从DataFrame中提取对应的一列或多列：

In [11]:
# 提取单列，返回Series
df['col_0']

row_0    1
row_1    2
row_2    3
Name: col_0, dtype: int64

In [12]:
# 提取多列，返回DataFrame
df[['col_1','col_2']]

Unnamed: 0,col_1,col_2
row_0,a,1.2
row_1,b,2.2
row_2,c,3.2


需要注意的是，提取多列时要把列索引用`[]`括起来，不然会报错。

In [13]:
# 查看DataFrame的值
df.values

array([[1, 'a', 1.2],
       [2, 'b', 2.2],
       [3, 'c', 3.2]], dtype=object)

In [14]:
# 查看DataFrame的列索引
df.columns

Index(['col_0', 'col_1', 'col_2'], dtype='object')

In [15]:
# 查看DataFrame的行索引
df.index

Index(['row_0', 'row_1', 'row_2'], dtype='object')

In [16]:
# 查看DataFrame各列的数据类型，返回一个Series
df.dtypes

col_0      int64
col_1     object
col_2    float64
dtype: object

In [17]:
# 查看DataFrame的形状
df.shape

(3, 3)

## 常用基本函数

In [18]:
df = pd.read_csv('data/learn_pandas.csv')

In [19]:
df

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer,Test_Number,Test_Date,Time_Record
0,Shanghai Jiao Tong University,Freshman,Gaopeng Yang,Female,158.9,46.0,N,1,2019/10/5,0:04:34
1,Peking University,Freshman,Changqiang You,Male,166.5,70.0,N,1,2019/9/4,0:04:20
2,Shanghai Jiao Tong University,Senior,Mei Sun,Male,188.9,89.0,N,2,2019/9/12,0:05:22
3,Fudan University,Sophomore,Xiaojuan Sun,Female,,41.0,N,2,2020/1/3,0:04:08
4,Fudan University,Sophomore,Gaojuan You,Male,174.0,74.0,N,2,2019/11/6,0:05:22
...,...,...,...,...,...,...,...,...,...,...
195,Fudan University,Junior,Xiaojuan Sun,Female,153.9,46.0,N,2,2019/10/17,0:04:31
196,Tsinghua University,Senior,Li Zhao,Female,160.9,50.0,N,3,2019/9/22,0:04:03
197,Shanghai Jiao Tong University,Senior,Chengqiang Chu,Female,153.9,45.0,N,1,2020/1/5,0:04:48
198,Shanghai Jiao Tong University,Senior,Chengmei Shen,Male,175.3,71.0,N,2,2020/1/7,0:04:58


为了显示**完整**的数据集，可进行如下设置：

In [20]:
# 将最大值设为 None ，相当于不设上限
pd.set_option('max_columns',None)
pd.set_option('max_row',None)

In [21]:
df

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer,Test_Number,Test_Date,Time_Record
0,Shanghai Jiao Tong University,Freshman,Gaopeng Yang,Female,158.9,46.0,N,1,2019/10/5,0:04:34
1,Peking University,Freshman,Changqiang You,Male,166.5,70.0,N,1,2019/9/4,0:04:20
2,Shanghai Jiao Tong University,Senior,Mei Sun,Male,188.9,89.0,N,2,2019/9/12,0:05:22
3,Fudan University,Sophomore,Xiaojuan Sun,Female,,41.0,N,2,2020/1/3,0:04:08
4,Fudan University,Sophomore,Gaojuan You,Male,174.0,74.0,N,2,2019/11/6,0:05:22
5,Tsinghua University,Freshman,Xiaoli Qian,Female,158.0,51.0,N,1,2019/10/31,0:03:47
6,Shanghai Jiao Tong University,Freshman,Qiang Chu,Female,162.5,52.0,N,1,2019/12/12,0:03:53
7,Tsinghua University,Junior,Gaoqiang Qian,Female,161.9,50.0,N,1,2019/9/3,0:03:45
8,Tsinghua University,Freshman,Changli Zhang,Female,163.0,48.0,N,1,2020/1/5,0:05:13
9,Peking University,Junior,Juan Xu,Female,164.8,,N,3,2019/10/5,0:04:05


In [22]:
# 查看数据集列标签
df.columns

Index(['School', 'Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer',
       'Test_Number', 'Test_Date', 'Time_Record'],
      dtype='object')

In [23]:
# 仅保留前七列
df = df[df.columns[:7]]

### 汇总函数

第一类基本函数为**汇总函数**，它们能返回数据框的基本信息：

|命令|作用|
|:---|:---|
|df.head(n)|返回df的前n行，n默认为5|
|df.tail(n)|返回df的后n行，n默认为5|
|df.info()|返回df的基本信息|
|df.describe()|返回df的**数值**变量的主要统计量|

In [24]:
# 读取前3行
df.head(3)

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
0,Shanghai Jiao Tong University,Freshman,Gaopeng Yang,Female,158.9,46.0,N
1,Peking University,Freshman,Changqiang You,Male,166.5,70.0,N
2,Shanghai Jiao Tong University,Senior,Mei Sun,Male,188.9,89.0,N


In [25]:
# 读取最后3行
df.tail(3)

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
197,Shanghai Jiao Tong University,Senior,Chengqiang Chu,Female,153.9,45.0,N
198,Shanghai Jiao Tong University,Senior,Chengmei Shen,Male,175.3,71.0,N
199,Tsinghua University,Sophomore,Chunpeng Lv,Male,155.7,51.0,N


In [26]:
# 查看df的基本信息结构
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   School    200 non-null    object 
 1   Grade     200 non-null    object 
 2   Name      200 non-null    object 
 3   Gender    200 non-null    object 
 4   Height    183 non-null    float64
 5   Weight    189 non-null    float64
 6   Transfer  188 non-null    object 
dtypes: float64(2), object(5)
memory usage: 11.1+ KB


In [27]:
# 查看df中数值列的基本统计信息
df.describe()

Unnamed: 0,Height,Weight
count,183.0,189.0
mean,163.218033,55.015873
std,8.608879,12.824294
min,145.4,34.0
25%,157.15,46.0
50%,161.9,51.0
75%,167.5,65.0
max,193.9,89.0


### 特征统计函数

第二类基本函数是**特征统计函数**，由于操作后返回的是标量，所以又称**聚合函数**。这类函数有一个公共参数<font color=red>axis</font>，默认值为0，代表<font color=red>逐列</font>聚合；若`axis=1`，则代表逐行聚合。

In [28]:
# 以身高和体重列为例
df_demo = df[['Height','Weight']]

In [29]:
df_demo.mean()

Height    163.218033
Weight     55.015873
dtype: float64

In [30]:
df_demo.max()

Height    193.9
Weight     89.0
dtype: float64

In [31]:
# 查看分位数
df_demo.quantile(0.75)

Height    167.5
Weight     65.0
Name: 0.75, dtype: float64

In [32]:
# 查看非缺失值个数
df_demo.count()

Height    183
Weight    189
dtype: int64

In [33]:
# 查看最大值对应的索引
df_demo.idxmax()

Height    193
Weight      2
dtype: int64

### 唯一值函数

第三类基本函数是**唯一值函数**。这个函数在实践中作用很大。

`unique`函数可以返回唯一值组成的**列表**。

In [34]:
# 返回数据集的学校列表
df['School'].unique()

array(['Shanghai Jiao Tong University', 'Peking University',
       'Fudan University', 'Tsinghua University'], dtype=object)

`nunique`函数可以返回唯一值的**个数**。

In [35]:
# 统计数据集中学校的个数
df['School'].nunique()

4

`value_counts`函数可以返回**唯一值**及其对应出现的**频数**。

In [36]:
# 查看数据集中的学校和出现次数
df['School'].value_counts()

Tsinghua University              69
Shanghai Jiao Tong University    57
Fudan University                 40
Peking University                34
Name: School, dtype: int64

`drop_duplicates`函数可以返回多个列组合的唯一值，关键参数为`keep`，其作用总结为下表：

|keep参数值|效果|
|:-----|:---|
|'first'|默认参数，每个列组合保留**第一次**出现所在的行|
|'last'|每个列组合保留**最后一次**出现所在的行|
|False|把**所有**重复组合所在的行**剔除**|

In [37]:
# 选取示例DataFrame
df_demo = df[['Gender','Transfer','Name']]

In [38]:
# 返回性别与转专业情况的唯一组合，保留第一次出现的行
df_demo.drop_duplicates(['Gender','Transfer'])

Unnamed: 0,Gender,Transfer,Name
0,Female,N,Gaopeng Yang
1,Male,N,Changqiang You
12,Female,,Peng You
21,Male,,Xiaopeng Shen
36,Male,Y,Xiaojuan Qin
43,Female,Y,Gaoli Feng


In [39]:
# 返回性别与转专业情况的唯一组合，保留最后一次出现的行
df_demo.drop_duplicates(['Gender','Transfer'],keep = 'last')

Unnamed: 0,Gender,Transfer,Name
147,Male,,Juan You
150,Male,Y,Chengpeng You
169,Female,Y,Chengquan Qin
194,Female,,Yanmei Qian
197,Female,N,Chengqiang Chu
199,Male,N,Chunpeng Lv


In [40]:
# 仅保留出现过一次的性别和姓名组合，出现过多次的一律删除，查看筛选后的头五个结果
df_demo.drop_duplicates(['Name','Gender'],keep=False).head()

Unnamed: 0,Gender,Transfer,Name
0,Female,N,Gaopeng Yang
1,Male,N,Changqiang You
2,Male,N,Mei Sun
4,Male,N,Gaojuan You
5,Female,N,Xiaoli Qian


In [41]:
# 查看数据集中的学校
df['School'].drop_duplicates()

0    Shanghai Jiao Tong University
1                Peking University
3                 Fudan University
5              Tsinghua University
Name: School, dtype: object

`duplicated`函数与`drop_duplicates`函数功能类似，但前者返回的是是否为唯一值的**布尔列表**。

In [42]:
df['School'].duplicated().head()

0    False
1    False
2     True
3    False
4     True
Name: School, dtype: bool

### 替换函数

第四类基本函数是**替换函数**，可细分为三类：映射替换、逻辑替换和数值替换。

**映射替换**的基本方法为`replace`，它可以通过字典构造或传入两个列表以实现替换。在以下示例中，我们想要把性别变量用0-1变量来表示：

In [43]:
# 将性别用0-1变量表示，方法一：字典构造
df['Gender'].replace({'Female':0,'Male':1}).head()

0    0
1    1
2    1
3    0
4    1
Name: Gender, dtype: int64

In [44]:
# 将性别用0-1变量表示，方法二：传入列表
df['Gender'].replace(['Female','Male'],[0,1]).head()

0    0
1    1
2    1
3    0
4    1
Name: Gender, dtype: int64

**逻辑替换**包括`where`和`mask`两个幻术，其中`where`函数在传入条件为`False`的对应行进行替换，而`mask`函数在传入条件为`True`的对应行进行替换。需要注意的是，如果不指定替换值，则默认替换为*缺失值*。

In [45]:
# 生成示例Series
s = pd.Series([-1,1.8345,100,-50])

# 将负数替换为缺失值，使用where
s.where(s>0)

0         NaN
1      1.8345
2    100.0000
3         NaN
dtype: float64

In [46]:
# 将负数替换为缺失值，使用mask
s.mask(s<0)

0         NaN
1      1.8345
2    100.0000
3         NaN
dtype: float64

In [47]:
# 将负数替换为0，使用where
s.where(s>0,0)

0      0.0000
1      1.8345
2    100.0000
3      0.0000
dtype: float64

In [48]:
# 将负数替换为0，使用mask
s.mask(s<0,0)

0      0.0000
1      1.8345
2    100.0000
3      0.0000
dtype: float64

**数值替换**包含`round`（保留小数位）、`abs`（取绝对值）和`clip`（截断）等方法。

In [49]:
# 保留小数点后两位
s.round(2)

0     -1.00
1      1.83
2    100.00
3    -50.00
dtype: float64

In [50]:
# 上下截断边界分别为1和0
s.clip(0,1)

0    0.0
1    1.0
2    1.0
3    0.0
dtype: float64

#### 练一练

如果要把超过边界的值替换为自定义值，我认为可以使用逻辑替换函数来实现。

### 排序函数

第五类基本函数为**排序函数**，包括`sort_values`（值排序）和`sort_index`（索引排序）。

In [51]:
# 选取示例列组合，并将年级和姓名两列设置为索引
df_demo = df[['Grade','Name','Height','Weight']].set_index(['Grade','Name'])

In [52]:
# 对身高排序，默认为升序，查看头五个
df_demo.sort_values('Height').head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Junior,Xiaoli Chu,145.4,34.0
Senior,Gaomei Lv,147.3,34.0
Sophomore,Peng Han,147.8,34.0
Senior,Changli Lv,148.7,41.0
Sophomore,Changjuan You,150.5,40.0


In [53]:
# 身高降序
df_demo.sort_values('Height',ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Senior,Xiaoqiang Qin,193.9,79.0
Senior,Mei Sun,188.9,89.0
Senior,Gaoli Zhao,186.5,83.0
Freshman,Qiang Han,185.3,87.0
Senior,Qiang Zheng,183.9,87.0


In [54]:
# 多列排序，先体重升序，再身高降序
df_demo.sort_values(['Weight','Height'],ascending=[True,False]).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Sophomore,Peng Han,147.8,34.0
Senior,Gaomei Lv,147.3,34.0
Junior,Xiaoli Chu,145.4,34.0
Sophomore,Qiang Zhou,150.5,36.0
Freshman,Yanqiang Xu,152.4,38.0


对索引进行排序时需要指定索引层的名字或层号，用参数`level`表示。

In [55]:
# 对索引排序，先年级升序，再名字降序
df_demo.sort_index(level=['Grade','Name'],ascending=[True,False]).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Freshman,Yanquan Wang,163.5,55.0
Freshman,Yanqiang Xu,152.4,38.0
Freshman,Yanqiang Feng,162.3,51.0
Freshman,Yanpeng Lv,,65.0
Freshman,Yanli Zhang,165.1,52.0


### apply 方法

`apply`方法常用于逐行或逐列的函数运算。与**聚合统计函数**类似，它通过指定参数`axis`来选择行或列。

In [56]:
df_demo = df[['Height','Weight']]

# 利用apply方法实现逐列计算均值
df_demo.apply(lambda x:x.mean())

Height    163.218033
Weight     55.015873
dtype: float64

In [57]:
# 与聚合统计函数比较
df_demo.mean()

Height    163.218033
Weight     55.015873
dtype: float64

`apply`可以自定义函数，因此自由度很高。但是，使用pandas的*内置函数*处理和`apply`来处理同一个任务，后者速度会慢很多。

## 窗口对象

pandas中有3类窗口，分别是**滑动窗口**rolling、**扩张窗口**expanding以及**指数加权窗口**ewm。

### 滑窗对象

In [58]:
# 定义序列
s = pd.Series([1,2,3,4,5])

# 定义滑窗对象，其中window参数表示窗口大小
roller = s.rolling(window = 3)
roller

Rolling [window=3,center=False,axis=0]

In [59]:
list(roller)[0]

0    1
dtype: int64

In [60]:
# 得到滑窗对象后，便可以进行聚合计算
# 例如进行滑动平均
roller.mean()

0    NaN
1    NaN
2    2.0
3    3.0
4    4.0
dtype: float64

In [61]:
# 滑动加总
roller.sum()

0     NaN
1     NaN
2     6.0
3     9.0
4    12.0
dtype: float64

这里重点介绍几个**类滑窗函数**：`shift`、`diff`和`pct_change`。它们的公共参数为`periods=n`，默认为1。`n`可以为负，表示反方向操作。

`shift(n)`函数表示取向前第n个元素的值。

In [62]:
s = pd.Series([1,3,6,10,15])
# 取向前第2个元素的值
s.shift(2)

0    NaN
1    NaN
2    1.0
3    3.0
4    6.0
dtype: float64

`diff(n)`表示与向前第n个元素作差

In [63]:
# 与向前两个元素作差
s.diff(2)

0    NaN
1    NaN
2    5.0
3    7.0
4    9.0
dtype: float64

`pct_change(n)`表示与向前第n个元素相比计算增长率。

In [64]:
# 与前一个元素相比计算增长率
s.pct_change()

0         NaN
1    2.000000
2    1.000000
3    0.666667
4    0.500000
dtype: float64

#### 练一练

In [65]:
# 实现向后窗口为2的滑窗sum操作
s = pd.Series([1,2,3])
s+s.shift(-1)

0    3.0
1    5.0
2    NaN
dtype: float64

In [66]:
# 向后窗口为3的滑窗sum
ss = pd.Series([1,2,3,4,5])
ss + ss.shift(-1)+ss.shift(-2)

0     6.0
1     9.0
2    12.0
3     NaN
4     NaN
dtype: float64

### 扩张窗口

扩张窗口是**动态**长度的窗口，每个窗口包括序列起始处至当前位置的所有元素，可以视为一个累积（逐步扩张）的过程。使用`expanding`方法实现扩张窗口的构造。

In [67]:
s = pd.Series([1,3,6,10])
s.expanding().sum()

0     1.0
1     4.0
2    10.0
3    20.0
dtype: float64

#### 练一练

In [68]:
s = pd.Series([1,9,3,4,10])

In [69]:
# cummax函数效果
s.cummax()

0     1
1     9
2     9
3     9
4    10
dtype: int64

In [70]:
# cummax的expanding实现
s.expanding().max()

0     1.0
1     9.0
2     9.0
3     9.0
4    10.0
dtype: float64

In [71]:
# cumsum效果
s.cumsum()

0     1
1    10
2    13
3    17
4    27
dtype: int64

In [72]:
# cumsum的expanding实现
s.expanding().sum()

0     1.0
1    10.0
2    13.0
3    17.0
4    27.0
dtype: float64

In [73]:
# cumprod效果
s.cumprod()

0       1
1       9
2      27
3     108
4    1080
dtype: int64

暂未想出如何用`expanding`来实现累乘。

## 练习

### Ex1: 口袋妖怪数据集

In [76]:
df = pd.read_csv('/Users/LWKM/Desktop/DW_pandas/data/pokemon.csv')
df.head(3)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80


**1** 对HP, Attack, Defense, Sp. Atk, Sp. Def, Speed 进行加总，验证是否为Total 值

In [77]:
#1 
test = df['Total']==df[df.columns[-6:]].sum(axis=1)
test.all()

True

**2** 对于'#'重复的妖怪只保留第一条记录

In [78]:
# 查看唯一值数目
df['#'].nunique()

721

In [79]:
# 重复的仅保留第一条
df = df.drop_duplicates(['#'])

**2(a)** 求第一属性的种类数量和前三多数量对应的种类

In [80]:
# 求第一属性的种类数量
df['Type 1'].nunique()

18

In [81]:
# 前三多数量对应的种类
df['Type 1'].value_counts().head(3)

Water     105
Normal     93
Grass      66
Name: Type 1, dtype: int64

**2(b)** 求第一属性和第二属性的组合种类

In [82]:
tp = df[['Type 1','Type 2']].drop_duplicates()
tp[tp['Type 2'].isnull()== False]

Unnamed: 0,Type 1,Type 2
0,Grass,Poison
6,Fire,Flying
15,Bug,Flying
16,Bug,Poison
20,Normal,Flying
36,Poison,Ground
44,Normal,Fairy
46,Poison,Flying
51,Bug,Grass
67,Water,Fighting


**2(c)** 求尚未出现过的属性组合

In [83]:
df['Type 1'].value_counts().shape

(18,)

In [84]:
18*17/2

153.0

这题感觉有点困难，暂未想到实现方案。

**3(a)** 取出物攻，超过120的替换为high ，不足50的替换为low，否则设为mid。

In [85]:
attack = df['Attack']
# 可以通过依次采用mask来实现
attack.mask(attack<50,'low').mask(attack>=50,'mid').mask(attack>120,'high')

0       low
1       mid
2       mid
4       mid
5       mid
6       mid
9       low
10      mid
11      mid
13      low
14      low
15      low
16      low
17      low
18      mid
20      low
21      mid
22      mid
24      mid
25      mid
26      mid
27      mid
28      mid
29      mid
30      mid
31      mid
32      mid
33      mid
34      low
35      mid
36      mid
37      mid
38      mid
39      mid
40      low
41      mid
42      low
43      mid
44      low
45      mid
46      low
47      mid
48      mid
49      mid
50      mid
51      mid
52      mid
53      mid
54      mid
55      mid
56      mid
57      low
58      mid
59      mid
60      mid
61      mid
62      mid
63      mid
64      mid
65      mid
66      mid
67      mid
68      low
69      low
70      mid
72      mid
73      mid
74     high
75      mid
76      mid
77      mid
78      low
79      mid
80      mid
81      mid
82      mid
83      mid
84      mid
85      mid
86      mid
88      low
89      mid
90      mid
91  

**3(b)** 取出第一属性，分别用`replace`和`apply`替换所有字母为大写。

In [86]:
tp = df['Type 1']
tp.apply(lambda x:x.upper())

0         GRASS
1         GRASS
2         GRASS
4          FIRE
5          FIRE
6          FIRE
9         WATER
10        WATER
11        WATER
13          BUG
14          BUG
15          BUG
16          BUG
17          BUG
18          BUG
20       NORMAL
21       NORMAL
22       NORMAL
24       NORMAL
25       NORMAL
26       NORMAL
27       NORMAL
28       POISON
29       POISON
30     ELECTRIC
31     ELECTRIC
32       GROUND
33       GROUND
34       POISON
35       POISON
36       POISON
37       POISON
38       POISON
39       POISON
40        FAIRY
41        FAIRY
42         FIRE
43         FIRE
44       NORMAL
45       NORMAL
46       POISON
47       POISON
48        GRASS
49        GRASS
50        GRASS
51          BUG
52          BUG
53          BUG
54          BUG
55       GROUND
56       GROUND
57       NORMAL
58       NORMAL
59        WATER
60        WATER
61     FIGHTING
62     FIGHTING
63         FIRE
64         FIRE
65        WATER
66        WATER
67        WATER
68      

不太明白如何用`replace`实现替换。

**3(c)** 求每个妖怪六项能力的离差，即所有能力中偏离中位数最大的值，添加到df 并从大到小排序

In [87]:
dv = df[df.columns[5:]]
dev = dv.apply(lambda x: x-dv.median(axis=1)).abs().max(axis=1)
df = df.assign(dev = dev)
df.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,dev
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,16.0
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,17.5
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,17.5
4,4,Charmander,Fire,,309,39,52,43,60,50,65,14.0
5,5,Charmeleon,Fire,,405,58,64,58,80,65,80,15.5


用到了讲义里未提及的`assign`方法来实现新增列。

In [88]:
df.sort_values('dev',ascending=False)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,dev
230,213,Shuckle,Bug,Rock,505,20,10,230,10,230,5,215.0
121,113,Chansey,Normal,,450,250,5,5,35,105,50,207.5
261,242,Blissey,Normal,,540,255,10,10,75,135,55,190.0
217,202,Wobbuffet,Psychic,,405,190,33,58,33,58,33,144.5
223,208,Steelix,Steel,Ground,510,75,85,200,55,65,30,130.0
332,306,Aggron,Steel,Rock,530,70,110,180,60,60,50,115.0
103,95,Onix,Rock,Ground,385,35,45,160,30,45,70,115.0
789,713,Avalugg,Ice,,514,95,117,184,44,46,28,113.5
456,411,Bastiodon,Rock,Steel,495,60,52,168,47,138,30,112.0
414,377,Regirock,Rock,,580,80,100,200,50,100,50,110.0


### Ex2: 指数加权窗口

In [89]:
np.random.seed(0)
s = pd.Series(np.random.randint(-1,2,30).cumsum())
s

0    -1
1    -1
2    -2
3    -2
4    -2
5    -1
6    -2
7    -1
8    -2
9    -3
10   -4
11   -3
12   -3
13   -2
14   -1
15   -2
16   -2
17   -2
18   -2
19   -2
20   -3
21   -3
22   -4
23   -5
24   -5
25   -4
26   -5
27   -4
28   -5
29   -5
dtype: int32

In [90]:
s.ewm(alpha = 0.2).mean()

0    -1.000000
1    -1.000000
2    -1.409836
3    -1.609756
4    -1.725845
5    -1.529101
6    -1.648273
7    -1.492481
8    -1.609720
9    -1.921223
10   -2.376048
11   -2.510047
12   -2.613738
13   -2.485343
14   -2.177441
15   -2.140925
16   -2.112091
17   -2.089261
18   -2.071148
19   -2.056753
20   -2.247158
21   -2.398846
22   -2.720978
23   -3.178945
24   -3.544537
25   -3.635906
26   -3.909386
27   -3.927544
28   -4.142368
29   -4.314107
dtype: float64

In [91]:
s.expanding()

Expanding [min_periods=1,center=False,axis=0]

本题难度较大，未能独立完成。

## 练习答案

以下仅列出有启发意义的部分。

### Ex1: 口袋妖怪数据集

**3(c)** 

In [93]:
df = pd.read_csv('/Users/LWKM/Desktop/DW_pandas/data/pokemon.csv')

In [94]:
dp_dup = df.drop_duplicates('#', keep='first')

In [95]:
attr_dup = dp_dup.drop_duplicates(['Type 1', 'Type 2'])

以下是生成属性配对的方法，值得学习。但是问题在于，属性的搭配顺序是否存在差异？

该方法的关键技巧是**列表**推导式嵌套循环，同时还使用了条件结构：当两属性不同时，用空格连接；当两属性相同时，保留一个。

In [96]:
# 生成所有属性两两组合，包括同属性（相当于只有一个属性），同时考虑顺序
L_full = [' '.join([i, j]) if i!=j else i for j in dp_dup['Type 1'].unique() for i in dp_dup['Type 1'].unique()]
L_full

['Grass',
 'Fire Grass',
 'Water Grass',
 'Bug Grass',
 'Normal Grass',
 'Poison Grass',
 'Electric Grass',
 'Ground Grass',
 'Fairy Grass',
 'Fighting Grass',
 'Psychic Grass',
 'Rock Grass',
 'Ghost Grass',
 'Ice Grass',
 'Dragon Grass',
 'Dark Grass',
 'Steel Grass',
 'Flying Grass',
 'Grass Fire',
 'Fire',
 'Water Fire',
 'Bug Fire',
 'Normal Fire',
 'Poison Fire',
 'Electric Fire',
 'Ground Fire',
 'Fairy Fire',
 'Fighting Fire',
 'Psychic Fire',
 'Rock Fire',
 'Ghost Fire',
 'Ice Fire',
 'Dragon Fire',
 'Dark Fire',
 'Steel Fire',
 'Flying Fire',
 'Grass Water',
 'Fire Water',
 'Water',
 'Bug Water',
 'Normal Water',
 'Poison Water',
 'Electric Water',
 'Ground Water',
 'Fairy Water',
 'Fighting Water',
 'Psychic Water',
 'Rock Water',
 'Ghost Water',
 'Ice Water',
 'Dragon Water',
 'Dark Water',
 'Steel Water',
 'Flying Water',
 'Grass Bug',
 'Fire Bug',
 'Water Bug',
 'Bug',
 'Normal Bug',
 'Poison Bug',
 'Electric Bug',
 'Ground Bug',
 'Fairy Bug',
 'Fighting Bug',
 'Psychic B

以下是生成数据集中出现的属性配对的方法，同样使用列表推导式。注意进行迭代时，使用了`zip`函数。`if`后的判断条件是指第二个属性不为缺失值`NaN`（数值型）。

In [97]:
L_part = [' '.join([i, j]) if type(j)!=float else i for i, j in zip(attr_dup['Type 1'], attr_dup['Type 2'])]

以下是生成未出现配对的方法，用到了`set`函数。

In [98]:
res = set(L_full).difference(set(L_part))
len(res)

181

**3(c)** 需要注意的是，可以通过<font color =red>直接定义</font>列索引及其取值给DataFrame新增一列！

In [99]:
df['Deviation'] = df[['HP', 'Attack', 'Defense', 'Sp. Atk','Sp. Def', 'Speed']].apply(lambda x:np.max((x-x.median()).abs()), 1)

### Ex2: 指数加权窗口

本问利用的关键技巧有两个，一是如何快速生成序列$1,\alpha,\alpha^2,\dots,\alpha^n$，二是如何将该序列**颠倒**。

In [100]:
# 示例1：生成次方序列
3**np.arange(5)

array([ 1,  3,  9, 27, 81], dtype=int32)

In [101]:
# 示例2：颠倒序列
3**np.arange(5)[::-1]

array([81, 27,  9,  3,  1], dtype=int32)

以下为原题参考答案

In [102]:
np.random.seed(0)
s = pd.Series(np.random.randint(-1,2,30).cumsum())

In [103]:
def ewm_func(x, alpha=0.2):
    win = (1-alpha)**np.arange(x.shape[0])[::-1]
    res = (win*x).sum()/win.sum()
    return res

In [104]:
s.expanding().apply(ewm_func).head()

0   -1.000000
1   -1.000000
2   -1.409836
3   -1.609756
4   -1.725845
dtype: float64