# PandasLearn

## 预备知识

### 列表推导式

列表推导式本质上是一个简化的循环, 表达形式通常为 `[* for i in *]`. 其中第一个 * 为推导式的主体函数, 第二个 * 为迭代对象.

列表同样可以写出二维数组: `[[* for i in *] for j in *]`.

在列表中同样可以根据多个迭代对象嵌套循环.

`[m+'_'+n for m in ['a', 'b'] for n in ['c', 'd']]`

### 匿名函数与 map

匿名函数是 python 中定义数据间的映射关系的方式. 顾名思义, 匿名函数的定义方式不需要命名, 不过当然也可以将函数先储存起来为了方便使用.

匿名函数的格式为: `lambda x: f(x)(object)`, 其中第二个括号内为函数作用的对象, 调用方法与常规的函数方式相同.

`map` 函数可以实现对列表推导式作用匿名函数定义的映射. map 方法返回的是一个 map 对象, 可以使用 list() 转化为数组.

e.g. `list(map(lambda x: 2*x, range(5)))`

### zip & enumerate

zip 可以将多个可迭代对象打包为一个 zip 对象, 此对象由多个 tuple 构成. zip 方法也可以用于绑定字典映射等等.

`dict(zip(L1, L2))`

zip 常常在循环的时候使用: `for i, j, k in zip(L1, L2, L3)`

enumerate 是一种把列表的序列和值绑定的打包方式, 使用方法与 zip 方法相同.

python 中提供了 * 操作符来解绑 zip 的对象, 从而得到两个列表.

### np 数组的构造

- 等差序列: `np.linspace`, `np.arange`
- 特殊矩阵: `zeros`, `eye`, `full`
- 随机矩阵： `np.random`
	-  `rand, randn, randint, choice` 分别为均匀分布的随机数组、N(0,1) 标准正态的随机数组、随机整数组和随机列表抽样.
	- 使用随机数种子可以固定随机数的输出结果 `np.random.seed()`
	- 随机矩阵同样可以通过内置的函数 `normal`, `uniform` 等函数来调整随机分布的参数
	- `permutation` 可以随机打乱列表

### np数组的变形与合并

- 转置: `T`
- 合并: `r_`, `c_`  分别为按行合并与按列合并 (上下合并, 左右合并)
- reshape
	- reshape 在使用时可以定义新数组的维度参数, 用数组表征多维数组, 用 `-1` 表征一维数组. 在读取二维数组时 reshape 被分为 C 和 F 模式, C 为逐行读取, F 为逐列读取.

## Pandas


### 切片和索引

- 切片: `nums[:-1, [0,2]]`
- 布尔索引: 在二维数组上使用 `np.ix_` 可以在对应的维度使用布尔索引, 此时是不能用切片的.
	- `target[np.ix_([True, False, True], [True, False, True])]`

### numpy 常用函数

- where: 可以指定满足特定条件与不满足条件时的位置对应的填充值.
- 取索引
	- nonzero
	- argmax: 取最大值索引
	- argmin: 取最小值索引
- any, all: 这两个函数为判定数组中是否有非空值的判定函数, 一个为存在一个为任意
- `cumprod`, `cumsum`, `diff`
	- `cumprod`, `cumsum`分别表示累乘和累加函数, 返回同长度的数组, `diff`表示和前一个元素做差, 由于第一个元素为缺失值, 因此在默认参数情况下, 返回长度是原数组减1.
- 统计函数
	- 常用的统计函数包括 `max, min, mean, median, std, var, sum, quantile`
	- 对于含 nan 值的数组, 这些统计函数一般都有对应 nan 的函数版本, 书写格式常为 nan+函数名, e.g. nanmax
	- 值得注意的时, 像 quantile 一样的函数不能直接对对象调用, 这种为全局函数, 需要直接调用, 然后再选定参数来使用.
	- 对于协方差和相关系数分别可以利用`cov, corrcoef`计算
	- 二维`Numpy`数组中统计函数的`axis`参数, 它能够进行某一个维度下的统计特征计算, 当`axis=0`时结果为列的统计指标, 当`axis=1`时结果为行的统计指标.

### 矩阵运算

- 内积: `dot`
- 矩阵相乘: `@`
- 向量范数和矩阵范数: `np.linalg.norm`

## Pandas 基础知识

### OI

#### 文件读取

- `df.read_csv`, `df.read_table`, `df.read_excel`

- Parameters
	- header: 第一行是否作为列名
	- index_cols
	- usecols
	- parse_dates
	- nrows

#### 写入

- `file.to_csv` 等

- 常用参数
	- index: bool  可以选择是否保留索引

数据的写入还可以将表格转换为 md 格式和 latex 格式, 这需要额外安装 `tabulate` 包.

### 数据结构

#### Series

- 属性
	- data
	- index
	- dtype
	- name

#### DataFrame

在 series 的属性基础上增加了列索引 columns, DF 数据结构中的 data 可以为二维数据.

### 常用函数

#### 汇总函数

- `df.head()`
- `df.tail()`
- `df.info()`
- `df.describe()`

#### 统计函数

统计函数: sum, mean, median, var, std, max, min, quantile, count, idxmax

这些函数都被称为聚合函数, 返回的值为标量. 这些函数拥有共同的参数 `axis`, 为 0 时逐列聚合, 为 1 时逐行聚合.

#### 唯一值函数

- unique
- nunique
- value_counts
- drop_duplicates: 观察列组合的唯一值
	- keep: first 为重合中第一次出现的行, last 为最后一次出现的行, False 为完全剔除重复出现的行
- duplicate

#### 替换函数

- `df.replace(array, method=)`
	- method 可谓 ffill, bfil等
- `df.where(condition, value)`
- `df.mask(condition, value)`
- `round, abs, clip`

#### 排序函数

- `sort_values`
- `sort_index`

#### apply 方法

`df.apply(function)`

apply 方法需要慎用, apply 拥有自定义的高自由度, 但是相对于内置的函数来说复杂度要高很多.

### 窗口对象

#### 滑窗对象

窗口即为随着设定的窗口大小进行平移和特定函数的计算的数据格式.

对一个序列使用 `.rolling` 得到滑窗对象, 最重要的参数为 window 窗口大小.

对窗口可以进行前文中的统计函数计算. 同样可以使用 apply 函数进行自定义

#### 滑窗函数

shift, diff, pct_change 等类滑窗函数可以直接对序列应用, 达成滑窗函数的效果.

## 五、练习
### Ex1：口袋妖怪数据集
现有一份口袋妖怪的数据集，下面进行一些背景说明：

* `#`代表全国图鉴编号，不同行存在相同数字则表示为该妖怪的不同状态

* 妖怪具有单属性和双属性两种，对于单属性的妖怪，`Type 2`为缺失值
* `Total, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed`分别代表种族值、体力、物攻、防御、特攻、特防、速度，其中种族值为后6项之和

题目要求:

1. 对`HP, Attack, Defense, Sp. Atk, Sp. Def, Speed`进行加总，验证是否为`Total`值。

2. 对于`#`重复的妖怪只保留第一条记录，解决以下问题：

* 求第一属性的种类数量和前三多数量对应的种类
* 求第一属性和第二属性的组合种类
* 求尚未出现过的属性组合

3. 按照下述要求，构造`Series`：

* 取出物攻，超过120的替换为`high`，不足50的替换为`low`，否则设为`mid`
* 取出第一属性，分别用`replace`和`apply`替换所有字母为大写
* 求每个妖怪六项能力的离差，即所有能力中偏离中位数最大的值，添加到`df`并从大到小排序

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('./pokemon.csv')
df.head(3)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80


In [24]:
# 1. 对`HP, Attack, Defense, Sp. Atk, Sp. Def, Speed`进行加总，验证是否为`Total`值。

df_1 = df[['HP', 'Attack','Defense', 'Sp. Atk', 'Sp. Def', 'Speed']]
df_sum = pd.DataFrame(df_1.sum(axis=1), columns=['sum'])
print(df_sum)  # 求指定栏目总和
print(df[['Total']])
# print([i for i in df['Total']], [i for i in df_sum['sum']])
print([i for i in df_sum['sum']] == [i for i in df['Total']])

     sum
0    318
1    405
2    525
3    625
4    309
..   ...
795  600
796  700
797  600
798  680
799  600

[800 rows x 1 columns]
     Total
0      318
1      405
2      525
3      625
4      309
..     ...
795    600
796    700
797    600
798    680
799    600

[800 rows x 1 columns]
True


In [75]:
# 2. 对于`#`重复的妖怪只保留第一条记录，解决以下问题：
# * 求第一属性的种类数量和前三多数量对应的种类
# * 求第一属性和第二属性的组合种类
# * 求尚未出现过的属性组合

df_mono = df.drop_duplicates('#', keep='first')

num_type1 = df_mono['Type 1'].count()
top3_type1 = df_mono['Type 1'].value_counts().index[:3]

df_attr = df.drop_duplicates(['Type 1', 'Type 2'], keep='first')
type_zip = df_attr[['Type 1', 'Type 2']]
appeared = np.array(type_zip)
# print(appeared)

# all = []
# for i in df['Type 1'].unique():
#     for j in df['Type 2'].unique():
#         all.append([i, j])

# res = []
# for i in range(len(all)):
#     if all[i] not in appeared:
#       res.append(all[i])

L_full = [i+' '+j if i!=j else i for i in df['Type 1'].unique() for j in df['Type 1'].unique()]
L_part = [i+' '+j if not isinstance(j, float) else i for i, j in zip(df['Type 1'], df['Type 2'])]
res = set(L_full).difference(set(L_part))
len(res) # 太多，不打印了
        
print(num_type1, top3_type1, '\n', type_zip, res)

721 Index(['Water', 'Normal', 'Grass'], dtype='object') 
       Type 1  Type 2
0      Grass  Poison
4       Fire     NaN
6       Fire  Flying
7       Fire  Dragon
9      Water     NaN
..       ...     ...
778    Ghost   Grass
790   Flying  Dragon
797  Psychic   Ghost
798  Psychic    Dark
799     Fire   Water

[154 rows x 2 columns] {'Ghost Electric', 'Rock Ghost', 'Dragon Steel', 'Ice Fighting', 'Dark Electric', 'Ghost Steel', 'Steel Bug', 'Fairy Fire', 'Dark Fairy', 'Fairy Water', 'Ice Dark', 'Ghost Bug', 'Poison Fire', 'Normal Poison', 'Ghost Ground', 'Rock Poison', 'Fairy Steel', 'Flying Fire', 'Steel Grass', 'Fire Dark', 'Fire Fairy', 'Bug Psychic', 'Flying Steel', 'Flying Water', 'Fairy Electric', 'Fighting Ground', 'Psychic Steel', 'Ground Grass', 'Bug Fairy', 'Flying Ghost', 'Fairy Ground', 'Fighting Poison', 'Fairy Dragon', 'Dragon Rock', 'Ground Fighting', 'Dark Poison', 'Psychic Dragon', 'Dragon Normal', 'Normal Dragon', 'Steel Normal', 'Dragon Bug', 'Psychic Rock', 'Poison P

In [84]:
# 3. 按照下述要求，构造`Series`：
# * 取出物攻，超过120的替换为`high`，不足50的替换为`low`，否则设为`mid`
# * 取出第一属性，分别用`replace`和`apply`替换所有字母为大写
# * 求每个妖怪六项能力的离差，即所有能力中偏离中位数最大的值，添加到`df`并从大到小排序

Attack_Series = df['Attack'].mask(df['Attack'] > 120, 'high').mask(df['Attack'] < 50, 'low').mask((50 <= df['Attack']) &  (df['Attack'] <= 120), 'mid')

Type_1_Series = df['Type 1'].apply(lambda x:str.upper(x))

df['Deviation'] = df[['HP', 'Attack','Defense', 'Sp. Atk', 'Sp. Def', 'Speed']].apply(lambda x: np.max((x - x.median()).abs()), 1)
Deviation_Sorted = df.sort_values('Deviation', ascending=False)

print(Attack_Series.head(), Type_1_Series.head(), Deviation_Sorted.head())

0    low
1    mid
2    mid
3    mid
4    mid
Name: Attack, dtype: object 0    GRASS
1    GRASS
2    GRASS
3    GRASS
4     FIRE
Name: Type 1, dtype: object        #                 Name  Type 1  Type 2  Total   HP  Attack  Defense  \
230  213              Shuckle     Bug    Rock    505   20      10      230   
121  113              Chansey  Normal     NaN    450  250       5        5   
261  242              Blissey  Normal     NaN    540  255      10       10   
333  306    AggronMega Aggron   Steel     NaN    630   70     140      230   
224  208  SteelixMega Steelix   Steel  Ground    610   75     125      230   

     Sp. Atk  Sp. Def  Speed  Deviation  
230       10      230      5      215.0  
121       35      105     50      207.5  
261       75      135     55      190.0  
333       60       80     50      155.0  
224       55       95     30      145.0  
