# Pandas

---

pandas 是基于 python 的一个非常强大的数据分析工具。它经常被用于 data science，数据分析，机器学习等领域。

pandas 配合 python 简洁的语法，使得许多分析可以通过在线编程的方式进行，可以配合 matplotlib 和 jupyter notebook 等工具实现实时的可视化。为数据分析提供了直观、实时的体验。

pandas 的使用方式非常类似 Excel 表格和关系型数据库。相比普通的 Excel 表格，pandas 可以配合 python 语言的强大功能实现更强大的数据处理。

本 note 是一个 pandas 的入门教学。pandas 提供的各种 API 的参考文档可以在这里找到：http://pandas.pydata.org/pandas-docs/

下面通过几个例子来说明 pandas 的直观和方便。


## 加载数据文件

---

csv 是一种很常见的以逗号隔开的文本数据文件类型。类似下面的格式：

```csv
#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,FALSE
2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,FALSE
3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,FALSE
3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,FALSE
4,Charmander,Fire,,39,52,43,60,50,65,1,FALSE
...
```

Excel 文档可以导出为 csv 文件。pandas 库可以直接载入 csv 文件，并且自动进行解析，将其中数据放入一个内部的数据表格中。

pandas 的内部数据表格有个专门的名字，叫做 “DataFrame”。下面的例子演示了如何将一个 csv 文件载入一个 DataFrame 中：

In [3]:
import pandas as pd

poke_frame = pd.read_csv("data/pokemon_data.csv")
type(poke_frame)

pandas.core.frame.DataFrame

只需要一行代码就能方便地将一个 csv 文件载入到 padas 的 DataFrame 中。

DataFrame 就有点类似 numpy 的 array，以及 python 的 list，可以通过下标来取出其中的数据。

下面的代码观察刚刚载入的 DataFrame poke_frame 的前 5 个数据：

In [4]:
poke_frame[:5]

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False


配合 jupyter 整合输出为表格的可视化能力，pandas 的输出非常工整和漂亮。

从输出可以看出，csv 文件第一行以 `#` 开头的注释被解析为了表头，而后面每一行以逗号隔开的数据都被解析为一行行数据，从而形成了一个带有元数据（表头，列名）的完整数据库表格。

除了通过数组下标，DataFrame 还提供了一些方便的方法来访问 DataFrame 中的数据。例如：`poke_frame.head(5)` 可以达到与 `poke_frame[:5]` 相同的效果：

In [6]:
poke_frame.head(5)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False




除了 csv 文件，pandas 还可以通过 openpyxl 的帮助加载 Excel 文件中的数据。要让 pandas 可以读取 Excel 的数据，需要先安装 openpyxl 模块：


```
pip to install openpyxl
```

与 csv 文件的加载方式类似，也是一行代码就能加载 excel 数据：

In [11]:
poke_excel = pd.read_excel("data/pokemon_data.xlsx")

对于一些没有以逗号隔开的 txt 文件数据，pandas 也能使用 `read_csv()` 函数加载，只需要指定分隔符即可。比如以空格或 tab 隔开的数据：

In [17]:
poke_txt = pd.read_csv("data/pokemon_data.txt", delimiter='\t')
poke_txt.head(3)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False


除了上述的几种 read 函数，pandas 还提供了许多其他的 read 函数，可以从 yaml 文件，jason 文件，以及其他各类常用文件格式中读取数据到 DataFrame。

## 查看数据

---

pandas 的 DataFrame 提供了丰富的方法从各种视角对数据进行分析。下面的几个例子可以看出其强大的功能和便利的使用方式：

In [20]:
## 查看 DataFrame 中的数据列的名称

poke_frame.columns

Index(['#', 'Name', 'Type 1', 'Type 2', 'HP', 'Attack', 'Defense', 'Sp. Atk',
       'Sp. Def', 'Speed', 'Generation', 'Legendary'],
      dtype='object')

In [28]:
## 查看列名为’Name‘ 的前 3 行数据

poke_frame['Name'].head(3)

0    Bulbasaur
1      Ivysaur
2     Venusaur
Name: Name, dtype: object

In [33]:
## 上面的代码还可以通过下面的写法来实现

poke_frame[:3]['Name']

0    Bulbasaur
1      Ivysaur
2     Venusaur
Name: Name, dtype: object

In [42]:
## 查看第 5-6 行数据 （行数从 0 开始）

poke_frame[4:6]

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False


In [54]:
## 使用迭代器遍历整个数据集

for index, row in poke_frame.iterrows():
    if row["Name"] == 'Bulbasaur':
        break
row

#                     1
Name          Bulbasaur
Type 1            Grass
Type 2           Poison
HP                   45
Attack               49
Defense              49
Sp. Atk              65
Sp. Def              65
Speed                45
Generation            1
Legendary         False
Name: 0, dtype: object

In [55]:
## 通过下标过滤寻找特定元素，下面的代码达到与上面的循环相同的效果

poke_frame[poke_frame["Name"] == "Bulbasaur"]

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False


## 排序、统计

---

pandas 的 `DataFrame.describe()` 函数对数据集进行统计，可以方便地查看到数据的统计学特征：

In [56]:
poke_frame.describe()

Unnamed: 0,#,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,362.81375,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,208.343798,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,1.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,184.75,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,364.5,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,539.25,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,721.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0


从输出中可以看到许多有用的统计信息，例如数据的个数，平均值，标准差，最小、最大值，以及分布信息等。

下面的代码可以按照列 ’Type 1‘ 和 ’HP‘ 的值将数据集进行降序排序：

In [62]:
poke_frame.sort_values(['Type 1', 'HP'], ascending=False).head(5)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
351,321,Wailord,Water,,170,90,45,90,45,60,3,False
655,594,Alomomola,Water,,165,75,80,40,45,65,5,False
142,131,Lapras,Water,Ice,130,85,80,85,95,60,1,False
145,134,Vaporeon,Water,,130,65,60,110,95,65,1,False
350,320,Wailmer,Water,,130,70,35,70,35,60,3,False


In [63]:
## ’Type 1' 按降序，'HP' 按升序

poke_frame.sort_values(['Type 1', 'HP'], ascending=[0,1]).head(5)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
139,129,Magikarp,Water,,20,10,55,15,20,80,1,False
381,349,Feebas,Water,,20,15,20,10,55,80,3,False
97,90,Shellder,Water,,30,65,100,45,25,40,1,False
106,98,Krabby,Water,,30,105,90,25,25,50,1,False
125,116,Horsea,Water,,30,40,70,70,25,60,1,False


## 修改数据

---

pandas 的 DataFrame 可以像 numpy array 一样地进行操作。除此之外，还提供了许多额外的对数据表进行操作的方法。


### 给 DataFrame 添加/删除列

---

从本质上来讲，DataFrame 可以简单地被看做一个 python 的 dict 类型的对象。因此增加一列也非常简单：

In [65]:
## 为数据表增加一个 Total 列，统计各项属性之和

poke_frame["Total"] = poke_frame["HP"] + poke_frame["Attack"] + poke_frame["Defense"]
poke_frame.head(5)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Total
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False,143
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False,185
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False,245
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False,303
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False,134


上面的代码还可以用 DataFrame 的强大下标功能和 `sum()` 函数来实现：

In [72]:
## 将 DataFrame 中的每一行的第 4-9 列之和保存在 Total 列中
## DataFrame 的 iloc 和 loc 函数都是用下标来选择行和列的函数
## 区别在于 iloc 接受整数下标，而 loc 则通过行列的 labels 来定位元素

poke_frame["Total"] = poke_frame.iloc[:, 4:10].sum(axis=1)
poke_frame.head(3)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Total
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False,318
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False,405
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False,525


从 DataFrame 中删除一列

In [67]:
poke_frame.drop(columns=["Total"]).head(3)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
