# 数据运算

与 Numpy 数组对象一样，在 Pandas 中，可以对数值型、字符串与日期等数据进行各种矢量操作，在二元计算中需注意 Pandas 对象的索引特定。数据运算处理是数据加工的重要手段，本节介绍 Pandas 常使用的数据运算方法。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity='all'

## 一元运算

对于数值型数据，使用 Pandas 对象的`map` 与 `applymap`方法，可以实现元素级的一元运算操作。例如下面创建

In [None]:
import string
ser = pd.Series([0, 1, 2, np.nan, 4, 5, 6], index=list('abcdefg'))
ser

In [None]:
ser.map(np.sqrt)

也可以调用 `np.sqrt()` 函数来操作 `Series` 对象：

In [None]:
np.sqrt(ser)

一般来说，后者速度更快一些。

## 二元计算

当两个 Pandas 对象进行计算二元运算时，由于二者的索引可能并不完全匹配，存在数据对齐问题。Pandas 会取索引对象的并集进行数据对齐。对索引不匹配的位置使用使用缺失值赋值。

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s1
s2

In [None]:
# 二元计算，索引不匹配的位置使用缺失值
s1 + s2

相对于算术运算符，Pandas 对象提供有对应的方法，除此之外还有对应的翻转方法，例如：

| 运算符 | 方法  | 翻转方法  |
|:-----|:--------|:--------|
| `+`  | `add()` | `radd()` |
| `-`  | `sub()` | `rsub()` |
| `*`  | `mul()` | `rmul()` |
| `/`  | `div()` | `rdiv()` |
| `//` | `floordiv()` | `rfloordiv()` |
| `**` | `pow()` | `rpow()` |           

下面示例会调用这些方法：

In [None]:
# s1 * s2
s1.mul(s2)

In [None]:
# s1 / s2
# 翻转除法
s2.rdiv(s1)

## 字符串向量操作

在数据分析过程中，经常需要对杂乱的字符串进行各种各样的处理，字符串列中的缺失值会乱上加乱。除了使用`df.map` 以及`df.apply()`进行矢量化函数操作外，Pandas 还可以通过使用 `Series` 对象的`str`属性来调用字符串向量化操作。例如，在下面的 `Series`对象中，字符串中包含数值与单位，需要拆分其中的数值与单位：  

In [None]:
# 创建对象
s = pd.Series(['100 km', '100 m', np.nan, '20 m'])
s

由于数据集中有缺失值，使用`s.map()`方法传入`str.split`函数时会抛出异常：

In [None]:
# 去掉注释，运行会抛出异常
# s.map(str.split)

可以使用`str`属性的`split()`方法来进行拆分：

In [None]:
s.str.split(expand=True)

除了提供类似 Python 内置字符串拥有方法外，还提供了正则表达式的向量化函数。例如：

In [None]:
s = pd.Series(['Lion', 'Monkey', 'Rabbit'])
# 使用正则表达式
s.str.findall('on$')

下面列出字符串有关的向量化函数：

In [None]:
print([f for f in dir(s.str) if not f.startswith('_')])

## 日期数据的向量操作

对于Pandas 日期数据来说，使用`dt`属性也会提供一些向量化操作。下面创建一个`Series`，数据类型为 Pandas 日期类型：

In [None]:
from datetime import datetime

times = [datetime(2018, 10, 10, 6), datetime(2018, 10, 10, 7), 
         datetime(2018, 10, 10, 8), datetime(2018, 10, 10, 11), 
         datetime(2018, 10, 10, 12), datetime(2018, 10, 10, 13), 
         datetime(2018, 10, 10, 18), datetime(2018, 10, 10, 19), 
         datetime(2018, 10, 10, 20), datetime(2018, 10, 10, 21)]
s = pd.Series(times)
s

其`dt`属性提供有一些向量化操作方法，例如返回对应的小时数：

In [None]:
s.dt.hour

In [None]:
# 周名
s.dt.weekday_name