In [1]:
import numpy as np
import time

# 4. 基本的数学知识
## 4.1 数学学科
数学作为一门科学，是人类发明的一门非常古老的逻辑思维学科。早在公元前3000年的美索不达米亚平原，人类就已经开始用算术(arithmetic)和其他更高层次的数学知识探寻哲学问题。

## 4.2 基本的数学符号和术语
### 4.2.1 向量和矩阵
##### 向量
向量(vector)指既有大小又有方向的对象。这个定义在实际使用中有点复杂。对我们而言，向量是用来表示一系列数字的一维数组。换句话说，向量是一个由数字构成的列表。

向量通常用箭头或者粗体字表示：
+ $\vec{a} \quad \textbf{x}$

我们可以用索引标示法表示向量中的元素：
+ $
\begin{equation}  
\vec{x} = \left (
    \begin{array}{**lr**}  
        3 \\  
        6 \\  
        8   
    \end{array}  
\right ) \quad x_1 = 3
\end{equation}  
$

> 在数学中，我们通常用索引`1`表示第1个元素。计算机程序则通常用索引`0`表示第 1 个元素。

Python有多种方式表示数组，例如可以用列表表示前面的数组：

In [2]:
x = [3, 6, 8]

numpy的数组类型可以提供更多的向量运算：

In [3]:
x = np.array([3, 6, 8])

向量为我们提供了一种存储多维单一数据点或观察值的简单方法。

例如，假设我们用`0～100`表示员工对每个部门的平均满意度，其中人力资源部得分`57`，工程部得分`89`，管理部得分`94`。我们可以用以下向量表示：
+ $
\begin{equation}  
\vec{x} = \left (
    \begin{array}{**lr**}  
        x_1 \\  
        x_2 \\  
        x_3   
    \end{array}  
\right ) = 
\left (
    \begin{array}{**lr**}  
        57 \\  
        89 \\  
        94   
    \end{array}  
\right )
\end{equation}  
$

理论上，你也可以将向量想象成`Pandas`中的`Series`对象。我们很自然地联想到`DataFrame`对象。事实上，以上向量只需简单扩展，就可以由一维扩展为多维。

##### 矩阵
`矩阵`(matrix)是二维数组的表示形式。矩阵有两个特征需要特别关注。矩阵的维度用$n \times m$表示，即矩阵有$n$行$m$列。矩阵通常用大写符号、加粗斜体字表示，比如大写$X$：
+ $
\begin{equation}  
X = \left (
    \begin{array}{**lr**}  
        3 & 4 \\  
        8 & 55 \\  
        5 & 9   
    \end{array}  
\right )
\end{equation}  
$

> 如果矩阵的行数和列数相等，则称之为正方形矩阵(square matrix)，简称`方阵`。

矩阵通常用来存储结构化数据，它是`Pandas`中`DataFrame`类型的泛化。因此，矩阵是数据科学工具箱中最重要的数学工具。

继续之前的案例，假设有3个位于不同地点的办公室，每个办公室都有人力资源部、工程部和管理部。我们可以用3个向量分别表示以上3个办公室3个部门的满意度得分：
+ $
\begin{equation}  
x = \left (
    \begin{array}{**lr**}  
        57 \\  
        89 \\  
        94   
    \end{array}  
\right ) 
, y = \left (
    \begin{array}{**lr**}  
        67 \\  
        87 \\  
        84   
    \end{array}  
\right )
, z = \left (
    \begin{array}{**lr**}  
        65 \\  
        98 \\  
        60   
    \end{array}  
\right )
\end{equation}  
$

然而，这样的表示方式难以处理，而且不具有扩展性。如果我们有100个办公 室，就需要100个不同的数组存储信息。我们可以创建一个$3 \times 3$矩阵，每一行代表不同的部门，每一列代表不同的办公室：
<img src="attachment:04_01.png" style="width:600px;"/>

+ $
\begin{equation}  
X = \left (
    \begin{array}{**lr**}  
        57 & 67 & 65 \\  
        89 & 87 & 98 \\  
        94 & 84 & 60   
    \end{array}  
\right )
\end{equation}  
$

### 4.2.2 算术符号
##### 求和
大写的$\sum$符号表示求和。 $\sum$右边是可迭代的对象，我们将它逐个相加。比如：

In [4]:
x = [1, 2, 3, 4, 5]
sum(x)

15

用数学表示为$\sum{x_i} = 15$。

类似地，我们可以计算一组数值的平均值：
+ $平均值 = \frac{1}{n}\sum{x_i}$

##### 比例项
小写的$\alpha$符号表示`比例项`(proportional)。比例项描述了两个同时变化的数值的关系，即一个值发生变化时，另一个值的变化情况。变化方向取决于两者的比例关系。数值既可以正比变化，也可以是反比变化。

以下是两个比例项例子：
+ 公司的营业额和客户数成正比，用符号表示为"销售额$\alpha$客户数"
+ 天然气价格和石油供应量成反比，用符号表示为"天然气价格$\alpha$石油供应量"

##### 点积
`点积`(dot product)用来合并两个向量，如下所示：
+ $
\begin{equation}  
X = \left (
    \begin{array}{**lr**}  
        3 \\  
        7   
    \end{array}  
\right ) 
\left (
    \begin{array}{**lr**}  
        9 \\  
        5   
    \end{array}  
\right ) = 3 \times 9 + 7 \times 5 = 62
\end{equation}  
$

> 点积的结果是一个单一的数值，称为`标量`(scalar)

点积有何用途呢？假设我们用向量表示用户对喜剧、言情剧和动作片3种不同类型电影的喜欢程度，取值范围1～5：
+ $
\begin{equation}  
\left (
    \begin{array}{**lr**}  
        5 \\  
        1 \\
        3
    \end{array}  
\right ) 
\end{equation}  
$

5表示喜欢喜剧、1表示不喜欢言情剧、3表示不喜欢也不讨厌动作片。

假设有两部电影，一部是言情喜剧片($m_1$)，一部是喜剧动作片($m_2$)。每部电影同样有自己的特征向量，如下所示：
+ $
\begin{equation}  
m_1 = \left (
    \begin{array}{**lr**}  
        4 \\  
        5 \\
        1
    \end{array}  
\right ) , 
m_2 = \left (
    \begin{array}{**lr**}  
        5 \\  
        1 \\
        5
    \end{array}  
\right )
\end{equation}  
$

为了决定向用户推荐哪部电影，我们使用点积将用户的偏好向量和每部电影的特征向量相乘，乘积最高的电影将被推荐给用户。对于$m_1$：
+ $
\begin{equation}  
\left (
    \begin{array}{**lr**}  
        5 \\  
        1 \\
        3
    \end{array}  
\right ) \cdot
\left (
    \begin{array}{**lr**}  
        4 \\  
        5 \\
        1
    \end{array}  
\right ) 
= 4*5 + 5*1 + 3*1 = 28
\end{equation}  
$

计算结果是28，这意味着什么呢？它的尺度是什么？ 我们知道向量中每个位置的最大值是5，因此：
+ $
\begin{equation}  
\left (
    \begin{array}{**lr**}  
        5 \\  
        5 \\
        5
    \end{array}  
\right ) \cdot
\left (
    \begin{array}{**lr**}  
        5 \\  
        5 \\
        5
    \end{array}  
\right ) 
= 5*5 + 5*5 + 5*5 = 75
\end{equation}  
$

最小值是1：
+ $
\begin{equation}  
\left (
    \begin{array}{**lr**}  
        1 \\  
        1 \\
        1
    \end{array}  
\right ) \cdot
\left (
    \begin{array}{**lr**}  
        1 \\  
        1 \\
        1
    \end{array}  
\right ) 
= 3
\end{equation}  
$

计算结果28所处的尺度是`3～75`。

在计算用户对$m_2$的喜欢程度：
+ $
\begin{equation}  
\left (
    \begin{array}{**lr**}  
        5 \\  
        1 \\
        3
    \end{array}  
\right ) \cdot
\left (
    \begin{array}{**lr**}  
        5 \\  
        1 \\
        5
    \end{array}  
\right ) 
= 5*5 + 1*1 + 3*5 = 41
\end{equation}  
$

下图表示两个分数在尺度`3～75`的位置：
<img src="attachment:04_02.png" style="width:600px;"/>

因此，我们将把第2部电影推荐给用户。

实际上，这正是大多数推荐引擎的工作原理。它们以向量的形式构建用户简历，同时用向量表示每一部电影，最后将它们和用户简历进行连接(可能使用点积)，以此为用户提供推荐内容。

### 4.2.3 图表
这里只简单介绍一些图表的约定和符号。

`图4.4`是一个`笛卡儿图`。符号$x$和$y$是标准符号，但并不能解释这幅图的全部含义。通常情况下，我们将$x$称为`自变量`(independent variable)， `y`称作`因变量`(dependent variable)，即$y$是关于$x$的函数，$y$值依赖于$x$值，这才是`图4.4`的真正含义。

假设图中有两个点，如`图4.5`所示：
<img src="attachment:04_04.png" style="width:600px;"/>

我们将以上两点称为$(x_1, y_1)$和$(x_2, y_2)。

两点之间的`斜率`计算如下：
+ $斜率 = m = \frac{y_2-y_1}{x_2-x_1}$

`斜率`指两点之间的变化比率(rate of change)。变化比率在数据科学中非常重要，特别是在涉及微分方程和微积分运算时。变化比率是表示变量如何同时变化，以及变化程度的指标。

`线性回归`(linear regression)机器学习算法就是通过变量间的变化比率关系进行预测。

> 可以将笛卡儿平面想象成由两个无限向量构成的无边界平面。当我们说$3D$或$4D$时，指由包含更多向量组成的无限空间。 $3D$空间由3个向量构成，$7D$空间由7个向量构成，以此类推

### 4.2.4 指数/对数
`指数`指数字和自身相乘的次数：
<img src="attachment:04_05.png" style="width:600px;"/>

`对数`则用于回答"以A数为底(base)得到B的指数是多少？"：
<img src="attachment:04_06.png" style="width:600px;"/>

事实上，对数和指数高度相关，对数即指数。以上两个公式是同一个事物的两种表示方式：
<img src="attachment:04_07.png" style="width:450px;"/>

对数和指数在计算增长率时也特别有用。大部分时候，指数和对数可以帮助我们对数量的增长趋势进行建模。 

常数$e$约等于$2.718$，它在实践中具有很强的实用性。最常见的例子是计算资金的增长情况。假设银行账户有5000美元，以年化利率$3%$进行增长。我们使用以下公式对存款余额进行建模：
+ $A = Pe^{rt}$
其中：
    - $A$为最终的存款金额
    - $P$为初始投资金额(5000 美元)
    - $e$为常数2.718
    - $r$为年化增长率(0.03)
    - $t$为时间(单位：年)

计算账户余额需要多长时间才能翻倍：
+ $10000 = 5000e^{0.03t}$

等价于求解：
+ $2 = e^{0.03t}$

用对数方程表示：
+ $\log_{e}{(2)} = 0.03^t$

通常将以$e$为底的对数称为`自然对数`：
+ $\ln2 = 0.03^t$

由于$\ln2 = 0.69$，因此，$0.03t = 0.69$，$t=23$，即23年后我们的资产才能翻倍。

### 4.2.5 集合论
`集合论`指面向集合对象的数学运算，它被认为是其他数学原理和定理的根基之一。集合论主要用来处理包含大量元素的群体。

集合是由一组不重复对象构成的群体，仅此而已！集合可以被看作`Python`中的列表，但不含重复对象。事实上，`Python`有专门的集合对象`set`：

In [5]:
s = set()
s = set([1, 2, 2, 3, 2, 1, 2, 2, 3, 2])
s

{1, 2, 3}

在`Python`中，花括号`{}`既可以指`集合`，也可以指`字典`。字典由键和键值成对组成：

In [6]:
dict = {"dog": "human's best friend", "cat": "destroyer of world"} 
dict["dog"]

"human's best friend"

In [7]:
# if we try to create a pair with the same key as an existing key
# it will override the previous value
dict["dog"] = "Arf"
dict

{'dog': 'Arf', 'cat': 'destroyer of world'}

字典和集合共用同样的符号，是因为它们具有同样的特性：集合不可以用重复项，正如字典不可以有重复键一样。

集合的大小是一个描述集合所含元素数量的值，表示方式为：
+ $|A| = A的大小$

> 集合可以为空，用符号$\emptyset$表示。空集的大小为零。

我们使用符号$\in$表示某个元素包含在集合中：
+ $2 \in \{1, 2, 3\}$

如果一个集合包含在另一个集合中，我们称第1个集合是第2集合的子集：
+ $A = \{1,5,6\}, B = \{1,5,6,7,8\} A \subseteq B$

$A$是$B$的子集，$B$是$A$的超集。如果$A$是$B$的子集且$A$不等于$B$，那么$A$是$B$的真子集。

在数据科学中，我们用集合/列表表示一系列对象，很多时候用来归纳用户的行为。

假设一家营销公司想预测客户将购买哪个品牌的衣服。假设1个客户曾购买过Target、 Banana Republic和Old Navy：

In [8]:
user1 = {"Target","Banana Republic","Old Navy"}

我们在以上代码中使用`{}`符号创建一个集合，而不是用`[]`符号创建一个列表。

第2个客户购买过的品牌有：

In [9]:
user2 = {"Banana Republic","Gap","Kohl's"}

我们希望知道这两个客户的相似程度。我们可以将相似性定义为两个客户都购买过的品牌有哪些，这被称为`交集`：
+ $user1 \cap user2 = \{\rm Banana \rm Republic\}$

两个集合的并集指由两个集合中所有元素组成的集合，用符号$\cup$表示：
+ $user1 \cup user2 = \{\rm Banana \rm Republic, \rm Target, \rm Old \rm Navy, \rm Gap, \rm Kohl's\}$

当我们计算user1和user2的相似度时，应同时使用交集和并集。我们可以定义两者的相似度为：
+ $\frac{|user1 \cap user2|}{|user1 \cup user2|} = \frac{1}{5} = 0.2$

事实上，在集合理论中它有一个正式的名字，叫`杰卡德相似度`(jaccard similarity)。

对于集合$A$和$B$，两者的杰卡德相似度为：
+ $JS(A,B) = \frac{|A \cap B|}{|A \cup B|}$

杰卡德相似度为我们提供了一种量化集合相似性的方法。杰卡德相似度的值介于`0～1`，当相似度接近0时表示几乎没有共性，当相似度接近1时表示客户相似性最高。

以上内容用Python表示：

In [10]:
user1 = {"Target","Banana Republic","Old Navy"} 
user2 = {"Banana Republic","Gap","Kohl's"}

def jaccard(user1, user2):
    stores_in_common = len(user1 & user2) 
    stores_all_together = len(user1 | user2) 
    return stores_in_common / float(stores_all_together)

jaccard(user1, user2)

0.2

## 4.3 线性代数
还记得之前的电影推荐引擎吗？如果我们要从10000部电影中选出10部推荐给用户，我们需要将每个用户的简历和10000部电影分别计算点积。`线性代数`为我们提供了更高效的计算工具。

`线性代数`是计算矩阵和向量的一个数学分支。它通过对计算对象进行分解和重构，增强了实用性。

下面我们介绍几个线性代数的处理规则。

##### 矩阵乘积
本质上，矩阵乘积是同时进行大量点积运算的过程。例如：
+ $
\begin{equation}  
\left (
    \begin{array}{**lr**}  
        1 & 5 \\  
        5 & 8 \\
        7 & 8
    \end{array}  
\right ) 
\cdot
\left (
    \begin{array}{**lr**}  
        3 & 4 \\  
        2 & 5   
    \end{array}  
\right )
\end{equation}  
$

需要注意的是：
+ 矩阵乘积不支持交换律，矩阵相乘的顺序影响着最终结果
+ 为了对矩阵进行乘积，矩阵的维度必须匹配。第1个矩阵的列数，必须和第2个矩阵的行数一致

矩阵的乘积是一个新矩阵，新矩阵的每个元素都是原矩阵对应行和列的点积。因此：
+ $
\begin{equation}  
\left (
    \begin{array}{**lr**}  
        1 & 5 \\  
        5 & 8 \\
        7 & 8
    \end{array}  
\right ) 
\cdot
\left (
    \begin{array}{**lr**}  
        3 & 4 \\  
        2 & 5   
    \end{array}  
\right )
= 
\left (
    \begin{array}{**lr**}  
        1*3+5*2 & 1*4+5*5 \\  
        5*3+8*2 & 5*4+8*5 \\
        7*3+8*2 & 7*4+8*5
    \end{array}  
\right ) 
= 
\left (
    \begin{array}{**lr**}  
        13 & 29 \\  
        31 & 60 \\
        37 & 68
    \end{array}  
\right ) 
\end{equation}  
$

回到电影推荐的案例。我们已经知道用户对喜剧、言情剧和动作片的偏好是：
+ $
\begin{equation}  
U = 用户偏好 = 
\left (
    \begin{array}{**lr**}  
        5 \\  
        1 \\
        3
    \end{array}  
\right ) 
\end{equation}  
$

假设我们有10000部电影，每部电影都有喜剧、言情剧和动作片3个特征值。为了给用户推荐电影，我们需要将用户的偏好向量和10000部电影的特征向量进行乘积。我们用矩阵M表示电影的特征：
+ $M = 3 \times 10000 维度矩阵$

现在我们有两个矩阵：一个是$3 \times 1$维度，另一个是$3 \times 10000$维度。由于这两个矩阵维度不满足相乘条件，我们需要对矩阵$U$进行`转置`(transpose)，即行转为列，列转为行。转置后的新矩阵如下：
+ $U^T = U的转置 = (5,1,3)$

转置后两个矩阵可以相乘，乘积的结果是$1 \times 10000$的新矩阵(向量)，矩阵中每个数字代表对应电影的推荐值。

用Python实现：

In [11]:
# create user preferences 
user_pref = np.array([5, 1, 3])

# create a random movie matrix of 10,000 movies 
# Note that the randint will make random integers from 0-4 
# so I added a 1 at the end to increase the scale from 1-5
movies = np.random.randint(5,size=(3,10000))+1

# np.dot does both dot products and matrix multiplication 
result = np.dot(user_pref, movies)

result.shape

(10000,)

测试一下性能：

In [12]:
for num_movies in (10000, 100000, 1000000, 10000000, 100000000):
    movies = np.random.randint(5,size=(3, num_movies))+1 
    now = time.time() 
    np.dot(user_pref, movies) 
    print((time.time() - now), "seconds to run", num_movies, "movies")

0.00016450881958007812 seconds to run 10000 movies
0.0007500648498535156 seconds to run 100000 movies
0.009714841842651367 seconds to run 1000000 movies
0.09295082092285156 seconds to run 10000000 movies
1.3284733295440674 seconds to run 100000000 movies


## 4.4 总结
我们在本章介绍了基本数学原理—对数、指数、矩阵代数和比例项等。数学在数据分析中扮演着重要角色。

接下来的章节将深入研究两个数学领域—`概率论`和`统计学`。我将详细解释这两个领域涉及的各种大大小小的理论。