# 从零开始实现word2vec并进行语义分析

## 摘要

本项目主要目标是探索利用神经网络进行自然语言处理。具体来说，实现三部分内容，第一部分是搭建基础神经网络，第二部分是实现word2vec，第三部分是进行语义分析。   
本项目的内容主要来自于斯坦福大学2017年学期CS224n课程‘Natural Language Processing with Deep Learning’的作业。   
课程地址：http://web.stanford.edu/class/cs224n/。   
授课教师：[Chris Manning](https://nlp.stanford.edu/manning/)，[Richard Socher](http://socher.org/)   
注意：与原作业内容不同的是，本文使用的是python3

## 第一部分 搭建基础神经网络

### 1. softmax

#### a. softmax性质

首先证明给softmax的输入x加上任意常数c，不影响结果：
$$softmax(x) = softmax(x + c)$$
softmax的公式如下：
$$softmax(x)_i = \frac {e^{x_i}}{\sum _j e^{x_j}}$$

给出证明过程：$$softmax(x+c)_i = \frac {e^{(x_i+c)}}{\sum _j e^{(x_j+c)}} = \frac {e^{c}e^{x_i}}{e^{c}\sum _j e^{x_j}} = \frac {e^{x_i}}{\sum _j e^{x_j}} = softmax(x)$$

实践中，我们经常使用softmax的这个性质，c的取值一般为：$c=-max(x_i)$，也就是说，给x中的每一个元素减去x中的最大值。这样的好处是，**防止由于计算值过大或过小，导致程序溢出**。

#### b.softmax的python实现

下面是softmax函数的python实现：

In [9]:
import numpy as np
def softmax(x):
    """Compute the softmax function for each row of the input x.

    It is crucial that this function is optimized for speed because
    it will be used frequently in later code. You might find numpy
    functions np.exp, np.sum, np.reshape, np.max, and numpy
    broadcasting useful for this task.

    Numpy broadcasting documentation:
    http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html

    You should also make sure that your code works for a single
    N-dimensional vector (treat the vector as a single row) and
    for M x N matrices. This may be useful for testing later. Also,
    make sure that the dimensions of the output match the input.

    You must implement the optimization in problem 1(a) of the
    written assignment!

    Arguments:
    x -- A N dimensional vector or M x N dimensional numpy matrix.

    Return:
    x -- You are allowed to modify x in-place
    """
    orig_shape = x.shape

    if len(x.shape) > 1:
        # Matrix 
        
        # 1. Subtract the max value for solving overflow problem since we proved that softmax is invariat to constant offsets.
        tmp = np.max(x,axis=1)
        x-=tmp.reshape((x.shape[0],1))# here we use Numpy broadcasting

        # 2. compute the softmax 
        x = np.exp(x)
        tmp = np.sum(x, axis = 1)
        x /= tmp.reshape((x.shape[0], 1))# here we use Numpy broadcasting
    else:
        # Vector 
        tmp = np.max(x)
        x -= tmp
        x = np.exp(x)
        tmp = np.sum(x)
        x /= tmp
    return x

你可以通过以下代码进行测试：

In [13]:
print("Running basic tests...")
test1 = softmax(np.array([1,2]))
print(test1)
ans1 = np.array([0.26894142,  0.73105858])
assert np.allclose(test1, ans1, rtol=1e-05, atol=1e-06)

test2 = softmax(np.array([[1001,1002],[3,4]]))
print(test2)
ans2 = np.array([
    [0.26894142, 0.73105858],
    [0.26894142, 0.73105858]])
assert np.allclose(test2, ans2, rtol=1e-05, atol=1e-06)

test3 = softmax(np.array([[-1001,-1002]]))
print(test3)
ans3 = np.array([0.73105858, 0.26894142])
assert np.allclose(test3, ans3, rtol=1e-05, atol=1e-06)

print("You should be able to verify these results by hand!\n")

Running basic tests...
[ 0.26894142  0.73105858]
[[ 0.26894142  0.73105858]
 [ 0.26894142  0.73105858]]
[[ 0.73105858  0.26894142]]
You should be able to verify these results by hand!



### 2. Neural Network Basics

#### a. 求sigmoid函数的梯度

求sigmoid函数的梯度，并证明该函数的梯度能用该函数表示。sigmoid函数如下：$$\sigma(x) = \frac{1}{1+e^{-x}}$$

求解过程可以从网上搜索或者参见以下文章，这里不再赘述。

- [sigmoid函数求导与自然指数](http://blog.csdn.net/caimouse/article/details/66473030)   
- [sigmoid函数求导的步骤补充](http://blog.csdn.net/csdn_zf/article/details/72897617)   

这里直接给出结果：   
$$σ′(x) = σ(x)(1 − σ(x))$$

意义：**直接使用得到的公式用于计算sigmoid函数的梯度大大提高代码效率。**

#### b. 求交叉熵对输入$\theta$的导数

假设我们使用交叉熵作为代价函数，交叉熵公式如下：$$CE(y,\hat y) = − \sum_i y_ilog(\hat y_i)$$

$y_i$是真实值，$\hat y_i$ 是预测值，假设预测值由激活函数softmax得到，即：$\hat y = softmax(\theta)$，我们要做的是，求交叉熵对激活函数的输入$\theta$的偏导数：$\frac{\partial CE(y,\hat y)}{\partial \theta}$

求解过程可以参考下面两篇文章：   
- [手打例子一步一步带你看懂softmax函数以及相关求导过程](http://www.jianshu.com/p/ffa51250ba2e)
- [交叉熵代价函数(损失函数)及其求导推导](http://blog.csdn.net/jasonzzj/article/details/52017438)

结果：$$\frac{\partial CE(y,\hat y)}{\partial \theta} = \hat y−y$$

意义：**直接使用得到的公式用于计算交叉熵的偏导数大大提高代码效率。**