# 总体思路

> 注意，我只做了第一题，因为这是最难的部分，第二题实际上非常容易。
>
> "class"和“类”两个词在下面可能混用，但它们实际上指的是同一个东西。

- 先把正文从html中提取出来（可以使用正则表达式，提取`<p>...</p>`标签之间的内容）。最后生成一个字符向量，每个element都是一篇文档。例如：

  ```
  collection = c("john ate a cake in a cake store",
        "kate likes eating cake")
  ```
    
    
    其中，`collection`包含了两篇文档，第一篇文档是`john ate a cake in a cake store`，第二篇是`kate likes eating cake`
    
- 然后建立一个名为`LATimes`的class。这个class有两个slot，第一个是`counter`，包含了每个word及其occur，类型是`list`, 第二个slot是`n_article`，存储了文档总数，类型是`numeric`。注意，`n_article`并不是题目所要求的，我是顺手加上去的。


- 然后定义用来初始化（解析文档）的函数`parse_article`。由于R是一种functional programming language（区别于Python等大多数语言），函数在R中是“first-class object”。这意味着，我们需要定义三个版本的`parse_article`函数，分别是`parse_article`（base版本），`parse_article.LATimes`（只应用于`LATimes`这个class的版本），以及`parse_article.default`（应用于`LATimes`以外所有class的版本）。R会自动使用一个叫做**method dispatch**的功能来为函数找到对应的class。


- 如果你对面向对象编程（OOP）不太了解，那么看了上面这番话你可能一脸懵逼……而且，哪怕你具有OOP的知识，如果没了解functional programming language,可能还是一脸懵逼。关于R中的OOP可以整整写一本书，我没法几句话讲清楚。我在这只能提供给你代码，并尽量做好注释。感兴趣的话，可以阅读Hadley的*Advanced R*，那是本关于R的圣经。此外，关注我的R语言公众号也是个不错选择（微信搜索：大猫的R语言课堂） :P


- 另一些关于R中class的题外话。R中的class有s3和s4两种，虽然谷歌曾经鼓励都用s4，但是事实上大多数的包都采用s3（因为s3使用人数最多并且建立起来更方便），所以这里我也建议采用s3建立。（如果没听说过s3和s4，直接忽略这段话……）


- 在建立好我们的class（`LATimes`）和函数(三个版本的`parse_article`)之后，剩下的只需要对`LATimes`调用`parse_article`，我们的工作就完成了。

## Step 1
我这里假设你已经解析好了html，并得到了下面这个collection，我们要做的就是统计这个colelction中的词频。

In [2]:
# 由于我的机器是非中文环境，我使用下面的语句转换成中文环境。如果你的系统语言是中文，那就不需要执行下面这行
Sys.setlocale(category="LC_ALL", local="Chinese (Simplified)_China.936")

# 导入对应的包，如果没有请先下载
library(stringr)
library(magrittr)

# 作为demo，假设你已经解析HTML得到了下面这个collection
collection = c("john ate a cake in a cake store",
        "kate likes eating cake")

Your code contains a unicode char which cannot be displayed in your
current locale and R will silently convert it to an escaped form when the
R kernel executes this code. This can lead to subtle errors if you use
such chars to do comparisons. For more information, please see
https://github.com/IRkernel/repr/wiki/Problems-with-unicode-on-windows

## Step 2
这里我们建立 `LATimes`这个class。

In [3]:
LATimes <- function() {
    # LATimes 这个类有两个field，分别为counter和n_article
    # counter 用来存储词频
    # n_article 用来存储文章总数 （非题目要求）
    la <- list(
        counter = list(),
        n_article = 0
    )
    ## Set the name for the class
    class(la) <- append(class(la),"LATimes")
    return(la)
}

## Step 3
建立初始化`LATimes`的函数。我们需要定义三个版本的`parse_article`函数，分别是`parse_article`（base版本），`parse_article.LATimes`（只应用于`LATimes`这个class的版本），以及`parse_article.default`（应用于`LATimes`以外所有class的版本）。关于如何为class建立函数，可以参考[这篇博客](https://www.cyclismo.org/tutorial/R/s3Classes.html)


In [4]:
# base 版本
parse_article <- function(obj, collection) {
    UseMethod("parse_article", obj)
}

# default版本，当传递给parse_article的object不是我们定义的LATimes这个class时，R会自动调用这个版本
parse_article.default <- function(obj, collection) {
    print("Function parse_article is NOT defined for this object!")
    return(obj)
}

# LATimes版本，也就是我们需要使用的版本。当传递给parse_article的object是LATimes时，R调用这个版本
parse_article.LATimes <- function(obj, collection) {
    print("Parsing articles")
    
    # 如果obj是空的，那么我们就初始化
    # 否则，不进行任何操作，直接返回
    if (length(obj$counter) != 0) {
        print("Please provide an empty object!")
        return(obj)
    }
    
    # First, loop over every article in the collection
    # then loop over every word in the article to get word count
    counter = list()
    
    for (article_i in 1:length(collection)) {
        article_i_as_string <- as.character(article_i)
        article <- collection[article_i] %>% str_split(' ', simplify=T) %>% as.character()

        for (word_i in 1:length(article)) {
            word = article[word_i]
            if (!(word %in% names(counter))) {
                counter[[word]] <- list()
                counter[[word]][[article_i_as_string]] <- 1
            } else {
                if (!(article_i_as_string %in% names(counter[[word]]))) {
                    counter[[word]][[article_i_as_string]] <- 1
                } else {
                    counter[[word]][[article_i_as_string]] <- counter[[word]][[article_i_as_string]] + 1
                }
            }         
        }
    }
    
    # 把得到的结果赋值给我们的object，也就是LATimes
    obj$n_word <- length(counter)
    obj$counter <- counter
    
    print("Parsing done!")
    # init LATimes
    return(obj)
}

## Step 4

首先，我们建立一个变量latimes。如果我们打印它，会发现它是空的，因为我们没有初始化

In [5]:
latimes <- LATimes()
latimes # counter is empty, and n_article is zero!

然后我们初始化。这时我们再打印，会发现counter和n_article就有内容了。例如cake这个词，我们会发现它在第一篇出现了2词，第二篇出现了一次。

In [6]:
latimes = parse_article(latimes, collection)
print("Here's the word count")
print(latimes$counter)
print("Total number of articles")
print(latimes$n_word)

[1] "Parsing articles"
[1] "Parsing done!"
[1] "Here's the word count"
$john
$john$`1`
[1] 1


$ate
$ate$`1`
[1] 1


$a
$a$`1`
[1] 2


$cake
$cake$`1`
[1] 2

$cake$`2`
[1] 1


$`in`
$`in`$`1`
[1] 1


$store
$store$`1`
[1] 1


$kate
$kate$`2`
[1] 1


$likes
$likes$`2`
[1] 1


$eating
$eating$`2`
[1] 1


[1] "Total number of articles"
[1] 9
