# 文本数据处理

学习如何处理文本数据，资料来自[R语言秘籍 第4章节](https://bookdown.org/yihui/r-ninja/text-data.html)

### 注意，无论在哪个平台运行脚本，都应该了解相关文本编码，由于文本编码方式很多，学习和使用时尽量使用UTF-8编码方式

## 基本操作

读取文本用`readLines()`函数，它返回一个字符型向量。

In [1]:
# 我们来看看R软件许可文件 GPL
gpl = readLines(file.path(R.home(), "COPYING"))
head(gpl) # 查看头几行

In [2]:
# 查看谢益辉主页
xie = readLines("https://yihui.name") 
head(xie)

有一个叫`readline()`的函数，它与上面函数功能不同，支持从键盘输入一行文本。很显然这是用来进行人机交互的，就像Linux下的`read`命令。

In [3]:
x = readline("Answer yes or no:")

Answer yes or no:yes


运行后会要求你输入一行文本，回车结束，它会读入你输入的字符。同理，`writeLines()`就是把R对象写入文本的函数。

我们使用`nchar()`函数计算刚才读入的GPL文件每行有多少字符：

In [4]:
nchar(gpl[1:10]) # 前10行

In [5]:
sum(nchar(gpl)) # 全文字符

>对字符串长度来说，学过其它语言如JavaScript或Python的忍者的第一反应可能是length()之类的函数，比如gpl.length()或者length(gpl)，R语言不是这一套，在R里面length()只有一个意思，就是对象中的元素个数，比如向量里有多少个元素，所以length(gpl)返回的实际上是GPL文件有多少行（一行是向量gpl中的一个元素）。

>好了，现在你已经会数数了，比水木Joke版的猪头强了，给个练习题吧，帮我统计一下我的博客文章的字数，看看我写博客这几年有什么趋势；源文件在https://github.com/rbind/yihui.name，这事儿其实已经有人做了，不过请不要偷看答案。

`strsplit()`函数按指定的分隔符拆分字符串，比如说用空格：

In [6]:
strsplit(gpl[4:5], " ") # 拆分第4、5两行

下面我们把GPL文本内容拆分成单词并统计词频。这里需要利用正则表达式来代表单词之间的分隔符。

>`strsplit()`的分隔符支持正则表达式，而在正则表达式中，单词之间的分隔符可以统一被表达为`\\W`（反斜杠引导大写字母W），这个特殊表达式可以匹配任意非单词的字符。R中table()函数可以计算一个向量中每个元素出现的频数，于是这事儿就差不多了。

In [7]:
words = unlist(strsplit(gpl, "\\W"))

words = words[words != ""] # 去掉空字符
# 频数最大的10个单词
tail(sort(table(tolower(words))), 10)


   this      is       a program     and     you      or      of      to     the 
     49      53      57      71      72      76      77     104     108     194 

In [8]:
# 另一种写法
head(sort(table(tolower(words)), decreasing = TRUE), 10)


    the      to      of      or     you     and program       a      is    this 
    194     108     104      77      76      72      71      57      53      49 

>冠词the和a出现频率高一点都不奇怪，除去它们和一些常见介词，剩下的基本上就是program这个词了。GPL是什么？它是开源软件的一种许可证，所以程序（program）这个词的词频高也就不奇怪了。

如果按照位置来拆分字符串的话就叫**字符串截取**啦，可以使用`substr()`或`substring()`函数。指定起始位置和终止位置。

In [9]:
xie[8]

看这结果明显中文编码不对哈~

截取`<title>`与`</title>`中间的字符串：


In [10]:
substr(xie[8], 12, 26)

前面讲的是拆，接下来讲拼。

>R里面paste()函数可以用来拼字符串，它有两个参数：sep和collapse。据我混迹COS论坛多年的经验，这个函数是一朵奇葩，它的神奇之处在于，无数英雄豪杰只知道前一个参数而不知道后一个。于是，我数次感叹，肿么回事啊，一共就这么两个参数，肿么大家永远没有耐心把帮助文档看完呢？为了理解它们，先看一个例子：

In [11]:
paste(1:3, "a")

In [12]:
paste(1:3, "a", sep = "-")

In [13]:
paste(letters[1:10], collapse = "~")

In [14]:
paste(1:3, "a", sep = "-", collapse = "+")

>sep用来横向拼接向量，比如把第一个向量和第二个向量按元素顺序逐对拼起来，而collapse是把一个向量内部所有元素按一个分隔符拼接为单个字符串。按照R的自动扩展原则，如果有一个向量短，它会被首先扩展到长向量的长度，再去拼接。总结一下，sep返回的仍然是一个向量，每个元素是所有向量中的相应位置上的元素拼出来的；而collapse把字符向量“坍缩”为一个字符串。

下面是一个拼接字符串的浪漫例子（感谢原作者）：

In [15]:
happy = function() cat("Happy birthday to you\n")
sing = function(person) {
    happy()
    happy()
    cat(paste("Happy birthday dear", person, "\n"))
    happy()
}
sing("Dan Zhou")  # 对我的爱人吼一嗓子吧

Happy birthday to you
Happy birthday to you
Happy birthday dear Dan Zhou 
Happy birthday to you


>这不仅仅是一个浪漫的函数，也深刻反映了程序员的基本素质：抽象与模块化。此时，有些看官可能心里长叹，在程序世界征战代码半辈子，还不如人家一首生日歌。

（有意思）

## 正则表达式

> 简单的拼拆操作当然也远不够数据分析用，还有**几项常见的任务**：查找、替换、提取符合特定特征的字符。这些操作就得请出**正则表达式**了（Regular Expression），**它是具有特殊含义的字符串**，最大的优势在于它根据特征而不是固定的位置来处理数据。

下面使用正则表达式来提取标题

In [16]:
gsub("<title>|</title>", "", xie[8])

In [17]:
sub("<title>(.*)</title>", "\\1", xie[8])

>上面给出了两种办法：一种是把<title>或</title>替换为空字符串（删掉了这两串字符剩下的就是标题了），另一种是用圆括号语法配合引用，提取这两串字符之间的所有内容。在这个例子里，两个办法没什么区别。

下面还是接着看谢大的笔述，我删去了一小部分
>R中有一系列类似的函数，这里用到的是其中两个用来替换的函数，参见?grep的帮助页面。这些函数的第一个参数是一个正则表达式，从上面简单的例子里面我们可能已经感受到它的语法了，比如竖线|表示“或者”，这和程序语言很像，而单个.代表任意单个字符，星号*是一个表示匹配任意多次的修饰符，.*一起表示匹配任意字符任意多次，默认会**贪婪匹配**。圆括号把一组特征括起来，然后跟这一组特征能匹配上的所有字符就可以用反斜杠引导的数字引用引出来，圆括号可以使用多组，每一组匹配到的内容在后面都可以用顺序的数字（1-9）引用，因为我们这里只用了一组括号，所以后面用的是第1组引用。

>现在我们把上面两句代码用普通语言“翻译”一遍：

>- 替换字符串<title>或者</title>为空字符串（即：删掉它们）
>- 搜索<title>，然后开始匹配任意字符，直到遇到</title>为止，然后把匹配到的这一段字符提出来
>如此一来，我们就不必管<title>和</title>究竟出现在第几个字符的位置上了，正则表达式自然会去找它们。

对于贪婪匹配不了解的可以借助搜索引擎查一下，下面是一个实例。

In [18]:
sub("<title>|</title>", "", xie[8])

>可以看到`</title>`没有被替换掉,这是因为sub()先看到了`<title>`，把它替换为空，它就认为自己的工作完成了，于是马上返回结果；而gsub()则会一直在字符串中找，凡是能找到正则表达式规定的特征，就去执行任务。所以**前者非贪婪，后者贪婪**。

>grep这一组函数基本都有一个带g和不带g的版本，比如gsub()和sub()，gregexpr()和regexpr()。带g的会尽量贪婪操作，而不带的只操作一次。

### 参见?regexp，这是你需要看八百遍的文档

好吧，我还没看过呢，来一起瞧瞧

In [19]:
?regexp

>下面的例子来自于<http://cos.name/cn/topic/104126/>，其实是个没事找抽的例子，但可以说明字符集的基本用法。我们的任务是从几行字符串中提取R包的名字（包名由所有大小写字母、数字和点构成），先上代码：

In [23]:
pkgs <- readLines("04-package-names.txt")

In [24]:
str(pkgs)

 chr [1:7] "[1] \"base\" \"boot\" \"class\" \"cluster\" \"codetools\"" ...


In [25]:
cat(pkgs, sep = "\n") # 原始文本

[1] "base" "boot" "class" "cluster" "codetools"
[6] "compiler" "datasets" "fdrtool" "foreign" "graphics"
[11] "grDevices" "grid" "KernSmooth" "lattice" "MASS"
[16] "Matrix" "methods" "mgcv" "monreg" "nlme"
[21] "nnet" "parallel" "rpart" "spatial" "splines"
[26] "stats" "stats4" "survival" "tcltk" "tools"
[31] "utils" 


In [29]:
# pkgs = gsub("([^\"]+)\"([a-zA-Z0-9\\.]+)\"", "\\2", pkgs)
pkgs = gsub("([^\"]+)\"([a-zA-Z0-9\\.]+)\"", "\\2 ", pkgs)

In [30]:
pkgs = unlist(strsplit(pkgs, "[[:space:]]+"))

In [31]:
str(pkgs)

 chr [1:7] "basebootclassclustercodetools" ...
