# 1.文本切分

一段文本或一个文本文件具有几个组成部分，包括可以进一步细分为从句、短语和单词的语句。最流行的文本切分技术包括句子切分和词语切分，用于将文本语料库分解成句子，并将每个句子分解成单词。因此，文本切分可以定义为将文本数据分 解或拆分为具有更小且有意义的成分（即标识）的过程。

## 1.1 句子切分

句子切分(sentence tokenization)是将文本语料库分解为句子的过程，这些句子是组成语料库的第一季切分结果，这个过程也叫句子分割。我们尝试将文本分割成有意义的句子。执行句子切分有多种技术，基本技术包括在句子之间寻找特定的分隔符，例如句号(.)、换行符(\n)或者分号(;)。我们将使用NLTK框架进行切分，该框架提供用于执行句子切分的各种接口：                                
   - sent_tokenize
   - PunktSentence Tokenization
   - Regexp Tokenization
   - 预训练的句子切分模型                     

我们使用NLTK中古腾堡(Gutenberg)语料库：

In [2]:
import nltk
from nltk.corpus import gutenberg
from pprint import pprint

注：print()和pprint()都是python的打印模块，功能基本一样，唯一的区别就是pprint()模块打印出来的数据结构更加完整，每行为一个数据结构，更加方便阅读打印输出结果。特别是对于特别长的数据打印，print()输出结果都在一行，不方便查看，而pprint()采用分行打印输出，所以对于数据结构比较复杂、数据长度较长的数据，适合采用pprint()打印方式。当然，一般情况多数采用print()。

In [3]:
# 下载古登堡数据集
nltk.download('gutenberg')

[nltk_data] Downloading package gutenberg to
[nltk_data]     C:\Users\Leo\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\gutenberg.zip.


True

In [4]:
# 加载文本集
alice = gutenberg.raw(fileids="carroll-alice.txt")
sample_text = 'we will discuss briefly about the basic syntax, structure and design philosophies. There is a defined hierarchical syntax for Python code which you should remember when writing code! Python is a really powerful programming language!'

In [6]:
# 查看Alice in Wonderland 语料库的长度
print(len(alice))
# 查看Alice in Wonderland 语料库前100个字符
print(alice[0:100])

144395
[Alice's Adventures in Wonderland by Lewis Carroll 1865]

CHAPTER I. Down the Rabbit-Hole

Alice was


In [9]:
# nltk.sent_tokenize是nltk默认的句子切分函数
default_st = nltk.sent_tokenize
alice_sentences = default_st(text=alice)
sample_sentences = default_st(text=sample_text)
print('Total sentences in sample_text:',len(sample_sentences))
print('sample text sentences :-')
print(sample_sentences)
print('\nTotal sentences in alice:',len(alice_sentences))
print('First 5 sentences in alice :-')
print(alice_sentences[0:5])

Total sentences in sample_text: 3
sample text sentences :-
['we will discuss briefly about the basic syntax, structure and design philosophies.', 'There is a defined hierarchical syntax for Python code which you should remember when writing code!', 'Python is a really powerful programming language!']

Total sentences in alice: 1625
First 5 sentences in alice :-
["[Alice's Adventures in Wonderland by Lewis Carroll 1865]\n\nCHAPTER I.", "Down the Rabbit-Hole\n\nAlice was beginning to get very tired of sitting by her sister on the\nbank, and of having nothing to do: once or twice she had peeped into the\nbook her sister was reading, but it had no pictures or conversations in\nit, 'and what is the use of a book,' thought Alice 'without pictures or\nconversation?'", 'So she was considering in her own mind (as well as she could, for the\nhot day made her feel very sleepy and stupid), whether the pleasure\nof making a daisy-chain would be worth the trouble of getting up and\npicking the daisi

In [10]:
# 下面来看看德国文档(下载德语文本语料库)
nltk.download('europarl_raw')

[nltk_data] Downloading package europarl_raw to
[nltk_data]     C:\Users\Leo\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\europarl_raw.zip.


True

In [13]:
# 下面对德语文本进行句子切分
from nltk.corpus import europarl_raw
german_text = europarl_raw.german.raw(fileids='ep-00-01-17.de')
# 文本的总句子数
print(len(german_text))
# 德语文本前100个字符
print(german_text[0:100])
# 使用默认的sent_tokenize 切分器
german_sentences_def = default_st(text=german_text,language='german')
# 使用从nltk源加载的预训练的德语切分器
german_tokenizer = nltk.data.load(resource_url='tokenizers/punkt/german.pickle')
german_sentences = german_tokenizer.tokenize(german_text)
# 判断默认方式下的切分与预训练的德语切分器的结果是否一致
print(german_sentences_def == german_sentences)
# 输出预训练切分句子的前五句
for sent in german_sentences[0:5]:
    print(sent)

157171
 
Wiederaufnahme der Sitzungsperiode Ich erkläre die am Freitag , dem 17. Dezember unterbrochene Sit
True
 
Wiederaufnahme der Sitzungsperiode Ich erkläre die am Freitag , dem 17. Dezember unterbrochene Sitzungsperiode des Europäischen Parlaments für wiederaufgenommen , wünsche Ihnen nochmals alles Gute zum Jahreswechsel und hoffe , daß Sie schöne Ferien hatten .
Wie Sie feststellen konnten , ist der gefürchtete " Millenium-Bug " nicht eingetreten .
Doch sind Bürger einiger unserer Mitgliedstaaten Opfer von schrecklichen Naturkatastrophen geworden .
Im Parlament besteht der Wunsch nach einer Aussprache im Verlauf dieser Sitzungsperiode in den nächsten Tagen .
Heute möchte ich Sie bitten - das ist auch der Wunsch einiger Kolleginnen und Kollegen - , allen Opfern der Stürme , insbesondere in den verschiedenen Ländern der Europäischen Union , in einer Schweigeminute zu gedenken .


我们得出的结论是：默认切分器和预训练切分器的结果完全一致

最后再介绍一种基于正则表达式的句子切分方式，使用RegexpTokenizer类的示例切分为句子：

In [15]:
SENTENCE_TOKENS_PATTERN = r'(?<!\w\.\w)(?<![A-Z][a-z]\.)(?<![A-Z]\.)(?<=\.|\?|\!)\s'
regex_st = nltk.tokenize.RegexpTokenizer(pattern=SENTENCE_TOKENS_PATTERN,gaps=True)
sample_sentences = regex_st.tokenize(sample_text)
print(sample_sentences)

['we will discuss briefly about the basic syntax, structure and design philosophies.', 'There is a defined hierarchical syntax for Python code which you should remember when writing code!', 'Python is a really powerful programming language!']


## 1.2 词语切分

词语切分（word tokenization）是将句子分解或分割成其组成单词的过程。句子是单词的集合，通过词语切分，在本质上，将一个句子分割成单词列表，该单词列表又可以重建句子。词语切分在很多过程中都是非常重要的，特别是在文本清洗和规范化时，诸如词干提取 和词形还原这类基于词干、标识信息的操作会在每个单词上实施。与句子切分类似，nltk为词语切分提供了各种有用的接口：                           
   - word_tokenize
   - TreebankWordTokenizer
   - RegexpTokenizer
   - 从RegexpTokenizer继承的切分器

In [16]:
# 我们使用例句作为默认切分器的输入，并切分成词语
sentence = "The brown fox wasn't that quick and he couldn't win the race"
default_wt = nltk.word_tokenize
words = default_wt(sentence)
print(words)

['The', 'brown', 'fox', 'was', "n't", 'that', 'quick', 'and', 'he', 'could', "n't", 'win', 'the', 'race']


In [17]:
# 使用TreebankWordTokenizer类切分句子称为单词
treebank_wt = nltk.TreebankWordTokenizer()
words = treebank_wt.tokenize(sentence)
print(words)

['The', 'brown', 'fox', 'was', "n't", 'that', 'quick', 'and', 'he', 'could', "n't", 'win', 'the', 'race']


# 2.文本规范化

文本规范化定义为这样的一个过程，它包含一系列步骤，依次是转换、清洗以及将文本 数据标准化成可供 NLP、分析系统和应用程序使用的格式。通常，文本切分本身也是文本规范化的一部分。除了文本切分以外，还有各种其他技术，包括文本清洗、大小写转换、词语校正、停用词删除、词干提取和词形还原。文本规范化也常常称为文本清洗或转换。

In [18]:
# 加载工具库
import nltk
import re
import string
from pprint import pprint

# 文本
corpus = ["The brown fox wasn't that quick and he couldn't win the race","Hey that's a great deal! I just bought a phone for $199",
       "@@You'11 (learn) a **lot** in the book. Python is an amazing language!@@"]

## 2.1 文本清洗

通常，我们要使用或分析的文本数据都包含大量无关和不必要的标识和字符，在进行其他操作(如切分和其他规范化操作)之前，应该先删除它们。这包括从如 HTML 之类的数据源中提取有意义的文本，数据源中可能包含不必要的 HTML 标记，甚至是来自 XML 和 JSON feed 的数据。解析并清洗这些数据的方法很多，以删除不必要的标签。你可以使用定义的逻辑，包括正则表达式、xpath 和 lxml 库来解析 XML 数据。从 JSON 获取数据较为容易，因为它具有明确的键值注释。

## 2.2 文本切分

通常，在删除数据中多余字符和符号操作的前后，进行文本切分操作。文本切分和删除 多余字符的顺序取决于你要解决的问题和你正在处理的数据。上一节已经介绍了各种切分 技术，这里会定义一个通用的切分函数，并在前面提到的语料库中运行它。

In [22]:
# 定义文本切分函数
def tokenize_text(text):
    sentences = nltk.sent_tokenize(text)
    word_tokens = [nltk.word_tokenize(sentence) for sentence in sentences]
    return word_tokens

# 文本切分
token_list = [tokenize_text(text) for text in corpus]
pprint(token_list)

[[['The',
   'brown',
   'fox',
   'was',
   "n't",
   'that',
   'quick',
   'and',
   'he',
   'could',
   "n't",
   'win',
   'the',
   'race']],
 [['Hey', 'that', "'s", 'a', 'great', 'deal', '!'],
  ['I', 'just', 'bought', 'a', 'phone', 'for', '$', '199']],
 [['@',
   '@',
   "You'11",
   '(',
   'learn',
   ')',
   'a',
   '**lot**',
   'in',
   'the',
   'book',
   '.'],
  ['Python', 'is', 'an', 'amazing', 'language', '!'],
  ['@', '@']]]


## 2.3 删除特殊字符

文本规范化中的一个重要任务是删除多余和特殊的字符，诸如特殊符号或标点符号。这个步骤通常在切分操作前后进行。这样做的主要原因是：当我们分析文本并提取基于 NLP 和机器学习的特征或信息时，标点符号或特殊字符往往没有多大的意义。我们将在切分前后 删除这两类特殊的字符。以下代码段显示了如何在切分之后删除特殊字符：

In [46]:
# 定义删除特殊字符的函数
def remove_characters_after_tokenization(tokens):
    pattern = re.compile('[{}]'.format(re.escape(string.punctuation)))
    '''
    re.compile():将内部的字符转化为正则表达式能够识别的符号
    re.escape():将可能被解释为正则运算符的字符进行转义
    string.punctuation:包含所有的标点符号
    re.sub():将符合正则表达式的符号转化为想要的符号
    '''
    filtered_tokens = filter(None,[pattern.sub('',token) for token in tokens])
    return list(filtered_tokens)

# 删除特殊字符
filtered_list1 = [list(filter(None,[remove_characters_after_tokenization(tokens) for tokens in sentence_tokens])) for sentence_tokens in token_list]
print(filtered_list1)

[[['The', 'brown', 'fox', 'was', 'nt', 'that', 'quick', 'and', 'he', 'could', 'nt', 'win', 'the', 'race']], [['Hey', 'that', 's', 'a', 'great', 'deal'], ['I', 'just', 'bought', 'a', 'phone', 'for', '199']], [['You11', 'learn', 'a', 'lot', 'in', 'the', 'book'], ['Python', 'is', 'an', 'amazing', 'language']]]
