# Input_text 转 Tokenized text - 分词

## 数据集

我们的目标是将埃迪斯·华顿的整个短篇小说the-verdict.txt（包含20,479个字符）分词

In [1]:
# 数据集校验：

file_path = '../../input/the-verdict.txt'
# 打开文件并读取内容
with open(file_path, 'r', encoding='utf-8') as file:
    raw_text = file.read()

# 打印文件的总字符数
print("Total number of characters:", len(raw_text)) 
# 打印文件的前100个字符
print(raw_text[:99])

Total number of characters: 20479
I HAD always thought Jack Gisburn rather a cheap genius--though a good fellow enough--so it was no 


## 三个分词方案

* 分词优点
    *  移除空格可以减少内存和计算需求；
    * 保留空格在我们训练对文本的精确结构敏感的模型时可能是有用的；

我们最终选择了分词方案3

### 分词方案1：\s 匹配任何空白字符（包括空格、制表符、换行符）

In [2]:
# 分词方案1：\s 匹配任何空白字符（包括空格、制表符、换行符）

import re
text = "Hello, world. This, is a test."
result = re.split(r'(\s)', text) # \s 匹配任何空白字符，包括空格、制表符、换行符
print(result)

['Hello,', ' ', 'world.', ' ', 'This,', ' ', 'is', ' ', 'a', ' ', 'test.']


### 分词方案2：匹配,和.或任何空白字符，并移除空格

In [3]:
# 分词方案2：匹配,和.或任何空白字符，并移除空格

result = re.split(r'([,.]|\s)', text) # 匹配,和.
result = [item.strip() for item in result if item.strip()] # 移除空格
print(result)

['Hello', ',', 'world', '.', 'This', ',', 'is', 'a', 'test', '.']


### 分词方案3：匹配,.?_!"()'或任何空白字符，并移除空格

In [4]:
# 分词方案3：匹配,.?_!"()'或任何空白字符，并移除空格

text = "Hello, world. Is this-- a test?"
result = re.split(r'([,.?_!"()\']|--|\s)', text)
result = [item.strip() for item in result if item.strip()]
print(result)

['Hello', ',', 'world', '.', 'Is', 'this', '--', 'a', 'test', '?']


## 用方案三来做数据集分词

In [5]:
# 数据集分词：

preprocessed = re.split(r'([,.?_!"()\']|--|\s)', raw_text)

# 先遍历每一个item，再做strip()操作，最后判断不为空加入list
preprocessed = [item.strip() for item in preprocessed if 
item.strip()]

print(len(preprocessed))
print(preprocessed[:30])

4649
['I', 'HAD', 'always', 'thought', 'Jack', 'Gisburn', 'rather', 'a', 'cheap', 'genius', '--', 'though', 'a', 'good', 'fellow', 'enough', '--', 'so', 'it', 'was', 'no', 'great', 'surprise', 'to', 'me', 'to', 'hear', 'that', ',', 'in']
