# Text Preprocessing
INCLUDE:
- 正则表达式
- 文本规范化：文本分割为句子，句子分割为单词，单词规范化（如词干提取、词形还原）
- 文本预处理：建立文本向量空间模型（如词袋模型，TF-IDF模型）
- 分类模型：使用机器学习模型进行文本分类（如朴素贝叶斯分类器、逻辑回归分类器、支持向量机分类器等）
- 情感分析：使用情感词典进行情感分析，作为特征工程的一部分，添加情感得分特征到文本向量空间中

## 1. Regular Expression
正则表达式是一种特殊的字符串模式，用于匹配字符串。正则表达式是一种强大的工具，可以用于搜索、编辑和处理文本。在Python中，正则表达式由re模块提供。

In [1]:
import re


### 1. 元字符

正则表达式中的元字符是具有特殊意义的字符，比如：

- `.` 通配符，匹配任何单个字符（除了新行`\n`）：`a.c` 可以匹配 `abc`、`a1c`、`a-c` 等
- `^` 匹配字符串的开始：`^abc` 可以匹配 `abc`、`abcd`、`abc123` 等
- `$` 匹配字符串的结束：`abc$` 可以匹配 `abc`、`123abc`、`a123bc` 等
- `*` 匹配0次或多次前面的字符：`a*bc` 可以匹配 `bc`、`abc`、`aabc` 等
- `+` 匹配1次或多次前面的字符：`a+bc` 可以匹配 `abc`、`aabc`、`aaabc` 等
- `?` 匹配0次或1次前面的字符：`a?bc` 可以匹配 `bc`、`abc` 等，用于可选匹配模式。
- `{n}` 匹配n次前面的字符：`a{3}bc` 可以匹配 `aaabc`
- `[abc]` 匹配方括号内的任意一个字符（a、b 或 c）：`a[123]bc` 可以匹配 `a1bc`、`a2bc`、`a3bc` 等
- `[^abc]` 匹配除了方括号内的任意一个字符以外的字符
- `|` 表示或（`A|B` 表示匹配A或B）：`a|b` 可以匹配 `a` 或 `b`
- `\` 转义特殊字符：`a\.c` 可以匹配 `a.c`，即 `\` 可以将 `.` 转义为普通字符






### 2. 字符集合：
- `\d` 匹配任意一个数字字符，等价于 `[0-9]`
- `\D` 匹配任意一个非数字字符，等价于 `[^0-9]`
- `\w` 匹配任意一个字母、数字或下划线字符，等价于 `[a-zA-Z0-9_]`
- `\W` 匹配任意一个非字母、数字或下划线字符，等价于 `[^a-zA-Z0-9_]`
- `\s` 匹配任意一个空白字符，等价于 `[\t\n\r\f\v]`
- `\S` 匹配任意一个非空白字符，等价于 `[^\t\n\r\f\v]`
- `\b` 匹配一个单词边界，即字母、数字、下划线和非字母、数字、下划线之间的位置，比如`\babc\b`可以匹配 `abc`，但不能匹配 `aabc`、`abc1` 等

在正则表达式中，`\b` 是一个特殊的边界匹配符，它用来匹配一个单词边界。所谓的单词边界是指单词和空格之间的位置，或者单词和字符串开头或结尾的位置，也包括单词与标点符号之间的位置。它不匹配任何实际的字符，只是用来确定匹配的位置。

例如，如果你想匹配字符串 "Python" 作为一个独立的单词，而不是其他更长单词的一部分（比如 "Pythonic"），你可以使用 `\bPython\b` 作为你的正则表达式。这样就只会匹配到独立出现的 "Python"，而不会错误地匹配到包含 "Python" 的其他单词。

这里有一些使用 `\b` 的例子：

- `\bPython\b` 匹配任何包含独立单词 "Python" 的地方。
- `\b\w+\b` 匹配任何完整的单词。
- `\b\d+\b` 匹配任何完整的数字。


### 3. 分组 group
- r`()` 表示一个分组，可以通过 `group()` 方法获取匹配的字符串
- `group(0)` 获取完整的匹配字符串; `group(1)` 获取第一个分组的匹配字符串; `group(2)` 获取第二个分组的匹配字符串; 以此类推

In [4]:
text = "我的邮箱是 email@example.com"
pattern = r"(\w+)@(\w+)\.(\w+)"
match = re.search(pattern, text)
if match:
    print("完整的邮箱:", match.group(0))  # 完整匹配
    print("用户名:", match.group(1))      # 第一个括号中的匹配
    print("域名:", match.group(2))        # 第二个括号中的匹配
    print("顶级域:", match.group(3))      # 第三个括号中的匹配


完整的邮箱: email@example.com
用户名: email
域名: example
顶级域: com


### 捕获组

#### 1. `[a-zA-Z]* love [a-zA-Z]*`
- **匹配行为**：这个表达式会匹配任何以零个或多个字母开头，紧跟着空格和单词 "love"，再紧跟着空格和零个或多个字母结尾的字符串。这里的 `[a-zA-Z]*` 允许匹配所有大小写字母，`*` 表示零次或多次出现。
- **捕获行为**：这个表达式不会捕获匹配的部分，因为它没有使用括号来定义捕获组。

#### 2. `([a-zA-Z]*) love ([a-zA-Z]*)`
- **匹配行为**：这个表达式的匹配行为与第一个表达式相同，也是匹配一个可能为空的字母序列，后面跟着 "love" 和另一个可能为空的字母序列。
- **捕获行为**：与第一个表达式不同，这里使用了圆括号 `()` 来创建捕获组。这意味着正则表达式会记住每个括号中匹配的内容，并可以在后续的操作中引用它们。第一个 `([a-zA-Z]*)` 是第一个捕获组，匹配 "love" 前面的任何字母序列；第二个 `([a-zA-Z]*)` 是第二个捕获组，匹配 "love" 后面的任何字母序列。


In [88]:
text = "I love Python"

# 不使用捕获组的匹配
pattern1 = r'[a-zA-Z]* love [a-zA-Z]*'
match1 = re.search(pattern1, text)
if match1:
    print("不使用捕获组:", match1.group())

# 使用捕获组的匹配
pattern2 = r'([a-zA-Z]*) love ([a-zA-Z]*)'
match2 = re.search(pattern2, text)
if match2:
    print("使用捕获组:", match2.group(0))  # 完整匹配
    print("第一个捕获组:", match2.group(1))  # 第一个括号内的匹配
    print("第二个捕获组:", match2.group(2))  # 第二个括号内的匹配

不使用捕获组: I love Python
使用捕获组: I love Python
第一个捕获组: I
第二个捕获组: Python


### 4. 预编译
- `re.compile(pattern)` 创建一个Regex对象，可以重复使用
- 向Regex对象的`search()`、`findall()`、`sub()`等方法传入字符串，进行匹配、查找、替换等操作.

具体使用方法如下：
```python
text='string'
pattern=re.compile(r'some pattern')
result=pattern.search(text)
result=pattern.findall(text)
### ...
```

除了使用预编译的正则表达式对象，你还可以向 `search()`、`findall()`、`sub()` 等方法传入正则表达式字符串。这样做的话，Python 会在每次调用这些方法时都重新编译正则表达式。
比如：
```python
text='string'
result=re.search(r'some pattern',text)
```


### 1. match() 
从字符串的起始位置开始匹配正则表达式。如果匹配成功，返回一个匹配对象；否则返回 None。


match() 方法只会从字符串的开始位置进行匹配。这意味着如果正则表达式的模式不出现在字符串的开头，即便这个模式在字符串的其他位置存在匹配，match() 方法也会返回 None。

这是 match() 方法与 search() 方法的一个主要区别。search() 方法会扫描整个字符串，寻找任何位置的匹配。如果你需要从字符串的任意位置开始寻找匹配，而不仅仅是开头，应该使用 search() 方法。

In [53]:
text = "My dog is cute! Do you like it?"
pattern = re.compile(r'(My)(.*)(!)') 
match = pattern.match(text)
# 该匹配方式会返回以'My'开头并且以'!'结尾的字符串，中间的内容可以是任意的
# 通过group()方法可以获取匹配的字符串任意部分
print('group(0):',match.group(0))
print('group(1):',match.group(1))
print('group(2):',match.group(2))
print('group(3):',match.group(3))

group(0): My dog is cute!
group(1): My
group(2):  dog is cute
group(3): !


### 2. search()
扫描整个字符串，找到这个正则表达式的任何一个匹配。如果找到了匹配，返回一个匹配对象；否则返回 None。

下面的例子可以看到，若匹配`cute`,使用search()方法可以找到匹配的字符串，而使用match()方法则无法找到匹配。

In [59]:
text = "My dog is cute! Do you like it?"
pattern = re.compile(r'cute')
result_search = pattern.search(text)
result_match = pattern.match(text)

print('search:',result_search.group() if result_search else None)
print('match:',result_match.group() if result_match else None)

search: cute
match: None


### 3. findall()
- 返回类型：findall() 方法返回一个列表，其中包含所有非重叠匹配的字符串。如果正则表达式中有分组，则返回每个匹配的分组组成的元组。
- 使用场景：当你需要获取所有匹配的字符串本身时，findall() 很有用。这个方法简单、直接，适合于大多数需要一次性获取所有匹配结果的场合。

In [78]:
text = "i LOVE you, do you love me?"
pattern=re.compile(r'\w+') # 匹配所有的单词
result = pattern.findall(text)
print(result)

['i', 'LOVE', 'you', 'do', 'you', 'love', 'me']


### 4. finditer()
- 返回类型：finditer() 方法返回一个迭代器，该迭代器产生 Match 对象。每个 Match 对象代表一个匹配，包含了匹配字符串的更多信息，如匹配的位置等。
- 使用场景：当你需要对每个匹配项进行更复杂的处理，或者需要知道匹配的具体位置时，finditer() 是更好的选择。通过迭代 Match 对象，你可以访问每个匹配的详细信息。

In [80]:
matches_iter = re.finditer(pattern, text)
for match in matches_iter:
    print(match.group())  # 输出匹配的字符串
    print('开始位置:', match.start())  # 输出匹配的开始位置
    print('结束位置:', match.end())  # 输出匹配的结束位置


i
开始位置: 0
结束位置: 1
LOVE
开始位置: 2
结束位置: 6
you
开始位置: 7
结束位置: 10
do
开始位置: 12
结束位置: 14
you
开始位置: 15
结束位置: 18
love
开始位置: 19
结束位置: 23
me
开始位置: 24
结束位置: 26


### 5. sub()
- 返回类型：sub('new', 'old') 方法返回一个新的字符串，该字符串是通过将模式匹配的部分替换为新的字符串而生成的。
- 使用场景：当你需要将匹配的部分替换为其他字符串时，sub() 方法很有用。这个方法可以让你轻松地进行搜索和替换操作。

In [85]:
pattern = re.compile(r'is fun')
new_string = pattern.sub('is really awesome', 'Python is fun')
print('替换后的字符串:', new_string)

替换后的字符串: Python is really awesome


### 6. split()
- 返回类型：split() 方法返回一个列表，其中包含了字符串中所有匹配正则表达式的部分所分割出来的部分。
- 使用场景：当你需要根据正则表达式来分割字符串时，split() 方法很有用。这个方法可以让你轻松地进行搜索和分割操作。


In [87]:
text = "I love apples, oranges, and grapes"
pattern = re.compile(r', ') # 匹配逗号和空格，用于分割字符串
result = pattern.split(text)
print(result)

['I love apples', 'oranges', 'and grapes']


## 2. Text Normalization
对于大多数文本分析任务，我们首先需要将原始文本转换为合适的格式，以便输入分类器等方法。这一过程称为文本规范化，是预处理阶段的一部分。常见的步骤有三个：

1. 句子分割(sentence segmentation)：将文本分割成句子。返回文档中所有句子的列表。
2. 标记化(tokenization)：将句子分割成一系列标记，包括单词、数字和标点符号。
3. 单词规范化(word normalization)：将单词转换为标准形式。(词根形式)

现在我们来看看如何使用 NLTK 库执行这些步骤。

首先用datasets加载IMDB数据集，该数据集是一个字典，每个元素是一条评论，包括评论的文本和标签（text和label）。我们重点关注text字段。

In [105]:
from datasets import load_dataset
import numpy as np

cache_dir = "./data_cache"

# The data is already divided into training and test sets.
# Load the training set:
train_dataset = load_dataset(
    "reuters21578", 
    "ModHayes",  # Choose this variant of the dataset
    split="train",
    cache_dir="./data_cache",  # Save the data here 
)
print(f"Training dataset with {len(train_dataset)} instances loaded")

train_dataset = np.random.choice(train_dataset, 5000, replace=False)  # we'll only use a subset of the data in this lab so that the code runs quicker

Training dataset with 20856 instances loaded


In [106]:
train_dataset

array([{'text': 'Shr 13 cts vs 40 cts\n    Net 2,509,000 vs 7,582,000\n    Revs 186.2 mln vs 182.1 mln\n    Year\n    Shr 23 cts vs 95 cts\n    Net 4,318,000 vs 17.8 mln\n    Revs 564.8 mln vs 584.4 mln\n Reuter\n', 'text_type': '"NORM"', 'topics': ['earn'], 'lewis_split': '"TRAIN"', 'cgis_split': '"TRAINING-SET"', 'old_id': '"8902"', 'new_id': '"3989"', 'places': ['usa'], 'people': [], 'orgs': [], 'exchanges': [], 'date': '11-MAR-1987 17:32:02.22', 'title': 'DOLLAR GENERAL CORP &lt;DOLR> 4TH QTR NET'},
       {'text': 'Trade house Kaines said it sold Jordan\ntwo cargoes of white sugar at its buying tender today.\n    The sale comprised two 12,000 to 14,000 tonne cargoes (plus\nor minus 10 pct) for Mar/Apr shipment, a Kaines trader said.\n    Traders said the business was done at 235.5 dlrs a tonne\ncost and freight.\n Reuter\n', 'text_type': '"NORM"', 'topics': ['sugar'], 'lewis_split': '"TRAIN"', 'cgis_split': '"TRAINING-SET"', 'old_id': '"18657"', 'new_id': '"2239"', 'places': ['uk'

### 2.1 句子分割 Sentence Segmentation
nltk库中的`sent_tokenize()`方法可以将文本分割成句子。下面的例子展示了如何使用这个方法。

`nltk.sent_tokenize(text)`输入一个文本，返回一个列表，每个元素是一个句子。

In [113]:
import nltk

review = train_dataset[3]['text']

sents = nltk.sent_tokenize(review)

for sent in sents[:5]:
    print("<SENTENCE>")
    print(sent) 

<SENTENCE>
The wet, cold weather which has shrouded
northern Europe recently is not a real problem for farmers yet,
a spokeswoman for France's largest farm union, FNSEA, said.
<SENTENCE>
The bad weather has only affected the northern part of
France while the Mediterranean region needs more moisture.
<SENTENCE>
Sugar beet producers said the climatic conditions are not
causing them any difficulties yet although there could be
problems if there is a lack of sun in the next few weeks.
<SENTENCE>
The only real problem is for fruit producers in the north
as people are consuming less fresh fruit and excessive rain
rots the crop, she said.
<SENTENCE>
Reuter


### 2.2 标记化 Tokenization
nltk库中的`word_tokenize()`方法可以将句子分割成单词。下面的例子展示了如何使用这个方法。

`nltk.word_tokenize(sentences)`输入一个句子，返回一个列表，每个元素是一个单词。常用for循环遍历句子列表，对每个句子进行标记化。

In [114]:
tokenized_sents = []

for sent in sents:
    ### WRITE YOUR OWN CODE HERE
    tokens = nltk.word_tokenize(sent)
    #######
    
    print("<TOKENS>")
    print(tokens)
    
    tokenized_sents.append(tokens)

<TOKENS>
['The', 'wet', ',', 'cold', 'weather', 'which', 'has', 'shrouded', 'northern', 'Europe', 'recently', 'is', 'not', 'a', 'real', 'problem', 'for', 'farmers', 'yet', ',', 'a', 'spokeswoman', 'for', 'France', "'s", 'largest', 'farm', 'union', ',', 'FNSEA', ',', 'said', '.']
<TOKENS>
['The', 'bad', 'weather', 'has', 'only', 'affected', 'the', 'northern', 'part', 'of', 'France', 'while', 'the', 'Mediterranean', 'region', 'needs', 'more', 'moisture', '.']
<TOKENS>
['Sugar', 'beet', 'producers', 'said', 'the', 'climatic', 'conditions', 'are', 'not', 'causing', 'them', 'any', 'difficulties', 'yet', 'although', 'there', 'could', 'be', 'problems', 'if', 'there', 'is', 'a', 'lack', 'of', 'sun', 'in', 'the', 'next', 'few', 'weeks', '.']
<TOKENS>
['The', 'only', 'real', 'problem', 'is', 'for', 'fruit', 'producers', 'in', 'the', 'north', 'as', 'people', 'are', 'consuming', 'less', 'fresh', 'fruit', 'and', 'excessive', 'rain', 'rots', 'the', 'crop', ',', 'she', 'said', '.']
<TOKENS>
['Reuter'

### 2.3 单词规范化 Word Normalization
单词规范化（Word Normalization）是自然语言处理（NLP）中的一个重要步骤，旨在将不同形式的单词统一到一个标准形式，以减少单词的变体数量，并提高后续处理任务的效率和效果。单词规范化通常包括两个主要过程：词干提取（Stemming）和词形还原（Lemmatization）。

#### 1. 词干提取（Stemming）
词干提取是去除单词的词缀（前缀和后缀）来回到单词的基本形式（词干）。这个过程不依赖于词汇表和单词的含义，因此生成的“词干”可能不是有效的单词。例如，“running”、“runs”提取词干可能都是“run”。


In [116]:
# 词干提取
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

words = ["running", "runs", "ran"]
stemmed_words = [stemmer.stem(word) for word in words]

print(stemmed_words)

['run', 'run', 'ran']


#### 2. 词形还原（Lemmatization）
词形还原是将单词还原到其词典形式（lemma）。与词干提取不同，词形还原依赖于单词的词性和定义，确保还原后的形式是一个有效的单词。例如，“better”根据上下文可能被还原为“good”。

在使用词形还原时，指定正确的词性是很重要的，因为它会影响到还原的结果。NLTK中的`wordnet`模块可以帮助确定单词的词性。

这两种方法都有其用途：词干提取速度快，适用于信息检索等场景；词形还原虽然计算量更大，但能提供更准确的结果，适用于需要高质量文本处理的应用。在选择时，应根据具体需求和预期效果来决定使用哪一种。
如果需要还原多种词性的单词，比如同时还原动词和名词，可以用嵌套的方式调用词形还原器:
`wnl.lemmatize(self.wnl.lemmatize(tok, pos='v'), pos='a')`

```python
lemmatizer = WordNetLemmatizer()
result=lemmatizer.lemmatize(word, pos=wordnet.ADJ)
# 使用pos参数指定词性，可以用简写形式，也可以用wordnet.ADJ等形式
```

In [124]:
# 词形还原
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

lemmatizer = WordNetLemmatizer()
    
words = ["better", "good", "best"]

# 词形还原时，指定正确的词性是很重要的，因为它会影响到还原的结果
# 例如，"better"根据上下文可能被还原为"good",但是“best”不会被还原为“good”，因为在wordnet词语库中，"best"是单独作为一个词存在的
lemmatized_words = [lemmatizer.lemmatize(word, pos='a') for word in words]
# lemmatized_words = [lemmatizer.lemmatize(word, pos=wordnet.ADJ) for word in words]

print(lemmatized_words)

['good', 'good', 'best']


## 3. Text Preprocessing
文本预处理是指将文本转换为适合文本分析的形式的过程。文本预处理通常包括以下几个步骤：
- 文本清洗：去除文本中的噪声，比如HTML标签、特殊字符等。
- 文本规范化：将文本转换为合适的格式，比如句子分割、标记化、词形还原等。
- 特征提取：将文本转换为特征向量，比如词袋模型、TF-IDF等。
- 其他：根据具体任务，可能还需要其他处理，比如去除停用词、词干提取等。

一般使用huggingface库中的datasets模块加载数据集，然后使用`load_dataset()`方法加载数据集。该方法的参数包括数据集名称、数据集的变种、数据集的分割（训练集、测试集等）等。加载数据集后，可以使用`len()`方法查看数据集的大小，使用`np.random.choice()`方法随机选择一部分数据作为训练集和测试集。

直接load_dataset()会得到一个datasets.Dataset对象，可以使用`datasets.Dataset`对象的`to_pandas()`方法将其转换为pandas的DataFrame对象。
对于dataset对象，一般有text和label两个字段，分别表示文本和标签。

这里加载imdb数据集，分别加载训练集和测试集，并随机选择5000个样本作为训练集，2000个样本作为测试集。
该数据集是一个
IMDb 数据集是一个广泛用于情感分析任务的公共数据集，其中包含了大量的电影评论和相应的情感标签。在这个数据集中，每条评论都被标注了一个标签，用来表示评论的情绪倾向。通常，这些标签是以 0 和 1 的形式出现，其中：

- **0** 通常代表**负面情绪**或**消极评论**。
- **1** 通常代表**正面情绪**或**积极评论**。


In [29]:
from datasets import load_dataset
import numpy as np
# load the train set:
train_dataset = load_dataset(
    "imdb",
    split="train",
    cache_dir = "./data_cache"
)
print(f"Training dataset with {len(train_dataset)} instances loaded")

# 随机选择5000个样本作为训练集
train_dataset = np.random.choice(train_dataset, 5000, replace=False)

Training dataset with 25000 instances loaded


In [31]:
# Load the test set:
test_dataset = load_dataset(
    "imdb",
    split="test",
    cache_dir="./data_cache"
)
print(f"Test dataset with {len(test_dataset)} instances loaded")

# 随机选择2000个样本作为测试集
test_dataset = np.random.choice(test_dataset, 2000, replace=False)

Test dataset with 25000 instances loaded


### 词袋模型
使用sklearn库中的`CountVectorizer`类可以将文本转换为词袋模型。词袋模型是一种简单的文本表示方法，一个文本（如一句话或一个文档）被表示为词汇表中词语的向量。这个向量是多维的，每一维代表词汇表中的一个词，而每一维的值对应该词在文本中出现的次数。这种表示方法的一个特点是它不考虑词语之间的顺序，只考虑词语的出现频率。

In [32]:
train_text = [sample["text"] for sample in train_dataset]
train_label = [sample["label"] for sample in train_dataset]
test_text = [sample["text"] for sample in test_dataset]
test_label =  [sample["label"] for sample in test_dataset]

### CountVectorizer类
`doc2bow`方法（来自`Gensim`库）和`CountVectorizer`（来自`scikit-learn`库）在概念上相似，因为它们都可以用来将文本数据转换为词频向量，但是在实现细节和功能上存在一些差异。

#### 相似之处

- **词频统计**：`doc2bow`和`CountVectorizer`都用于生成文本的词频表示，即统计文本中每个词汇出现的次数。
- **无序性**：它们都采用“词袋”（Bag of Words, BoW）模型，这意味着转换后的表示不保留词汇在原文中的顺序。

#### 差异之处

- **输出格式**：`doc2bow`生成的是一个包含`(word_id, word_count)`元组的列表，其中`word_id`是词汇在`Gensim`字典中的索引，`word_count`是该词汇在文档中的出现次数。而`CountVectorizer`输出的是稀疏矩阵形式的词频向量，行表示文档，列表示词汇表中的词汇，矩阵中的值表示对应词汇在文档中的出现次数。
- **直接操作文本**：`CountVectorizer`直接从原始文本数据开始，自动进行分词、构建词汇表，并转换为词频矩阵。而使用`doc2bow`之前，需要先手动对文本进行分词，并构建`Gensim`的`Dictionary`对象，然后使用这个字典将文本转换为词频向量。
- **使用情景**：`doc2bow`更适合用于`Gensim`库中的主题模型（如LSI、LDA等），而`CountVectorizer`更适合用于`scikit-learn`库中的分类、聚类等机器学习模型。


#### `fit` 方法
- 当你调用 `vectorizer.fit(train_text)` 时，`CountVectorizer` 会从训练集 `train_text` 中学习和构建词汇表（vocabulary）。这意味着它会分析所有提供的训练文本，识别出所有独特的单词（或n-gram，取决于 `ngram_range` 参数的设置），并为每个独特的单词分配一个唯一的数字索引。这个过程不会转换数据，只是准备了一个映射关系，以便将来的文本数据能够被转换成数值向量。
- **结果**：`fit` 方法的结果是内部构建了一个词汇表，但不会直接返回任何数据给用户。

#### `transform` 方法
- 调用 `vectorizer.transform(train_text)` 或 `vectorizer.transform(test_text)` 时，`CountVectorizer` 会使用之前通过 `fit` 方法学习到的词汇表来将文本数据转换为数值向量。对于每个文本，它会统计词汇表中的单词在该文本中出现的次数，并生成一个稀疏矩阵，其中每一行代表一个文本，每一列代表词汇表中的一个单词，矩阵中的值是对应单词在文本中出现的次数。
- **结果**：`transform` 方法返回的是一个稀疏矩阵，该矩阵的每一行都代表输入数据集中的一个文本，每一列对应词汇表中的一个单词，矩阵的值表示对应单词在文本中出现的次数。

#### 总结
- `fit` 方法用于从训练数据中学习词汇表。
- `transform` 方法用于将文本数据转换成对应的数值表示（词频向量）。
- 你还可以使用 `fit_transform` 方法，它是 `fit` 和 `transform` 方法的组合，首先从训练数据学习词汇表，然后立即将训练数据转换为词频向量。对于训练数据，这通常更高效，因为它只需要一次扫描数据。

通过这种方式，`CountVectorizer` 允许你将文本数据转换为数值形式，这对于大多数机器学习模型来说是必需的，因为它们无法直接处理原始文本数据。

---

```
CountVectorizer(tokenizer=word_tokenize)
```
- `tokenizer`参数指定了分词器，这里使用nltk库中的`word_tokenize`函数进行分词。该函数提供了更为复杂的分词能力，能够更好地处理英文文本中的缩写、连字符和其他语言学上的特殊情况。
- 不指定`tokenizer`参数时，`CountVectorizer`类将使用一个基于空格和标点的简单方法来分割文本。这意味着文本会被分割成单词，其中任何连字符或复杂结构的词汇可能会被简单地切分或忽略。该方法适用于简单的英文文本，但对于复杂的文本，可能会导致错误的分词结果。


`fit()`方法用于学习词汇表，`transform()`方法用于将文本转换为词袋模型。`vocabulary_`属性可以获取词汇表。

In [34]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk import word_tokenize

# 使用CountVectorizer类将文本转换为词袋模型
vectorizer = CountVectorizer(tokenizer=word_tokenize)  # construct the vectorizer

vectorizer.fit(train_text)  # Learn the vocabulary
X_train = vectorizer.transform(train_text)  # extract training set bags of words
X_test = vectorizer.transform(test_text)  # extract test set bags of words



In [163]:
# 使用vocabulary_属性获取词汇表
# 词汇表是一个字典，结构类似于：{'word1': 0, 'word2': 1, 'word3': 2, ...}，键是词汇表中的词，值是词在词汇表中的索引
vocabulary = vectorizer.vocabulary_
print(vocabulary['the'])
print(vocabulary['horse'])
print(vocabulary['smile']) # 返回smile在词汇表中的索引

print(f'Vocabulary size = {len(vocabulary)}') # 词汇表的大小，即词汇表中的词的数量

43017
21319
39675
Vocabulary size = 48300


In [174]:
# 查看某个词在所有文档中的出现次数

# 获取某个词的索引
word_index = vocabulary['the'] # 43017
# 统计该次在所有文档中的出现次数
word_count = X_train[:, word_index].sum()
print(f"The word 'the' appears {word_count} times in the training set")

The word 'the' appears 65831 times in the training set


## 4. Classifiers
### 4.1 Naive Bayes

使用朴素贝叶斯分类器，如多项式朴素贝叶斯（MultinomialNB），在文本分类任务中预测的是整个文本（一句话或者一个文档）的标签，而不是单个词的标签。这种类型的分类器通常用于诸如情感分析、新闻分类、垃圾邮件检测等任务，其中每个文本实例都会被分配到一个或多个预定义的类别中。

在训练阶段，分类器学习每个类别中词汇出现的概率，以及每个类别的先验概率。然后，在预测阶段，给定一个新的文本实例，分类器使用这些学习到的概率来估计该实例属于每个类别的概率。具体来说，它会计算给定文本属于每个类别的后验概率，并将文本分类到后验概率最高的类别。

sklearn中有许多朴素贝叶斯分类器的实现，比如`GaussianNB`、`MultinomialNB`、`BernoulliNB`等。这些分类器的主要区别在于它们对特征的分布的假设不同。在文本分类任务中，最常用的是`MultinomialNB`分类器，因为它适用于离散特征（比如词频）的分类任务。

与一般的分类模型相同，我们通过`fit()`方法训练模型，通过`predict()`方法预测样本的标签。

In [180]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report

# 使用MultinomialNB分类器
clf = MultinomialNB()
clf.fit(X_train, train_label)  # 训练模型
y_pred = clf.predict(X_test)  # 预测测试集

# classification report
print(classification_report(test_label, y_pred))

              precision    recall  f1-score   support

           0       0.75      0.89      0.82       992
           1       0.87      0.71      0.78      1008

    accuracy                           0.80      2000
   macro avg       0.81      0.80      0.80      2000
weighted avg       0.81      0.80      0.80      2000


In [187]:
# 打印出一些错误分类的评论以及它们的预测和真实标签。
for i in range(len(test_label)):
    # 若预测标签与真实标签不同，则打印出该评论
    if y_pred[i] != test_label[i]:
        print(f"True label: {test_label[i]}, Predicted label: {y_pred[i]}")
        print(test_text[i])
        print()

True label: 1, Predicted label: 0
.....whoops - looks like it's gonna cost you a whopping £198.00 to buy a copy (either DVD or Video format)from ITV direct.<br /><br />Ouch.<br /><br />Sorry about this, but IMDB won't let me submit this comment unless it has at least 10 lines, so...........<br /><br />blahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblah blahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblah blahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblah blahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblah blahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblah blahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblahblah blahblah !!<br /><br />

True label: 1, Predicted label: 0
Great horror comedy from Michael Davis.Iwas laughing so hard i almost peed! Great acting from Eric Jungman as the good guy who saves the day & great performance by the Jack Black-esquire like performa

### 4.2 Logistic Regression
逻辑回归是一种用于解决二分类问题的线性模型。在文本分类任务中，逻辑回归模型通常用于预测文本的情感倾向，比如积极或消极。逻辑回归模型的输出是一个介于0和1之间的概率值，表示文本属于某个类别的概率。


In [188]:
from sklearn.linear_model import LogisticRegression

# 使用LogisticRegression分类器
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, train_label)  # 训练模型
y_pred = clf.predict(X_test)  # 预测测试集

# classification report
print(classification_report(test_label, y_pred))

              precision    recall  f1-score   support

           0       0.85      0.86      0.86       992
           1       0.86      0.85      0.86      1008

    accuracy                           0.86      2000
   macro avg       0.86      0.86      0.86      2000
weighted avg       0.86      0.86      0.86      2000


## 5. Lexicon Features 词汇特征
在自然语言处理（NLP）和文本分析中，"lexicon feature"（词汇特征）通常指的是基于词典或词汇表的特征，这些特征用于表示文本数据中的信息。词汇特征可以基于单个词汇、短语、词性标签或特定的词汇模式，它们通常用于文本分类、情感分析、主题建模等任务中。使用词汇特征可以帮助模型理解文本内容和语义。

### Lexicon Feature的类型
1. **单词频率**：最简单的词汇特征之一，计算特定单词在文本中出现的次数。
2. **N-gram**：连续的N个单词组成的序列，作为特征捕捉文本中的局部上下文信息。
3. **词性标签（POS Tags）**：基于单词在句子中的语法角色（如名词、动词、形容词等）的特征。
4. **情感词典**：在情感分析中使用，如将文本中的单词与事先定义的积极或消极情感词典进行匹配，以评估文本的情感倾向。
5. **TF-IDF（Term Frequency-Inverse Document Frequency）**：考虑单词在文本中的频率及其在整个数据集中的分布情况，用以衡量单词的重要性。
6. **词嵌入（Word Embeddings）**：虽然通常不被直接称为“lexicon feature”，但词嵌入通过训练将单词映射到高维空间中的向量，可以捕获单词间的语义关系，也可以视为一种基于词汇的特征表示。

### 使用Lexicon Feature的好处
- **可解释性**：特别是单词频率和情感词典等特征，可以直观理解，有助于解释模型的决策过程。
- **有效性**：对于某些特定的任务，如情感分析，基于预定义情感词典的特征可能非常有效。
- **通用性**：词汇特征不依赖于特定的模型结构，可以在多种模型中使用。

### 使用场景
- **文本分类**：通过分析文本中的关键词和短语来分类文本。
- **情感分析**：识别文本中的情感倾向，如积极、消极或中性。
- **主题建模**：发现文本集合中的主题或概念。

总的来说，lexicon feature在许多NLP任务中都是一个重要的概念，它通过将文本转换为模型可理解的数值特征，帮助模型理解和分析文本内容。



### 5.1 自定义分词器
之前我们准备数据，建立词袋模型进行文本向量化时，使用word_tokenize()方法进行分词，这种方法可以更好地处理英文文本中的缩写、连字符和其他语言学上的特殊情况。但是，这种方法也有一些缺点，比如它不能处理词形变化，比如单词的时态、单复数等。

除了使用word_tokenize()方法进行分词外，我们可以自定义分词器。不止简单的使用word_tokenize()方法，可以添加词形还原处理分词后的每个词，这样可以更好地处理词形变化。

得到这样的自定义分词器后，我们可以使用它来构建词袋模型。这样，我们就可以更好地处理词形变化，提高文本向量化的效果。
只需要将自定义分词器传入CountVectorizer类的tokenizer参数即可。
```python
vectorizer = CountVectorizer(tokenizer=self_defined_tokenizer)
```

In [8]:
from nltk import word_tokenize          
from nltk.stem import WordNetLemmatizer 
# 自定义LemmaTokenizer类，添加__call__方法，使得该类的实例可以像函数一样调用
# 调用该类时输入text，返回经过词形还原处理的词汇列表
class LemmaTokenizer(object):
    def __init__(self):
        self.wnl = WordNetLemmatizer()
        
    def __call__(self, text):
        # 对每个单词进行两次词形还原：首先作为动词，然后作为形容词
        return [self.wnl.lemmatize(self.wnl.lemmatize(tok, pos='v'), pos='a') for tok in word_tokenize(text)]
        # 可以继续添加其他词性的词形还原，比如副词
        # return [self.wnl.lemmatize(self.wnl.lemmatize(self.wnl.lemmatize(tok, pos='v'), pos='a'), pos='r') for tok in word_tokenize(text)]

# 实例化LemmaTokenizer
lemma_tokenizer = LemmaTokenizer()

# 示例文本
text = "The boxes were carried to the storage by the workers who were moving quickly."

# 使用LemmaTokenizer对文本进行处理
processed_text = lemma_tokenizer(text)

# 将处理前后的词通过df输出
df = pd.DataFrame({'Before': word_tokenize(text), 'After': processed_text})
df

Unnamed: 0,Before,After
0,The,The
1,boxes,box
2,were,be
3,carried,carry
4,to,to
5,the,the
6,storage,storage
7,by,by
8,the,the
9,workers,workers


### 5.2 N-gram

#### n-gram 介绍
- **n-gram** 是文本中相邻的n个项（例如，单词或字符）的序列。n-gram可以捕捉文本中的局部上下文信息。
- 例如，1-gram（或称为unigram）表示单个单词，2-gram（或bigram）表示相邻的两个单词的组合，3-gram（或trigram）表示相邻的三个单词的组合，依此类推。

#### ngram_range 参数
- **作用**：通过设置 `ngram_range` 参数，你可以指定 `CountVectorizer` 生成向量时应考虑的最小和最大的n-gram大小。
- **格式**：`ngram_range` 参数接受一个元组 `(min_n, max_n)`，其中 `min_n` 是要考虑的最小n-gram大小，`max_n` 是要考虑的最大n-gram大小。
- **默认值**：默认情况下，`ngram_range` 设置为 `(1, 1)`，这意味着只考虑unigrams（单个单词）。

#### 例子
假设你希望在向量化文本数据时同时考虑unigrams和bigrams，你可以将 `ngram_range` 设置为 `(1, 2)`：

在这个例子中，`CountVectorizer` 将考虑单个单词（如 "text"、"analytics"、"involves" 等）和两个单词的组合（如 "text analytics"、"involves understanding" 等）作为特征。

通过调整 `ngram_range` 参数，你可以灵活地控制在文本分析中要考虑的上下文范围，这可以帮助改进模型的性能，尤其是在需要捕捉词序或局部上下文信息的任务中。

In [9]:
# 初始化CountVectorizer，设置ngram_range为(1, 2)以同时考虑unigrams和bigrams
vectorizer = CountVectorizer(ngram_range=(1, 2))

corpus = [
    'Text analytics involves understanding',
    'Understanding involves analysis',
]

# 对文本数据进行向量化处理
X = vectorizer.fit_transform(corpus)

# 打印特征名（词汇）
print(vectorizer.get_feature_names_out())

['analysis' 'analytics' 'analytics involves' 'involves'
 'involves analysis' 'involves understanding' 'text' 'text analytics'
 'understanding' 'understanding involves']


### 5.3 情感词典
NLTK（Natural Language Toolkit）库中的VADER（Valence Aware Dictionary and sEntiment Reasoner）可用于进行情感分析。VADER是专为文本中情感倾向性的定量分析而设计的工具，它特别适合处理社交媒体文本、电影评论、在线评论等。

`analyser.lexicon['word']`可以获取词汇表中的词的情感得分

`analyser.polarity_scores(text)`可以获取文本的情感得分.实际使用中一般使用该方法获取文本的情感得分。

In [15]:
import nltk
from nltk.sentiment.vader import SentimentIntensityAnalyzer
nltk.download('vader_lexicon')

# 实例化情感分析器
analyser = SentimentIntensityAnalyzer()

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\yhb\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


In [20]:
# 示例文本
testwords = ['happy', 'wonderful', 'horrible', 'boring', 'tablecloth', 'not']

for word in testwords:
    if word in analyser.lexicon:
        print(f'{word}: {analyser.lexicon[word]}')
    else:
        print(f'{word}: NOT IN LEXICON')

happy: 2.7
wonderful: 2.7
horrible: -2.5
boring: -1.3
tablecloth: NOT IN LEXICON
not: NOT IN LEXICON


In [23]:
# 示例文本
text1 = "The movie is good and not boring."
text2 = "The movie is not good and boring."
text3 = "The movie is good and boring."

# 获取文本的情感得分
scores1 = analyser.polarity_scores(text1)
scores2 = analyser.polarity_scores(text2)
scores3 = analyser.polarity_scores(text3)

print(scores1)
print(scores2)
print(scores3)

{'neg': 0.0, 'neu': 0.507, 'pos': 0.493, 'compound': 0.5943}
{'neg': 0.257, 'neu': 0.534, 'pos': 0.209, 'compound': -0.1139}
{'neg': 0.25, 'neu': 0.435, 'pos': 0.315, 'compound': 0.1531}


#### 添加情感得分作为特征
通过获取如compound得分，可以将情感得分作为特征添加到特征矩阵中。

一般使用scipy库中的hstack()方法将情感得分作为特征添加到稀疏的词袋模型中。

In [35]:
from scipy.sparse import hstack
# 定义一个函数来获取文本的复合情感分数
def get_sentiment_scores(texts):
    sentiment_scores = []
    for text in texts:
        score = analyser.polarity_scores(text)['compound']
        sentiment_scores.append(score)
    return np.array(sentiment_scores)

# 为训练集和测试集获取情感分数
train_sentiments = get_sentiment_scores(train_text)
test_sentiments = get_sentiment_scores(test_text)

# 将情感分数作为新特征添加到特征矩阵中
# 注意：将情感分数数组reshape为列向量，以便与特征矩阵堆叠，即在原矩阵的右侧添加一列
X_train_with_sentiment = hstack([X_train, train_sentiments[:, None]])
X_test_with_sentiment = hstack([X_test, test_sentiments[:, None]])