# 6.0简介

知识点：文本数据预处理是自然语言处理和文本分析的重要步骤，包括清洗、分词、移除停用词、提取词干、向量化等操作。

# 6.1 清洗文本

问题描述：对非结构化的文本数据进行基本清洗。

去掉首尾两端的空格：

In [2]:
# 创建文本
text_data = ["  Interrobang. By Aishwarya Henriette  ",
             "Parking And Going. By Karl Gautier   ",
             "  Today Is The night. By Jarek Prakash  "]

# 去除文本两端的空格
strip_whitespace = [string.strip() for string in text_data]

# 查看文本
strip_whitespace
# 输出:
# ['Interrobang. By Aishwarya Henriette',
#  'Parking And Going. By Karl Gautier',
#  'Today Is The night. By Jarek Prakash']

['Interrobang. By Aishwarya Henriette',
 'Parking And Going. By Karl Gautier',
 'Today Is The night. By Jarek Prakash']

删除句点：

In [3]:
# 删除句点
remove_periods = [string.replace(".", "") for string in strip_whitespace]

# 查看文本
remove_periods
# 输出:
# ['Interrobang By Aishwarya Henriette',
#  'Parking And Going By Karl Gautier',
#  'Today Is The night By Jarek Prakash']

['Interrobang By Aishwarya Henriette',
 'Parking And Going By Karl Gautier',
 'Today Is The night By Jarek Prakash']

自定义转换函数：

In [4]:
# 创建函数
def capitalizer(string: str) -> str:
    return string.upper()

# 应用函数
[capitalizer(string) for string in remove_periods]
# 输出:
# ['INTERROBANG BY AISHWARYA HENRIETTE',
#  'PARKING AND GOING BY KARL GAUTIER',
#  'TODAY IS THE NIGHT BY JAREK PRAKASH']

['INTERROBANG BY AISHWARYA HENRIETTE',
 'PARKING AND GOING BY KARL GAUTIER',
 'TODAY IS THE NIGHT BY JAREK PRAKASH']

使用正则表达式：

In [5]:
# 加载库
import re

# 创建函数
def replace_letters_with_X(string: str) -> str:
    return re.sub(r"[a-zA-Z]", "X", string)

# 应用函数
[replace_letters_with_X(string) for string in remove_periods]
# 输出:
# ['XXXXXXXXXXXXXX X XXXXXXXXX XXXXXXXXX',
#  'XXXXXXX XXX XXXXXXX X XXXX XXXXXX',
#  'XXXXX XX XXX XXXXX X XXXXXX XXXXXX']

['XXXXXXXXXXX XX XXXXXXXXX XXXXXXXXX',
 'XXXXXXX XXX XXXXX XX XXXX XXXXXXX',
 'XXXXX XX XXX XXXXX XX XXXXX XXXXXXX']

讨论：大多数文本清洗操作可用Python字符串方法完成，复杂操作可用正则表达式。

# 6.2 解析并清洗HTML

问题描述：从HTML中提取并清洗文本。

In [10]:
# 加载库
from bs4 import BeautifulSoup

# 创建HTML代码
html = """
<div class='full_name'><span style='font-weight:bold'>
Masego Azra</span></div>
"""

# 解析HTML
soup = BeautifulSoup(html, "html.parser")

# 查找class是"full_name"的div标签，并查看文本
soup.find("div", {"class": "full_name"}).text
# 输出: 'Masego Azra'

'\nMasego Azra'

讨论：BeautifulSoup可方便地从HTML中提取文本内容，忽略标签。

# 6.3 移除标点

问题描述：移除文本数据中的标点符号。

In [11]:
# 加载库
import unicodedata
import sys

# 创建文本
text_data = ['Hi!!!! I. Love. This. Song..',
             '10000% Agree!!!! #LoveIT',
             'Right?!?']

# 创建一个标点字典
punctuation = dict.fromkeys(
    i for i in range(sys.maxunicode)
    if unicodedata.category(chr(i)).startswith("P")
)

# 移除每个字符串中的标点
[string.translate(punctuation) for string in text_data]
# 输出:
# ['Hi I Love This Song',
#  '10000 Agree LoveIT',
#  'Right']

['Hi I Love This Song', '10000 Agree LoveIT', 'Right']

讨论：使用unicodedata识别所有Unicode标点符号，通过translate批量移除

# 6.4 文本分词

问题描述：将文本分离成独立的单词。

In [17]:
# 加载库
from nltk.tokenize import word_tokenize

# 创建文本
string = "The science of today is the technology of tomorrow. Tomorrow is today."

# 分词
word_tokenize(string)
# 输出:
# ['The', 'science', 'of', 'today', 'is', 'the', 'technology',
#  'of', 'tomorrow', '.', 'Tomorrow', 'is', 'today', '.']

['The',
 'science',
 'of',
 'today',
 'is',
 'the',
 'technology',
 'of',
 'tomorrow',
 '.',
 'Tomorrow',
 'is',
 'today',
 '.']

切分为句子：

In [18]:
# 加载库
from nltk.tokenize import sent_tokenize

# 切分成句子
sent_tokenize(string)
# 输出:
# ['The science of today is the technology of tomorrow.',
#  'Tomorrow is today.']

['The science of today is the technology of tomorrow.', 'Tomorrow is today.']

讨论：分词是文本预处理的关键步骤，将文本转换为可用于构建特征的单词序列。

# 6.5 删除停止词

问题描述：删除文本中的常见停止词（如the, is, of）。

In [20]:
# 加载库
from nltk.corpus import stopwords

# 创建单词序列
tokenized_words = ['i', 'am', 'going', 'to', 'go', 'to', 'the', 'store', 'and', 'park']

# 加载停止词
stop_words = stopwords.words('english')

# 删除停止词
[word for word in tokenized_words if word not in stop_words]
# 输出:
# ['going', 'go', 'store', 'park']

['going', 'go', 'store', 'park']

讨论：
停止词：对文本意义贡献很小的常见词（is, of, on等）
删除停止词可减少特征维度，提高处理效率

# 6.6 提取词干

问题描述：将单词转换为其词根形式。

In [21]:
# 加载库
from nltk.stem.porter import PorterStemmer

# 创建单词序列
tokenized_words = ['i', 'am', 'humbled', 'by', 'this', 'traditional', 'meeting']

# 创建词干转换器
porter = PorterStemmer()

# 应用词干转换器
[porter.stem(word) for word in tokenized_words]
# 输出:
# ['i', 'am', 'humb', 'by', 'thi', 'tradit', 'meet']

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

讨论：
PorterStemmer：最流行的词干提取算法，通过移除单词后缀得到词根
优点：将不同形式的单词统一（humbled, humbled → humb）
缺点：可能产生非实际单词（traditional → tradit）

# 6.7标注词性

问题描述：为文本中的每个单词标注词性。

In [33]:
# 加载库
from nltk import pos_tag
from nltk import word_tokenize

# 创建文本
text_data = "Chris loved outdoor running"

# 使用预训练的词性标注器
text_tagged = pos_tag(word_tokenize(text_data))

# 查看词性
text_tagged
# 输出:
# [('Chris', 'NNP'),
#  ('loved', 'VBD'),
#  ('outdoor', 'RP'),
#  ('running', 'VBG')]

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]

Penn Treebank词性标签示例：
NNP：单数专有名词
VBD：过去式动词
VBG：动名词或现在分词
JJ：形容词
PRP：人称代词

按词性过滤：

In [34]:
# 过滤出名词
noun_tags = ['NN', 'NNS', 'NNP', 'NNPS']
[word for word, tag in text_tagged if tag in noun_tags]
# 输出: ['Chris']

['Chris']

批量处理文档：

In [35]:
# 创建文本
tweets = ["I am eating a burrito for breakfast",
          "Political science is an amazing field",
          "San Francisco is an awesome city"]

# 创建列表
tagged_tweets = []

# 为每条推文中的每个单词加标签
for tweet in tweets:
    tweet_tag = pos_tag(word_tokenize(tweet))
    tagged_tweets.append([tag for word, tag in tweet_tag])

# 使用one-hot编码将标签转换成特征
from sklearn.preprocessing import MultiLabelBinarizer
one_hot_multi = MultiLabelBinarizer()

one_hot_multi.fit_transform(tagged_tweets)
# 输出词性标签的one-hot矩阵

array([[1, 1, 0, 1, 0, 1, 1, 1, 0],
       [1, 0, 1, 1, 0, 0, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0, 0, 1]])

# 6.8将文本编制成词袋

问题描述：将文本转换为词频特征矩阵。

In [37]:
# 加载库
from sklearn.feature_extraction.text import CountVectorizer

# 创建文本
text_data = ['I love Brazil.Brazil!',
             'Germany beats both',
             'Sweden is best']

# 创建词袋特征矩阵
count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

# 查看稀疏矩阵
bag_of_words
# 输出: <3x8 sparse matrix ...>

<3x8 sparse matrix of type '<class 'numpy.int64'>'
	with 8 stored elements in Compressed Sparse Row format>

查看稠密矩阵：

In [38]:
# 查看词频矩阵
bag_of_words.toarray()
# 输出:
# array([[0, 0, 0, 2, 0, 0, 1, 0],
#        [0, 1, 0, 0, 0, 1, 0, 1],
#        [1, 0, 1, 0, 1, 0, 0, 0]], dtype=int64)

array([[0, 0, 0, 2, 0, 0, 1, 0],
       [1, 0, 1, 0, 1, 0, 0, 0],
       [0, 1, 0, 0, 0, 1, 0, 1]], dtype=int64)

查看特征名称：

In [39]:
# 查看特征名（词汇表）
count.get_feature_names_out()
# 输出: array(['best', 'both', 'brazil', 'country', 'germany', 'is', 'sweden', 'the'], dtype=object)

array(['beats', 'best', 'both', 'brazil', 'germany', 'is', 'love',
       'sweden'], dtype=object)

限制词汇表：

In [40]:
# 只关注特定词汇
count_brazil = CountVectorizer(vocabulary=['brazil'])
bag = count_brazil.fit_transform(text_data)

# 查看特征矩阵
bag.toarray()
# 输出:
# array([[2],
#        [0],
#        [0]])

array([[2],
       [0],
       [0]], dtype=int64)

讨论：
词袋模型：将文本转换为词频计数矩阵
稀疏矩阵：默认输出，节省内存
ngram_range：可设置提取N-gram特征
vocabulary：可限制只关注特定词汇

# 6.9按单词的重要性加权

问题描述：使用TF-IDF加权衡量单词在文档中的重要性。

In [45]:
# 加载库
from sklearn.feature_extraction.text import TfidfVectorizer

# 创建文本
text_data = ['I love Brazil.Brazil!',
             'Sweden is best',
             'Germany beats both']

# 创建TF-IDF特征矩阵
tfidf = TfidfVectorizer()

# 查看TF-IDF特征矩阵
feature_matrix = tfidf.fit_transform(text_data)
feature_matrix

<3x8 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

查看稠密矩阵：

In [46]:
# 查看TF-IDF特征矩阵的稠密矩阵形式
feature_matrix.toarray()
# 输出:
# array([[0.        , 0.        , 0.        , 0.89442719, 0.        ,
#         0.        , 0.4472136 , 0.        ],
#        [0.57735027, 0.57735027, 0.        , 0.        , 0.57735027,
#         0.        , 0.        , 0.        ],
#        [0.57735027, 0.        , 0.57735027, 0.        , 0.        ,
#         0.57735027, 0.        , 0.        ]])

array([[0.        , 0.        , 0.        , 0.89442719, 0.        ,
        0.        , 0.4472136 , 0.        ],
       [0.        , 0.57735027, 0.        , 0.        , 0.        ,
        0.57735027, 0.        , 0.57735027],
       [0.57735027, 0.        , 0.57735027, 0.        , 0.57735027,
        0.        , 0.        , 0.        ]])

查看词汇表：

In [47]:
# 查看特征的名字
tfidf.vocabulary_
# 输出:
# {'brazil': 3, 'country': 7, 'germany': 4, 'is': 5, 'best': 1, 'sweden': 6, 'both': 2, 'beats': 0}

{'love': 6,
 'brazil': 3,
 'sweden': 7,
 'is': 5,
 'best': 1,
 'germany': 4,
 'beats': 0,
 'both': 2}

讨论：
TF-IDF：词频-逆文档频率，衡量单词在文档中的重要性
公式：tf-idf(t,d) = tf(t,d) × idf(t)
tf(t,d)：词t在文档d中的频率
idf(t)：log(文档总数 / 包含词t的文档数)
特点：在多个文档中频繁出现的词（如停止词）权重降低

讨论：
TF-IDF：词频-逆文档频率，衡量单词在文档中的重要性
公式：tf-idf(t,d) = tf(t,d) × idf(t)
tf(t,d)：词t在文档d中的频率
idf(t)：log(文档总数 / 包含词t的文档数)
特点：在多个文档中频繁出现的词（如停止词）权重降低
知识点总结
文本清洗：
strip()：去除两端空格
replace()：替换字符
正则表达式：复杂模式匹配和替换
BeautifulSoup：解析和清洗HTML
文本预处理：
分词：word_tokenize()（单词），sent_tokenize()（句子）
停止词：使用NLTK的停止词表删除常见词
词干提取：PorterStemmer将单词还原为词根
词性标注：pos_tag()为单词标注词性（NNP, VBD, JJ等）
文本向量化：
词袋模型（Bag of Words）：CountVectorizer创建词频矩阵
TF-IDF：TfidfVectorizer按单词重要性加权
稀疏矩阵：默认输出，节省内存
词汇表控制：通过vocabulary参数限制特征
高级技巧：
N-gram：设置ngram_range提取短语特征
词性过滤：按词性标签筛选单词（如只保留名词）
自定义转换：使用正则表达式和函数进行复杂清洗
最佳实践：
清洗步骤应包括：去空格、去标点、去HTML、分词、去停止词
词干提取可统一不同形式的单词
TF-IDF比简单词频更能反映单词重要性
大规模文本使用稀疏矩阵存储