Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 915 Bytes

8.md

File metadata and controls

20 lines (15 loc) · 915 Bytes

处理文本

原文:Working with Text

校验:Kitty Du

自豪地采用谷歌翻译

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/08'))

大量的数据不是像CSV 中的数字那样,而是像书籍、文档、博客文章和互联网评论中的自由文本。数字和分类数据通常是从物理现象中收集的,而文本数据是从人类的交流和表达中产生的。与大多数类型的数据一样,有许多处理文本的技术,需要多本书来详细解释。在本章中,我们将介绍这些技术中的一小部分,它们为处理文本提供各种有用的操作:Python 字符串操作和正则表达式。