# 文本处理操作复习
NLP处理的对象是文本字符串内容，但是由于大量的文本字符串表达多样性的存在，我们往往需要对数据进行清洗之后才能开展文本表示相关工作。这里我们需要对基础的文本字符串操作进行回顾：
* 替换
* 截取
* 复制
* 连接
* 分割
* 排序
* 比较
* 查找
* 包含
* 大小写转换

下面我们仅将常用的文本处理操作进行复习，并介绍部分正则表达式的内容。其他文本操作请同学们课后自行学习。

In [8]:
basic_str = " hello world, this is text processing practice! "

## 字符串替换

In [9]:
# 字符串替换
basic_str.replace('hello', 'hi')

' hi world, this is text processing practice! '

In [10]:
# 删除特定字符串
basic_str.replace(',', '')

' hello world this is text processing practice! '

## 字符串截取

In [11]:
# 截取
# 从左往右index从0开始，可以用index进行切片（左闭右开）
basic_str[:3]   # 截取0到3的字符，不包括3

' he'

In [13]:
# 从右往左index从-1开始，可以用index进行切片（左闭右开）
basic_str[-4: -1]  # 不包括-1的字符

'ce!'

## 字符串拼接与分割

In [14]:
str1 = "大家好！"
str2 = "吃了没！"
str1 + str2

'大家好！吃了没！'

In [15]:
# 通过join的方式连接
# 对于列表中的很多个元素，可使用join函数进行拼接
strs = ['大家好！', '吃了没！', '操作下饭了没！']
"; ".join(strs)    # 通过; 拼接

'大家好！; 吃了没！; 操作下饭了没！'

In [18]:
# 通过split的方式切分，可以按照特定标识来进行切分
tmp_str = "大家好! 吃了没! 操作下饭了没! "
tmp_str.split("! ")    # 根据!所在的位置进行切分

['大家好', '吃了没', '操作下饭了没', '']

## 查找与包含

In [19]:
# 查找可以用index和find，会得到子字符串的索引
tmp_str = "大家好! 吃了没! 操作下饭了没! "
tmp_str.index("下饭")

12

In [22]:
# 使用find仅仅找到第一个符合要求的词
# 如果需要找出全部子字符串，可以采用正则findall
tmp_str.find("了")
# tmp_str.find("没")

6

In [24]:
# 查找不存在的子字符串，index会抛出异常，find会返回-1
print(tmp_str.find("嗨皮"))
# print(tmp_str.index("嗨皮"))

-1


## 大小写处理

In [25]:
en_str = 'hello, my name is York'

In [26]:
# 字符串小写
en_str.lower()

'hello, my name is york'

In [27]:
# 字符串大写
en_str.upper()

'HELLO, MY NAME IS YORK'

In [28]:
# 字符串首字母大写，其余小写
en_str.capitalize()

'Hello, my name is york'

# 正则表达式
正则表达式是**处理字符串**的强大工具，拥有独特的语法和独立的处理引擎。

我们在大文本中匹配字符串时，有些情况用str自带的函数(比如index, find, in)可能可以完成，有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串，所有和qq/163相关的句子)，这个时候我们需要一个某种模式的工具，这个时候**正则表达式**就派上用场了。<br>

自然语言处理的各种模型和算法要发挥作用离不开数据，离不开“干净”的数据，而现实生活中的数据形态和干净程度不一，我们经常要做一些数据清洗和信息抽取的工作，这时候正则表达式就可以发挥及其强大的匹配功能了。说起来，正则表达式是一套引擎，并不是Python语言独有的功能或者工具库，其在面对半结构化的数据时能够达到极佳的预期效果。

**正则表达式相关内容可以通过菜鸟教程进行学习** [Python正则表达式](https://www.runoob.com/python/python-reg-expressions.html)

**想要练习正则表达式的同学可以通过链接：**[正则表达式练习](https://alf.nu/RegexGolf) 进行练习