In [1]:
import re
from string import punctuation
from itertools import groupby

In [2]:
def delete_escape_character(text, lang="zh", add_punc=False):
    """
    @Desc: 删除文本中的转移字符
    @Args: 
        text: 指定文本
        lang: 该文本对应的语言
        add_punc: 是否补全标点符号
    @Returns: 
        删除后的文本
    """
    list_text = list(text)
    for idx, char in enumerate(list_text):
        if char in ["\t", "\v", "\f", "\r", "\n"]:
            list_text[idx] = ""
            if add_punc:
                if lang == "zh":
                    if list_text[idx-1] != "。":
                        list_text[idx] = "。"
                else:
                    if list_text[idx-1] != ".":
                        list_text[idx] = ". "
    return "".join(list_text)

In [5]:
zh_text = "中国是一个美丽的地方\n请告诉我你在哪儿。\n我一定会去找你\t在我的怀里\t在你的眼里"
print(delete_escape_character(zh_text, lang="zh", add_punc=False))

中国是一个美丽的地方请告诉我你在哪儿。我一定会去找你在我的怀里在你的眼里


In [7]:
en_text = "Today is sunday\nwe are happy\nwe are fun."
print(delete_escape_character(en_text, lang="en", add_punc=False))

Today is sundaywe are happywe are fun.


In [8]:
def delete_extra_whitespace(text, lang="zh"):
    """
    @Desc: 删除文本中的多余空白
    @Args:
        text: 指定文本
        lang: 该文本对应的语言
    @Returns:
        删除后的文本
    """
    if lang == "zh":
        return "".join(text.split())
    else:
        list_text = list(" ".join(text.split()))
        for index, ele in enumerate(list_text):
            if index != 0 and ele in punctuation:
                if list_text[index-1] == " ":
                    list_text[index-1] = ""
        return "".join(list_text)


In [9]:
zh_text = "我 们  都非   常快 乐   。 "
en_text = "Takin  ,    is very   useful  .    "
print(delete_extra_whitespace(zh_text, lang="zh"))
print(delete_extra_whitespace(en_text, lang="en"))

我们都非常快乐。
Takin, is very useful.


In [10]:
def delete_punctuation(text):
    """
    @Desc: 删除文本中的所有标点符号 (运算符保留)
    @Args: None
    @Returns: None
    """
    CHINESE_PUNC = r"(，|。|、|？|！|“|”|‘|’|；|：|《|》|￥|（|）|〈|〉|·)"
    ENGLISH_PUNC = r"(,|!|\?|'|\"|…|-|\$|@|\[|\]|{|}|_|\^|#|<|>|\(|\)|&|\\|;|:)"
    SPECIAL_PUNC = r"(╔|ˊ|η|●|®|•|~|★|\||▶|–)"
    OPERATION_PATTERN = r"(?<!\d)(\.|\+|\=|\*|/|%)(?!\d)"

    text = re.sub(CHINESE_PUNC, "", text)
    text = re.sub(ENGLISH_PUNC, "", text)
    text = re.sub(SPECIAL_PUNC, "", text)
    text = re.sub(OPERATION_PATTERN, "", text)
    return text

In [11]:
text1 = "Long;:,.\"??!''·！？；，。：“”、‘’《》[╔ˊ〉〈–η●®·•-~#/*&$|★▶><\^@+[=]()（）{%_}?…]"
text2 = "this day is a friday. We are 3.123, 90%....   3. 中国, 3/2=5, 我峨%嵋你+"
print(delete_punctuation(text1))
print(delete_punctuation(text2))

Long
this day is a friday We are 3.123 90%   3. 中国 3/2=5 我峨嵋你


In [12]:
def delete_letter(text):
    """
    @Desc: 删除所有英文字母
    @Args:
        text: 指定文本
    @Returns:
        删除后的文本
    """
    LETTER_PATTERN = r"[A-Za-z]+"
    return re.sub(LETTER_PATTERN, "", text)

In [14]:
text = "今天的MoonCake真的非常nice啊！"
print(delete_letter(text))


今天的真的非常啊！


In [15]:
def delete_chinese(text):
    """
    @Desc: 删除所有中文字符
    @Args:
        text: 指定文本
    @Returns:
        删除后的文本
    """
    CHINESE_PATTERN = r"[\u4e00-\u9fa5]+"
    return re.sub(CHINESE_PATTERN, "", text)

In [16]:
text = "This is another 胜利victory!"
print(delete_chinese(text))

This is another victory!


In [17]:
def delete_bracket(text):
    """
    @Desc: 删除括号以及括号里的内容，包括 <*>、(*)、（*）、【*】、[*]、{*}
    @Args:
        text: 指定文本
    @Returns:
        删除后的文本
    """
    BRACKET_PATTERN = r"<.*>|\(.*\)|（.*）|【.*】|\[.*\]|{.*}"
    return re.sub(BRACKET_PATTERN, "", text)



In [18]:
text = "机器阅读理解（MRC），【旨在】教机器理解人类语言(language){热爱学习}[hah]<hahgag>"
print(delete_bracket(text))

机器阅读理解，教机器理解人类语言


In [19]:
def delete_series_number(text):
    """
    @Desc: 删除文本中的序号
    @Args:
        text: 指定文本
    @Returns:
        删除后的文本
    """ 
    # 1.|(2)|(2).|4)|4)、|（一）|（二）、 
    SERIES_PATTERN = r"\d+\.|\(\d+\)\.?|\d+\)(\.|、)?|（(一|二|三|四|五|六|七|八|九|十|百|千|万|亿)+）(\.|、)?"
    return re.sub(SERIES_PATTERN, "", text)

In [20]:
text = "1.努力工作；2. 用心学习 (2).用心学习；(3)锻炼身体；4).热爱家庭快乐；6)学习, 7)、（一）、集中学习 （十五）高度集中 （一百二十三）"
print(delete_series_number(text))

努力工作； 用心学习 用心学习；锻炼身体；热爱家庭快乐；学习, 集中学习 高度集中 


In [21]:
def delete_repeated_punc(text):
    """
    @Desc: 连续重复的标点符号只保留一次
    @Args:
        text: 指定文本
    @Returns:
        删除后的文本
    """
    punctuations = [';', ':', ',', '.', '"', '?', '!', "'", '·', '！', '？', '；', '，', '。', '：', '“', '”', '、', '‘', '’', '《', '》', '[', '╔', 'ˊ', '〉', '〈', '–', 'η', '●', '®', '·', '•', '-', '~', '#', '/', '*', '&', '$', '|', '★', '▶', '>', '<', '\\', '^', '@', '+', '[', '=', ']', '(', ')', '（', '）', '{', '%', '_', '}', '?', '…']
    t = [[k, len(list(g))] for k, g in groupby(text)]
    res = ""
    for ele in t:
        char = ele[0]
        count = ele[1]
        if char in punctuations and count > 1:
            count = 1
        res += char * count
    return res

In [22]:
text = "what's up????????????????...。。《《《"
print(delete_repeated_punc(text))

what's up?.。《
