In [1]:
import re

# 동북 아시아
ko = "\u3131-\u3163|\uac00-\ud7af|\u0041-\u007a"  # ko + en
zh = "\u4e00-\u62ff|\u6300-\u77ff|\u7800-\u8cff|\u8d00-\u9fff|\u0041-\u007a"  # zh_cn + en
ja = "\u3041-\u3096|\u30a0-\u30ff|\u3400-\u4db5|\u4e00-\u9fcb|\uf900-\ufa6a|\u0041-\u007a"  # ja + en

# 러시아
ru = "\u0410-\u044f"  # ru

# 유럽 / 미국 (vi, de, pt, fr, id, es, it, en)
for country in "vi,de,pt,fr,id,es,it,en".split(","):
    globals()[
        f"{country}"
    ] = "\u0041-\u007a|\u00c0-\u0178|\u1e00-\u1eff|\u0180-\u024f|\u1e00—\u1eff|\u0027"

# 인도
hi = "\u0900-\u097f|\ua8e0-\ua8ff"  # hi (드 파나 가리어)

# 아랍
ar = "\u0627-\u064a"  # ar


def clean_lng(sentence, unicode):
    """
    문장 전처리 함수
    문장과 해당 언어의 유니코드를 문자열로 넣으면 된다
    """
    if type(sentence) == str:
        p = re.compile(
            fr"""
        (
        ((http|https)\:\/\/)?            # http가 존재하거나 존재하지 않거나
        [a-zA-Z0-9\.\-_]+\.              # 웹주소 .kr 이전 까지만 선택
        ([a-zA-Z]){2,6}                  # .kr, .org 등을 모두 선택
        ([a-zA-Z0-9\.\&\/\?\:@\-_=#])*   # 파라미터 선택 / 이메일 선택
        )|
        (
        \([^)]*\)                        # () 안에 내용까지 선택 (반각)    
        )|
        (
        \<[^>]*\>                        # <> 안에 내용까지 선택 (반각)
        )|
        (
        \[[^\]]*\]                       # [] 안에 내용까지 선택 (반각)
        )|
        (
        --[^-]*--                        # -- 내용 -- 내용까지 선택 (반각)
        )|
        (
        \u00ab[^\u00bb]*\u00bb           # <> 안에 내용까지 선택 (반각)
        )|
        (
        \uff1c[^\uff1e]*\uff1e           # < > 안에 내용까지 선택 (전각)
        )|
        (
        \ufe64[^\ufe65]*\ufe65           # << >> 안에 내용까지 선택 (전각)
        )|
        (
        \uff08[^\uff09]*\uff09           # () 안에 내용까지 선택 (전각)    
        )|
        (
        \ufe59[^\ufe5a]*\ufe5a            # () 안에 내용까지 선택 (전각) 
        )|
        (
        \uff3b[^\uff3d]*\uff3d           # [] 안에 내용까지 선택 (전각)
        )|
        (                                
        [^ {unicode}|  # 사용할 언어

        0-9|0-9 /|0-9/|0-9 :|0-9:|       # 숫자와 숫자 뒤 /와 :는 선택에서 제외

        ·|.|,|!|?|"|"|'|⸢|⸥|。|          # 포함할 특수문자 (반각)
                                         # 포함할 특수문자 (전각) :
        \uff0e|\ufe52|\uff0c|\ufe51|     # 마침표, 콤마, 느낌표,
        \ufe50|\ufe57|\uff01|\ufe15|     # 물음표, 큰따옴표,
        \uff1f|\ufe56|\ufe16|\uff02|     # 어퍼스트로피, 꺽새 (전각)
        \uff07|\ufe41|\ufe42|\ufe43|\ufe44]
        )                               
        """,
            re.VERBOSE,
        )
        result = p.sub("", sentence)
    else:
        result = ""
    return result

In [25]:
tgt = "'안녕이라는 말대신(??)~' 노래 좋음!!"
clean = clean_lng(tgt, ko)

In [26]:
clean

"'안녕이라는 말대신' 노래 좋음!!"