## Preprocessing Baseline

사용자가 수신한 SMS가 전처리되는 과정을 보여주는 코드

In [1]:
import pandas as pd
import re

In [2]:
SPECIALS = "".join([",", ";", ":", "!", '"', "?", "+","#", "'", '$','%','&','(',')','-','/',' '])  # 허용할 특수 문자


def preprocess(text: str, only_kor: bool=True):
    """한국어 문장을 옵션에 맞게 전처리"""
    # 한국어 모음과 특수 문자, 숫자 및 영어 제거
    if only_kor:
        text = re.sub(f"[^가-힣| |]+", "", text)
    else:
        text = re.sub(f"[^가-힣|ㄱ-ㅎ|0-9|{SPECIALS}|]+", "", text)  # f-문자열을 적용시켜 SPECIALS를 넣어줌.
    
    # 연속 공백 제거
    text = re.sub(" +", " ", text)
    
    # 좌우 불필요한 공백 제거
    return text.strip()

In [3]:
def url_encode(text: str):
    "메시지 상에 존재하는 url을 [url] 토큰으로 만들기"
    
    # URL 추출할 정규표현식 생성
    url_regex = r"(https?:\/\/)?(www\.)?[-a-zA-Z0-9@:%._\+~#=]{2,256}\.[a-z]{2,6}\b([-a-zA-Z0-9@:%_\+.~#?&\/\/=]*)"

    reg = re.compile(url_regex)
    
    res = reg.search(text)
    
    if res == None:
        return text
    
    else:
        indexes = res.span()
        
        url_txt = text[indexes[0]:indexes[1]]
        
        return text.replace(url_txt, " 윪 ")

## 전처리 동작 예시

In [4]:
SMS = "야 오버워치(OVERWATCH)2 해봄? 지금 <이벤트>도 하는데 같이 하자!! \
https://overwatch.blizzard.com/ko-kr/news/"  # SMS 예시

In [5]:
url_encoded = url_encode(SMS)
preprocessed = preprocess(url_encoded, True)
input_text = preprocessed.replace('윪','[URL]') 

In [6]:
input_text

'야 오버워치 해봄 지금 이벤트도 하는데 같이 하자 [URL]'