In [1]:
import os
import re
import pandas as pd
from tokenizers import Tokenizer
from nltk.tokenize import RegexpTokenizer


In [11]:
class UserTokenizers:
    """class info : 사용자의 필요에 맞게 다양한 토크나이저를 적용하는 모듈"""
    def __init__(self) -> None:
        self.bpe_tokenizer_pretrained= Tokenizer.from_file("./mode_data/bpe_tokenizer.json")
        self.wp_tokenizer_pretrained= Tokenizer.from_file("./mode_data/wp_tokenizer.josn")
    
    @staticmethod
    def whitespaceToken( data: str)-> list:
        """
        funcinfo whitespaceToken: 공백문자로 데이터를 나누는 토큰화
        param data : 토큰화할 문자 데이터
        return token_rs: 토큰 결과 
        """
        token_rs= data.split(' ')
        return token_rs
    @staticmethod
    def regexsplitToken(data: str, pat: str = '[\.\,!?\n]')-> list:
        """
        funcinfo regexsplitToken: 정규표현식의 패턴을 기준으로 데이터를 토큰화
        param data : 토큰화할 문자 데이터
        param pat : 토큰화할 정규식
        return token_rs: 토큰 결과
        """
        re_rs= re.split(pat, data, maxsplit=0)
        token_rs=[rs_unit.strip()for rs_unit in re_rs if len(rs_unit.strip())>1]
        return token_rs
    @staticmethod
    def regexselectToken(data: str, pat: str='[\w]+') -> list:
        """
        funcinfo regexselectToken: 정규표현식의 패턴을 선택하여 토큰화
        param data : 토큰화할 문자 데이터
        param pat : 토큰화할 정규식
        return token_rs: 토큰 결과
        """
        token_rs = RegexpTokenizer(pat).tokenize(data)
        return token_rs
    
    def BPETokenizer(self, data : str) -> list :
        """
        funcinfo BPETokenizer: char bpe로 훈련된 모델로 토큰화
        param data : 토큰화할 문자 데이터
        return token_rs: 토큰 결과
        """
        token_rs = self.bpe_tokenizer_pretrained.encode(data).tokens
        
        return token_rs
    def WordPieceTokenizer(self, data : str) -> list:
        """
        funcinfo WordPieceTokenizer: bert word piece로 훈련된 모델로 토큰화
        param data : 토큰화할 문자 데이터
        return token_rs: 토큰 결과
        """
        token_rs = self.wp_tokenizer_pretrained.encode(data).tokens
        
        return token_rs

In [19]:
sample_data= """우리 열차는 잠시 후 마지막 역인 서울역에 도착합니다. 미리 준비하시기 바랍니다.
오늘도 빠르고 편안한 KTX를 이용해주신 고객 여러분, 고맙습니다. 안녕히 가십시오.
"""

In [12]:
ut_cls=UserTokenizers()

In [13]:
print(ut_cls.whitespaceToken(sample_data))

['우리', '열차는', '잠시', '후', '마지막', '역인', '서울역에', '도착합니다.', '미리', '준비하시기', '바랍니다.\n오늘도', '빠르고', '편안한', 'KTX를', '이용해주신', '고객', '여러분,', '고맙습니다.', '안녕히', '가십시오.\n타는', '곳', '12번', '열차는,', '13시', '11분에', '서울로', '가는', 'KTX-산천', '411', '열차로,', '앞쪽에', '위치한', '11호차부터', '18호차까지', '이용해주시기', '바랍니다.\n뒤쪽에', '위치한', '열차는', '13시', '11분에', '행신으로', '가는', 'KTX-산천', '413', '열차로,', '뒤쪽에', '위치한', '1호차부터', '8호차까지', '이용해주시기', '바랍니다.\n이', '열차는', '두', '개의', '열차를', '하나로', '연결해', '운행하는', '열차로,', '8호차와', '11호차', '사이에는', '기관차가', '연결되어', '있어,', '객차', '사이를', '오갈수', '없습니다.\n승차위치를', '다시', '한', '번', '확인해주시기', '바랍니다.', '열차', '곧', '출발하겠습니다.\n']


In [14]:
print(ut_cls.regexsplitToken(sample_data))

['우리 열차는 잠시 후 마지막 역인 서울역에 도착합니다', '미리 준비하시기 바랍니다', '오늘도 빠르고 편안한 KTX를 이용해주신 고객 여러분', '고맙습니다', '안녕히 가십시오', '타는 곳 12번 열차는', '13시 11분에 서울로 가는 KTX-산천 411 열차로', '앞쪽에 위치한 11호차부터 18호차까지 이용해주시기 바랍니다', '뒤쪽에 위치한 열차는 13시 11분에 행신으로 가는 KTX-산천 413 열차로', '뒤쪽에 위치한 1호차부터 8호차까지 이용해주시기 바랍니다', '이 열차는 두 개의 열차를 하나로 연결해 운행하는 열차로', '8호차와 11호차 사이에는 기관차가 연결되어 있어', '객차 사이를 오갈수 없습니다', '승차위치를 다시 한 번 확인해주시기 바랍니다', '열차 곧 출발하겠습니다']


In [15]:
print(ut_cls.regexselectToken(sample_data))

['우리', '열차는', '잠시', '후', '마지막', '역인', '서울역에', '도착합니다', '미리', '준비하시기', '바랍니다', '오늘도', '빠르고', '편안한', 'KTX를', '이용해주신', '고객', '여러분', '고맙습니다', '안녕히', '가십시오', '타는', '곳', '12번', '열차는', '13시', '11분에', '서울로', '가는', 'KTX', '산천', '411', '열차로', '앞쪽에', '위치한', '11호차부터', '18호차까지', '이용해주시기', '바랍니다', '뒤쪽에', '위치한', '열차는', '13시', '11분에', '행신으로', '가는', 'KTX', '산천', '413', '열차로', '뒤쪽에', '위치한', '1호차부터', '8호차까지', '이용해주시기', '바랍니다', '이', '열차는', '두', '개의', '열차를', '하나로', '연결해', '운행하는', '열차로', '8호차와', '11호차', '사이에는', '기관차가', '연결되어', '있어', '객차', '사이를', '오갈수', '없습니다', '승차위치를', '다시', '한', '번', '확인해주시기', '바랍니다', '열차', '곧', '출발하겠습니다']


In [17]:
print(ut_cls.regexsplitToken(sample_data, pat='니다'))

['우리 열차는 잠시 후 마지막 역인 서울역에 도착합', '. 미리 준비하시기 바랍', '.\n오늘도 빠르고 편안한 KTX를 이용해주신 고객 여러분, 고맙습', '. 안녕히 가십시오.\n타는 곳 12번 열차는, 13시 11분에 서울로 가는 KTX-산천 411 열차로, 앞쪽에 위치한 11호차부터 18호차까지 이용해주시기 바랍', '.\n뒤쪽에 위치한 열차는 13시 11분에 행신으로 가는 KTX-산천 413 열차로, 뒤쪽에 위치한 1호차부터 8호차까지 이용해주시기 바랍', '.\n이 열차는 두 개의 열차를 하나로 연결해 운행하는 열차로, 8호차와 11호차 사이에는 기관차가 연결되어 있어, 객차 사이를 오갈수 없습', '.\n승차위치를 다시 한 번 확인해주시기 바랍', '. 열차 곧 출발하겠습']


In [20]:
print(ut_cls.BPETokenizer(sample_data))

['우리</w>', '열', '차', '는</w>', '잠시</w>', '후</w>', '마지막</w>', '역', '인</w>', '서울', '역에</w>', '도', '착', '합니다</w>', '.</w>', '미', '리</w>', '준비', '하시', '기</w>', '바랍니다</w>', '.</w>', '오늘도</w>', '빠', '르고</w>', '편안', '한</w>', 'K', 'T', 'X', '를</w>', '이용', '해주', '신</w>', '고', '객</w>', '여러분</w>', ',</w>', '고맙습니다</w>', '.</w>', '안', '녕', '히</w>', '가', '십', '시오</w>', '.</w>']


In [21]:
print(ut_cls.WordPieceTokenizer(sample_data))

['우리', '열', '##차', '##는', '잠시', '후', '마지막', '역', '##인', '서울', '##역', '##에', '도', '##착', '##합니다', '.', '미리', '준비', '##하시', '##기', '바랍니다', '.', '오늘', '##도', '빠', '##르고', '편안', '##한', 'K', '##T', '##X', '##를', '이용', '##해주', '##신', '고', '##객', '여러분', ',', '고맙습니다', '.', '안녕', '##히', '가', '##십', '##시오', '.']
