# ch 4. Tokenize
자연어 처리에서 텍스트 데이터를 corpus(코퍼스, 말뭉치)라고 부릅니다. 크롤링 시간에 수집했던 뉴스 기사들도 코퍼스라고 부를 수 있습니다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 합니다. (토큰해주는 기술 tokenizer)

토큰은 컴퓨터가 텍스트를 처리하는 최소 의미 단위가 됩니다. 토큰화에는 여러 기법들이 있습니다. 딥러닝 등장 이전의 NLP에서는 주로 언어학 관점에서 정의한 최소 의미 단위인 형태소를 기준으로 토큰화를 했습니다. 하지만 최근 딥러닝 모델들은 데이터로부터 자연스럽게 토크나이저를 학습하는 subword 토큰화를 사용하며, 딥러닝을 이용한 NLP 시간에 배워보겠습니다.

형태소 단위로 문장을 토큰화 해주는 기술을 형태소 분석기라고 부릅니다. 형태소 분석기는 언어학적으로 해석이 가능한 장점이 있습니다만, 고유명사나 신조어 대응이 어려운 한계가 있습니다. 이번 챕터에서는 기본적인 토큰화 기법들과 형태소 분석기를 실습해보겠습니다.

## 공백 기준의 토큰화
먼저 생각할 수 있는 가장 단순한 토큰화 기법은 공백을 기준으로 잘라내는 것입니다.

In [None]:
sentence = '롯데 자이언츠의 거인 이대호(40)의 꿈이 무너져가고 있다. 이대호가 새해 40세 불혹(不惑)의 나이가 됐다. 불혹은 주위에서 어떤 일이 벌어져도 중심을 잃지 않고 자신만의 원칙을 지켜 나갈 수 있는 경지에 오르는 시기다. 이번 스토브리그에 롯데 구단에 걱정스러운 일이 벌어지고 있다. 그런데 이대호는 어떤 대외 활동도 하지 않고 침묵하며 조용히 개인 훈련에 집중하는 모습이다. 불혹이 돼서인가? 지난 2017년 1월24일이다. 벌써 5년의 시간이 흘렀다. 롯데의 프랜차이즈 스타 이대호가 일본프로야구 미국 메이저리그를 거쳐 고향팀 롯데로 돌아왔다. 그는 ‘조선의 4번타자’답게 단숨에 최고가 됐다. 삼성에서 FA가 된 최형우가 고향팀 KIA 타이거즈와 4년 계약을 하면서 기록한 총액 100억 원을 훨씬 넘어 150억 원에 롯데와 계약했다. 당시 인터뷰에서 이대호는 ‘메이저리그에서 열심히 노력해 꿈을 이루었다. 남은 것은 롯데로 돌아와 함께 우승을 하는 것이다. 마지막 소원이 롯데의 우승’이라고 밝혔다. 2001년 롯데에 2차 1순위로 입단해 2011시즌까지 11시즌 동안 이대호는 무려 225개의 홈런을 쏘아 올렸다. 그리고 2008~2011 시즌까지 4년 연속 롯데를 포스트시즌으로 이끌었으나 한국시리즈 우승을 못하고 일본 프로야구로 떠났다.'

In [2]:
tokens = sentence.split(" ")
print(tokens)

['롯데', '자이언츠의', '거인', '이대호(40)의', '꿈이', '무너져가고', '있다.', '이대호가', '새해', '40세', '불혹(不惑)의', '나이가', '됐다.', '불혹은', '주위에서', '어떤', '일이', '벌어져도', '중심을', '잃지', '않고', '자신만의', '원칙을', '지켜', '나갈', '수', '있는', '경지에', '오르는', '시기다.', '이번', '스토브리그에', '롯데', '구단에', '걱정스러운', '일이', '벌어지고', '있다.', '그런데', '이대호는', '어떤', '대외', '활동도', '하지', '않고', '침묵하며', '조용히', '개인', '훈련에', '집중하는', '모습이다.', '불혹이', '돼서인가?', '지난', '2017년', '1월24일이다.', '벌써', '5년의', '시간이', '흘렀다.', '롯데의', '프랜차이즈', '스타', '이대호가', '일본프로야구', '미국', '메이저리그를', '거쳐', '고향팀', '롯데로', '돌아왔다.', '그는', '‘조선의', '4번타자’답게', '단숨에', '최고가', '됐다.', '삼성에서', 'FA가', '된', '최형우가', '고향팀', 'KIA', '타이거즈와', '4년', '계약을', '하면서', '기록한', '총액', '100억', '원을', '훨씬', '넘어', '150억', '원에', '롯데와', '계약했다.', '당시', '인터뷰에서', '이대호는', '‘메이저리그에서', '열심히', '노력해', '꿈을', '이루었다.', '남은', '것은', '롯데로', '돌아와', '함께', '우승을', '하는', '것이다.', '마지막', '소원이', '롯데의', '우승’이라고', '밝혔다.', '2001년', '롯데에', '2차', '1순위로', '입단해', '2011시즌까지', '11시즌', '동안', '이대호는', '무려', '225개의', '홈런을', '쏘아', '올렸다.', '그리고', '2008~2011', '시즌까지', '

이렇게 공백을 기준으로 토큰을 만들게 되면 한국어의 특성상 조사를 떼어낼 수가 없습니다. 즉, "이대호가", "이대호는"과 같이 실제로는 비슷한 의미를 갖는 토큰을 전혀 다른 토큰으로 인식하게 됩니다. 토큰화가 제대로 이루어지지 않으면 제 아무리 고도화 된 AI 모델을 학습시킨다 하더라도 정확도를 기대할 수 없습니다.

공백을 기준으로 잡는 것 외에도 온 점이나 쉼표를 기준으로 토큰화를 하는 기법들이 있지만, 마찬가지로 낮은 정확도로 인해 사용하지 않습니다.

## 형태소 분석기를 이용한 토큰화
다음으로 형태소 분석기를 이용한 토큰화를 해보겠습니다. 가장 쉽게 사용할 수 있는 konlpy의 komoran을 사용하여 실습을 진행해보겠습니다. konlpy는 한국어 자연어 처리 라이브러리이고, komoran은 konlpy를 통해 이용할 수 있는 형태소 분석기 중 하나입니다.

In [None]:
!pip install konlpy

In [3]:
from konlpy.tag import Komoran

komoran = Komoran()
tokens = komoran.pos(sentence)    # pos-tagging - 형태소 분석
print(tokens)

[('롯데 자이언츠', 'NNP'), ('의', 'JKG'), ('거인', 'NNP'), ('이대호', 'NNP'), ('(', 'SS'), ('40', 'SN'), (')', 'SS'), ('의', 'JKG'), ('꿈', 'NNG'), ('이', 'JKS'), ('무너지', 'VV'), ('어', 'EC'), ('가', 'VX'), ('고', 'EC'), ('있', 'VX'), ('다', 'EF'), ('.', 'SF'), ('이대호', 'NNP'), ('가', 'JKS'), ('새해', 'NNP'), ('40', 'SN'), ('세', 'NNB'), ('불혹', 'NNG'), ('(', 'SS'), ('不惑', 'SH'), (')', 'SS'), ('의', 'JKG'), ('나이', 'NNG'), ('가', 'JKS'), ('되', 'VV'), ('었', 'EP'), ('다', 'EF'), ('.', 'SF'), ('불혹', 'NNG'), ('은', 'JX'), ('주위', 'NNG'), ('에서', 'JKB'), ('어떤', 'MM'), ('일', 'NNG'), ('이', 'JKS'), ('벌어지', 'VV'), ('어도', 'EC'), ('중심', 'NNG'), ('을', 'JKO'), ('잃', 'VV'), ('지', 'EC'), ('않', 'VX'), ('고', 'EC'), ('자신', 'NNG'), ('만', 'JX'), ('의', 'JKG'), ('원칙', 'NNG'), ('을', 'JKO'), ('지키', 'VV'), ('어', 'EC'), ('나가', 'VV'), ('ㄹ', 'ETM'), ('수', 'NNB'), ('있', 'VV'), ('는', 'ETM'), ('경지', 'NNG'), ('에', 'JKB'), ('오르', 'VV'), ('는', 'ETM'), ('시기', 'NNP'), ('다', 'EF'), ('.', 'SF'), ('이번', 'NNG'), ('스토브리그에', 'NA'), ('롯데', 'NNP'), ('구단', 'NNP')

형태소 분석기를 이용하면 각 토큰별로 품사와 함께 토큰화 된 텍스트를 가져올 수 있습니다. 또한 "롯데 자이언츠"처럼 중간에 공백이 삽입된 명사도 고유명사로 잘 구분하는 모습을 보여줍니다. "이대호가", "이대호는"과 같은 단어도 "이대호", "가", "이대호", "는"으로 분리해주어 의미 단위로 토큰을 잘 분리하는 모습을 보여줍니다.

하지만 형태소 분석기는 신조어나 고유 명사에 상당히 취약한 모습을 보이기도 합니다. 

In [4]:
sentence = "SSG 랜더스의 추신수 선수가 NC 다이노스의 안우진 선수를 상대로 홈런을 쳤습니다."
print(komoran.pos(sentence))

[('SSG', 'SL'), ('랜더스의', 'NA'), ('추신수', 'NNP'), ('선수', 'NNG'), ('가', 'JKS'), ('NC 다이노스', 'NNP'), ('의', 'JKG'), ('안우', 'NNP'), ('진', 'NNP'), ('선수', 'NNG'), ('를', 'JKO'), ('상대로', 'NNP'), ('홈런', 'NNG'), ('을', 'JKO'), ('치', 'VV'), ('었', 'EP'), ('습니다', 'EF'), ('.', 'SF')]


"SSG", "랜더스", "안우진" 등의 고유 명사를 NNP로 잡아내지 못하는 모습을 보입니다. 이러한 형태소 분석기의 한계점은 고유 명사를 직접 지정하는 사용자 사전 기능으로 극복할 수 있습니다.

In [5]:
# 고유 명사 직접 지정해주기
komoran = Komoran(userdic="./data/user.dic")

In [6]:
print(komoran.pos(sentence))

[('SSG', 'NNP'), ('랜더스', 'NNP'), ('의', 'JKG'), ('추신수', 'NNP'), ('선수', 'NNG'), ('가', 'JKS'), ('NC', 'NNP'), ('다이노스', 'NNP'), ('의', 'JKG'), ('안우진', 'NNP'), ('선수', 'NNG'), ('를', 'JKO'), ('상대로', 'NNP'), ('홈런', 'NNG'), ('을', 'JKO'), ('치', 'VV'), ('었', 'EP'), ('습니다', 'EF'), ('.', 'SF')]


## 전체 데이터 셋 토크나이즈

웹 크롤링 시간에 정규 표현식을 이용해서 전처리 했었던 데이터 셋을 tokenize 해보겠습니다. 한번 전체 데이터 셋 중 1000개만 토큰화하여 결과를 CSV 파일에 써보겠습니다.

In [7]:
def tokenize(sentence):
    try:
        tokens = komoran.pos(sentence)
        nouns = [token for token, tag in tokens if tag in ("NNP", "NNG")]
        return nouns
        #return komoran.pos(sentence)
    except:
        print("예외!", sentence)
        return []

In [8]:
tokenize(sentence)

['SSG', '랜더스', '추신수', '선수', 'NC', '다이노스', '안우진', '선수', '상대로', '홈런']

In [9]:
import pandas as pd
df = pd.read_csv("./data/baseball_preprocessed.csv", encoding="utf-8", sep="\t")

In [10]:
sampled_df = df.sample(10000)

In [11]:
from tqdm import tqdm

tqdm.pandas()
sampled_df["nouns"] = sampled_df["content"].progress_apply(lambda x: tokenize(x))

 24%|██████████████████▎                                                          | 2378/10000 [00:56<03:21, 37.76it/s]

예외! "대호야, 고마 막 쎄리뿌라."롯데 이대호(40)가 KBO리그 역대 두 번째 은퇴투어 주인공이 됐다. KBO는 14일 해당 사실을 공식 발표했다. 이대호는 "9개 구단과 KBO의 배려에 진심으로 감사 드린다. 사인회를 진행하고 싶다. 나 혼자 하는 은퇴식이 아니다. 팬들과 함께 하는 행사가 되면 좋겠다"라고 했다.그동안 KBO리그 은퇴투어는 공식적으로 '국민타자' 이승엽이 유일했다. 2017시즌 삼성을 제외한 나머지 9개 구단이 삼성과의 마지막 홈 시리즈에 맞춰 은퇴투어를 개최했다. 서로 선물도 주고 받았고, 기념행사를 열었다. 이후 은퇴투어의 자격 요건을 놓고 팬들 사이에서 의견이 분분했다. 첫 번째 선수가 국민타자라서 은퇴투어의 격이 너무 올라간 상태였다. 이후 선수들끼리 자발적으로 몇몇 선수가 은퇴할 때 격려하는 행사만 있었을 뿐이다. 그러나 이대호라면 은퇴투어 자격은 충분하다. KBO리그와 롯데 역사에 한 획을 그은 타자인 건 분명하다. 이대호는 일찌감치 올 시즌을 끝으로 은퇴를 선언했고, 스프링캠프 인터뷰서는 그저 팬들에게 사인해드릴 기회만 생겼으면 좋겠다고 희망하기도 했다. 어쨌든 판이 깔렸으니 이대호의 2022시즌에 관심이 쏠린다.'1호 은퇴투어' 이승엽도 이대호의 은퇴투어를 크게 반겼다. 자신의 인스타그램에 "은퇴투어 확정, KBO와 10개 구단의 결정에 감사드립니다. 대호야, 올 시즌 후회 없이 고마 막 쎄리뿌라, 마무리 잘하자"라고 적었다. 그러면서 "여러분도 이대호 선수에게 많은 응원 부탁 드립니다. 기분 조~타"라고 했다.과거 롯데에서 한솥밥을 먹은 황재균(KT)도 자신의 인스타그램에 "은퇴투어를 하는 게 정말 대단한것인데 같은 야구선수로서 멋있어요👍🏻 긴 시간동안 고생많았어요. 마지막 시즌은 즐겁게"라고 적었다.    [이대호와 이승엽, 이대호와 황재균. 사진 = 마이데일리 사진 DB](김진성 기자 kkomag@mydaily.co.kr)


 45%|██████████████████████████████████▎                                          | 4457/10000 [01:47<01:54, 48.57it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006727828 ] [골룸] 야구에 산다 제77구 : '승리 공식' SSG 김택형 인터뷰!올 시즌 프로야구부터 스트라이크존이 넓어졌습니다.개막 직후 경기에서는 투수와 타자 모두 넓어진 스트라이크존을 낯설어했었는데요.역대급 투고타저를 기록하던 첫 열흘 경기와는 달리, 최근 2주 동안은 한층 안정된 모습을 보여주고 있습니다.한편, 이번 시즌 롯데가 압도적으로 역대급 삼진율을 보여주고 있습니다.그 기록의 중심에 서있는 한동희를 분석해봅니다.야구에 산다 제77구에서는 SSG 랜더스 김택형과 인터뷰 진행합니다.팀의 승리 공식으로 자리매김한 김택형은 범상치 않은 인터뷰 실력으로 '토크 천재'의 면모를 보여줬습니다.자세한 이야기는 오디오로 들어보세요!녹음 시점: 4월 25일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 김택형


 62%|███████████████████████████████████████████████▍                             | 6153/10000 [02:29<01:26, 44.35it/s]

예외! nan


 72%|███████████████████████████████████████████████████████▏                     | 7175/10000 [02:54<00:47, 59.82it/s]

예외! nan


100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [04:04<00:00, 40.83it/s]


## 명사만 추출한 뒤 저장

In [14]:
sampled_df[["nouns"]].to_csv("./data/sampled_baseball_nouns.tsv", sep="\t", encoding="utf-8", index=False)

## 정리
이번 챕터에서는 python에서 자연어를 처리하기 위한 첫 스텝인 토큰화에 대해서 알아보았습니다. 그리고 토큰화 방식 중에 하나인 형태소 기반의 토큰화를 알아보았고, konlpy Komoran을 이용해서 토큰화를 해보았습니다.

한국어 형태소 분석기에는 Komoran만 있는 것은 아닙니다. 속도 측면에서는 Mecab, 정확도 측면에서는 Khaiii라는 프로젝트가 우수합니다만, 각각 설치 및 사용자 사전 등록이 까다로워서 수업 자료에 사용하지는 않았습니다. 실제 프로젝트를 진행할 때 Komoran의 성능이 아쉽다면 선택해볼만 합니다.