# ch 4. Tokenize
자연어 처리에서 텍스트 데이터를 corpus(코퍼스, 말뭉치)라고 부릅니다. 크롤링 시간에 수집했던 뉴스 기사들도 코퍼스라고 부를 수 있습니다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 합니다. 

토큰은 컴퓨터가 텍스트를 처리하는 최소 의미 단위가 됩니다. 토큰화에는 여러 기법들이 있습니다. 딥러닝 등장 이전의 NLP에서는 주로 언어학 관점에서 정의한 최소 의미 단위인 형태소를 기준으로 토큰화를 했습니다. 하지만 최근 딥러닝 모델들은 데이터로부터 자연스럽게 토크나이저를 학습하는 subword 토큰화를 사용하며, 딥러닝을 이용한 NLP 시간에 배워보겠습니다.

형태소 단위로 문장을 토큰화 해주는 기술을 형태소 분석기라고 부릅니다. 형태소 분석기는 언어학적으로 해석이 가능한 장점이 있습니다만, 고유명사나 신조어 대응이 어려운 한계가 있습니다. 이번 챕터에서는 기본적인 토큰화 기법들과 형태소 분석기를 실습해보겠습니다.

## 공백 기준의 토큰화
먼저 생각할 수 있는 가장 단순한 토큰화 기법은 공백을 기준으로 잘라내는 것입니다.

In [1]:
sentence = '롯데 자이언츠의 거인 이대호(40)의 꿈이 무너져가고 있다. 이대호가 새해 40세 불혹(不惑)의 나이가 됐다. 불혹은 주위에서 어떤 일이 벌어져도 중심을 잃지 않고 자신만의 원칙을 지켜 나갈 수 있는 경지에 오르는 시기다. 이번 스토브리그에 롯데 구단에 걱정스러운 일이 벌어지고 있다. 그런데 이대호는 어떤 대외 활동도 하지 않고 침묵하며 조용히 개인 훈련에 집중하는 모습이다. 불혹이 돼서인가? 지난 2017년 1월24일이다. 벌써 5년의 시간이 흘렀다. 롯데의 프랜차이즈 스타 이대호가 일본프로야구 미국 메이저리그를 거쳐 고향팀 롯데로 돌아왔다. 그는 ‘조선의 4번타자’답게 단숨에 최고가 됐다. 삼성에서 FA가 된 최형우가 고향팀 KIA 타이거즈와 4년 계약을 하면서 기록한 총액 100억 원을 훨씬 넘어 150억 원에 롯데와 계약했다. 당시 인터뷰에서 이대호는 ‘메이저리그에서 열심히 노력해 꿈을 이루었다. 남은 것은 롯데로 돌아와 함께 우승을 하는 것이다. 마지막 소원이 롯데의 우승’이라고 밝혔다. 2001년 롯데에 2차 1순위로 입단해 2011시즌까지 11시즌 동안 이대호는 무려 225개의 홈런을 쏘아 올렸다. 그리고 2008~2011 시즌까지 4년 연속 롯데를 포스트시즌으로 이끌었으나 한국시리즈 우승을 못하고 일본 프로야구로 떠났다.'

In [2]:
tokens = sentence.split(" ")

In [3]:
print(tokens)

['롯데', '자이언츠의', '거인', '이대호(40)의', '꿈이', '무너져가고', '있다.', '이대호가', '새해', '40세', '불혹(不惑)의', '나이가', '됐다.', '불혹은', '주위에서', '어떤', '일이', '벌어져도', '중심을', '잃지', '않고', '자신만의', '원칙을', '지켜', '나갈', '수', '있는', '경지에', '오르는', '시기다.', '이번', '스토브리그에', '롯데', '구단에', '걱정스러운', '일이', '벌어지고', '있다.', '그런데', '이대호는', '어떤', '대외', '활동도', '하지', '않고', '침묵하며', '조용히', '개인', '훈련에', '집중하는', '모습이다.', '불혹이', '돼서인가?', '지난', '2017년', '1월24일이다.', '벌써', '5년의', '시간이', '흘렀다.', '롯데의', '프랜차이즈', '스타', '이대호가', '일본프로야구', '미국', '메이저리그를', '거쳐', '고향팀', '롯데로', '돌아왔다.', '그는', '‘조선의', '4번타자’답게', '단숨에', '최고가', '됐다.', '삼성에서', 'FA가', '된', '최형우가', '고향팀', 'KIA', '타이거즈와', '4년', '계약을', '하면서', '기록한', '총액', '100억', '원을', '훨씬', '넘어', '150억', '원에', '롯데와', '계약했다.', '당시', '인터뷰에서', '이대호는', '‘메이저리그에서', '열심히', '노력해', '꿈을', '이루었다.', '남은', '것은', '롯데로', '돌아와', '함께', '우승을', '하는', '것이다.', '마지막', '소원이', '롯데의', '우승’이라고', '밝혔다.', '2001년', '롯데에', '2차', '1순위로', '입단해', '2011시즌까지', '11시즌', '동안', '이대호는', '무려', '225개의', '홈런을', '쏘아', '올렸다.', '그리고', '2008~2011', '시즌까지', '

이렇게 공백을 기준으로 토큰을 만들게 되면 한국어의 특성상 조사를 떼어낼 수가 없습니다. 즉, "이대호가", "이대호는"과 같이 실제로는 비슷한 의미를 갖는 토큰을 전혀 다른 토큰으로 인식하게 됩니다. 토큰화가 제대로 이루어지지 않으면 제 아무리 고도화 된 AI 모델을 학습시킨다 하더라도 정확도를 기대할 수 없습니다.

공백을 기준으로 잡는 것 외에도 온 점이나 쉼표를 기준으로 토큰화를 하는 기법들이 있지만, 마찬가지로 낮은 정확도로 인해 사용하지 않습니다.

## 형태소 분석기를 이용한 토큰화
다음으로 형태소 분석기를 이용한 토큰화를 해보겠습니다. 가장 쉽게 사용할 수 있는 konlpy의 komoran을 사용하여 실습을 진행해보겠습니다. konlpy는 한국어 자연어 처리 라이브러리이고, komoran은 konlpy를 통해 이용할 수 있는 형태소 분석기 중 하나입니다.

In [4]:
!pip install konlpy


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.1.2[0m[39;49m -> [0m[32;49m23.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [5]:
from konlpy.tag import Komoran

In [6]:
komoran = Komoran()

In [7]:
tokens = komoran.pos(sentence)

In [8]:
print(tokens)

[('롯데 자이언츠', 'NNP'), ('의', 'JKG'), ('거인', 'NNP'), ('이대호', 'NNP'), ('(', 'SS'), ('40', 'SN'), (')', 'SS'), ('의', 'JKG'), ('꿈', 'NNG'), ('이', 'JKS'), ('무너지', 'VV'), ('어', 'EC'), ('가', 'VX'), ('고', 'EC'), ('있', 'VX'), ('다', 'EF'), ('.', 'SF'), ('이대호', 'NNP'), ('가', 'JKS'), ('새해', 'NNP'), ('40', 'SN'), ('세', 'NNB'), ('불혹', 'NNG'), ('(', 'SS'), ('不惑', 'SH'), (')', 'SS'), ('의', 'JKG'), ('나이', 'NNG'), ('가', 'JKS'), ('되', 'VV'), ('었', 'EP'), ('다', 'EF'), ('.', 'SF'), ('불혹', 'NNG'), ('은', 'JX'), ('주위', 'NNG'), ('에서', 'JKB'), ('어떤', 'MM'), ('일', 'NNG'), ('이', 'JKS'), ('벌어지', 'VV'), ('어도', 'EC'), ('중심', 'NNG'), ('을', 'JKO'), ('잃', 'VV'), ('지', 'EC'), ('않', 'VX'), ('고', 'EC'), ('자신', 'NNG'), ('만', 'JX'), ('의', 'JKG'), ('원칙', 'NNG'), ('을', 'JKO'), ('지키', 'VV'), ('어', 'EC'), ('나가', 'VV'), ('ㄹ', 'ETM'), ('수', 'NNB'), ('있', 'VV'), ('는', 'ETM'), ('경지', 'NNG'), ('에', 'JKB'), ('오르', 'VV'), ('는', 'ETM'), ('시기', 'NNP'), ('다', 'EF'), ('.', 'SF'), ('이번', 'NNG'), ('스토브리그에', 'NA'), ('롯데', 'NNP'), ('구단', 'NNP')

형태소 분석기를 이용하면 각 토큰별로 품사와 함께 토큰화 된 텍스트를 가져올 수 있습니다. 또한 "롯데 자이언츠"처럼 중간에 공백이 삽입된 명사도 고유명사로 잘 구분하는 모습을 보여줍니다. "이대호가", "이대호는"과 같은 단어도 "이대호", "가", "이대호", "는"으로 분리해주어 의미 단위로 토큰을 잘 분리하는 모습을 보여줍니다.

하지만 형태소 분석기는 신조어나 고유 명사에 상당히 취약한 모습을 보이기도 합니다. 

In [9]:
sentence = "SSG 랜더스의 추신수 선수가 NC 다이노스의 안우진 선수를 상대로 홈런을 쳤습니다."
print(komoran.pos(sentence))

[('SSG', 'SL'), ('랜더스의', 'NA'), ('추신수', 'NNP'), ('선수', 'NNG'), ('가', 'JKS'), ('NC 다이노스', 'NNP'), ('의', 'JKG'), ('안우', 'NNP'), ('진', 'NNP'), ('선수', 'NNG'), ('를', 'JKO'), ('상대로', 'NNP'), ('홈런', 'NNG'), ('을', 'JKO'), ('치', 'VV'), ('었', 'EP'), ('습니다', 'EF'), ('.', 'SF')]


"SSG", "랜더스", "안우진" 등의 고유 명사를 NNP로 잡아내지 못하는 모습을 보입니다. 이러한 형태소 분석기의 한계점은 고유 명사를 직접 지정하는 사용자 사전 기능으로 극복할 수 있습니다.

In [10]:
komoran = Komoran(userdic="./data/user.dic")

In [11]:
print(komoran.pos(sentence))

[('SSG', 'NNP'), ('랜더스', 'NNP'), ('의', 'JKG'), ('추신수', 'NNP'), ('선수', 'NNG'), ('가', 'JKS'), ('NC', 'NNP'), ('다이노스', 'NNP'), ('의', 'JKG'), ('안우진', 'NNP'), ('선수', 'NNG'), ('를', 'JKO'), ('상대로', 'NNP'), ('홈런', 'NNG'), ('을', 'JKO'), ('치', 'VV'), ('었', 'EP'), ('습니다', 'EF'), ('.', 'SF')]


## 전체 데이터 셋 토크나이즈

웹 크롤링 시간에 정규 표현식을 이용해서 전처리 했었던 데이터 셋을 tokenize 해보겠습니다. 한번 전체 데이터 셋 중 1000개만 토큰화하여 결과를 CSV 파일에 써보겠습니다.

In [15]:
import pandas as pd

preprocessed_df = pd.read_csv("./data/baseball_preprocessed.csv", encoding="utf-8", sep="\t")

In [21]:
preprocessed_df = preprocessed_df.dropna()

In [22]:
sampled_df = preprocessed_df.sample(1000)

In [23]:
from tqdm import tqdm

def tokenize(sentence):
    try:
        return komoran.pos(sentence)
    except:
        print("예외!", sentence)
        return []

tqdm.pandas()
sampled_df["tokens"] = sampled_df["content"].progress_apply(lambda x: tokenize(x))

100%|█████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 68.73it/s]


In [24]:
sampled_df

Unnamed: 0,url,datetime,title,content,tokens
2117,https://sports.news.naver.com/news?oid=020&aid...,20220120,"‘범’ 내려왔다… 확 달라진 KIA, 나성범 맞아 도약 준비",지난 시즌 9위로 부진했던 KIA… 대표-단장-감독-외국인 선수 등모두 바꿔 전면쇄...,"[(지나, VV), (ㄴ, ETM), (시즌, NNP), (9, SN), (위, N..."
88922,https://sports.news.naver.com/news?oid=311&aid...,20221028,"키움이 진짜 무서운 이유, 히어로가 한둘이 아니다 [편파프리뷰]","(엑스포츠뉴스 고척, 박윤서 기자) 키움 히어로즈가 무서운 기세로 한국시리즈를 향해...","[((엑스포츠뉴스, NA), (고, XPN), (척, NNP), (,, SP), (..."
81138,https://sports.news.naver.com/news?oid=109&aid...,20221008,"누군가의 우상, 누군가의 자극제…편견 이겨낸 '빅보이', 허전해질 존재감",누군가의 우상이었고 누군가의 자극제였다. ‘빅보이’ 이대호(40)는 편견을 이겨내고...,"[(누, NNP), (군가, NNP), (의, JKG), (우상, NNG), (이,..."
62656,https://sports.news.naver.com/news?oid=076&aid...,20220815,[2022 KBO리그 기록실] SSG vs 두산 (8월 14일),SSG vs 두산 (8월 14일),"[(SSG, NNP), (vs, SL), (두산, NNP), ((, SS), (8월..."
3674,https://sports.news.naver.com/news?oid=076&aid...,20220202,"[SC김해]""순간을 지배하라!"" 캠프 첫날 사령탑의 일성. 강팀으로 가는 '프로세스...","""준비, 실행, 복기(리뷰). 캠프 내내 우리 선수들이 매일매일 해야할 일이다.""야...","[("", SS), (준비, NNG), (,, SP), (실행, NNP), (,, S..."
...,...,...,...,...,...
87302,https://sports.news.naver.com/news?oid=025&aid...,20221024,"수비력 대만족한 류지현 LG 감독 ""3회 중계플레이 최고""",류지현 LG 트윈스 감독이 플레이오프(PO·5전 3승제) 1차전에서 나온 수비력에 ...,"[(류지, NNP), (현, NNP), (LG, NNP), (트윈스, NNP), (..."
70520,https://sports.news.naver.com/news?oid=117&aid...,20220907,"LG 팬들도, 구단도 ""8월 MVP는 문보경"" 합창",LG 문보경(22)이 겹경사를 맞았다.LG 트윈스는 6일 SSG 랜더스와의 잠실 홈...,"[(LG, NNP), (문보경, NNP), ((, SS), (22, SN), (),..."
90832,https://sports.news.naver.com/news?oid=109&aid...,20221102,"‘안우진 물집 부상’ 초대형 악재 터진 키움, 4차전 선발은 정말 누가하나 [KS]",키움 히어로즈 안우진(23)이 또 손가락에 물집이 잡히면서 남은 시리즈 등판 여부가...,"[(키움, NNP), (히어로즈, NNP), (안우진, NNP), ((, SS), ..."
16727,https://sports.news.naver.com/news?oid=421&aid...,20220405,완전체 임박한 LG…켈리 주말 3연전 등판·홍창기 2군서 컨디션 조절,(서울=뉴스1) 나연준 기자 = 부상을 당했던 LG 트윈스 케이시 켈리의 선발 복귀...,"[((, SS), (서울, NNP), (=, SW), (뉴스1, NNP), (), ..."


In [25]:
preprocessed_df["tokens"] = preprocessed_df["content"].progress_apply(lambda x: tokenize(x))

  1%|▌                                                  | 1098/102482 [00:21<25:44, 65.63it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006600737 ] [골룸] 야구에 산다 제72구 : '바람의 손자' 이정후 특집오늘 야구에 산다에서는 '바람의 손자' 이정후(키움 히어로즈)와 함께 합니다.이정후는 프로야구 2021시즌 타격왕 자리에 올랐습니다.지난해 이정후의 타율은 0.360으로, 역대 23세 이하 선수들 중 1위입니다.타고투저의 시대가 막을 내린 작년 리그 환경에서 세운 기록이기에 의미가 남다릅니다.이정후의 야구 인생을 오디오를 통해 들어보세요.녹음 시점: 1월 10일진행: 정우영 캐스터, 이성훈 기자 / 출연: 이정후


 10%|█████                                             | 10402/102482 [03:09<22:32, 68.09it/s]

예외! "대호야, 고마 막 쎄리뿌라."롯데 이대호(40)가 KBO리그 역대 두 번째 은퇴투어 주인공이 됐다. KBO는 14일 해당 사실을 공식 발표했다. 이대호는 "9개 구단과 KBO의 배려에 진심으로 감사 드린다. 사인회를 진행하고 싶다. 나 혼자 하는 은퇴식이 아니다. 팬들과 함께 하는 행사가 되면 좋겠다"라고 했다.그동안 KBO리그 은퇴투어는 공식적으로 '국민타자' 이승엽이 유일했다. 2017시즌 삼성을 제외한 나머지 9개 구단이 삼성과의 마지막 홈 시리즈에 맞춰 은퇴투어를 개최했다. 서로 선물도 주고 받았고, 기념행사를 열었다. 이후 은퇴투어의 자격 요건을 놓고 팬들 사이에서 의견이 분분했다. 첫 번째 선수가 국민타자라서 은퇴투어의 격이 너무 올라간 상태였다. 이후 선수들끼리 자발적으로 몇몇 선수가 은퇴할 때 격려하는 행사만 있었을 뿐이다. 그러나 이대호라면 은퇴투어 자격은 충분하다. KBO리그와 롯데 역사에 한 획을 그은 타자인 건 분명하다. 이대호는 일찌감치 올 시즌을 끝으로 은퇴를 선언했고, 스프링캠프 인터뷰서는 그저 팬들에게 사인해드릴 기회만 생겼으면 좋겠다고 희망하기도 했다. 어쨌든 판이 깔렸으니 이대호의 2022시즌에 관심이 쏠린다.'1호 은퇴투어' 이승엽도 이대호의 은퇴투어를 크게 반겼다. 자신의 인스타그램에 "은퇴투어 확정, KBO와 10개 구단의 결정에 감사드립니다. 대호야, 올 시즌 후회 없이 고마 막 쎄리뿌라, 마무리 잘하자"라고 적었다. 그러면서 "여러분도 이대호 선수에게 많은 응원 부탁 드립니다. 기분 조~타"라고 했다.과거 롯데에서 한솥밥을 먹은 황재균(KT)도 자신의 인스타그램에 "은퇴투어를 하는 게 정말 대단한것인데 같은 야구선수로서 멋있어요👍🏻 긴 시간동안 고생많았어요. 마지막 시즌은 즐겁게"라고 적었다.    [이대호와 이승엽, 이대호와 황재균. 사진 = 마이데일리 사진 DB](김진성 기자 kkomag@mydaily.co.kr)


 15%|███████▎                                          | 15087/102482 [04:39<36:50, 39.53it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006696372 ] [골룸] 야구에 산다 제73구 : LG 송찬의ㆍKIA 김도영...될성 부른 떡잎들의 입담 대결!야구에 산다가 2022 시즌 초구에 오신 여러분을 환영합니다.오늘 1이닝에서는 시범경기와 정규시즌의 상관관계에 대해 알아봅니다.2이닝에서는 LG 송찬의 선수와의 전화 인터뷰가 있습니다.시범 경기 홈런 타이의 주인공인 송찬의 선수는 LG트윈스의 우타거포로 자리매김하고 있습니다.3이닝에서는 KIA 김도영 선수와의 전화 인터뷰 시간을 가졌습니다.'봄 타격왕' 김도영 선수는 제2의 이종범으로 기록될 수 있을까요?자세한 이야기는 오디오를 통해 만나보세요~녹음 시점: 3월 30일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 송찬의, 김도영


 16%|███████▉                                          | 16393/102482 [05:06<24:28, 58.64it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006702037 ] [골룸] 야구에 산다 제74구 : 대세는 '인태 코인'!...두산 베어스 김인태 인터뷰야구에 산다 제74구에서는 두산 베어스의 외야수, 김인태와 전화 인터뷰 진행합니다.김인태는 2일 열린 한화와의 정규시즌 개막전에서 5회 말 2타점 적시타를 터뜨려 팀의 승리를 이끌어냈습니다.인터뷰 중 김인태는 "오랜만에 관중석을 가득 채운 팬들의 모습을 보고 아드레날린이 나왔다."라고 밝혔습니다.이어 "더 많은 팬들이 야구장을 찾아와 응원해주셨으면 좋겠다"는 부탁의 말을 남겼습니다.녹음 시점: 4월 4일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 김인태


 19%|█████████▎                                        | 19094/102482 [05:54<21:06, 65.84it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006710082 ] [골룸] 야구에 산다 제75구 : 칭찬을 거부한다! 겸손마왕 SSG 랜더스 오원석 인터뷰야구에 산다 제75구에서는 '오또시' SSG 랜더스 오원석과 전화 인터뷰 진행합니다.1이닝에서는 스브스스포츠의 새로운 중계진, 양현종과 김광현에 대해 정우영 캐스터가 이야기보따리를 풉니다.2이닝에서는 스트라이크 존과 구속 변화가 미친 영향에 대해 다룹니다.2022년 현재 시점으로는 1993년에 이어 역대급 투고타저를 기록하고 있는데요.과연 이 기록이 시즌 마지막까지 유지될 수 있을까요? 3이닝에서는 SSG 랜더스의 고공행진 이유에 대해 분석해봅니다.이성훈 기자가 SSG 랜더스의 개막 8연승 비결을 풀어드립니다.4이닝에서는 '녹색 다이아몬드' SSG 랜더스 오원석 선수와 인터뷰가 있습니다.야구장에서는 요즘 주가를 올리고 있는 배우 '남주혁'으로도 불리고 있는 오원석은 두 진행자의 칭찬에 연신 수줍어했는데요.자세한 이야기를 오디오를 통해 들어보세요!녹음 시점: 4월 11일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 오원석


 21%|██████████▌                                       | 21673/102482 [06:40<21:10, 63.61it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006718807 ] [골룸] 야구에 산다 제76구 : '신인왕 0순위' 박찬혁 · '거인의 수호신' 김원중 인터뷰!그동안 사적 모임 인원과 영업시간을 제한하던 '거리두기'가 지난 18일 폐지되었습니다.함성과 함께 돌아올 그라운드를 기대해봐도 좋을까요?야구에 산다 제76구에서는 '찬요미' 박찬혁과 '사직 언니' 김원중의 전화 인터뷰를 진행합니다.히어로즈에 등장한 새로운 영웅, 박찬혁은 야구팬들 사이에서 신인왕 0순위로 꼽히고 있습니다.늑골 피로골절 부상을 입어 전력에서 이탈한 김원중은 지난 2년간 롯데의 마무리를 맡았습니다.두 선수의 전화 인터뷰 외에도 '선두를 치고 나간 SSG의 비결', '롯데 마운드 탈삼진', '신인 우타자 비율' 등에 대해 다룹니다.녹음 시점: 4월 18일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 박찬혁, 김원중


 23%|███████████▌                                      | 23616/102482 [07:16<19:56, 65.90it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006727828 ] [골룸] 야구에 산다 제77구 : '승리 공식' SSG 김택형 인터뷰!올 시즌 프로야구부터 스트라이크존이 넓어졌습니다.개막 직후 경기에서는 투수와 타자 모두 넓어진 스트라이크존을 낯설어했었는데요.역대급 투고타저를 기록하던 첫 열흘 경기와는 달리, 최근 2주 동안은 한층 안정된 모습을 보여주고 있습니다.한편, 이번 시즌 롯데가 압도적으로 역대급 삼진율을 보여주고 있습니다.그 기록의 중심에 서있는 한동희를 분석해봅니다.야구에 산다 제77구에서는 SSG 랜더스 김택형과 인터뷰 진행합니다.팀의 승리 공식으로 자리매김한 김택형은 범상치 않은 인터뷰 실력으로 '토크 천재'의 면모를 보여줬습니다.자세한 이야기는 오디오로 들어보세요!녹음 시점: 4월 25일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 김택형


 26%|████████████▊                                     | 26373/102482 [08:14<14:42, 86.21it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006736915 ] [골룸] 야구에 산다 제78구 : '오늘은 내가 타자 요리사!...롯데 이인복 인터뷰야구에 산다 제78구에서는 롯데 자이언츠 이인복과 전화 인터뷰 진행합니다.오버핸드 투심 투수인 이인복은 완벽 제구로 땅볼을 제조하는 변화구의 달인입니다.투심만큼 특이한 느린 커브에 대해 이인복에게 직접 들어봅니다.녹음 시점: 5월 2일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 이인복


 28%|█████████████▉                                    | 28639/102482 [08:57<29:08, 42.22it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006744669 ] [골룸] 야구에 산다 제79구 : 차기 KIA 주장! 'RYUCCI' 류지혁 인터뷰요즘 KBO리그는 SSG 김광현 투수가 평정하고 있습니다.국내 복귀 후 처음으로 나흘만 쉬고 등판했지만, 김광현의 구위에는 변함이 없었습니다.무실점 호투로 5연승을 달리며 평균자책점을 0.47까지 낮췄습니다.야구에 산다 제79구에서는 기아 타이거즈 류지혁과 전화 인터뷰 진행합니다.기아에서 3년 차를 맞이한 류지혁은 기아의 타선을 이끌고 있습니다.'내야 유틸리티' 류지혁은 가을 야구에서도 앞장설 수 있을까요?류지혁과의 진솔한 인터뷰를 <야구에 산다>에서 만나보세요.녹음 시점: 5월 9일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 류지혁(기아 타이거즈)


 33%|████████████████▋                                 | 34275/102482 [11:03<22:12, 51.17it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006763304 ] [골룸] 야구에 산다 제80구 : '홈런 치는 유격수' 삼성 이재현 인터뷰 (feat. 경산 굴비 3인방)아시아 축구 사상 최초로 프리미어리그 득점왕을 거머쥔 손흥민의 이야기가 화제를 모으고 있는 가운데, <야구에 산다>의 신화는 계속되고 있습니다.야구에 산다 제80구에서는 삼성 라이온즈의 이재현과 전화 인터뷰 진행합니다.이재현은 한국 프로야구에 없던 19세 유격수 타이틀을 가지고 있는데요.비범한 야구 실력에 착한 인성까지 겸비한 이재현 선수의 인터뷰를 오디오로 확인해보세요~녹음 시점: 5월 23일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 이재현(삼성 라이온즈)


 35%|█████████████████▋                                | 36268/102482 [11:42<19:27, 56.73it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006769972 ] [골룸] 야구에 산다 제81구 : 나는 행복합니다!...이글스 '빠던왕' 이진영 인터뷰하위권에 머물던 한화가 달라졌습니다.변화의 중심에는 이진영, 김인환, 정은원, 노시환 등 젊은 선수들의 활약이 있었습니다.오늘 야구에 산다에서는 한화 이글스의 '빠던왕' 이진영 선수와 전화 인터뷰 진행합니다.시즌 초 기아에서 한화로 옮긴 이진영은 팀의 타선에 힘을 싣고 있습니다.녹음 시점: 5월 30일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 이진영(한화 이글스)


 40%|████████████████████                              | 41220/102482 [13:29<28:33, 35.75it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006785353 ] [골룸] 야구에 산다 제82구 : '생생야구통' 팬심에 유해한 유기농 신민혁!시즌 초반 극심한 부진에 빠져 있던 NC 다이노스가 서서히 상승세를 타고 있습니다.5월 12일, 7연패를 탈출한 뒤 승률은 0.560. 이 기간 2위를 기록하며 탈꼴찌에도 성공했습니다.상승세의 가장 큰 원동력은 투수진입니다.5월 12일 이후 26경기에서 평균자책점 2.65로 압도적인 1위입니다.이 기간 동안 NC 투수진에서 가장 돋보였던 투수는 신민혁 선수입니다.4월에 부진으로 퓨처스리그에 다녀온 뒤, 5월 12일 롯데전에서 팀의 연패를 끊는 호투를 펼쳤죠.이후 6경기 성적은 놀랍습니다. 평균자책점 1.93으로 이 기간 국내 투수 1위입니다.모든 지표에서 이전과는 완전히 달라진 구위로 '에이스 반열'에 진입하고 있습니다.최근에는 텃밭을 가꾸는 특별한 취미가 알려져 더 화제가 되기도 한 신민혁 선수의 이야기, 들어보시죠.  녹음 시점: 6월 13일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 신민혁(NC다이노스)


 42%|█████████████████████                             | 43216/102482 [14:13<13:33, 72.88it/s]

예외! 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.[ https://news.sbs.co.kr/n/?id=N1006793548 ] [골룸] 야구에 산다 제83구 : SSG 전의산 '퓨처스보다는 1군!!'프로야구에 오랜만에 '신예 대형 거포'가 등장했습니다.지난 8일 1군에 데뷔해 연일 장타쇼를 펼치고 있는 SSG 전의산입니다.'역대급 파워', '신인왕 후보'라는 찬사가 들리기 시작했습니다.아직 몇 타석되지 않았지만, 흥미로운 성향도 보입니다. 파워 만큼이나 만만치 않은 '콘택트 능력'의 소유자일 가능성입니다.야구팬들의 마음을 흔들고 있는 젊은 거포의 '속깊은 인터뷰'를 들어보시죠. 삼성의 신예 외야수 김현준의 잠재력, 그리고 또 한 단계 업그레이드된 이정후의 경이적인 능력에 대한 분석도 담았습니다. 녹음 시점: 6월 20일진행: 정우영 캐스터, 이성훈 기자 | 전화연결: 전의산(SSG 랜더스)


100%|█████████████████████████████████████████████████| 102482/102482 [55:19<00:00, 30.87it/s]


In [40]:
def extract_nouns(tokens):
    return [x[0] for x in tokens if x[1] in ("NNG", "NNP")]
preprocessed_df["nouns"] = preprocessed_df["tokens"].progress_apply(lambda x: extract_nouns(x))

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 102482/102482 [00:08<00:00, 11810.14it/s]


In [43]:
preprocessed_df[["nouns"]].to_csv("./data/baseball_nouns.tsv", encoding="utf-8", sep="\t", index=False)

## 정리
이번 챕터에서는 python에서 자연어를 처리하기 위한 첫 스텝인 토큰화에 대해서 알아보았습니다. 그리고 토큰화 방식 중에 하나인 형태소 기반의 토큰화를 알아보았고, konlpy Komoran을 이용해서 토큰화를 해보았습니다.

한국어 형태소 분석기에는 Komoran만 있는 것은 아닙니다. 속도 측면에서는 Mecab, 정확도 측면에서는 Khaiii라는 프로젝트가 우수합니다만, 각각 설치 및 사용자 사전 등록이 까다로워서 수업 자료에 사용하지는 않았습니다. 실제 프로젝트를 진행할 때 Komoran의 성능이 아쉽다면 선택해볼만 합니다.