# ch 1. Tokenize
자연어 처리에서 텍스트 데이터를 corpus(코퍼스, 말뭉치)라고 부릅니다. 크롤링 시간에 수집했던 뉴스 기사들도 코퍼스라고 부를 수 있습니다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 합니다. 

토큰은 컴퓨터가 텍스트를 처리하는 최소 의미 단위가 됩니다. 토큰화에는 여러 기법들이 있습니다. 딥러닝 등장 이전의 NLP에서는 주로 언어학 관점에서 정의한 최소 의미 단위인 형태소를 기준으로 토큰화를 했습니다. 하지만 최근 딥러닝 모델들은 데이터로부터 자연스럽게 토크나이저를 학습하는 subword 토큰화를 사용하며, 딥러닝을 이용한 NLP 시간에 배워보겠습니다.

형태소 단위로 문장을 토큰화 해주는 기술을 형태소 분석기라고 부릅니다. 형태소 분석기는 언어학적으로 해석이 가능한 장점이 있습니다만, 고유명사나 신조어 대응이 어려운 한계가 있습니다. 이번 챕터에서는 기본적인 토큰화 기법들과 형태소 분석기를 실습해보겠습니다.

## 공백 기준의 토큰화
먼저 생각할 수 있는 가장 단순한 토큰화 기법은 공백을 기준으로 잘라내는 것입니다.

In [1]:
sentence = '롯데 자이언츠의 거인 이대호(40)의 꿈이 무너져가고 있다. 이대호가 새해 40세 불혹(不惑)의 나이가 됐다. 불혹은 주위에서 어떤 일이 벌어져도 중심을 잃지 않고 자신만의 원칙을 지켜 나갈 수 있는 경지에 오르는 시기다. 이번 스토브리그에 롯데 구단에 걱정스러운 일이 벌어지고 있다. 그런데 이대호는 어떤 대외 활동도 하지 않고 침묵하며 조용히 개인 훈련에 집중하는 모습이다. 불혹이 돼서인가? 지난 2017년 1월24일이다. 벌써 5년의 시간이 흘렀다. 롯데의 프랜차이즈 스타 이대호가 일본프로야구 미국 메이저리그를 거쳐 고향팀 롯데로 돌아왔다. 그는 ‘조선의 4번타자’답게 단숨에 최고가 됐다. 삼성에서 FA가 된 최형우가 고향팀 KIA 타이거즈와 4년 계약을 하면서 기록한 총액 100억 원을 훨씬 넘어 150억 원에 롯데와 계약했다. 당시 인터뷰에서 이대호는 ‘메이저리그에서 열심히 노력해 꿈을 이루었다. 남은 것은 롯데로 돌아와 함께 우승을 하는 것이다. 마지막 소원이 롯데의 우승’이라고 밝혔다. 2001년 롯데에 2차 1순위로 입단해 2011시즌까지 11시즌 동안 이대호는 무려 225개의 홈런을 쏘아 올렸다. 그리고 2008~2011 시즌까지 4년 연속 롯데를 포스트시즌으로 이끌었으나 한국시리즈 우승을 못하고 일본 프로야구로 떠났다.'

In [2]:
tokens = sentence.split(" ")

In [3]:
print(tokens)

['롯데', '자이언츠의', '거인', '이대호(40)의', '꿈이', '무너져가고', '있다.', '이대호가', '새해', '40세', '불혹(不惑)의', '나이가', '됐다.', '불혹은', '주위에서', '어떤', '일이', '벌어져도', '중심을', '잃지', '않고', '자신만의', '원칙을', '지켜', '나갈', '수', '있는', '경지에', '오르는', '시기다.', '이번', '스토브리그에', '롯데', '구단에', '걱정스러운', '일이', '벌어지고', '있다.', '그런데', '이대호는', '어떤', '대외', '활동도', '하지', '않고', '침묵하며', '조용히', '개인', '훈련에', '집중하는', '모습이다.', '불혹이', '돼서인가?', '지난', '2017년', '1월24일이다.', '벌써', '5년의', '시간이', '흘렀다.', '롯데의', '프랜차이즈', '스타', '이대호가', '일본프로야구', '미국', '메이저리그를', '거쳐', '고향팀', '롯데로', '돌아왔다.', '그는', '‘조선의', '4번타자’답게', '단숨에', '최고가', '됐다.', '삼성에서', 'FA가', '된', '최형우가', '고향팀', 'KIA', '타이거즈와', '4년', '계약을', '하면서', '기록한', '총액', '100억', '원을', '훨씬', '넘어', '150억', '원에', '롯데와', '계약했다.', '당시', '인터뷰에서', '이대호는', '‘메이저리그에서', '열심히', '노력해', '꿈을', '이루었다.', '남은', '것은', '롯데로', '돌아와', '함께', '우승을', '하는', '것이다.', '마지막', '소원이', '롯데의', '우승’이라고', '밝혔다.', '2001년', '롯데에', '2차', '1순위로', '입단해', '2011시즌까지', '11시즌', '동안', '이대호는', '무려', '225개의', '홈런을', '쏘아', '올렸다.', '그리고', '2008~2011', '시즌까지', '

이렇게 공백을 기준으로 토큰을 만들게 되면 한국어의 특성상 조사를 떼어낼 수가 없습니다. 즉, "이대호가", "이대호는"과 같이 실제로는 비슷한 의미를 갖는 토큰을 전혀 다른 토큰으로 인식하게 됩니다. 토큰화가 제대로 이루어지지 않으면 제 아무리 고도화 된 AI 모델을 학습시킨다 하더라도 정확도를 기대할 수 없습니다.

공백을 기준으로 잡는 것 외에도 온 점이나 쉼표를 기준으로 토큰화를 하는 기법들이 있지만, 마찬가지로 낮은 정확도로 인해 사용하지 않습니다.

## 형태소 분석기를 이용한 토큰화
다음으로 형태소 분석기를 이용한 토큰화를 해보겠습니다. 가장 쉽게 사용할 수 있는 konlpy의 komoran을 사용하여 실습을 진행해보겠습니다. konlpy는 한국어 자연어 처리 라이브러리이고, komoran은 konlpy를 통해 이용할 수 있는 형태소 분석기 중 하나입니다.

In [4]:
!pip install konlpy

[33mDEPRECATION: pytorch-lightning 1.8.3.post1 has a non-standard dependency specifier torch>=1.9.*. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of pytorch-lightning or contact the author to suggest that they release a version with a conforming dependency specifiers. Discussion can be found at https://github.com/pypa/pip/issues/12063[0m[33m
[0m[33mDEPRECATION: mecab-python 0.996-ko-0.9.2 has a non-standard version number. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of mecab-python or contact the author to suggest that they release a version with a conforming version number. Discussion can be found at https://github.com/pypa/pip/issues/12063[0m[33m
[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.3.2[0m[39;49m -> [0m[32;49m24.1.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32

In [9]:
from konlpy.tag import Komoran

In [6]:
komoran = Komoran()

In [7]:
tokens = komoran.pos(sentence)

In [8]:
print(tokens)

[('롯데 자이언츠', 'NNP'), ('의', 'JKG'), ('거인', 'NNP'), ('이대호', 'NNP'), ('(', 'SS'), ('40', 'SN'), (')', 'SS'), ('의', 'JKG'), ('꿈', 'NNG'), ('이', 'JKS'), ('무너지', 'VV'), ('어', 'EC'), ('가', 'VX'), ('고', 'EC'), ('있', 'VX'), ('다', 'EF'), ('.', 'SF'), ('이대호', 'NNP'), ('가', 'JKS'), ('새해', 'NNP'), ('40', 'SN'), ('세', 'NNB'), ('불혹', 'NNG'), ('(', 'SS'), ('不惑', 'SH'), (')', 'SS'), ('의', 'JKG'), ('나이', 'NNG'), ('가', 'JKS'), ('되', 'VV'), ('었', 'EP'), ('다', 'EF'), ('.', 'SF'), ('불혹', 'NNG'), ('은', 'JX'), ('주위', 'NNG'), ('에서', 'JKB'), ('어떤', 'MM'), ('일', 'NNG'), ('이', 'JKS'), ('벌어지', 'VV'), ('어도', 'EC'), ('중심', 'NNG'), ('을', 'JKO'), ('잃', 'VV'), ('지', 'EC'), ('않', 'VX'), ('고', 'EC'), ('자신', 'NNG'), ('만', 'JX'), ('의', 'JKG'), ('원칙', 'NNG'), ('을', 'JKO'), ('지키', 'VV'), ('어', 'EC'), ('나가', 'VV'), ('ㄹ', 'ETM'), ('수', 'NNB'), ('있', 'VV'), ('는', 'ETM'), ('경지', 'NNG'), ('에', 'JKB'), ('오르', 'VV'), ('는', 'ETM'), ('시기', 'NNP'), ('다', 'EF'), ('.', 'SF'), ('이번', 'NNG'), ('스토브리그에', 'NA'), ('롯데', 'NNP'), ('구단', 'NNP')

형태소 분석기를 이용하면 각 토큰별로 품사와 함께 토큰화 된 텍스트를 가져올 수 있습니다. 또한 "롯데 자이언츠"처럼 중간에 공백이 삽입된 명사도 고유명사로 잘 구분하는 모습을 보여줍니다. "이대호가", "이대호는"과 같은 단어도 "이대호", "가", "이대호", "는"으로 분리해주어 의미 단위로 토큰을 잘 분리하는 모습을 보여줍니다.

하지만 형태소 분석기는 신조어나 고유 명사에 상당히 취약한 모습을 보이기도 합니다. 

In [9]:
sentence = "SSG 랜더스의 추신수 선수가 NC 다이노스의 안우진 선수를 상대로 홈런을 쳤습니다."
print(komoran.pos(sentence))

[('SSG', 'SL'), ('랜더스의', 'NA'), ('추신수', 'NNP'), ('선수', 'NNG'), ('가', 'JKS'), ('NC 다이노스', 'NNP'), ('의', 'JKG'), ('안우', 'NNP'), ('진', 'NNP'), ('선수', 'NNG'), ('를', 'JKO'), ('상대로', 'NNP'), ('홈런', 'NNG'), ('을', 'JKO'), ('치', 'VV'), ('었', 'EP'), ('습니다', 'EF'), ('.', 'SF')]


"SSG", "랜더스", "안우진" 등의 고유 명사를 NNP로 잡아내지 못하는 모습을 보입니다. 이러한 형태소 분석기의 한계점은 고유 명사를 직접 지정하는 사용자 사전 기능으로 극복할 수 있습니다.

In [10]:
komoran = Komoran(userdic="./data/user.dic")

In [11]:
print(komoran.pos(sentence))

[('SSG', 'NNP'), ('랜더스', 'NNP'), ('의', 'JKG'), ('추신수', 'NNP'), ('선수', 'NNG'), ('가', 'JKS'), ('NC', 'NNP'), ('다이노스', 'NNP'), ('의', 'JKG'), ('안우진', 'NNP'), ('선수', 'NNG'), ('를', 'JKO'), ('상대로', 'NNP'), ('홈런', 'NNG'), ('을', 'JKO'), ('치', 'VV'), ('었', 'EP'), ('습니다', 'EF'), ('.', 'SF')]


## 전체 데이터 셋 토크나이즈

웹 크롤링 시간에 정규 표현식을 이용해서 전처리 했었던 데이터 셋을 tokenize 해보겠습니다. 한번 전체 데이터 셋 중 1000개만 토큰화하여 결과를 CSV 파일에 써보겠습니다.

In [1]:
import pandas as pd

preprocessed_df = pd.read_csv("./data/baseball_2023_preprocessed.csv", encoding="utf-8")

In [2]:
preprocessed_df = preprocessed_df.dropna()

In [3]:
sampled_df = preprocessed_df.sample(1000)

In [13]:
from tqdm import tqdm

def extract_nouns(sentence):
    try:
        tokens = komoran.pos(sentence)
        nouns = [x[0] for x in tokens if x[1] in ("NNG", "NNP")]
        return nouns
    except Exception as e:
        print(e, sentence)
        return []

In [12]:
tqdm.pandas()
sampled_df["tokens"] = sampled_df["content"].progress_apply(lambda x: extract_nouns(x))

100%|███████████████████████████████████████████████████████████████████████████| 1000/1000 [00:19<00:00, 51.98it/s]


In [14]:
sampled_df

Unnamed: 0,date,url,title,content,tokens
107293,20231119,https://m.sports.naver.com/kbaseball/article/4...,“내 한계에 부딪혀 보고파”…한일전 선발 중책 맡은 곽빈의 당찬 포부 [APBC 현장],“저의 한계에 부딪혀 보고 싶습니다.”한일전 선발투수라는 막중한 임무를 맡게 된 곽...,"[한계, 한일전, 선발투수, 임무, 곽빈, 두산, 베어스, 각오, 류중일, 감독, ..."
66832,20230717,https://m.sports.naver.com/kbaseball/article/2...,"오지환도 인정한 김주원, 전반기는 반성·항저우는 ""책임감""",올 시즌 전반기 냉탕과 온탕을 오간 김주원. 시즌을 치를수록 성적이 하락했지만 항저...,"[시즌, 전반기, 냉, 탕, 탕, 김주원, 시즌, 성적, 하락, 항, 우, 아시안게..."
67371,20230719,https://m.sports.naver.com/kbaseball/article/3...,"잘나가는 두산, 후반기 핵타선 구축? 김재환-로하스에게 달렸다!",두산 김재환(왼쪽)·로하스. 스포츠동아DB두산 베어스는 7월 9경기에서 전승을 거두...,"[두산, 김재환, 왼쪽, 로하스, 스포츠동아, DB, 두산, 베어스, 7월, 경기,..."
12757,20230303,https://m.sports.naver.com/kbaseball/article/1...,"“이렇게 하니까 잘 안 나가…” WBC는 FA 재벌들의 시간, 야구 품앗이 무대[M...",나는 이렇게 하니까 (타구가)잘 안 나가더라고.”WBC는 FA 재벌들의 시간이다. ...,"[타구, WBC, 재벌, 시간, 재벌, 톱, 10, 양의지, 두산, 김현수, LG,..."
68757,20230724,https://m.sports.naver.com/kbaseball/article/1...,"이만수·송진우 등 레전드가 지도한다, KBO 투·포수 육성캠프 실시",KBO가 오늘(24일)부터 28일까지 4박5일간 충북 보은 KBO 야구센터에서 중학...,"[KBO, 오늘, 박, 충북, KBO, 야구, 센터, 학교 3, 학년, 투수, 포수..."
...,...,...,...,...,...
68897,20230725,https://m.sports.naver.com/kbaseball/article/0...,‘11연승’…이승엽 감독의 두산 새로운 역사 썼다,프로야구 두산은 지난 1일 롯데전 승리를 시작으로 ‘패배’라는 단어를 사전에서 지웠...,"[프로, 야구, 두산, 롯데, 전, 승리, 시작, 패배, 단어, 사전, 두산, 이후..."
78444,20230823,https://m.sports.naver.com/kbaseball/article/0...,"대전도 결국 우천취소, 문동주 vs 와이드너 매치업, 야외 4구장 전 경기 취소.....",23일 대전 한화생명이글스파크에서 한화와 삼성의 경기가 열린다. 경기를 앞두고 대형...,"[대전, 한화, 생명, 이글스, 파크, 한화, 삼성, 경기, 경기, 대형, 방수, ..."
57023,20230620,https://m.sports.naver.com/kbaseball/article/0...,"강릉고 출신 최지민, 올스타전 2차 중간집계서도 압도적 1위",강릉고 출신 투수 최지민(KIA·사진)의 생애 첫 올스타전 출전이 점점 가시화되고 ...,"[강릉, 출신, 투수, 최지민, KIA, 사진, 생애, 올스타전, 출전, 가시, 한..."
20238,20230319,https://m.sports.naver.com/kbaseball/article/2...,"[IS 대구] 시범경기 맞아? 등장곡부터 응원가까지, 8천명이 만든 라팍 메들리",19일 대구 삼성 라이온즈파크를 찾은 관중들. 대구=윤승재 기자한 시즌을 준비하는 ...,"[대구, 삼성, 라이온즈, 파크, 관중, 대구, 윤, 승재, 기자, 시즌, 준비, ..."


In [None]:
preprocessed_df["tokens"] = preprocessed_df["content"].progress_apply(lambda x: extract_nouns(x))

  1%|▉                                                                        | 1398/114986 [00:28<29:24, 64.38it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에 산다 제99구 : 김민수 · 박영현, 호'구위'와트의 마법사들오늘 야구에산다에서는 KT 위즈 김민수, 박영현 선수와 인터뷰 진행합니다.김민수 선수는 22시즌 다양한 지표에서 1위를 기록하는 등 압도적인 기량을 보였고, 박영현 선수 또한 포스트시즌 '최연소 세이브' 기록을 달성했습니다.KT 위즈의 '투수조' 두 선수에게 그라운드 안팎을 넘나드는 이야기와 앞으로의 포부를 들어봅니다.녹음 시점: 1월 9일진행: 정우영 캐스터, 이성훈 기자 | 출연: KT 위즈 김민수, 박영현▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기(SBS 디지털뉴스국)


  7%|█████▏                                                                   | 8238/114986 [02:29<29:05, 61.16it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에 산다 제100구 : 배영수·박세웅, 마라맛 코치와 안경 에이스3월 8일, 전세계 야구 팬들의 축제 WBC의 개막이 다가오고 있습니다.오늘 야구에산다에서는 WBC 프리뷰를 진행합니다.롯데의 마운드와 국가대표 불펜을 책임지는 배영수 코치와 태극마크를 단 안경 에이스, 롯데 박세웅 선수와도 폰터뷰 진행합니다.녹음 시점: 2월 13일진행: 정우영 캐스터, 이성훈 기자 | 출연: 배영수, 박세웅▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기(SBS 디지털뉴스국)


 20%|██████████████▎                                                         | 22869/114986 [06:52<21:27, 71.53it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제101구 : KBO 개막 특집 (feat. 모두까기 이순철 위원)오늘 야구에산다에서는 이순철 해설위원과 함께 4월 1일 개막을 앞둔 KBO리그 이야기 나눕니다.이번 KBO리그 시범 경기 후기부터, 2023시즌 프리뷰까지 함께 짚어봅니다.현재 우리나라 야구의 상황과, 올 시즌 앞으로 주목할 선수와 팀에 대해서 등 알찬 이야기 담았습니다.녹음 시점: 3월 27일진행: 정우영 캐스터, 이성훈 기자 | 출연: 이순철 해설위원▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 23%|████████████████▏                                                       | 25886/114986 [07:46<19:07, 77.66it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제102구 : 롯데 뉴 안경에이스 이태연, 너 몇살이니!?오늘 야구에산다에서는 롯데 자이언츠 이태연 선수와 인터뷰 진행합니다.이태연 선수는 KBO리그 개막과 더불어 프로 데뷔전을 치른 신인입니다.'만원 관중'을 앞두고 당당한 투구로 데뷔 첫 홀드까지 기록해 뜨거운 관심을 모으고 있는데요.데뷔전 소감과 올 시즌 각오 등 함께 많은 이야기 나눴습니다.이마트배 고교야구에 도입된 로봇심판 소식도 함께 다룹니다.녹음 시점: 4월 3일진행: 정우영 캐스터, 이성훈 기자 | 출연: 롯데 자이언츠 이태연, 배정훈 기자▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 25%|█████████████████▊                                                      | 28513/114986 [08:31<23:21, 61.72it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제103구 : 투목곰 김동주, 영업비밀 전격공개오늘 야구에산다에서는 두산 베어스 김동주 선수와 인터뷰 진행합니다.김동주 선수는 데뷔 첫 선발 등판에서 안정적인 제구를 선보이며 화제를 모았습니다.팀의 우승에 조금이라도 더 보탬이 되고 싶다는 김동주 선수의 각오를 들어보세요.이번 시즌 삼성과 한화의 전력도 함께 분석해봅니다.녹음 시점: 4월 10일진행: 이준혁 아나운서, 이성훈 기자, 유병민 기자 | 출연: 두산 베어스 김동주00:36:44 두산 베어스 김동주 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 27%|███████████████████▋                                                    | 31367/114986 [09:22<16:27, 84.64it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제104구 : 김영규 vs 방송국? 영규야 쉿! 넘어가면 안 돼오늘 야구에산다에서는 NC 다이노스 김영규 선수와 인터뷰 진행합니다.최근 NC 다이노스는 불펜진의 호투 속에 상승세를 달리며 단숨에 KBO 리그 1위로 뛰어올랐습니다.그 중심엔 지난해부터 무섭게 성장한 김영규 선수가 있는데요. 오늘 인터뷰에서 성장의 비밀과 비결을 들어봅니다.항저우아시안게임 선발과 2차 드래프트 관련 취재 내용도 함께 다룹니다.녹음 시점: 4월 17일진행: 이준혁 아나운서, 이성훈 기자, 전영민 기자 | 출연: NC 다이노스 김영규00:35:01 NC 다이노스 김영규 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 29%|█████████████████████                                                   | 33648/114986 [10:04<18:28, 73.35it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제105구 : 김태형 해설위원 "국대 감독 할 생각이요?!"오늘 야구에산다는 김태형 전 두산 베어스 감독과 함께 합니다.김태형 전 감독은 현재 SBS SPORTS의 해설위원으로도 맹활약을 펼치고 있습니다.어디에서도 들을 수 없었던 7시즌 연속 한국시리즈 진출의 영업비밀을 전격 공개합니다.녹음 시점: 4월 24일진행: 정우영 캐스터, 이성훈 기자 | 출연: 김태형 해설위원▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 34%|████████████████████████▋                                               | 39383/114986 [11:46<19:16, 65.37it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제106구 : 롯데 김민석, '탑데리아' 말고 맥도날드..?롯데 자이언츠의 상승세가 무섭습니다.무려 15년 만의 9연승을 기록하며 시즌 초반 리그 2위에 올라 있는데요.오늘 야구에산다는 롯데 자이언츠의 '슈퍼 루키' 김민석 선수와 폰터뷰 진행합니다.이어서 서동균 기자와 함께 오타니의 스위퍼에 담긴 비밀을 과학적으로 살펴봤습니다.녹음 시점: 5월 8일진행: 정우영 캐스터, 이성훈 기자 | 출연: 롯데 자이언츠 김민석, 서동균 기자00:33:25 롯데 자이언츠 김민석 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 37%|██████████████████████████▉                                             | 42950/114986 [12:52<21:44, 55.21it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제107구 : 겁없는 뱀 직구 토크, LG 히트 상품 박명근오늘 야구에산다는 LG 트윈스 박명근 선수와 함께 합니다.2023 KBO 신인 드래프트에 지명된 박명근 선수는 어느덧 LG 마운드의 필승조로 자리잡고 있는 루키입니다.12경기 연속 무실점과 개막전 등판에 대한 소감 등 다양한 이야기 들어봤습니다.녹음 시점: 5월 15일진행: 이준혁 캐스터, 이성훈 기자 | 출연: LG 트윈스 박명근, 유병민 기자39:12 LG 트윈스 박명근 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 39%|████████████████████████████▎                                           | 45161/114986 [13:34<12:37, 92.14it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제108구 : SSG 갓기 송영진, 최정의 향기가 난다...?오늘 야구에산다는 SSG 랜더스 송영진 선수와 함께 합니다.송영진 선수는 구원으로 데뷔한 후 승률 100%의 선발 투수로 자리 잡아 팀 내 핵심으로 떠올랐습니다.첫 선발 등판 소감과 특유의 패스트볼 등 다양한 이야기 나눴습니다.전영민 기자와 함께 구단별 유니폼 마킹 순위와 굿즈 판매량 데이터를 통해 한국 프로야구에 대한 관심이 어떻게 흘러가고 있는지도 살펴봅니다.녹음 시점: 5월 22일진행: 이준혁 캐스터, 이성훈 기자 | 출연: SSG 랜더스 송영진, 전영민 기자00:35:40 SSG 랜더스 송영진 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 42%|██████████████████████████████▏                                         | 48244/114986 [14:34<14:53, 74.67it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제109구 : KIA 최지민, 인생 최장 통화시간 경신?!오늘 야구에산다는 KIA 타이거즈 최지민 선수와 함께 합니다.올 시즌 최고의 발견이자 구원투수로 불리는 최지민 선수. 특히 폭발적인 구속 상승으로 많은 관심을 받았는데요.구속 상승의 비결과 더불어 2군에서 배웠던 것 중 가장 핵심이 되었던 점을 들어봅니다. 녹음 시점: 5월 29일진행: 정우영 캐스터, 이성훈 기자 | 출연: KIA 타이거즈 최지민00:14:47 KIA 타이거즈 최지민 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 46%|████████████████████████████████▊                                       | 52427/114986 [15:53<11:41, 89.17it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제110구 : 롯데 윤동희, 효도하려고 야구했다?!오늘 야구에산다는 롯데 자이언츠 윤동희 선수와 함께 합니다.윤동희 선수는 공수를 든든하게 책임지며 롯데 자이언츠에 새 바람을 불어넣고 있는데요.전화 인터뷰로 야구를 시작하게 된 계기와 등번호, 선수로서 최종 목표 등에 대해 즐거운 대화 나눴습니다.WBC 음주 파문에 대한 내용도 다룹니다.녹음 시점: 6월 5일진행: 정우영 캐스터, 이성훈 기자 | 출연: 롯데 자이언츠 윤동희00:17:52 롯데 자이언츠 윤동희 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 49%|███████████████████████████████████▌                                    | 56747/114986 [17:18<11:35, 83.73it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제111구 : 오늘도 갓생 사는 NC 서호철올 시즌 잠재력을 폭발시키고 있는 서호철 선수.지난 한 주 동안 안타 13개를 기록하며 엄청난 타격 페이스를 보이고 있습니다.오늘 야구에산다는 NC 다이노스 서호철 선수와 함께 폰터뷰 진행합니다.김관우 PD에게 채은성 선수의 중계 카메라 수비 뒷이야기도 들어봅니다.녹음 시점: 6월 19일진행: 이준혁 캐스터, 이성훈 기자 | 출연: NC 다이노스 서호철, 김관우 PD00:30:24 NC 다이노스 서호철 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 54%|██████████████████████████████████████▊                                 | 62073/114986 [19:08<12:16, 71.89it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제112구 : 산타 박상원, 최강 한화의 마무의리오늘 야구에산다에서는 한화 이글스 박상원 선수와 함께 합니다.한화 이글스가 18년 만에 8연승을 기록했습니다.마무리 투수를 맡은 박상원 선수는 한화 상승의 주역으로 손꼽히고 있습니다.한화의 상승세가 어떤 이유에서 왔는지, 그리고 얼마나 이어질지 분석해봅니다.또한 이진영 선수의 1번 타자 기용에 대해 최원호 감독과 이진영 선수 본인에게 직접 이야기를 들어봤습니다.녹음 시점: 7월 3일진행: 정우영 캐스터, 이성훈 기자 | 출연: 한화 이글스 박상원00:20:17 한화 이글스 박상원 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 57%|████████████████████████████████████████▊                               | 65251/114986 [20:12<15:40, 52.90it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제113구 : KIA 승요 김태군, 공깃밥 최대 몇 공기?오늘 야구에산다에서는 KIA 타이거즈 김태군 선수와 함께 합니다.지난 5일 삼성 라이온즈에서 KIA 타이거즈로 트레이드 된 김태군 선수.합류 후 팀의 5연승을 이끌어가며 눈부신 활약을 보이고 있는데요.호랑이 군단의 안방마님으로 자리잡고 있는 김태군 선수와 대화 나눠봅니다.녹음 시점: 7월 10일진행: 이준혁 캐스터, 이성훈 기자 | 출연: KIA 타이거즈 김태군00:23:04 KIA 타이거즈 김태군 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 59%|██████████████████████████████████████████▏                             | 67317/114986 [20:58<14:19, 55.47it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제114구 : '입술좌' 롯데 손성빈, 동희야.. 뽀뽀 해줄까?오늘 야구에산다에서는 롯데 자이언츠 손성빈 선수와 함께 합니다.최근 상무에서 제대한 뒤 1군 선수단에 합류하여 주목을 받고 있는 포수 손성빈 선수.올 시즌 출전한 모든 경기에서 도루 저지를 하며 뛰어난 도루 저지 능력과 빠른 송구 속도로 활약을 보이고 있습니다.손성빈 선수와 대화 나눠봅니다.녹음 시점: 7월 17일진행: 정우영 캐스터, 이성훈 기자 | 출연: 롯데 자이언츠 손성빈00:11:44 롯데 자이언츠 손성빈 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 60%|███████████████████████████████████████████▍                            | 69470/114986 [21:46<14:32, 52.18it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제115구 : '수동좌' 김명신, 산악회 최고의 아웃풋오늘 야구에산다에서는 두산 베어스 김명신 선수와 함께 합니다.두산 베어스는 올 시즌 11연승을 이어가며 구단 역사를 새로 쓰고 있습니다.투수 김명신 선수는 리그에서 가장 많은 이닝을 던진 선수 중 한 명으로 팀의 연승에 큰 기여를 하고 있는데요.최근 이승엽 감독에게 두산 베어스 '전반기 MVP'로 꼽히며 팀의 주역으로 떠오르고 있습니다.김명신 선수와 대화 나눠봅니다.녹음 시점: 7월 24일진행: 이준혁 캐스터, 이성훈 기자, 배정훈 기자 | 출연: 두산 베어스 김명신00:16:25 두산 베어스 김명신 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 63%|█████████████████████████████████████████████                           | 71984/114986 [22:44<17:35, 40.76it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제116구 : 삼성 김동진, 내 삶에선 내가 주연오늘 야구에산다에서는 삼성 라이온즈 김동진 선수와 함께 합니다.2021 KBO 신인드래프트에 지명되며 2023년 현재 1군 내야수로 자리를 잡고 있는 김동진 선수.여러 역경을 거쳐 현재 자리까지 올 수 있었는데요.지난 5월엔 4타수 3안타 1득점을 기록하기도 했습니다.김동진 선수와 삼성 라이온즈 입단 비하인드와 앞으로의 선수 생활에 대해 이야기 나눠봅니다.녹음 시점: 7월 31일진행: 정우영 캐스터, 이성훈 기자 | 출연: 삼성 라이온즈 김동진00:15:50 삼성 라이온즈 김동진 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 65%|██████████████████████████████████████████████▍                         | 74181/114986 [23:34<11:56, 56.94it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제117구 : LG 임찬규 서른, 잔치는 시작됐다오늘 야구에산다에서는 LG 트윈스 임찬규 선수와 함께 합니다.임찬규 선수는 올해 31살의 나이로 생애 최고의 시즌을 맞고 있습니다.올 시즌 승리 기여도는 1.92이고, 평균 자책점은 3.26으로 2008년 봉중근 선수 이후 15년 만에 최저치를 기록하고 있으며 좌타자를 상대로 좋은 성적을 기록하고 있습니다.지난 6일엔 선발등판하여 팀의 7-4 승리를 이끌며 시즌 8승을 기록하기도 했습니다.임찬규 선수와 이야기 나눠봅니다.녹음 시점: 8월 7일진행: 정우영 캐스터, 이성훈 기자 | 출연: LG 트윈스 임찬규00:25:46 LG 트윈스 임찬규 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 66%|███████████████████████████████████████████████▊                        | 76314/114986 [24:22<10:31, 61.21it/s]

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 🎧 아래 주소로 접속하시면 음성으로 기사를 들을 수 있습니다.  야구에산다 제118구 : 롯데 구승민, 지구온난화형 투수오늘 야구에산다에서는 롯데 자이언츠 구승민 선수와 함께 합니다.구승민 선수는 2018년 이후 최다 등판한 투수 중 한 명으로 꾸준한 기량을 유지하고 있습니다.그런데 지난 6월의 경기에서 재구가 흔들리면서 볼넷을 자주 내주는 문제가 있었는데요.7월 2일 이후로 재구가 잡히고 구속이 빨라지면서 컨디션을 되찾고 있습니다.구승민 선수와 이야기 나눠봅니다.녹음 시점: 8월 14일진행: 정우영 캐스터, 이성훈 기자 | 출연: 롯데 자이언츠 구승민00:17:53 롯데 자이언츠 구승민 폰터뷰▶ <골룸: 골라듣는 뉴스룸> 팟캐스트는 '팟빵', '네이버 오디오클립', '애플 팟캐스트'에서도 들을 수 있습니다.- '팟빵' 접속하기- '네이버 오디오클립' 접속하기- '애플 팟캐스트'로 접속하기  (SBS 디지털뉴스국)


 83%|████████████████████████████████████████████████████████████            | 95903/114986 [32:47<09:32, 33.32it/s]

In [43]:
preprocessed_df[["nouns"]].to_csv("./data/baseball_nouns.tsv", encoding="utf-8", sep="\t", index=False)

## 정리
이번 챕터에서는 python에서 자연어를 처리하기 위한 첫 스텝인 토큰화에 대해서 알아보았습니다. 그리고 토큰화 방식 중에 하나인 형태소 기반의 토큰화를 알아보았고, konlpy Komoran을 이용해서 토큰화를 해보았습니다.

한국어 형태소 분석기에는 Komoran만 있는 것은 아닙니다. 속도 측면에서는 Mecab, 정확도 측면에서는 Khaiii라는 프로젝트가 우수합니다만, 각각 설치 및 사용자 사전 등록이 까다로워서 수업 자료에 사용하지는 않았습니다. 실제 프로젝트를 진행할 때 Komoran의 성능이 아쉽다면 선택해볼만 합니다.