# ch 1. Tokenize
자연어 처리에서 텍스트 데이터를 corpus(코퍼스, 말뭉치)라고 부릅니다. 크롤링 시간에 수집했던 뉴스 기사들도 코퍼스라고 부를 수 있습니다. 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 합니다. 

토큰은 컴퓨터가 텍스트를 처리하는 최소 의미 단위가 됩니다. 토큰화에는 여러 기법들이 있습니다. 딥러닝 등장 이전의 NLP에서는 주로 언어학 관점에서 정의한 최소 의미 단위인 형태소를 기준으로 토큰화를 했습니다. 하지만 최근 딥러닝 모델들은 데이터로부터 자연스럽게 토크나이저를 학습하는 subword 토큰화를 사용하며, 딥러닝을 이용한 NLP 시간에 배워보겠습니다.

형태소 단위로 문장을 토큰화 해주는 기술을 형태소 분석기라고 부릅니다. 형태소 분석기는 언어학적으로 해석이 가능한 장점이 있습니다만, 고유명사나 신조어 대응이 어려운 한계가 있습니다. 이번 챕터에서는 기본적인 토큰화 기법들과 형태소 분석기를 실습해보겠습니다.

## 공백 기준의 토큰화
먼저 생각할 수 있는 가장 단순한 토큰화 기법은 공백을 기준으로 잘라내는 것입니다.

In [None]:
sentence = '롯데 자이언츠의 거인 이대호(40)의 꿈이 무너져가고 있다. 이대호가 새해 40세 불혹(不惑)의 나이가 됐다. 불혹은 주위에서 어떤 일이 벌어져도 중심을 잃지 않고 자신만의 원칙을 지켜 나갈 수 있는 경지에 오르는 시기다. 이번 스토브리그에 롯데 구단에 걱정스러운 일이 벌어지고 있다. 그런데 이대호는 어떤 대외 활동도 하지 않고 침묵하며 조용히 개인 훈련에 집중하는 모습이다. 불혹이 돼서인가? 지난 2017년 1월24일이다. 벌써 5년의 시간이 흘렀다. 롯데의 프랜차이즈 스타 이대호가 일본프로야구 미국 메이저리그를 거쳐 고향팀 롯데로 돌아왔다. 그는 ‘조선의 4번타자’답게 단숨에 최고가 됐다. 삼성에서 FA가 된 최형우가 고향팀 KIA 타이거즈와 4년 계약을 하면서 기록한 총액 100억 원을 훨씬 넘어 150억 원에 롯데와 계약했다. 당시 인터뷰에서 이대호는 ‘메이저리그에서 열심히 노력해 꿈을 이루었다. 남은 것은 롯데로 돌아와 함께 우승을 하는 것이다. 마지막 소원이 롯데의 우승’이라고 밝혔다. 2001년 롯데에 2차 1순위로 입단해 2011시즌까지 11시즌 동안 이대호는 무려 225개의 홈런을 쏘아 올렸다. 그리고 2008~2011 시즌까지 4년 연속 롯데를 포스트시즌으로 이끌었으나 한국시리즈 우승을 못하고 일본 프로야구로 떠났다.'

이렇게 공백을 기준으로 토큰을 만들게 되면 한국어의 특성상 조사를 떼어낼 수가 없습니다. 즉, "이대호가", "이대호는"과 같이 실제로는 비슷한 의미를 갖는 토큰을 전혀 다른 토큰으로 인식하게 됩니다. 토큰화가 제대로 이루어지지 않으면 제 아무리 고도화 된 AI 모델을 학습시킨다 하더라도 정확도를 기대할 수 없습니다.

공백을 기준으로 잡는 것 외에도 온 점이나 쉼표를 기준으로 토큰화를 하는 기법들이 있지만, 마찬가지로 낮은 정확도로 인해 사용하지 않습니다.

## 형태소 분석기를 이용한 토큰화
다음으로 형태소 분석기를 이용한 토큰화를 해보겠습니다. 가장 쉽게 사용할 수 있는 konlpy의 komoran을 사용하여 실습을 진행해보겠습니다. konlpy는 한국어 자연어 처리 라이브러리이고, komoran은 konlpy를 통해 이용할 수 있는 형태소 분석기 중 하나입니다.

형태소 분석기를 이용하면 각 토큰별로 품사와 함께 토큰화 된 텍스트를 가져올 수 있다. 또한 "롯데 자이언츠"처럼 중간에 공백이 삽입된 명사도 고유명사로 잘 구분하는 모습을 보여준다. "이대호가", "이대호는"과 같은 단어도 "이대호", "가", "이대호", "는"으로 분리해주어 의미 단위로 토큰을 잘 분리하는 모습을 보여준다.

하지만 형태소 분석기는 신조어나 고유 명사에 상당히 취약한 모습을 보이기도 한다. 

"SSG", "랜더스", "안우진" 등의 고유 명사를 NNP로 잡아내지 못하는 모습을 보입니다. 이러한 형태소 분석기의 한계점은 고유 명사를 직접 지정하는 사용자 사전 기능으로 극복할 수 있습니다.

## 전체 데이터 셋 토크나이즈

웹 크롤링 시간에 정규 표현식을 이용해서 전처리 했었던 데이터 셋을 tokenize 해보겠습니다. 한번 전체 데이터 셋 중 1000개만 토큰화하여 결과를 CSV 파일에 써보겠습니다.

1000개를 토큰화하는데 13초가 걸렸습니다. 전체 기사는 10만개이므로 모두 토큰화 하는데에는 13 * 100 / 60 = 21분 가량이 소요됩니다. 물론 기다릴 수 있는 시간입니다만 아쉽습니다. 여러개의 CPU를 활용해서 동시에 토큰화 작업을 수행하면 전체 소요 시간이 몇배는 단축되지 않을까요? 다음 챕터에서는 python multiprocessing을 이용해서 멀티 코어로 빠르게 토큰화 작업을 수행하는 방법을 알아보겠습니다.

## 정리
이번 챕터에서는 python에서 자연어를 처리하기 위한 첫 스텝인 토큰화에 대해서 알아보았습니다. 그리고 토큰화 방식 중에 하나인 형태소 기반의 토큰화를 알아보았고, konlpy Komoran을 이용해서 토큰화를 해보았습니다. 다음 챕터에서는 멀티 프로세스를 이용해서 대량의 텍스트를 빠르게 토큰화 하는 방법을 알아보겠습니다.