# DAY2(21/07/01)
## NLP 토큰화 : 자연어 처리를 위해 필요한 텍스트 전처리로, 문단 혹은 문장을 문장 혹은 단어들로 분리시키는 과정이다.
### 1. 영어 토큰화 - NLTK 라이브러리
#### - 영어 텍스트 전처리를 하는 라이브러리 중 하나로, 교육용으로 사용되기 위해 나왔다.
#### - 라이브러리 설치 후에 말뭉치(Copus)를 추가적으로 다운 받아야 활용할 수 있다.
#### - 단어를 토큰화 할 경우, word_tokenize를 쓰고, 문장을 토큰화 할 경우, sent_tokenize를 사용한다.
#### - NLTK는 불용어 처리를 위해 따로 정의할 필요 없이 라이브러리 내 불용어 사전이 존재한다. 추가적인 불용어 제거가 필요한 단어들은 추가할 수도 있다.
### 2. 영어 토큰화 - Spacy 라이브러리
#### - NLTK와 달리 상업을 목적으로 탄생한 라이브러리다.
#### - 영어를 포함한 8개 국어에 대한 자연어 전처리 모듈을 제공한다.
#### - 원하는 언어에 대한 전처리가 한번에 가능하고, 딥러닝 언어 모델의 개발도 지원하고 있다.
#### - 객체를 생성하는 방식으로 전처리가 진행되어, 단순히 토크나이징 뿐만 아니라 갖가지 다른 자연어 전처리 기능을 제공할 수 있다.
### 3. 한국어 토큰화 - KoNLPy 라이브러리
#### - 영어 텍스트 전처리에 적합한 NLTK나 Spacy 라이브러리는 한글에선 사용하기 어렵다. 왜냐하면 언어마다 특징이 다르고, 한글의 경우 형태소 분석이라는 특징이 있기 때문이다.
#### - KoNLPy에서는 여러 형태소 분석기를 제공하는데, 각 형태소 분석기 별로 분석한 결과는 다를 수 있다.
#### - Hannaum / Kkma / Komoran / Mecab / Okt(Twitter)의 형태소 분석기가 있다.
#### - 각기 성능이 다르기 때문에, 직접 비교해보고 자신의 데이터에 가장 적합한 분석기를 사용하는 것이 좋다.


### 1. 영어 토큰화 - NLTK

In [2]:
import nltk
nltk.download('all') ## all을 하면 nltk의 모든 말뭉치를 설치할 수 있다.

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping corpora/biocreative_ppi.zip.
[nltk_data]    | Downloading package brown to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/brown.zip.
[nltk_data]    | Downloading package brown_tei to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/brown_tei.zip.
[nltk_data]    | Downloading package cess_cat to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cess_cat.zip.
[nltk_data]    | Downloading package cess_esp to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cess_esp.zip.
[nltk_data]    | Downloading package chat80 to /root/nltk_data...
[nltk_data]    |   Unzipp

True

In [9]:
from nltk.tokenize import word_tokenize, sent_tokenize # 단어 토큰화 / 문장 토큰화 호출

sentence = "You know, no matter how many reasons to die in the world, there's always more to live for."
sentence2 = ' To have broken heart means you have tried for something.'

print(word_tokenize(sentence)) #단어 토큰화
print(word_tokenize(sentence2)) #단어 토큰화

# 토큰화가 된 것을 확인할 수 있다. 특수 문자도 나뉘어졌다.

['You', 'know', ',', 'no', 'matter', 'how', 'many', 'reasons', 'to', 'die', 'in', 'the', 'world', ',', 'there', "'s", 'always', 'more', 'to', 'live', 'for', '.']
['To', 'have', 'broken', 'heart', 'means', 'you', 'have', 'tried', 'for', 'something', '.']


In [12]:
sentence3 = sentence + sentence2 # 두 문장을 합친 후, 문장 토큰화를 진행해보겠음.
print(sent_tokenize(sentence3)[0])
print(sent_tokenize(sentence3)[1])
print(sent_tokenize(sentence3))
# 문장끼리 나뉘어 진 것을 볼 수 있다.

You know, no matter how many reasons to die in the world, there's always more to live for.
To have broken heart means you have tried for something.
["You know, no matter how many reasons to die in the world, there's always more to live for.", 'To have broken heart means you have tried for something.']


### 2. 영어 토큰화 - Spacy

In [16]:
import spacy

nlp = spacy.load('en') ## 'en'은 8개 국어 중에 영어로 진행을 하겠다고 선언하는 것.
doc = nlp(sentence)
doc2 = nlp(sentence2)
doc3 = nlp(sentence3)

word_tokenized_sentence = [token.text for token in doc] # 첫번째 문장, 단어 토큰화
word_tokenized_sentence2 = [token.text for token in doc2] # 두번째 문장, 단어 토큰화
sentence_tokenized_list = [sent.text for sent in doc3.sents] #세번째 문장, 문장 토큰화

print(word_tokenized_sentence)
print(word_tokenized_sentence2)
print(sentence_tokenized_list[0])
print(sentence_tokenized_list[1])
print(sentence_tokenized_list)

['You', 'know', ',', 'no', 'matter', 'how', 'many', 'reasons', 'to', 'die', 'in', 'the', 'world', ',', 'there', "'s", 'always', 'more', 'to', 'live', 'for', '.']
[' ', 'To', 'have', 'broken', 'heart', 'means', 'you', 'have', 'tried', 'for', 'something', '.']
You know, no matter how many reasons to die in the world, there's always more to live for.
To have broken heart means you have tried for something.
["You know, no matter how many reasons to die in the world, there's always more to live for.", 'To have broken heart means you have tried for something.']


### NLTK와 똑같이 전처리가 된 것을 볼 수 있다. 처리 방법은 spacy는 컴프리헤션을 사용하여 새로운 리스트에 각 토큰들을 담아주었다.

In [18]:
pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.4MB/s 
[?25hCollecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 8.5MB/s 
[?25hCollecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/98/88/f817ef1af6f794e8f11313dcd1549de833f4599abcec82746ab5ed086686/JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448kB)
[K     |████████████████████████████████| 450kB 31.5MB/s 
Collecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Installing colle

In [20]:
import konlpy #konlpy 설치된 것을 확인하였음.
from konlpy.tag import Okt

okt = Okt()

In [29]:
text = '너도 알잖아? 세상에 아무리 죽을 이유가 많더라도 살아야 할 이유가 늘 더 많은거.'
text2 = '마음을 다쳤다는건 당신이 뭔가를 위해 노력했다는 증거예요.'
print('--------형태소 분리--------')
print(okt.morphs(text)) #norm = True도 설정할 수 있는데, 이를 설정하면 정규화가 됨.
print(okt.morphs(text2, stem = True)) #stem = True는 형태로 분리 후, 어간을 추출하는 것.
print('=========================================')
print('--------명사만 추출--------')
print(okt.nouns(text))
print(okt.nouns(text2))
print('=========================================')
print('--------어절만 추출--------')
print(okt.phrases(text))
print(okt.phrases(text2))
print('=========================================')
print('--------형태소 단위로 분리 후, 품사와 태킹--------')
print(okt.pos(text, join = True)) #join = True를 하면 품사와 태깅이 됨.
print(okt.phrases(text2)) #여기에도 morphs와 마찬가지로 norm과 stem을 설정할 수 있음.

--------형태소 분리--------
['너', '도', '알잖아', '?', '세상', '에', '아무리', '죽', '을', '이유', '가', '많더라도', '살아야', '할', '이유', '가', '늘', '더', '많은거', '.']
['마음', '을', '다치다', '당신', '이', '뭔가', '를', '위해', '노력', '하다', '증거', '예요', '.']
--------명사만 추출--------
['너', '세상', '죽', '이유', '이유', '늘', '더']
['마음', '당신', '뭔가', '위해', '노력', '증거']
--------어절만 추출--------
['세상', '이유']
['마음', '당신', '뭔가', '위해', '위해 노력', '위해 노력했다는 증거', '노력', '증거']
--------형태소 단위로 분리 후, 품사와 태킹--------
['너/Noun', '도/Josa', '알잖아/Verb', '?/Punctuation', '세상/Noun', '에/Josa', '아무리/Adverb', '죽/Noun', '을/Josa', '이유/Noun', '가/Josa', '많더라도/Adjective', '살아야/Verb', '할/Verb', '이유/Noun', '가/Josa', '늘/Noun', '더/Noun', '많은거/Adjective', './Punctuation']
['마음', '당신', '뭔가', '위해', '위해 노력', '위해 노력했다는 증거', '노력', '증거']


### 4. konlpy 데이터 호출

In [35]:
from konlpy.corpus import kolaw #법률 말뭉치
from konlpy.corpus import kobill #국회 의안 말뭉치

kolaw_sent = kolaw.open('constitution.txt').read()
kolaw_sent

'대한민국헌법\n\n유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·인도와 동포애로써 민족의 단결을 공고히 하고, 모든 사회적 폐습과 불의를 타파하며, 자율과 조화를 바탕으로 자유민주적 기본질서를 더욱 확고히 하여 정치·경제·사회·문화의 모든 영역에 있어서 각인의 기회를 균등히 하고, 능력을 최고도로 발휘하게 하며, 자유와 권리에 따르는 책임과 의무를 완수하게 하여, 안으로는 국민생활의 균등한 향상을 기하고 밖으로는 항구적인 세계평화와 인류공영에 이바지함으로써 우리들과 우리들의 자손의 안전과 자유와 행복을 영원히 확보할 것을 다짐하면서 1948년 7월 12일에 제정되고 8차에 걸쳐 개정된 헌법을 이제 국회의 의결을 거쳐 국민투표에 의하여 개정한다.\n\n       제1장 총강\n  제1조 ① 대한민국은 민주공화국이다.\n②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.\n  제2조 ① 대한민국의 국민이 되는 요건은 법률로 정한다.\n②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.\n  제3조 대한민국의 영토는 한반도와 그 부속도서로 한다.\n  제4조 대한민국은 통일을 지향하며, 자유민주적 기본질서에 입각한 평화적 통일 정책을 수립하고 이를 추진한다.\n  제5조 ① 대한민국은 국제평화의 유지에 노력하고 침략적 전쟁을 부인한다.\n②국군은 국가의 안전보장과 국토방위의 신성한 의무를 수행함을 사명으로 하며, 그 정치적 중립성은 준수된다.\n  제6조 ① 헌법에 의하여 체결·공포된 조약과 일반적으로 승인된 국제법규는 국내법과 같은 효력을 가진다.\n②외국인은 국제법과 조약이 정하는 바에 의하여 그 지위가 보장된다.\n  제7조 ① 공무원은 국민전체에 대한 봉사자이며, 국민에 대하여 책임을 진다.\n②공무원의 신분과 정치적 중립성은 법률이 정하는 바에 의하여 보장된다.\n  제8조 ① 정

In [36]:
kobill_sent = kobill.open('1809890.txt').read()
kobill_sent

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n\n 의 안\n 번 호\n\n9890\n\n발의연월일 : 2010.  11.  12.  \n\n발  의  자 : 정의화․이명수․김을동 \n\n이사철․여상규․안규백\n\n황영철․박영아․김정훈\n\n김학송 의원(10인)\n\n제안이유 및 주요내용\n\n  초등학교 저학년의 경우에도 부모의 따뜻한 사랑과 보살핌이 필요\n\n한 나이이나, 현재 공무원이 자녀를 양육하기 위하여 육아휴직을 할 \n\n수 있는 자녀의 나이는 만 6세 이하로 되어 있어 초등학교 저학년인 \n\n자녀를 돌보기 위해서는 해당 부모님은 일자리를 그만 두어야 하고 \n\n이는 곧 출산의욕을 저하시키는 문제로 이어질 수 있을 것임.\n\n  따라서 육아휴직이 가능한 자녀의 연령을 만 8세 이하로 개정하려\n\n는 것임(안 제63조제2항제4호).\n\n- 1 -\n\n\x0c법률  제        호\n\n지방공무원법 일부개정법률안\n\n지방공무원법 일부를 다음과 같이 개정한다.\n\n제63조제2항제4호 중 “만 6세 이하의 초등학교 취학 전 자녀를”을 “만 \n\n8세 이하(취학 중인 경우에는 초등학교 2학년 이하를 말한다)의 자녀를”\n\n로 한다.\n\n부      칙\n\n이 법은 공포한 날부터 시행한다.\n\n- 3 -\n\n\x0c신 ·구조문대비표\n\n현      행\n\n개   정   안\n\n제63조(휴직) ① (생  략)\n\n제63조(휴직) ① (현행과 같음)\n\n  ② 공무원이 다음 각 호의 어\n\n  ② -------------------------\n\n느 하나에 해당하는 사유로 휴\n\n----------------------------\n\n직을 원하면 임용권자는 휴직\n\n----------------------------\n\n을 명할 수 있다. 다만, 제4호\n\n-------------.---------------\n\n의 경우에는 대통령령으로 정\n\n---------------------------

In [37]:
okt.morphs(kolaw_sent) #형태소 단위 분리

['대한민국',
 '헌법',
 '\n\n',
 '유구',
 '한',
 '역사',
 '와',
 '전통',
 '에',
 '빛나는',
 '우리',
 '대',
 '한',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로',
 '건립',
 '된',
 '대한민국',
 '임시정부',
 '의',
 '법',
 '통과',
 '불의',
 '에',
 '항거',
 '한',
 '4',
 '·',
 '19',
 '민주',
 '이념',
 '을',
 '계승',
 '하고',
 ',',
 '조국',
 '의',
 '민주',
 '개혁',
 '과',
 '평화',
 '적',
 '통일',
 '의',
 '사명',
 '에',
 '입',
 '각하',
 '여',
 '정의',
 '·',
 '인도',
 '와',
 '동포',
 '애',
 '로써',
 '민족',
 '의',
 '단결',
 '을',
 '공고',
 '히',
 '하고',
 ',',
 '모든',
 '사회',
 '적',
 '폐습',
 '과',
 '불의',
 '를',
 '타파',
 '하며',
 ',',
 '자율',
 '과',
 '조화',
 '를',
 '바탕',
 '으로',
 '자유민주',
 '적',
 '기',
 '본',
 '질서',
 '를',
 '더욱',
 '확고히',
 '하여',
 '정치',
 '·',
 '경제',
 '·',
 '사회',
 '·',
 '문화',
 '의',
 '모든',
 '영역',
 '에',
 '있어서',
 '각인',
 '의',
 '기회',
 '를',
 '균등히',
 '하고',
 ',',
 '능력',
 '을',
 '최고',
 '도로',
 '발휘',
 '하게',
 '하며',
 ',',
 '자유',
 '와',
 '권리',
 '에',
 '따르는',
 '책임',
 '과',
 '의무',
 '를',
 '완수',
 '하게',
 '하여',
 ',',
 '안',
 '으로는',
 '국민',
 '생활',
 '의',
 '균등한',
 '향상',
 '을',
 '기하',
 '고',
 '밖',
 '으로는',
 '항구',
 '적',
 '인',
 '세

In [40]:
okt.morphs(kobill_sent, stem = True) #형태소 단위 분리

['지방공무원법',
 '일부',
 '개정',
 '법률',
 '안',
 '\n\n',
 '(',
 '정의화',
 '의원',
 '대표',
 '발의',
 ')',
 '\n\n ',
 '의',
 '안',
 '\n ',
 '번',
 '호',
 '\n\n',
 '9890',
 '\n\n',
 '발의',
 '연월일',
 ':',
 '2010',
 '.',
 '11',
 '.',
 '12',
 '.',
 '발',
 '의',
 '자',
 ':',
 '정의화',
 '․',
 '이명수',
 '․',
 '김을동',
 '이사철',
 '․',
 '여상규',
 '․',
 '안규백',
 '\n\n',
 '황영철',
 '․',
 '박영아',
 '․',
 '김정훈',
 '\n\n',
 '김학송',
 '의원',
 '(',
 '10',
 '인',
 ')',
 '\n\n',
 '제안',
 '이유',
 '및',
 '주요',
 '내용',
 '\n\n  ',
 '초등학교',
 '저학년',
 '의',
 '경우',
 '에도',
 '부모',
 '의',
 '따뜻하다',
 '사랑',
 '과',
 '보살피다',
 '필요',
 '\n\n',
 '하다',
 '나이',
 '이나',
 ',',
 '현재',
 '공무원',
 '이',
 '자녀',
 '를',
 '양육',
 '하다',
 '위',
 '하다',
 '육아휴직',
 '을',
 '하다',
 '수',
 '있다',
 '자녀',
 '의',
 '나이',
 '는',
 '만',
 '6',
 '세',
 '이하',
 '로',
 '되어다',
 '있다',
 '초등학교',
 '저학년',
 '인',
 '자녀',
 '를',
 '돌보다',
 '위',
 '하다',
 '해당',
 '부모님',
 '은',
 '일자리',
 '를',
 '그만',
 '두다',
 '하다',
 '이다',
 '곧',
 '출산',
 '의욕',
 '을',
 '저하',
 '시키다',
 '문제',
 '로',
 '이어지다',
 '수',
 '있다',
 '것임',
 '.',
 '\n\n  ',
 '따라서',
 '육아휴직',
 '이',
 '

In [42]:
okt.pos(kolaw_sent, join = True, stem = True) #형태소 단위 분리 및, 품사 태킹, 어간 추출

['대한민국/Noun',
 '헌법/Noun',
 '\n\n/Foreign',
 '유구/Noun',
 '한/Josa',
 '역사/Noun',
 '와/Josa',
 '전통/Noun',
 '에/Josa',
 '빛나다/Verb',
 '우리/Noun',
 '대/Modifier',
 '한/Modifier',
 '국민/Noun',
 '은/Josa',
 '3/Number',
 '·/Punctuation',
 '1/Number',
 '운동/Noun',
 '으로/Josa',
 '건립/Noun',
 '되다/Verb',
 '대한민국/Noun',
 '임시정부/Noun',
 '의/Josa',
 '법/Noun',
 '통과/Noun',
 '불의/Noun',
 '에/Josa',
 '항거/Noun',
 '한/Josa',
 '4/Number',
 '·/Punctuation',
 '19/Number',
 '민주/Noun',
 '이념/Noun',
 '을/Josa',
 '계승/Noun',
 '하고/Josa',
 ',/Punctuation',
 '조국/Noun',
 '의/Josa',
 '민주/Noun',
 '개혁/Noun',
 '과/Josa',
 '평화/Noun',
 '적/Suffix',
 '통일/Noun',
 '의/Josa',
 '사명/Noun',
 '에/Josa',
 '입/Noun',
 '각하/Noun',
 '여/Josa',
 '정의/Noun',
 '·/Punctuation',
 '인도/Noun',
 '와/Josa',
 '동포/Noun',
 '애/Noun',
 '로써/Noun',
 '민족/Noun',
 '의/Josa',
 '단결/Noun',
 '을/Josa',
 '공고/Noun',
 '히/Adverb',
 '하다/Verb',
 ',/Punctuation',
 '모든/Noun',
 '사회/Noun',
 '적/Suffix',
 '폐습/Noun',
 '과/Josa',
 '불의/Noun',
 '를/Josa',
 '타파/Noun',
 '하다/Verb',
 ',/Punctuation',
 '자율/Noun',

### 5. 느낀 점
#### nltk와 spacy는 같이 써봤지만, 어떤 차이가 있는지는 잘 알지 못했다. 오늘 학습을 하면서 큰 차이가 있는 부분은 아니지만 검색을 통해 nltk는 불용어 사전이 있는 대신에, 오래된 라이브러리라는 특징이 있었다. 그리고 spacy는 최신 라이브러리라는 점에서 텍스트 데이터를 다룰 때 그때에 따라 더 효율적인 라이브러릴 꺼내쓸 수 있도록 해야겠다.
#### 그리고 여태껏, 2번의 NLP를 통한 개인 프로젝트를 진행해봤지만, 전부 영어 텍스트를 다뤘기 때문에 오늘 konlpy를 처음 써봤다. 아무래도 내가 앞으로 하고 싶은 분야가 한글에 관련이 많을 것이기 때문에 한글 전처리 및 모델링에 연습하는 시간을 지속적으로 가져야겠다.