## 토크나이징
- 처리하고자 하는 텍스트(corpus)에 대한 정보를 특정 단위별로 나누는 작업 
- 단어, 형태소, 문장 토크나이징 

## 영어 토크나이징
- nltk가 가장 유명함 


## 1.NLTK(Natural Language Tokenizing)
- 파이썬에서 영어 텍스트 전처리 작업을 하는 데 많이 쓰이는 라이브러리이다.
- 50여개가 넘는 말뭉치(corpus)리소스를 활용해 영어 텍스트를 분석할 수 있게 해준다. 
- 직관적인 함수 사용법으로 빠르게 텍스트 전처리를 할 수 있다.



### nltk 설치하기 
$ conda install nltk


<hr>

### 데이터 받기
- nltk.download('all-corpora')
- nltk.download('punkt')




In [1]:
import nltk  #nltk 설치확인

In [2]:
nltk.download('all-corpora')

[nltk_data] Downloading collection 'all-corpora'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\fplc8\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\abc.zip.
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\fplc8\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\alpino.zip.
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     C:\Users\fplc8\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\biocreative_ppi.zip.
[nltk_data]    | Downloading package brown to
[nltk_data]    |     C:\Users\fplc8\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\brown.zip.
[nltk_data]    | Downloading package brown_tei to
[nltk_data]    |     C:\Users\fplc8\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\brown_tei.zip.
[nltk_data]    | Downloading package cess_cat to
[nltk_data]    |     C:\Users\fplc8\AppData\Roaming\nltk_data..

True

In [3]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\fplc8\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

### 단어 단위 토크나이징

In [4]:
from nltk.tokenize import word_tokenize

In [5]:
sentence = "Natural language processing (NLP) is a subfield of computer science, \
information engineering, and artificial intelligence concerned with the interactions \
between computers and human (natural) languages, in particular how to program computers \
to process and analyze large amounts of natural language data."

In [7]:
print(word_tokenize(sentence))

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


### 문장 단위 토크나이징 

In [8]:
from nltk.tokenize import sent_tokenize

In [9]:
paragraph = "Natural language processing (NLP) is a subfield of computer science, \
information engineering, and artificial intelligence concerned with the interactions \
between computers and human (natural) languages, in particular how to program computers \
to process and analyze large amounts of natural language data. Challenges in natural \
language processing frequently involve speech recognition, natural language \
understanding, and natural language generation."

In [10]:
print(sent_tokenize(paragraph))

['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.', 'Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.']


### nltk를 활용한 불용어 처리 

In [11]:
from nltk.corpus import stopwords #불용어를 영어로 stopwords라 함 

In [13]:
print(len(stopwords.words('english')))

179


In [14]:
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [15]:
stopwords.words('english')[-10:]

['shouldn',
 "shouldn't",
 'wasn',
 "wasn't",
 'weren',
 "weren't",
 'won',
 "won't",
 'wouldn',
 "wouldn't"]

In [16]:
stop_words = set(stopwords.words('english')) #혹시 중복이 있을지 모르니 집합을 써서 제거해준다. 
word_tokens = word_tokenize(sentence)

result = []
for w in word_tokens :
    if w not in stop_words:
        result.append(w)
        


In [17]:
print(word_tokens)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


In [18]:
print(result)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'subfield', 'computer', 'science', ',', 'information', 'engineering', ',', 'artificial', 'intelligence', 'concerned', 'interactions', 'computers', 'human', '(', 'natural', ')', 'languages', ',', 'particular', 'program', 'computers', 'process', 'analyze', 'large', 'amounts', 'natural', 'language', 'data', '.']


In [19]:
print(len(word_tokens))
print(len(result))

49
35


## 2.Spacy
- 상업용 목적으로 만들어진 오픈소스 라이브러리 
- 영어를 포함한 8개 국어에 대한 저연어 전처리 모듈을 제공한다. 
- 쉬운 설치 및 빠른 전처리가 가능하다.

#### spacy 설치 
$ conda insatll spacy

## 다운로드
$(관리자로 실행) python -m spacy download en


In [21]:
import spacy

In [28]:
nlp = spacy.load('en')

doc = nlp(sentence)


In [29]:
word_tokenized_sentence = [token.text for token in doc]
print(word_tokenized_sentence)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


In [30]:
sentence_tokenized_list = [sent.text for sent in doc.sents]
print(sentence_tokenized_list)

['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.']


## 한글 토크나이징 

- 한글은 언어의 특성상 NLTK 나 Spacy를 사용하기에 적합하지 않다. 
- 영어에 존재하지 않는 형태소 분석이나 음소 분리와 같은 내용은 다루기가 어렵기 떄문이다
<hr>

## KoLNPy 
- 한글 자연어 처리를 위해 만들어진 오픈소스 라이브러리 
- 국내에 이미 만들어져 사용되고 있는 여러 형태소 분석기를 사용할 수 있다. 
- 자바로 작성된 형태소 분석기를 사용하므로 윈도우에서는 KoNLPy를 설치하기 위해서는 Java(1.7이상)필요하다 
- WINDOWS : 환경변수에 JAVA_HOME이 있어야 한다. 
    https://blog.naver.com/ekqls9960/222427768502
- MACOS : 자기 홈 디렉토리 밑에 .zshrc 파일안에 path에 자바 위치가 추가되어있어야 한다.
https://blog.naver.com/dmsthf503/222107810824


$(관리자로 실행) conda install -c conda-forge jpype1
자바와 파이썬을 연결시켜주는 모듈임 자바설치 후 이걸 설치해줘야 한다.

이후에 KoLNPy를 설치해줘야 하는데 conda에는 당연히 없으므로 pip로 설치해줘야 한다. 

$ pip install konlpy

In [1]:
import konlpy

오류가 나므로 오류해결 (MAC에서는 이상없다함....)

- pip uninstall tweep

- pip install tweepy==3.10.0

In [1]:
import konlpy

### 형태소 단위 토크나이징 

- KoNLPy에서는 여러 형태소 분석기를 제공한다. 
- 각 형태소 분석기는 클래스 형태로 되어있고, 이를 객체로 생성한 후 메서드를 호출해서 토크나이징 한다.

### 형태소 분석 및 품사 태깅 

- 형태소란 의미를 가지는 가장 작은 단위다 
- KoNLPy에 객체 형태로 포함되어 있는 형태소 분석기 목록 
      a.Hannanum
      b.Kkma
      c.Komoran
      d.Mecab (윈도우는 안되고 리눅스나 맥만됨)
      e.Okt(Twitter)
  
- 위 객체들은 모두 동일하게 형태소 분석 기능을 제공한다 
- 그러나 각기 성능이 조금씩 다르다. 
- Mecab은 윈도우에서만 실행이 안된다. 

In [2]:
from konlpy.tag import Hannanum, Kkma, Komoran, Okt 

In [3]:
okt = Okt()
text = '한글 자연어 처리는 재밌다 이제부터 열심히 해야지ㅎㅎㅎ'
print(okt.morphs(text))

['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '해야지', 'ㅎㅎㅎ']


## 또 에러.... jpype버전을 낮춰보자 
pip install "jpype<1"

In [4]:
print(okt.morphs(text, stem=True))

['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '하다', 'ㅎㅎㅎ']


In [5]:
print(okt.pos(text))

[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('재밌다', 'Adjective'), ('이제', 'Noun'), ('부터', 'Josa'), ('열심히', 'Adverb'), ('해야지', 'Verb'), ('ㅎㅎㅎ', 'KoreanParticle')]


In [6]:
print(okt.pos(text, join=True))

['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '재밌다/Adjective', '이제/Noun', '부터/Josa', '열심히/Adverb', '해야지/Verb', 'ㅎㅎㅎ/KoreanParticle']


In [8]:
kkma = Kkma()
print(kkma.morphs(text))

['한글', '자연어', '처리', '는', '재밌', '다', '이제', '부터', '열심히', '하', '어야지', 'ㅎㅎㅎ']


https://docs.komoran.kr/firststep/postypes.html

In [9]:
print(kkma.nouns(text))

['한글', '자연어', '처리', '이제']


In [10]:
print(kkma.pos(text))

[('한글', 'NNG'), ('자연어', 'NNG'), ('처리', 'NNG'), ('는', 'JX'), ('재밌', 'VA'), ('다', 'ECS'), ('이제', 'NNG'), ('부터', 'JX'), ('열심히', 'MAG'), ('하', 'VV'), ('어야지', 'EFN'), ('ㅎㅎㅎ', 'EMO')]


#품사를 자체 약어로 표시해둔것들이다.

In [12]:
komoran = Komoran()
print(komoran.morphs(text))

['한글', '자연어', '처리', '는', '재밌', '다', '이제', '부터', '열심히', '해야지ㅎㅎㅎ']


In [13]:
print(komoran.nouns(text))

['한글', '자연어', '처리', '이제']


In [14]:
print(komoran.pos(text))

[('한글', 'NNP'), ('자연어', 'NNP'), ('처리', 'NNG'), ('는', 'JX'), ('재밌', 'VA'), ('다', 'EC'), ('이제', 'NNG'), ('부터', 'JX'), ('열심히', 'MAG'), ('해야지ㅎㅎㅎ', 'NA')]


In [15]:
hannanum = Hannanum()
print(hannanum.morphs(text))

['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '해야짛ㅎㅎ']


In [16]:
print(hannanum.nouns(text))

['한글', '자연어', '처리', '재밌다', '해야짛ㅎㅎ']


In [17]:
print(hannanum.pos(text))

[('한글', 'N'), ('자연어', 'N'), ('처리', 'N'), ('는', 'J'), ('재밌다', 'N'), ('이제', 'M'), ('부터', 'J'), ('열심히', 'M'), ('해야짛ㅎㅎ', 'N')]


## KoNLPy 데이터

- 한글 자연어 처리에 활용할 수 있는 한글 데이터를 포함하고 있다. 
- 데이터의 종류는 다음과 같다 

    a.kolaw : 한글 법률 말뭉치-'constitution.txt'파일로 저장되어있다. 
    
    b.kobil : 대한민국 국회 의안 말뭉치 
    각 id값을 가지는 의안으로 구성되어있고 파일은 '1809890.txt'부터 '1809899.txt' 까지로 구성되어있다.

In [18]:
from konlpy.corpus import kolaw, kobill

In [19]:
kolaw.open('constitution.txt').read()[:100]

'대한민국헌법\n\n유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의'

In [23]:
kobill.open('1809890.txt').read()

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n\n 의 안\n 번 호\n\n9890\n\n발의연월일 : 2010.  11.  12.  \n\n발  의  자 : 정의화․이명수․김을동 \n\n이사철․여상규․안규백\n\n황영철․박영아․김정훈\n\n김학송 의원(10인)\n\n제안이유 및 주요내용\n\n  초등학교 저학년의 경우에도 부모의 따뜻한 사랑과 보살핌이 필요\n\n한 나이이나, 현재 공무원이 자녀를 양육하기 위하여 육아휴직을 할 \n\n수 있는 자녀의 나이는 만 6세 이하로 되어 있어 초등학교 저학년인 \n\n자녀를 돌보기 위해서는 해당 부모님은 일자리를 그만 두어야 하고 \n\n이는 곧 출산의욕을 저하시키는 문제로 이어질 수 있을 것임.\n\n  따라서 육아휴직이 가능한 자녀의 연령을 만 8세 이하로 개정하려\n\n는 것임(안 제63조제2항제4호).\n\n- 1 -\n\n\x0c법률  제        호\n\n지방공무원법 일부개정법률안\n\n지방공무원법 일부를 다음과 같이 개정한다.\n\n제63조제2항제4호 중 “만 6세 이하의 초등학교 취학 전 자녀를”을 “만 \n\n8세 이하(취학 중인 경우에는 초등학교 2학년 이하를 말한다)의 자녀를”\n\n로 한다.\n\n부      칙\n\n이 법은 공포한 날부터 시행한다.\n\n- 3 -\n\n\x0c신 ·구조문대비표\n\n현      행\n\n개   정   안\n\n제63조(휴직) ① (생  략)\n\n제63조(휴직) ① (현행과 같음)\n\n  ② 공무원이 다음 각 호의 어\n\n  ② -------------------------\n\n느 하나에 해당하는 사유로 휴\n\n----------------------------\n\n직을 원하면 임용권자는 휴직\n\n----------------------------\n\n을 명할 수 있다. 다만, 제4호\n\n-------------.---------------\n\n의 경우에는 대통령령으로 정\n\n---------------------------