- 처리하고자 하는 텍스트(corpus)에 대한 정보를 특정 단위별로 나누는 작업
- 단어, 형태소, 문장 토크나이징

## 영어 토크나이징
- NLTK(Natural Language Toolkit)과 Spacy 가 대표적 임
## 1. NLTK
- 파이썬에서 영어 텍스트 전처리 작업을 하는 데 많이 쓰이는 라이브러리
- 50여개가 넘는 말뭉치(corpus) 리소스를 활용해 영어 텍스트를 분석할 수 있게 해줌
- 직관적인 함수 사용법으로 빠르게 텍스트 전처리를 할 수 있음

In [1]:
# nltk 설치
# conda install nltk

In [2]:
import nltk  # import 이상없이 잘 되면 -> 설치 잘 된것

In [3]:
nltk.download('all-corpora')  # 이러면 다운 된 것
# 어디로 down됐는지 잘 봐야함
# C:\Users\Administrator\AppData\Roaming\nltk_data.
# 이게 방금 다운받은 것

[nltk_data] Downloading collection 'all-corpora'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\Administrator\AppData\Roaming\nltk_data.
[nltk_data]    |     ..
[nltk_data]    |   Unzipping corpora\abc.zip.
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\Administrator\AppData\Roaming\nltk_data.
[nltk_data]    |     ..
[nltk_data]    |   Unzipping corpora\alpino.zip.
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     C:\Users\Administrator\AppData\Roaming\nltk_data.
[nltk_data]    |     ..
[nltk_data]    |   Unzipping corpora\biocreative_ppi.zip.
[nltk_data]    | Downloading package brown to
[nltk_data]    |     C:\Users\Administrator\AppData\Roaming\nltk_data.
[nltk_data]    |     ..
[nltk_data]    |   Unzipping corpora\brown.zip.
[nltk_data]    | Downloading package brown_tei to
[nltk_data]    |     C:\Users\Administrator\AppData\Roaming\nltk_data.
[nltk_data]    |     ..
[nltk_data]   

True

In [4]:
# 그리고  또 하나
nltk.download('punkt')  #  ->  nltk에서 쓰는 토크나이저 tokenizer
# 이놈도 다운 받으면 됨

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

### 단어 단위 토크나이징

In [5]:
from nltk.tokenize import word_tokenize

In [9]:
sentence = "Natural language processing (NLP) is a subfield of computer science, \
information engineering, and artificial intelligence concerned with the interactions \
between computers and human (natural) languages, in particular how to program computers \
to process and analyze large amounts of natural language data."

In [10]:
print(word_tokenize(sentence))  # 단어단위로 쪼갬
# 콤마,  , 마침표.  , 괄호 여닫 (,) ,별로도 다 나눔

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


### 문장 단위 토크나이징

In [11]:
from nltk.tokenize import sent_tokenize

In [12]:
paragraph = "Natural language processing (NLP) is a subfield of computer science, \
information engineering, and artificial intelligence concerned with the interactions \
between computers and human (natural) languages, in particular how to program computers \
to process and analyze large amounts of natural language data. Challenges in natural \
language processing frequently involve speech recognition, natural language \
understanding, and natural language generation."

In [13]:
print(sent_tokenize(paragraph))

['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.', 'Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.']


In [14]:
# 문장을 자른것
# 1. Natural ~ data
# 2. Challenges ~ generation

### nltk를 활용한 불용어 처리

In [16]:
from nltk.corpus import stopwords
# nltk는 자체적으로 불용어 사전이 있음(물론 영어에 대해서. 한글은 없음)
# 이걸 활용해 좀 더 편하게 할 수 있음

In [17]:
print(len(stopwords.words('english')))  # 영어에 대한 stopwords가 불용어 사전에 179개가 있다고 함

179


In [18]:
stopwords.words('english')[:10]  # 불용어 사전의 앞쪽 10개에는 뭐가 있을까

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [19]:
# 뒤쪽 10개에는 뭐가 있을까
stopwords.words('english')[-10:]

['shouldn',
 "shouldn't",
 'wasn',
 "wasn't",
 'weren',
 "weren't",
 'won',
 "won't",
 'wouldn',
 "wouldn't"]

In [22]:
# 위의 sentence에서 불용어를 제거해보자 (불용어 사전이 있으므로)
# 1. 일단 불용어를 저장
stop_words = set(stopwords.words('english'))  # 혹시 중복이 있을지 모르니 -> set()으로 한번 걸러냄

# 위의 문장을 단어 단위로 tokenizing 합시다
word_tokens = word_tokenize(sentence)

# 결과를 담을 놈을 빈 list로 생성
result = []
for w in word_tokens:  # 여기서 word를 뽑아낼 것
    if w not in stop_words:  # 단어를 하나씩 뽑아서 -> 만약 불용어 사전에 들어있지 않다면
        result.append(w)  # append를 할거고
        # 불용어 사전에 있으면 append 안하고 그냥 통과

In [23]:
# 원문장
print(word_tokens)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


In [25]:
# 불용어 잘라낸 문장
print(result)

# is, a, of, with, the, to 등등을 불용어로 처리해서 날려버림

['Natural', 'language', 'processing', '(', 'NLP', ')', 'subfield', 'computer', 'science', ',', 'information', 'engineering', ',', 'artificial', 'intelligence', 'concerned', 'interactions', 'computers', 'human', '(', 'natural', ')', 'languages', ',', 'particular', 'program', 'computers', 'process', 'analyze', 'large', 'amounts', 'natural', 'language', 'data', '.']


In [26]:
# spacy 설치
# conda install spacy

## 2. Spacy
- 상업용 목적으로 만들어진 오픈소스 라이브러리
- 영어를 포함한 8개 국어에 대한 자연어 전처리 모듈을 제공
- 쉬운 설치 및 빠른 전처리

In [27]:
import spacy

In [None]:
# spacy는 밥먹고 하는걸로....

In [None]:
# 설치
# 아래 
# nlp = spacy.load('en')
# doc = nlp(sentence)
# 이 2개는 다운 안해서 에러 발생함.
# 다운해줘야함.

# !python -m spacy download en
# 그러나 이곳에서의 설치, 실행도 관리자모드가 필요함.

# 관리자모드로
# Anaconda Powershell Prompt (anaconda3) 열어서
# python -m spacy download en
# 이렇게 쳐주면 됨.
# (위치 가서 conda activate python-env 해주고 함)

# 완료되면
# You can now load the model via spacy.load('en')
# 라고 뜸

# 아래 실행하면 정상 작동 됨

# => 영어에 대한 text data를 끄집어 내려야 함.

In [30]:
nlp = spacy.load('en')

doc = nlp(sentence)

In [31]:
word_tokenized_sentence = [token.text for token in doc]
print(word_tokenized_sentence)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


In [32]:
# 문장 단위로 토크나이즈드(tokenized)
sentence_tokenized_list = [sent.text for sent in doc.sents]
print(sentence_tokenized_list)

['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.']


In [33]:
# 아쉽게도 언어 구조가 달라서
# 한글 tokenize는 이걸 못 씀
# 한글 토크나이즈는 다른걸 써야 함.

# 한글이 영어와 어떻게 다른지
# 책에는 없지만
# 여기서 잠깐 보고 간다.
# https://wikidocs.net/21668

In [34]:
# 언어 모델을 만드는 방법은 크게는 
# 통계를 이용한 방법과  (=정통적인 방법)
# 인공 신경망을 이용한 방법으로 구분할 수 있습니다.  (= 요즘 방법)

# 최근에는 인공 신경망을 이용한 방법이 더 좋은 성능을 보여주고 있습니다.


# 영어나 기타 언어에 비해서 한국어는 언어 모델로 다음 단어를 예측하기가 훨씬 까다롭습니다.

# 1. 한국어는 어순이 중요하지 않다.  <- 이거때문에 굉장히 어려움
# Ex)
# ① 나는 운동을 합니다 체육관에서.
# ② 나는 체육관에서 운동을 합니다.
# ③ 체육관에서 운동을 합니다.
# ④ 나는 운동을 체육관에서 합니다.

# 이렇게 단어 순서를 뒤죽박죽으로 바꾸어놔도 한국어는 의미가 전달 되기 때문에 
# 확률에 기반한 언어 모델이 제대로 다음 단어를 예측하기가 어렵습니다.

# 2. 한국어는 교착어이다.

# 띄어쓰기 단위인 어절 단위로 토큰화를 할 경우에는 
# 문장에서 발생가능한 단어의 수가 굉장히 늘어납니다.

# 가령 '그녀'라는 단어 하나만 해도 
# 그녀가, 그녀를, 그녀의, 그녀와, 그녀로, 그녀께서, 그녀처럼 등과 같이 
# 다양한 경우가 존재합니다

# 그래서 단순하게 black단위로 잘라서 사용하기가 힘들다는 의미.
# 그래서 한국어에선, 이 조사를 어떻게 할것인가가 중요한 문제
# 단어의 원형으로 많이 함. -> 그녀가, 그녀를 ... -> 그녀
# 그런데 이짓도 코딩하기 존나 힘듬

# 3. 한국어는 띄어쓰기가 제대로 지켜지지 않는다.

# 띄어쓰기 제대로 안해도 의미 전달 가능
# 그런데 띄어쓰기 제대로 안한 상태에서 토큰화가 제대로 되기는 어려움


# 그래서 한글은 좀 특별하다는 것.

### 한글 토크나이징
- 한글은 언어의 특성상 NLTK나 Spacy는 사용하기에 적합하지 않음
- 영어에 존재하지 않는 형태소 분석이나 음소 분리와 같은 내용은 다루기 어려움

In [35]:
# 그래서 만든데 KoLNPy  (코 엘엔 파이)

# 책 p73~ .부터

### KoLNPy
- 한글 자연어 처리를 위해 만들어진 오픈소스 라이브러리
- 국내에 이미 만들어져 사용되고 있는 여러 형태소 분석기를 사용할 수 있음
- 자바로 작성된 형태소 분석기를 사용하기 때문에 윈도우에서 KoNLPy를 설치하기 위해서는 Java(1.7 이상)가 필요

In [36]:
# KoLNPy 설치
# conda install -c conda-forge jpype1
# 이게 자바하고 파이썬하고 연동해주는 것  (참고로 위에 숫자 1임)
# (위에서 말했듯이, Java 1.7 이상이 필요)

# 이것도 관리자 권한으로 킨 Anaconda Powershell Prompt 에서 했음

# 이게 정상적으로 설치되었으면
# KoNLPy를 설치해야 하는데
# 이건 한국사람이 만들고, 한국인이 쓰는건데
# 당연히 아나콘다에 등록 안되어있음
# 그래서 pip로 설치해야 함.
# (conda install 로 설치 안됨)

# pip install konlpy

# 설치 완

In [37]:
# 만약 여기서 문제가 생기면
# pip uninstall tweepy
# 로 삭제하고

# pip install tweepy==3.10.0
# 로 설치하면 된다고 함

# 끝나면 재시작
# kernel restart하고 실행하면 잘 됨

# 아마 버전 충돌로 생기는 문제인듯 함

In [1]:
import konlpy

### 형태소 단위 토크나이징
- KoNLPy 에서는 여러 형태소 분석기를 제공
- 각 형태소 분석기는 클래스 형태로 되어 있고, 이를 객체로 생성한 후 메서드를 호출해서 토크나이징 함

### 형태서 분석 및 품사 태깅
- 형태소랑 의미를 가지는 가장 작은 단위
- KoNLPy에 객체 형태로 포함되어 있는 형태소 분석기 목록\
a. Hannanum\
b. Kkma\
c. Komoran\
d. Mecab\
e. Okt(Twitter)
- 위 객체들은 모두 동일하게 형태소 분석 기능을 제공
- 각기 성능이 조금씩 다름
- Mecab은 윈도우에서 실행 불가능

In [None]:
# https://github.com/NLP-kr/tensorflow-ml-nlp-tf2/blob/master/2.NLP_PREP/2.3.1.3.koNLPy.ipynb
# 참고 소스

In [2]:
from konlpy.tag import Hannanum, Kkma, Komoran, Okt

In [3]:
okt = Okt()
text = '한글 자연어 처리는 재밌다 이제부터 열심히 해야지ㅎㅎㅎ'
print(okt.morphs(text))

['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '해야지', 'ㅎㅎㅎ']


In [4]:
# okt 에서 에러남
# jpypel 1.3.0인데 이게 버전이 너무 높아서 충돌남 -> 버전 낮춰야 함

# conda uninstall jpype1
# 로 지우고

# pip install "jpype1<1.1"
# 으로 버전을 1.1보다 낮게 함

# 이러고 kenel restart한 다음에
# 위에거 다시 실행하면 에러 안나고 잘 됨

In [4]:
# 결과 >>>
# ['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '해야지', 'ㅎㅎㅎ']

In [6]:
print(okt.morphs(text, stem=True))
# 어간 추출 
# (stem=True)
# -> 원형으로 변경시켜 주는 것
# ex) 할거야, 해야지 등등 -> 하다    로 바꿔줌

['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '하다', 'ㅎㅎㅎ']


In [8]:
print(okt.pos(text))  #okt.pos 하면 이렇게 나옴  ->  품사 정보

[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('재밌다', 'Adjective'), ('이제', 'Noun'), ('부터', 'Josa'), ('열심히', 'Adverb'), ('해야지', 'Verb'), ('ㅎㅎㅎ', 'KoreanParticle')]


In [9]:
print(okt.pos(text, join=True))
# join=True) 붙이면 -> list형식으로 보여줌

['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '재밌다/Adjective', '이제/Noun', '부터/Josa', '열심히/Adverb', '해야지/Verb', 'ㅎㅎㅎ/KoreanParticle']


In [10]:
# 꼬꼬마 한번 해보자
kkma = Kkma()
print(kkma.morphs(text))
# 얘는 재밌다를 -> 재밋 + 다 로 분류함
# 열심히 해야지 -> 열심히 + 하 + 어야지  .  로 분리함

['한글', '자연어', '처리', '는', '재밌', '다', '이제', '부터', '열심히', '하', '어야지', 'ㅎㅎㅎ']


In [11]:
# 얘는 명사만 따로 뽑아주는 nouns를 제공함
print(kkma.nouns(text))

['한글', '자연어', '처리', '이제']


In [13]:
# 얘는 pos로 품사 정보를 표현 하는데,
# 자체 약어로 보여줌
print(kkma.pos(text))

[('한글', 'NNG'), ('자연어', 'NNG'), ('처리', 'NNG'), ('는', 'JX'), ('재밌', 'VA'), ('다', 'ECS'), ('이제', 'NNG'), ('부터', 'JX'), ('열심히', 'MAG'), ('하', 'VV'), ('어야지', 'EFN'), ('ㅎㅎㅎ', 'EMO')]


In [15]:
# 이번엔 komoran

komoran = Komoran()
print(komoran.morphs(text))

['한글', '자연어', '처리', '는', '재밌', '다', '이제', '부터', '열심히', '해야지ㅎㅎㅎ']


In [16]:
print(komoran.nouns(text))   # 얘도 명사만 뽑아주는 기능이 있음

['한글', '자연어', '처리', '이제']


In [17]:
# 얘도 pos로 품사정보 보여줌
print(komoran.pos(text))

[('한글', 'NNP'), ('자연어', 'NNP'), ('처리', 'NNG'), ('는', 'JX'), ('재밌', 'VA'), ('다', 'EC'), ('이제', 'NNG'), ('부터', 'JX'), ('열심히', 'MAG'), ('해야지ㅎㅎㅎ', 'NA')]


In [18]:
# 코모란 품사표 정리 참조
# https://docs.komoran.kr/firststep/postypes.html

In [19]:
# 한나넘
hannanum = Hannanum()
print(hannanum.morphs(text))

# 얘도 처리 + 는 으로 띄움
# 열심히 + 해야지
# 해야짛ㅎㅎ   <- 으로 했음

['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '해야짛ㅎㅎ']


In [20]:
print(hannanum.nouns(text))
# 얘는 해야짛ㅎㅎ까지 명사로 뽑아줌

['한글', '자연어', '처리', '재밌다', '해야짛ㅎㅎ']


In [21]:
print(hannanum.pos(text))

[('한글', 'N'), ('자연어', 'N'), ('처리', 'N'), ('는', 'J'), ('재밌다', 'N'), ('이제', 'M'), ('부터', 'J'), ('열심히', 'M'), ('해야짛ㅎㅎ', 'N')]


In [22]:
# 이건좀 문제인듯
# 뒤에있는 글자를 앞의 받침으로 땡겨버리내.

### KoNLPy 데이터
- 한글 자연어 처리에 활용할 수 있는 한글 데이터를 포함하고 있음
- 데이터의 종류는 다음과 같음\
a. kolaw\
한국 법률 말뭉치 'constitution.txt'파일로 저장되어 있음\
b. kobil\
대한민국 국회 의안 말뭉치\
각 id값을 가지는 의안으로 구성되어 있고 파일은 '1809890.txt'부터 '1809899.txt'까지로 구성되어 있음

In [23]:
from konlpy.corpus import kolaw, kobill

In [24]:
kolaw.open('constitution.txt').read()[:100]  # 너무 기니까 100자만 보자

'대한민국헌법\n\n유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의'

In [25]:
kobill.open('1809890.txt').read()

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n\n 의 안\n 번 호\n\n9890\n\n발의연월일 : 2010.  11.  12.  \n\n발  의  자 : 정의화․이명수․김을동 \n\n이사철․여상규․안규백\n\n황영철․박영아․김정훈\n\n김학송 의원(10인)\n\n제안이유 및 주요내용\n\n  초등학교 저학년의 경우에도 부모의 따뜻한 사랑과 보살핌이 필요\n\n한 나이이나, 현재 공무원이 자녀를 양육하기 위하여 육아휴직을 할 \n\n수 있는 자녀의 나이는 만 6세 이하로 되어 있어 초등학교 저학년인 \n\n자녀를 돌보기 위해서는 해당 부모님은 일자리를 그만 두어야 하고 \n\n이는 곧 출산의욕을 저하시키는 문제로 이어질 수 있을 것임.\n\n  따라서 육아휴직이 가능한 자녀의 연령을 만 8세 이하로 개정하려\n\n는 것임(안 제63조제2항제4호).\n\n- 1 -\n\n\x0c법률  제        호\n\n지방공무원법 일부개정법률안\n\n지방공무원법 일부를 다음과 같이 개정한다.\n\n제63조제2항제4호 중 “만 6세 이하의 초등학교 취학 전 자녀를”을 “만 \n\n8세 이하(취학 중인 경우에는 초등학교 2학년 이하를 말한다)의 자녀를”\n\n로 한다.\n\n부      칙\n\n이 법은 공포한 날부터 시행한다.\n\n- 3 -\n\n\x0c신 ·구조문대비표\n\n현      행\n\n개   정   안\n\n제63조(휴직) ① (생  략)\n\n제63조(휴직) ① (현행과 같음)\n\n  ② 공무원이 다음 각 호의 어\n\n  ② -------------------------\n\n느 하나에 해당하는 사유로 휴\n\n----------------------------\n\n직을 원하면 임용권자는 휴직\n\n----------------------------\n\n을 명할 수 있다. 다만, 제4호\n\n-------------.---------------\n\n의 경우에는 대통령령으로 정\n\n---------------------------

In [26]:
# 자연어 처리
# 책 97p
# re
# re는 파이썬 정규 표현식(Regular Expression) 라이브러리다.

# 얘는 기본임.
# 얘는 할 줄 알아야 함