<a href="https://colab.research.google.com/github/movie112/INU-DILAB/blob/main/NLPWikidocs_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 딥러닝을 이용한 자연어처리 입문
## 2. 텍스트 전처리(text preprocessing)
- 01) 토큰화(Tokenization)
- 02) 정제, 정규화(Cleaning, Normalization)
- 03) 어간, 표제어추출(Stemming, Lemmatization)
- 04) 불용어(Stopword)
- 05) 정규 표현식(Regular Expression)
- 06) 정수 인코딩(Integer Encoding)
- 07) 패딩(Padding)
- 08) 원-핫 인코딩(One-Hot Encoding)
- 09) 데이터의 분리(Dplitting Data)
- 10) 한국어 전처리 패키지(Text preprocessing tools for Kerean text)
<https://wikidocs.net/21698>



---

### 01) 토큰화(tokenization)
데이터가 전처리되지 않은 상태라면, 사용하고자하는 용도에 맞게 토큰화(tokenization), 정제(cleaning), 정규화(normalization)을 진행한다.   
- 토큰화   
corpus에서 토큰 단위로 나누는 작업



#### 1. 단어 토큰화(word tokenization)
토큰의 기준: 단어(word)   
- 입력: Time is an illusion. Lunchtime double so!
- 구두점을 제외시킨 토큰화 작업의 결과
- 출력 : "Time", "is", "an", "illustion", "Lunchtime", "double", "so"



#### 2. 토큰화 중 생기는 선택의 순간
-  Don't와 Jone's는 어떻게 토큰화할 수 있을까?
-  NLTK: 영어 corpus를 토큰화하기 위한 도구들 제공

In [None]:
import nltk
from nltk.tokenize import word_tokenize  
nltk.download('punkt')
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


- word_tokenize: Don't를 Do와 n't로 분리하였으며, 반면 Jone's는 Jone과 's로 분리

In [None]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


- WordPunctTokenizer: 구두점을 별도로 분류, word_tokenize와는 달리 Don't를 Don과 '와 t로 분리하였으며, Jone's를 Jone과 '와 s로 분리

- keras

In [None]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- text_to_word_sequence: 기본적으로 모든 알파벳을 소문자로 바꾸면서 구두점 제거. 아포스트로피는 보존

#### 3. 토큰화에서 고려해야할 사항
- 구두점이나 특수 문자를 단순 제외X
  - 마침표(.)와 같은 경우는 문장의 경계를 알 수 있는데 도움이 되므로
  - 단어 자체에서 구두점을 갖고 있는 경우 /  Ph.D나 $45.55, 01/02/06
- 줄임말과 단어 내에 띄어쓰기가 있는 경우
  - 사용 용도에 따라서, 하나의 단어 사이에 띄어쓰기가 있는 경우에도 하나의 토큰으로 봐야하는 경우도 있을 수 있으므로, 토큰화 작업은 저러한 단어를 하나로 인식할 수 있는 능력 가져야 함
  - what're, I'm / re = 접어(clitic)
  - New York, rock 'n' roll
- 표준 토큰화 예제
  -  Penn Treebank Tokenization의 규칙
    - 규칙1) 하이푼으로 구성된 단어는 하나로 유지
    - 규칙2) doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리

In [None]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


- home-based는 하나의 토큰으로 취급하고 있으며, dosen't의 경우 does와 n't는 분리되었음

#### 4. 문장 토큰화(Sentence tokenization)
- corpus 내 토큰의 단위가 문장(sentence), 문장 분류(sentence segmentation)라고도 부름
- 정제되지 않은 corpus라면 문장 단위로 구분되어있지 않을 가능성이 높다.
- !나 ?는 문장의 구분을 위한 꽤 명확한 구분자(boundary) 역할을 하지만 마침표는 문장의 끝이 아니라도 등장 가능
- NLTK에서는 영어 문장의 토큰화를 수행하는 sent_tokenize를 지원


In [None]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


- 마침표 여러 번 등장하는 경우

In [None]:
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


- 단순히 마침표를 구분자로 하지 않았기 때문에 Ph.D.를 문장 내의 단어로 인식
- 한국어에 대한 문장 토큰화 도구는 박상길님이 개발한 KSS(Korean Sentence Splitter)를 추천

In [None]:
pip install kss

Collecting kss
  Downloading kss-2.5.1-py3-none-any.whl (65 kB)
[?25l[K     |█████                           | 10 kB 10.9 MB/s eta 0:00:01[K     |██████████                      | 20 kB 12.1 MB/s eta 0:00:01[K     |███████████████                 | 30 kB 7.0 MB/s eta 0:00:01[K     |███████████████████▉            | 40 kB 3.4 MB/s eta 0:00:01[K     |████████████████████████▉       | 51 kB 3.9 MB/s eta 0:00:01[K     |█████████████████████████████▉  | 61 kB 4.3 MB/s eta 0:00:01[K     |████████████████████████████████| 65 kB 2.2 MB/s 
[?25hInstalling collected packages: kss
Successfully installed kss-2.5.1


In [None]:
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


#### 이진 분류기(Binary Classifier)
- 문장 토큰화에서 마침표 처리를 위해 입력에 따라 두 개의 클래스로 분류
  - 클래스1) 마침표(.)가 단어의 일부분인 경우 (약어abbreivation)
  - 클래스2) 마침표가 문장의 구분자(boundary)일 경유
- 임의로 정한 여러가지 규칙을 코딩한 함수일 수도 있으며, 머신러닝을 통해 이진 분류기를 구현하기도 함
- 마침표가 어떤 클래스에 속하는지 결정하기 위해 어떤 마침표가 주로 약어(abbreviation)으로 쓰이는 지 알아야 함, 
  - 약어 사전이 유용 [약어사전의 예](https://public.oed.com/how-to-use-the-oed/abbreviations/)

-  문장 토큰화를 수행하는 오픈 소스로: NLTK, OpenNLP, 스탠포드 CoreNLP, splitta, LingPipe 등
- [문장 토큰화 규칙을 짤 때, 발생할 수 있는 여러가지 예외사항을 다룬 참고 자료](https://www.grammarly.com/blog/engineering/how-to-split-sentences/)



#### 6. 한국어에서의 토큰화의 어려움
- 한국어의 경우에는 띄어쓰기 단위가 되는 단위를 '어절'이라고 하는데 즉, 어절 토큰화는 한국어 NLP에서 지양   
##### 1) 한국어는 교착어이다
- 교착어: 조사, 어미 등을 붙여서 말을 만드는 언어
- 조사가 글자 뒤에 띄어쓰기 없이 붙는다. 처리를 하다보면 같은 단어임에도 다른 조사로 인해 다른 단어로 인식이 되면 자연어 처리가 힘들어진다. 한국어 NLP는 조사를 분리해야 함

- 형태소(morpheme): 가장 작은 말의 단위
  - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등
  - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간
- 형태소 토큰화를 수행해야 함

##### 2) 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

#### 7. 품사 태깅(Part-of-speech tagging)
- 단어는 표기는 같지만, 품사에 따라서 단어의 의미가 다를 수 있다.
- ex) fly: 날다, 파리
- 단어의 의미를 파악하기 위해 품사 태깅이 지표가 될 수 있다.

#### 8. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습
- NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원, Penn Treebank POS Tags라는 기준 사용
- PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사를 의미

In [None]:
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [None]:
from nltk.tag import pos_tag
nltk.download('averaged_perceptron_tagger')
x=word_tokenize(text)
pos_tag(x)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

- 한국어 자연어 처리를 위해서 파이썬 패키지 KoNLPy(코엔엘파이)사용 
- 통해서 사용할 수 있는 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma) 존재
- 향태소 분석기마다 결과가 달라서 어떤 것이 적절한지 판단하고 사용

In [None]:
from konlpy.tag import Okt  
okt=Okt()  
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

---
### 02) 정제(Cleaning) and 정규화(Normalization)
- 정제(cleaning) : 갖고 있는 corpus로부터 노이즈 데이터를 제거
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.
- 정제 작업은 토큰화 작업에 방해가 되는 부분들을 배제시키고 토큰화 작업을 수행하기 위해서 토큰화 작업보다 앞서 이루어지기도 하지만, 토큰화 작업 이후에도 여전히 남아있는 노이즈들을 제거하기위해 지속적으로 이루어지기도 합니다. 

#### 1. 규칙에 기반한 표기가 다른 단어들의 통합
- ex) USA와 US는 같은 의미를 가지므로, 하나의 단어로 정규화, 정규화를 하면, US를 찾아도 USA 함께 찾을 수 있다.
#### 2. 대, 소문자 통합
- 대문자와 소문자를 무작정 통합X 
  - 대문자와 소문자가 구분되어야 하는 경우도 있음
  - ex) 미국을 뜻하는  US / 우리를 뜻하는 us,  회사 이름(General Motors)나, 사람 이름(Bush) 등은 대문자로 유지되는 것이 옳다.
#### 불필요한 단어의 제거(Removing Unnecessary Words)
- noise data: 자연어가 아니면서 아무 의미 없는 글자들(ex.특수문자), 분석 목적에 맞지 않은 단어들
- 불필요 단어들을 제거하는 방법: 불용어 제거와 등장 빈도가 적은 단어, 길이가 짧은 단어들을 제거하는 방법
  - (1) 등장 빈도가 적은 단어(Removing Rare words)
  - (2) 길이가 짧은 단어(Removing words with a very short length)
    - 길이를 조건으로 텍스트를 삭제하면서 단어가 아닌 구두점들까지도 한꺼번에 제거하기 위함도 있음
#### 4. 정규 표현식(Regular Expression)
- corpus 내 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거하는 방식으로서 매우 유용
-  자세한 내용은 다른 챕터에서


In [None]:
# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
import re
text = "I was wondering if anyone out there could enlighten me on this car."
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


---

### 03) 어간 추출(Stemming) and 표제어 추출(Lemmatization)
- corpus의 단어 개수 줄이는 기법, 서로 다른 단어들이지만, 하나의 단어로 일반화시켜 문서 내의 단어 수를 줄인다.
- 단어의 빈도수를 기반으로 문제를 풀고자하는 BOW(Bag of Words)표현은 사용하는 문제에서 주로 사용

#### 1. 표제어 추출(Lemmatization)
- 표제어(Lemma): '표제어', '기본 사전형 단어' 정도의 의미
- 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단
   - ex. "am, are, is" 스펠링 다르지만 뿌리 단어는 be, 이 단어들의 표제어는 be
- 형태소
  - 어간(stem): 단어의 의미를 담고 있는 단어의 핵심 부분
  - 접사(affix): 단어에 추가적인 의미를 주는 부분

- 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것, 
- 형태학적 파싱: 이 두 가지 구성 요소를 분리하는 작업
  - ex) cats -> cat(어간)와 -s(접사) 분리
- NLTK에서는 표제어 추출을 위한 도구인 WordNetLemmatizer를 지원

In [None]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


-  표제어 추출은 어간 추출과는 달리 단어의 형태가 적절히 보존되는 양상
- 위의 결과에서는 dy나 ha와 같이 의미를 알 수 없는 적절하지 못한 단어를 출력
- 표제어 추출기(lemmatizer)가 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문
- WordNetLemmatizer는 입력으로 단어가 동사 품사라는 사실을 알려줄 수 있다.

In [None]:
n.lemmatize('has', 'v')

'have'

- 표제어 추출은 문맥을 고려하며, 수행했을 때의 결과는 해당 단어의 품사 정보를 보존합니다. (POS 태그를 보존)
- 어간 추출을 수행한 결과는 품사 정보가 보존되지 않음, 어간 추출을 한 결과는 사전에 존재하지 않는 단어일 경우가 많다.

#### 2. 어간 추출(Stemming)
- 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업
- 섬세한 작업이 아니기 때문에 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있음
- ex.포터 알고리즘(Porter Algorithm)
  - ALIZE → AL, ANCE → 제거, ICAL → IC
  - 어간 추출 속도는 표제어 추출보다 일반적으로 빠른데, 포터 어간 추출기는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 준수한 선택

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [None]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


- ex. 랭커스터 스태머(Lancaster Stemmer) 알고리즘

---

### 04) 불용어(Stopword) 
- 불용어(stopword): 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 의미 분석을 하는데 거의 기여하는 바가 없음

#### 1. NLTK에서 불용어 확인하기

In [None]:
from nltk.corpus import stopwords  
nltk.download('stopwords')
stopwords.words('english')[:10] 

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

#### 2. NLTK를 통해서 불용어 제거하기
- is', 'not', 'an'과 같은 단어들이 문장에서 제거

In [None]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result) 

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


#### 3. 한국어에서 불용어 제거하기
- [보편적으로 선택하는 한국어 불용어 리스트](https://www.ranks.nl/stopwords/korean)
- [추가 참고 한국어 불용어 리스트](https://bab2min.tistory.com/544)
- 코드 내에서 직접 정의하지 않고 txt 파일이나 csv 파일로 수많은 불용어를 정리해놓고, 이를 불러와서 사용하는 방법이 더 좋다

---
### 05) 정규 표현식(Regular Expression)
- 정규 표현식 모듈 re의 사용 방법과 NLTK를 통한 정규 표현식을 이용한 토큰화에 대해서 알아보도록 하자.


#### 1. 정규 표현식 문법과 모듈 함수



##### - 1) 정규 표현식 문법 -
특수문자   
- 파이썬은 정규 표현식 모듈 re을 지원, 특정 규칙이 있는 텍스트 데이터를 빠르게 정제 가능   
- `.` | 임의의 문자 1개 (\n 제외)   
- `?` | 앞 문자 존재 가능성 있음 (0 or 1개)   
- `*` | 앞 문자 무한개 가능성 (0개 이상)   
- `+` | 앞 문자 한 개 이상 존재 (1개 이상)   
- `^` | 뒤로 문자열 시작   
- `$` | 앞 문자로 문자열 끝   
- `{숫자n}` | n만큼 반복   
- `{n1, n2}` | n1이상 n2이하 반복 (?, *, + 으로 대체 가능)   
- `{n,}` | n 이상 반복   
- `[]` | 대괄호 내 문자들 중 한 개와 매치, [a-z]도 가능   
- `[^문자]` | 해당 문자를 제외한 문자 매치
- `|` | A|B, A 또는 B

역슬래쉬(\) 사용     
- `\` | 역 슬래쉬 문자 자체
- `\d` | 모든 숫자, `[0-9]`
- `\D` | 숫자를 제외한 모든 문자, `[^0-9]`
- `\s` | 공백, `[ \t\n\r\f\v]` 
- `\S` | 공백을 제외한 문자, `[^ \t\n\r\f\v]`
- `\w` | 문자 또는 숫자, `[a-zA-Z0-9]`
- `\W` | 문자 또는 숫자가 아닌 문자, `[^a-zA-Z0-9]`

##### - 2) 정규표현식 모듈 함수 - 
정규표현식 모듈에서 지원하는 함수     
- re.compile(): 정규포현식 컴파일, 찾고자 하는 패턴이 빈번한 경우 미리 컴파일해두면 속도, 편의성 굿
- re.search()	: 문자열 전체에 대해서 정규표현식과 매치되는지를 검색
- re.match(): 문자열 처음이 정규표현식과 매치되는지를 검색
- re.split(): 정규 표현식을 기준으로 문자열 분리하여 리스트로 리턴
- re.findall(): 문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아 리스트로 리턴, 없으면 빈 리스트
- re.finditer(): 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체 리턴
- re.sub(): 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체

#### 2. 정규 표현식 실습
- 1) .기호
  - .은 한 개의 임의의 문자를 나타냅니다. / "a.c": a와 c 사이에 어떤 1개의 문자 올 수 있다.
  - serch의 입력에 정규표현식 패턴 "a.c"가 존재하는지 확인하는 코드

In [None]:
import re
r=re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.

In [None]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

- 2) ?기호
  - ?는 ? 앞의 문자 존재 가능성 있음. "ab?c": b가 있다고 할 수도, 없다고 할 수도 있음

In [105]:
r=re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않는다.

In [None]:
r.search("ac")  # b가 없는 것으로 판단하여 ac를 매치

<re.Match object; span=(0, 2), match='ac'>

- 3) *기호 
  - *은 바로 앞의 문자가 0개 이상


In [None]:
r=re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [None]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [None]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

- 4) +기호
  - 앞의 문자가 최소 1개 이상

In [None]:
r=re.compile("ab+c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

In [None]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

- 5) ^기호
  - ^는 시작되는 글자를 지정

In [None]:
r=re.compile("^a")
r.search("bbc") # 아무런 결과도 출력되지 않는다.

In [None]:
r.search("ab")   

<re.Match object; span=(0, 1), match='a'>

-  6) {숫자} 기호
  - 해당 문자를 숫자만큼 반복
  - "ab{2}c" a와 c 사이에 b가 존재하면서 b가 2개인 문자열 매치

In [None]:
r=re.compile("ab{2}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [None]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

- 7) {숫자1, 숫자2} 기호
  - 해당 문자를 숫자1 이상 숫자2 이하만큼 반복

In [None]:
r=re.compile("ab{2,8}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

In [None]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

- 8) {숫자,} 기호
  - 해당 문자를 숫자 이상 만큼 반복

In [None]:
r=re.compile("a{2,}bc")
r.search("bc") # 아무런 결과도 출력되지 않는다.

In [None]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

- 9) [ ] 기호
  - [ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치
  - [0-9]는 숫자 전부

In [None]:
r=re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [None]:
r.search("baac")     

<re.Match object; span=(0, 1), match='b'>

In [None]:
r=re.compile("[a-z]")

In [None]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

- 10) [^문자] 기호
  - ^ 기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치

In [None]:
r=re.compile("[^abc]")
r.search("ab") # 아무런 결과도 출력되지 않는다.

In [None]:
r.search("1")   

<re.Match object; span=(0, 1), match='1'>

#### 3. 정규 표현식 모듈 함수 예제

##### (1) re.match() 와 re.search()의 차이
- search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인

In [None]:
r=re.compile("ab.")
r.search("kkkabc") 

<re.Match object; span=(3, 6), match='abc'>

In [None]:
r.match("kkkabc")  #아무런 결과도 출력되지 않는다.

In [None]:
r.match("abckkk")  

<re.Match object; span=(0, 3), match='abc'>

##### (2) re.split()
- 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴

In [None]:
text="사과 딸기 수박 메론 바나나"
re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

In [None]:
text="사과+딸기+수박+메론+바나나"
re.split("\+",text)

['사과', '딸기', '수박', '메론', '바나나']

##### (3) re.findall()
- 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴

In [None]:
import re
text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+",text)

['010', '1234', '1234', '30']

In [None]:
re.findall("\d+", "문자열입니다.")

[]

##### (4) re.sub()
- 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체

In [None]:
text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

#### 5. 정규 표현식 텍스트 전처리 예제
- '\s+'는 공백을 찾아내는 정규표현식

In [None]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text) # 공백을 기준으로 분리

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

- \d는 숫자에 해당되는 정규표현식

In [None]:
re.findall('\d+',text)  # 데이터에서 숫자만 뽑음

['100', '101', '102']

In [None]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [None]:
re.findall('[A-Z]{4}',text) 

['PROF', 'STUD', 'STUD']

In [None]:
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

#### 6. 정규 표현식을 이용한 토큰화
- NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer() 지원

In [None]:
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")  # 문자 또는 숫자가 1개 이상인 경우를 인식
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- 괄호 안에 토큰을 나누기 위한 기준을 입력 가능
  - gaps=true: 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미

In [None]:
tokenizer=RegexpTokenizer("[\s]+", gaps=True)
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


---
### 06) 정수 인코딩(Integer Encoding)
- 자연어 처리에서 텍스트를 숫자로 바꾸기 위해 첫 단계로 각 단어를 고유한 정수에 맵핑(mapping)시키는 전처리 작업이 필요할 수 있다.
- 인덱스를 부여하는 방법은 여러 가지가 있을 수 있는데 랜덤으로 부여하기도 하지만, 보통은 전처리 또는 빈도수가 높은 단어들만 사용하기 위해서 단어에 대한 빈도수를 기준으로 정렬한 뒤에 부여
#### 1. 정수 인코딩(Integer Encoding)



##### 1) dictionary 사용하기
- 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)을 만들고, 빈도수가 높은 순서대로 차례로 낮은 숫자부터 정수를 부여하는 방법

In [None]:
text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

- 문장 토큰화
  - 문장 단위로 토큰화

In [None]:
text = sent_tokenize(text)
print(text)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


- 정제 작업을 병행하며, 단어 토큰화를 수행

In [None]:
vocab = {} # 파이썬의 dictionary 자료형
sentences = []
stop_words = set(stopwords.words('english'))

for i in text:
    sentence = word_tokenize(i) # 단어 토큰화를 수행합니다.
    result = []

    for word in sentence: 
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다.
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거합니다.
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0 
                vocab[word] += 1
    sentences.append(result) 
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


- vocab에 중복을 제거한 단어와 각 단어에 대한 빈도수 기록됨
  - 단어를 키(key)로, 단어에 대한 빈도수가 값(value)으로 저장

In [None]:
print(vocab)

{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


- 빈도수가 높은 순서대로 정렬

In [None]:
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse = True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


- 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여, 빈도수 적은 단어 제외

In [None]:
word_to_index = {}
i=0
for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 정제(Cleaning) 챕터에서 언급했듯이 빈도수가 적은 단어는 제외한다.
        i=i+1
        word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [None]:
# 상위 n개 단어만 사용
vocab_size = 5
words_frequency = [w for w,c in word_to_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del word_to_index[w] # 해당 단어에 대한 인덱스 정보를 삭제
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


- sentences에서 첫번째 문장은 ['barber', 'person']이었는데, 이 문장에 대해서는 [1, 5]로 인코딩, 그런데 두번째 문장인 ['barber', 'good', 'person']에는 더 이상 word_to_index에는 존재하지 않는 단어인 'good'이라는 단어 존재
- Out-Of-Vocabulary 'OOV': 단어 집합에 없는 단어
  - word_to_index에 'OOV'란 단어를 새롭게 추가하고, 단어 집합에 없는 단어들은 'OOV'의 인덱스로 인코딩

In [None]:
word_to_index['OOV'] = len(word_to_index) + 1

- word_to_index를 사용하여 sentences의 모든 단어들을 맵핑되는 정수로 인코딩

In [None]:
encoded = []
for s in sentences:
    temp = []
    for w in s:
        try:
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)
print(encoded)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


- 좀 더 쉽게 하기 위해서 Counter, FreqDist, enumerate 또는 케라스 토크나이저를 사용하는 것을 권장

##### 2) Counter 사용하기

In [None]:
from collections import Counter
print(sentences)  # 단어 토큰화가 된 결과 저장되어 있다.

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


- sentences에서 문장의 경계인 [, ]를 제거하고 단어들을 하나의 리스트로 제작

In [None]:
words = sum(sentences, [])
# 위 작업은 words = np.hstack(sentences)로도 수행 가능.
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


- 파이썬의 Counter()의 입력으로 사용하면 중복을 제거하고 단어의 빈도수를 기록

In [None]:
vocab = Counter(words) # 파이썬의 Counter 모듈을 이용하면 단어의 모든 빈도를 쉽게 계산 가능
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


- most_common(): 상위 빈도수를 가진 주어진 수의 단어만을 리턴

In [None]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

- 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여

In [None]:
word_to_index = {}
i = 0
for (word, frequency) in vocab :
    i = i+1
    word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


##### 3) NLTK의 FreqDist 사용하기
- NLTK에서는 빈도수 계산 도구인 FreqDist()를 지원

In [None]:
from nltk import FreqDist
import numpy as np

In [None]:
# np.hstack으로 문장 구분을 제거하여 입력으로 사용 . ex) ['barber', 'person', 'barber', 'good' ... 중략 ...
vocab = FreqDist(np.hstack(sentences))

In [None]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

- 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여(enumerate()를 사용)

In [None]:
word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


#### 2. 케라스(Keras)의 텍스트 전처리
- 케라스(Keras)는 기본적인 전처리를 위한 도구들 제공
  - 케라스의 전처리 도구인 토크나이저
  - fit_on_texts: 입력한 텍스트로부터 단어 빈도수가 높은 순으로 낮은 정수 인덱스를 부여, 정수 인코딩 작업
  - word_index: 각 단어에 인덱스가 어떻게 부여되었는지 확인


In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

In [None]:
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


- word_counts: 각 단어가 카운트를 수행하였을 때 몇 개였는지 확인

In [None]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


- texts_to_sequences(): corpus의 각 단어를 정해진 인덱스로 변환

In [81]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


- 빈도수 높은 단어 n개
  - tokenizer = Tokenizer(num_words=숫자)
  - num_words는 0부터 세기 때문에 +1 해준다.

In [82]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용
tokenizer.fit_on_texts(sentences)

In [87]:
print(tokenizer.word_index) # 5개만인데 13개 단어 출력

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [86]:
print(tokenizer.word_counts)  # 마찬가지 13개

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


- 실제 적용은 texts_to_sequences()에서

In [88]:
print(tokenizer.texts_to_sequences(sentences))    # 5개 단어

[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


- word_index, word_counts에서도 적용하고 싶다면

In [89]:
tokenizer = Tokenizer() # num_words를 여기서는 지정하지 않은 상태
tokenizer.fit_on_texts(sentences)

vocab_size = 5
words_frequency = [w for w,c in tokenizer.word_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del tokenizer.word_index[w] # 해당 단어에 대한 인덱스 정보를 삭제
    del tokenizer.word_counts[w] # 해당 단어에 대한 카운트 정보를 삭제
print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(sentences))

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}
OrderedDict([('barber', 8), ('person', 3), ('huge', 5), ('secret', 6), ('kept', 4)])
[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


- OOV: keras tokenizer는 단어를 정수로 바꾸는 과정에서 아예 제거
  - 단어 집합에 없는 단어들 보존하고 싶다면 oov_token을 사용
  - OOV의 인덱스 == 1

In [91]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
# 빈도수 상위 5개 단어만 사용. 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2
tokenizer.fit_on_texts(sentences)

print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV']))

단어 OOV의 인덱스 : 1


- 정수 인코딩 진행

In [92]:
print(tokenizer.texts_to_sequences(sentences))

[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


- 빈도수 상위 5개의 단어는 2 ~ 6까지의 인덱스를 가졌으며, 그 외 단어 집합에 없는 'good'과 같은 단어들은 전부 'OOV'의 인덱스인 1로 인코딩 됨

---
### 07) 패딩(Padding)
- 자연어 처리에서 각 문장(문서)은 서로 길이가 다를 수 있다.
- 기계는 길이가 전부 동일한 문서들을 하나의 행렬로 보고, 한꺼번에 묶어서 처리
- 즉, 병렬 연산을 위해 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업 필요

#### 1. Numpy로 패딩하기
- 패딩(padding): 데이터에 특정 값을 채워서 데이터의 크기(shape)를 조정하는 것

In [93]:
# data
sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [94]:
# 정수 인코딩
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

In [95]:
# 텍스트시퀀스의 모든 단어들을 정수로 맵핑
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


- 최장 문장의 길이 계산

In [96]:
max_len = max(len(item) for item in encoded)
print(max_len)

7


- 제로 패딩(zero padding)
  - 가상의 단어 'PAD'를 사용, 길이가 7보다 짧은 문장에는 숫자 0을 채워서 전부 길이 7로 맞춤
  - 기계는 0번 단어 무시

In [97]:
for item in encoded: # 각 문장에 대해서
    while len(item) < max_len:   # max_len보다 작으면
        item.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

#### 2. 케라스 전처리 도구로 패딩하기
- 도구 pad_sequences()를 제공
- 기본적으로 문서 앞에 0채움
- "padding='post'"인자로 줘서 문서 뒤에 0채움, Numpy를 이용한 padding과 동일

In [98]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [99]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [100]:
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]], dtype=int32)

In [101]:
padded = pad_sequences(encoded, padding = 'post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]], dtype=int32)

- 길이에 제한을 둔 padding
  - "maxlen = n" 인자 추가: 해당 정수로 모든 문서의 길이를 동일하게 함
  - n 보다 긴 문서는 데이터 손실

In [102]:
padded = pad_sequences(encoded, padding = 'post', maxlen = 5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]], dtype=int32)

- 0이 아닌 다른 숫자를 PAD로 사용
  - "value = n" 인자 사용

In [103]:
last_value = len(tokenizer.word_index) + 1 # 단어 집합의 크기보다 1 큰 숫자를 사용
print(last_value)

14


In [104]:
padded = pad_sequences(encoded, padding = 'post', value = last_value)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]], dtype=int32)

---

### 08) 원-핫 인코딩(One-Hot Encoding)
- 문자를 숫자(벡터)로 바꾸는 기법 중 가장 기본적인 표현 방법
- 단어 집합(vocabulary), 사전
  - 서로 다른 단어들의 집합
  '- book과 books와 같이 단어의 변형 형태도 다른 단어로 간주
- 단어집합을 만들고 정수 인코딩하고 벡터로 다루기

#### 1. 원-핫 인코딩(One-Hot Encoding)이란?
- 단어 집합의 크기를 벡터의 차원으로, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식
- 원-핫 벡터(One-Hot vector)
- one-hot encoding 과정
  - 1) 각 단어에 고유한 인덱스 부여(정수 인코딩)
  - 2) 인덱스 위치에 1 또는 0 부여


In [None]:
!pip install konlpy

In [108]:
from konlpy.tag import Okt  
okt=Okt()  
token=okt.morphs("나는 자연어 처리를 배운다")  
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [109]:
word2index={}
for voca in token:
     if voca not in word2index.keys():
       word2index[voca]=len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [110]:
def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       index=word2index[word]
       one_hot_vector[index]=1
       return one_hot_vector

In [111]:
one_hot_encoding("자연어",word2index)

[0, 0, 1, 0, 0, 0]

#### 2. 케라스(Keras)를 이용한 원-핫 인코딩(One-Hot Encoding)
- to_categorical()를 지원

- 정수 인코딩

In [113]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [115]:
# sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"    # 일부 단어
encoded=t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


- one-hot encoding:  to_categorical()

In [116]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


#### 3. 원-핫 인코딩(One-Hot Encoding)의 한계
- 1) 단어의 개수가 늘어날수록, 필요한 벡터 저장공간 계속 늘어남
- 2) 단어의 유사도를 표현하지 못함
  - 이는 검색 시스템 등에서 심각한 문제
- 해결방법
  - 1) 카운트 기반 벡터화: LSA, HAL 등
  - 2) 예측 기반 벡터화: NNLM, RNNLM, Word2Vec, FastText 등 
  - 3) 카운트 + 예측 기반: GloVe

---
### 09) 데이터의 분리(Splitting Data)
- 데이터 훈련을 위해 데이터를 적절히 분리하는 작업 필요
- 지도학습(supervised learning)을 위한 데이터 분리 작업

#### 1. 지도 학습(Supervised Learning)
- 훈련데이터
  - x_train: 문제지 데이터
  - y_train: 문제지에 대한 정답
- 테스트데이터
  - x_test: 시험지 데이터
  - y_test: 시험지에 대한 정답 데이터
-  X_train과 y_train에 대해서 학습하고, 기계에게 y_test는 보여주지 않고, X_test에 대해서 정답을 예측하게 함. 기계가 예측한 답과 실제 정답인 y_test를 비교하면서 기계가 정답을 얼마나 맞췄는지 평가

#### 2. X와 y분리하기

##### 1) zip 함수를 이용하여 분리하기
- zip(): 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할

In [120]:
sequences=[['a', 1], ['b', 2], ['c', 3]] # 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서.
X,y = zip(*sequences) # *를 추가
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


##### 데이터프레임을 이용하여 분리하기

In [122]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [130]:
X=df['메일 본문']
y=df['스팸 메일 유무']
print(X, '\n')
print(y)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object 

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


##### 3) Numpy를 이용하여 분리하기

In [131]:
ar = np.arange(0,16).reshape((4,4))
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [132]:
X=ar[:, :3]
print(X)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [133]:
y=ar[:,3]
print(y)

[ 3  7 11 15]


#### 3. 테스트 데이터 분리하기
- X와 y가 분리된 데이터에 대해서 테스트 데이터를 분리

##### 사이킷 런을 이용하여 분리하기
- 사이킷 런은 학습용 테스트와 테스트용 데이터를 분리하게 해주는 train_test_split를 지원
  - X : 독립 변수 데이터(배열이나 데이터프레임)
  - y : 종속 변수. 레이블 데이터
  - test_size : 테스트용 데이터 개수, 1보다 작은 실수=비율.
  - train_size : 학습용 데이터의 개수
(test_size와 train_size 중 하나만 기재해도 가능)
  - random_state : 난수 시드

In [139]:
from sklearn.model_selection import train_test_split

In [137]:
X, y = np.arange(10).reshape((5, 2)), range(5)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
print(X)
print(list(y)) #레이블 데이터

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [138]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)
#3분의 1만 test 데이터로 지정.
#random_state 지정으로 인해 순서가 섞인 채로 훈련 데이터와 테스트 데이터가 나눠진다.

In [140]:
print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [141]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


##### 2) 수동으로 분리하기

In [144]:
X, y = np.arange(0,24).reshape((12,2)), range(12)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
print(X, '\n')
print(list(y))

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]] 

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


- n_of_train: 훈련 데이터의 개수
- n_of_test: 테스트 데이터의 개수
  - n_of_train을 len(X) * 0.8로 구했듯이 n_of_test 또한 len(X) * 0.2로 계산하면 데이터에 누락 발생
  - 어느 한 쪽을 먼저 계산하고 그 값만큼 제외하는 방식으로 계산해야 함



In [145]:
n_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
n_of_test = int(len(X) - n_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
print(n_of_train)
print(n_of_test)

9
3


In [146]:
X_test = X[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장

In [147]:
print(X_test)
print(list(y_test))

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]


--- 
### 10) 한국어 전처리 패키지(Text Preprocessing Tools for Korean Text)