---
# **정규 표현식(Regular Expression)**
텍스트 데이터를 전처리하다보면, 정규 표현식은 아주 유용한 도구로서 사용됩니다. 이번 챕터에서는 파이썬에서 지원하고 있는 정규 표현식 모듈 re의 사용 방법과 NLTK를 통한 정규 표현식을 이용한 토큰화에 대해서 알아보도록 하겠습니다.

## **1. 정규 표현식 문법과 모듈 함수**

파이썬에서는 정규 표현식 모듈 re을 지원하므로, 이를 이용하면 특정 규칙이 있는 텍스트 데이터를 빠르게 정제할 수 있습니다. 본격적으로 정규 표현식에 대해서 실습해보기에 앞서 정규 표현식을 위해 사용되는 특수 문자와 모듈 함수에 대해서 알아보도록 하겠습니다.

<br>

### **1) 정규 표현식 문법**

정규 표현식을 위해 사용되는 문법 중 특수 문자들은 아래와 같습니다.

|   특수 문자    |                             설명                             |
| :------------: | :----------------------------------------------------------: |
|       .        | 한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외)  |
|       ?        | 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개) |
|       *        | 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상) |
|       +        |  앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상)   |
|       ^        |               뒤의 문자로 문자열이 시작됩니다.               |
|       $        |                앞의 문자로 문자열이 끝납니다.                |
|     {숫자}     |                     숫자만큼 반복합니다.                     |
| {숫자1, 숫자2} | 숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체할 수 있습니다. |
|    {숫자,}     |                  숫자 이상만큼 반복합니다.                   |
|      [ ]       | 대괄호 안의 문자들 중 한 개의 문자와 매치합니다. [amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미합니다. [a-z]와 같이 범위를 지정할 수도 있습니다. [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치를 의미합니다. |
|    [^문자]     |            해당 문자를 제외한 문자를 매치합니다.             |
|       l        |        AlB와 같이 쓰이며 A 또는 B의 의미를 가집니다.         |

<br>

### **2) 정규표현식 모듈 함수**

정규 표현식 문법에는 역 슬래쉬(\)를 이용하여 자주 쓰이는 문자 규칙들이 있습니다.

| 문자 규칙 |                             설명                             |
| :-------: | :----------------------------------------------------------: |
|    \\     |               역 슬래쉬 문자 자체를 의미합니다               |
|    \d     |      모든 숫자를 의미합니다. [0-9]와 의미가 동일합니다.      |
|    \D     | 숫자를 제외한 모든 문자를 의미합니다. [^0-9]와 의미가 동일합니다. |
|    \s     |    공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일합니다.     |
|    \S     | 공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일합니다. |
|    \w     | 문자 또는 숫자를 의미합니다. [a-zA-Z0-9]와 의미가 동일합니다. |
|    \W     | 문자 또는 숫자가 아닌 문자를 의미합니다. [^a-zA-Z0-9]와 의미가 동일합니다. |

<br>

앞으로 진행될 실습에서는 re.compile()에 정규 표현식을 컴파일하고, re.search()를 통해서 해당 정규 표현식이 입력 텍스트와 매치되는지를 확인하면서 각 정규 표현식에 대해서 이해해보도록 하겠습니다. re.search() 함수는 매치된다면 Match Object를 리턴하고, 매치되지 않으면 아무런 값도 출력되지 않습니다.

## **2. 정규 표현식 실습**
앞서 표로 봤던 정규 표현식 특수 문자에 대해서 직접 예제를 통해 이해해보도록 하겠습니다.

### **1) .기호**
.은 한 개의 임의의 문자를 나타냅니다. 예를 들어서 정규 표현식이 a.c라고 합시다. a와 c 사이에는 어떤 1개의 문자라도 올 수 있습니다. 즉, akc, azc, avc, a5c, a!c와 같은 형태는 모두 a.c의 정규 표현식과 매치됩니다. 실제 예제를 통해 이해해보도록 하겠습니다.

In [70]:
import re
r = re.compile('a.c')

r.search('kkk') # 결과 출력이 되지 않는다.

In [71]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

위의 코드는 search의 입력으로 들어오는 문자열에 정규표현식 패턴 a.c이 존재하는지를 확인하는 코드입니다. (.)은 어떤 문자로도 인식될 수 있기 때문에 abc라는 문자열은 a.c라는 정규 표현식 패턴으로 매치되는 것을 볼 수 있습니다.

### **2) ?기호**
?는 ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우를 나타냅니다. 예를 들어서 정규 표현식이 ab?c라고 합시다. 이 경우 이 정규 표현식에서의 b는 있다고 취급할 수도 있고, 없다고 취급할 수도 있습니다. 즉, abc와 ac 모두 매치할 수 있습니다.

In [72]:
import re
r = re.compile('ab?c')

r.search('abbc') # 결과 출력이 되지 않는다.

아래는 b가 있는 것으로 판단하여 abc를 매치하는 것을 볼 수 있습니다.

In [73]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

아래는 b가 없는 것으로 판단하여 ac를 매치하는 것을 볼 수 있습니다.

In [74]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

### **3) \*기호**

*은 바로 앞의 문자가 0개 이상일 경우를 나타냅니다. 앞의 문자는 존재하지 않을 수도 있으며, 또는 여러 개일 수도 있습니다. 예를 들어서 정규 표현식이 abc라고 합시다. 그렇다면 ac, abc, abbc, abbbc 등과 매치할 수 있으며 b의 갯수는 무수히 많아도 상관없습니다.

In [75]:
import re
r = re.compile('ab*c')

r.search('a') # 결과 출력이 되지 않는다.

In [76]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [77]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [78]:
r.search('abbbbc')

<re.Match object; span=(0, 6), match='abbbbc'>

### **4) +기호**
+는 *와 유사합니다. 하지만 다른 점은 앞의 문자가 최소 1개 이상이어야 한다는 점입니다. 예를 들어서 정규 표현식이 ab+c라고 한다면, ac는 매치되지 않습니다. 하지만 abc, abbc, abbbc 등과 매치할 수 있으며 b의 갯수는 무수히 많을 수 있습니다.

In [79]:
import re
r = re.compile('ab+c')

r.search('ac') # 결과 출력이 되지 않는다.

In [80]:
r.search('abbbbc')

<re.Match object; span=(0, 6), match='abbbbc'>

In [81]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

### **5) ^기호**
^는 시작되는 글자를 지정합니다. 가령 정규표현식이 ^a라면 a로 시작되는 문자열만을 찾아냅니다.

In [82]:
import re
r = re.compile('^a')

r.search('bbc') # 결과 출력이 되지 않는다.

In [83]:
r.search('ab')

<re.Match object; span=(0, 1), match='a'>

위를 보면 bbc는 a로 시작되지 않지만, ab는 a로 시작되기 때문에 매치되었습니다.

### **6) {숫자} 기호**
문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타냅니다. 예를 들어서 정규 표현식이 ab{2}c라면 a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치합니다.

In [84]:
import re
r = re.compile('ab{2}c')

r.search('ac') # 결과 출력이 되지 않는다.
r.search('abc') # 결과 출력이 되지 않는다.

In [85]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

### **7) {숫자1, 숫자2} 기호**
문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복합니다. 예를 들어서 정규 표현식이 ab{2,8}c라면 a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치합니다.

In [86]:
import re
r = re.compile('ab{2,8}c')

r.search('ac') # 결과 출력이 되지 않는다.
r.search('abc') # 결과 출력이 되지 않는다.

In [87]:
# b가 2개
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

In [88]:
# b가 8개
r.search('abbbbbbbbc')

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [89]:
# b가 10개
r.search('abbbbbbbbbbc') # 결과 출력이 되지 않는다.

### **8) {숫자,} 기호**
문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 만큼 반복합니다. 예를 들어서 정규 표현식이 a{2,}bc라면 뒤에 bc가 붙으면서 a의 갯수가 2개 이상인 경우인 문자열과 매치합니다. 또한 만약 {0,}을 쓴다면 *와 동일한 의미가 되며, {1,}을 쓴다면 +와 동일한 의미가 됩니다.

In [90]:
import re
r = re.compile('a{2,}bc')

r.search('abc') # 결과 출력이 되지 않는다.
r.search('aa') # 결과 출력이 되지 않는다.

In [91]:
r.search('aabc')

<re.Match object; span=(0, 4), match='aabc'>

In [92]:
r.search('aaaaaaaabc')

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

In [93]:
# {0,}일 때
r = re.compile('a{0,}bc')

r.search('a') # 결과 출력이 되지 않는다.

In [94]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [95]:
# {1,}일 때
r = re.compile('a{1,}bc')

r.search('bc') # 결과 출력이 되지 않는다.

In [96]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [97]:
r.search('aaabc')

<re.Match object; span=(0, 5), match='aaabc'>

### **9) [ ] 기호**
[ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미를 가집니다. 예를 들어서 정규 표현식이 [abc]라면, a 또는 b또는 c가 들어가있는 문자열과 매치됩니다. 범위를 지정하는 것도 가능합니다. [a-zA-Z]는 알파벳 전부를 의미하며, [0-9]는 숫자 전부를 의미합니다.

In [98]:
import re
r = re.compile('[abc]') # [abc]는 [a-c]와 같다.

r.search('zzz') # 결과 출력이 되지 않는다.

In [99]:
r.search('apple')

<re.Match object; span=(0, 1), match='a'>

In [100]:
r.search('bus')

<re.Match object; span=(0, 1), match='b'>

In [101]:
r.search('canada')

<re.Match object; span=(0, 1), match='c'>

아래에서는 알파벳 소문자에 대해서만 범위 지정하여 정규 표현식을 만들어보고 문자열과 매치해보도록 하겠습니다.

In [102]:
import re
r = re.compile('[a-z]')

r.search('AAA') # 결과 출력이 되지 않는다.

In [103]:
r.search('aBC')

<re.Match object; span=(0, 1), match='a'>

In [104]:
r.search('111') # 결과 출력이 되지 않는다.

### **10) [^문자] 기호**
[^문자]는 5)에서 설명한 ^와는 완전히 다른 의미로 쓰입니다. 여기서는 ^ 기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할을 합니다. 예를 들어서 [^abc]라는 정규 표현식이 있다면, a 또는 b 또는 c가 들어간 문자열을 제외한 모든 문자열을 매치합니다.

In [105]:
import re
r = re.compile('[^abc]') # r = re.compile('[^a-c]') 같다.

r.search('a')
r.search('b')
r.search('ab')

In [106]:
r.search('d')

<re.Match object; span=(0, 1), match='d'>

In [107]:
r.search('111')

<re.Match object; span=(0, 1), match='1'>

## **3. 정규 표현식 모듈 함수 예제**
지금까지 정규 표현식 문법에 대한 이해를 위해 정규 표현식 모듈 함수 중에서 re.compile()과 re.search()를 사용해보았습니다. 이번에는 다른 정규 표현식 모듈 함수에 대해서도 직접 실습을 진행해보도록 하겠습니다.

### **(1) re.match() 와 re.search()의 차이**
search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인합니다. 문자열 중간에 찾을 패턴이 있다고 하더라도, match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않습니다.

In [114]:
import re
r = re.compile('ab.')

In [115]:
r.search('kkkabc')

<re.Match object; span=(3, 6), match='abc'>

In [117]:
r.match('kkkabc') #아무런 결과도 출력되지 않는다.

In [120]:
r.match('abckkk')

<re.Match object; span=(0, 3), match='abc'>

위의 경우 정규 표현식이 ab. 이기때문에, ab 다음에는 어떤 한 글자가 존재할 수 있다는 패턴을 의미합니다. search 모듈 함수에 kkkabc라는 문자열을 넣어 매치되는지 확인한다면 abc라는 문자열에서 매치되어 Match object를 리턴합니다. 하지만 match 모듈 함수의 경우 앞 부분이 ab.와 매치되지 않기때문에, 아무런 결과도 출력되지 않습니다. 하지만 반대로 abckkk로 매치를 시도해보면, 시작 부분에서 패턴과 매치되었기 때문에 정상적으로 Match object를 리턴합니다.

### **(2) re.split()**
split() 함수는 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴합니다. 자연어 처리에 있어서 가장 많이 사용되는 정규 표현식 함수 중 하나인데, 토큰화에 유용하게 쓰일 수 있기 때문입니다.

In [121]:
import re
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

위의 예제의 경우 입력 텍스트로부터 공백을 기준으로 문자열 분리를 수행하였고, 결과로서 리스트를 리턴하는 모습을 볼 수 있습니다.

In [126]:
import re
text = """사과
딸기
수박
메론
바나나"""
re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [129]:
import re
text = "사과-딸기-수박-메론-바나나"
re.split('\-', text)

['사과', '딸기', '수박', '메론', '바나나']

In [128]:
import re
text = "사과+딸기+수박+메론+바나나"
re.split('\+', text)

['사과', '딸기', '수박', '메론', '바나나']

위의 예시처럼 유사하게 줄바꿈이나 다른 정규 표현식을 기준으로 텍스트를 분리할 수도 있습니다.

### **(3) re.findall()**
findall() 함수는 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴합니다. 단, 매치되는 문자열이 없다면 빈 리스트를 리턴합니다.

In [140]:
import re
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""
re.findall('\d+', text) # 숫자로 시작하고 뒤에 숫자가 최소 1개 이상 반복되는 것

['010', '1234', '1234', '30']

In [132]:
re.findall("\d+", "문자열입니다.") # 빈 리스트를 리턴한다.

[]

### **(4) re.sub()**
sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있습니다.

In [141]:
import re
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]', ' ', text) # 알파벳 대문자 소문자가 아닌 것을 제거

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

위와 같은 경우, 영어 문장에 각주 등과 같은 이유로 특수 문자가 섞여있습니다. 자연어 처리를 위해 특수 문자를 제거하고 싶다면 알파벳 외의 문자는 공백으로 처리하는 등의 사용 용도로 쓸 수 있습니다.

## **4. 정규 표현식 텍스트 전처리 예제**

아래 코드에서 '\s+'는 공백을 찾아내는 정규표현식입니다. 뒤에 붙는 +는 최소 1개 이상의 패턴을 찾아낸다는 의미입니다. s는 공백을 의미하기 때문에 최소 1개 이상의 공백인 패턴을 찾아냅니다. 입력으로 테이블 형식의 데이터를 텍스트에 저장하였습니다. 각 데이터가 공백으로 구분되어있습니다. split은 주어진 정규표현식을 기준으로 분리하므로 결과는 아래와 같습니다.

In [145]:
import re

text = """100 John    PROF
101 James    STUD
102 Mac    STUD"""

re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

이제 해당 데이터로부터 숫자만을 뽑아온다고 해봅시다.

In [154]:
re.findall('\d+', text)

['100', '101', '102']

이번에는 텍스트로부터 대문자인 행의 값만 가져오고 싶다고 합시다. 이 경우에는 정규 표현식에 대문자를 기준으로 매치시키면 됩니다. 하지만 정규 표현식에 대문자라는 기준만을 넣을 경우에는 문자열을 가져오는 것이 아니라 모든 대문자 각각을 갖고오게 됩니다.

In [155]:
re.findall('[A-Z]', text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

위는 우리가 원하는 결과가 아닙니다. 이 경우, 여러가지 방법이 있겠지만 대문자가 연속적으로 4번 등장하는 경우로 조건을 추가해봅시다.

In [156]:
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

위에서는 대문자로 구성된 문자열들을 제대로 가져오는 것을 볼 수 있습니다. 이름의 경우에는 대문자와 소문자가 섞여있는 상황입니다. 이름에 대한 행의 값을 갖고오고 싶다면 처음에 대문자가 등장하고, 그 후에 소문자가 여러번 등장하는 경우에 매치하게 합니다.

In [157]:
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

In [159]:
import re

letters_only = re.sub('[^a-zA-Z]', ' ',text)
letters_only

'    John    PROF     James    STUD     Mac    STUD'

## **5. 정규 표현식을 이용한 토큰화**
NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer를 지원합니다. RegexpTokenizer()에서 괄호 안에 원하는 정규 표현식을 넣어서 토큰화를 수행하는 것입니다.

In [160]:
import nltk
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer("[\w]+")

print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


tokenizer=RegexpTokenizer("[\w]+")에서 \+는 문자 또는 숫자가 1개 이상인 경우를 인식하는 코드입니다. 그렇기 때문에 이 코드는 문장에서 구두점을 제외하고, 단어들만을 가지고 토큰화를 수행합니다.

RegexpTokenizer()에서 괄호 안에 토큰으로 원하는 정규 표현식을 넣어서 사용한다고 언급하였습니다. 그런데 괄호 안에 토큰을 나누기 위한 기준을 입력할 수도 있습니다. 이번에는 공백을 기준으로 문장을 토큰화해보도록 하겠습니다.

In [164]:
import nltk
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer("[\s]+", gaps = True)

print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


위 코드에서 gaps =True 는 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미다. 따라서 \s+ 는 공백을 의미하므로 공백을 기준으로 토큰화된 결과값을 출력한다. gaps=True를 설정하지 않으면 공백만이 출력된다.(공백으로 시작하는 것들을 찾음) 그 전 결과와 비교한다면 어퍼스트로피나 온점을 제외하지 않고, 토큰화가 수행된 것을 확인할 수 있다.

---
# **데이터의 분리(Splitting Data)**
머신 러닝(딥 러닝 포함) 모델에 데이터를 사용하기 위해서는 데이터를 적절히 분리해놓는 작업이 필요로 합니다. 이 책에서는 머신 러닝 기법 중에서도 주로 지도 학습(Supervised Learning)에 대해서 배웁니다. 그러므로 이번 챕터에서는 지도 학습을 위한 데이터 분리 전처리 작업에 대해서 배웁니다.

## **1. 지도 학습(Supervised Learning)**

지도 학습의 훈련 데이터는 문제지를 연상케 합니다. 지도 학습의 훈련 데이터는 정답이 무엇인지 맞춰 하는 '문제'에 해당되는 데이터와 레이블이라고 부르는 '정답'이 적혀있는 데이터로 구성되어 있습니다. 쉽게 비유하면, 기계는 정답이 적혀져 있는 문제지를 문제와 정답을 함께 보면서 열심히 공부하고, 향후에 정답이 없는 문제에 대해서도 정답을 예측해서 대답하게 되는 메커니즘입니다.

예를 들어 스팸 메일 분류기를 만들기 위한 데이터같은 경우에는 메일의 내용과 해당 메일이 정상 메일인지, 스팸 메일인지 적혀있는 레이블로 구성되어져 있습니다. 예를 들어 아래와 같은 형식의 데이터가 약 20,000개 있다고 가정해보겠습니다. 이 데이터는 두 개의 열로 구성되는데, 바로 메일의 본문에 해당되는 첫번째 열과 해당 메일이 정상 메일인지 스팸 메일인지가 적혀있는 정답에 해당되는 두번째 열입니다. 그리고 이러한 데이터 배열이 총 20,000개의 행을 가집니다.

|       텍스트(메일의 내용)        | 레이블(스팸 여부) |
| :------------------------------: | :---------------: |
| 당신에게 드리는 마지막 혜택! ... |     스팸 메일     |
|  내일 뵐 수 있을지 확인 부탁...  |     정상 메일     |
|               ...                |        ...        |
|    (광고) 멋있어질 수 있는...    |     스팸 메일     |

이해를 쉽게 하기위해서 우리는 기계를 지도하는 선생님의 입장이 되어보겠습니다. 기계를 가르치기 위해서 데이터를 총 4개로 나눕니다. 우선 메일의 내용이 담긴 첫번째 열을 X에 저장합니다. 그리고 메일이 스팸인지 정상인지 정답이 적혀있는 두번째 열을 y에 저장합니다. 이제 문제지에 해당되는 20,000개의 X와 정답지에 해당되는 20,000개의 y가 생겼습니다.

그리고 이제 이 X와 y에 대해서 일부 데이터를 또 다시 분리합니다. 이는 문제지를 다 공부하고나서 실력을 평가하기 위해서 시험(Test)용으로 일부로 일부 문제와 정답지를 빼놓는 것입니다. 여기서는 2,000개를 분리한다고 가정하겠습니다. 이 때, 분리시에는 여전히 X와 y의 맵핑 관계를 유지해야 합니다. 어떤 X(문제)에 대한 어떤 y(정답)인지 바로 찾을 수 있어야 합니다. 이렇게 되면 문제지에 해당되는 18,000개의 X, y의 쌍(pair)과 정답지에 해당되는 2000개의 X, y의 쌍(pair)이 생깁니다. 이 책에서는 이러한 유형의 데이터들에게 주로 이러한 변수명을 부여합니다.
<br>

**<훈련 데이터>**
- X_train : 문제지 데이터
- y_train : 문제지에 대한 정답 데이터.
<br>

**<테스트 데이터>**
- X_test : 시험지 데이터.
- y_test : 시험지에 대한 정답 데이터.
<br>

기계는 이제부터 X_train과 y_train에 대해서 학습을 합니다. 기계는 현 상태에서는 정답지인 y_train을 볼 수 있기 때문에 18,000개의 문제지 X_train을 보면서 어떤 메일 내용일 때 정상 메일인지 스팸 메일인지를 열심히 규칙을 도출해나가면서 정리해나갑니다. 그리고 학습을 다 한 기계에게 y_test는 보여주지 않고, X_test에 대해서 정답을 예측하게 합니다. 그리고 기계가 예측한 답과 실제 정답인 y_test를 비교하면서 기계가 정답을 얼마나 맞췄는지를 평가합니다. 이 수치가 기계의 정확도(Accuracy)가 됩니다.

## **2. X와 y분리하기**

### **1) zip 함수를 이용하여 분리하기**
zip()함수는 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할을 합니다. 리스트의 리스트 구성에서 zip 함수는 X와 y를 분리하는데 유용합니다. 우선 zip 함수가 어떤 역할을 하는지 확인해보도록 하겠습니다.

In [165]:
X, y = zip(['a', 1], ['b', 2], ['c', 3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


위를 보면 각 데이터에서 첫번째로 등장한 원소들끼리 묶이고, 두번째로 등장한 원소들끼리 묶인 것을 볼 수 있습니다.

In [169]:
# 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서.
sequences = [['a', 1], ['b', 2], ['c', 3]]

X, y = zip(*sequences)
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


### **2) 데이터프레임을 이용하여 분리하기**

In [170]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
         ['내일 뵐 수 있을지 확인 부탁드...', 0],
         ['도연씨. 잘 지내시죠? 오랜만입...', 0],
         ['(광고) AI로 주가를 예측할 수 있다!', 1]]

columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns = columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


데이터프레임은 열의 이름으로 각 열에 접근이 가능하므로, 이를 이용하면 손쉽게 X 데이터와 y 데이터를 분리할 수 있습니다.

In [171]:
X = df['메일 본문']
y = df['스팸 메일 유무']

우선 X 데이터를 출력해보도록 하겠습니다.

In [172]:
print(X)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


정상적으로 '메일 본문'이라는 이름을 가졌던 첫번째 열에 대해서만 저장이 된 것을 확인할 수 있습니다. 그러면 이제 y에 대해서 출력해보도록 하겠습니다.

In [173]:
print(y)

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


정상적으로 '스팸 메일 유무'이라는 이름을 가졌던 두번째 열에 대해서만 저장이 된 것을 확인할 수 있습니다.

### **3) Numpy를 이용하여 분리하기**

In [174]:
import numpy as np

ar = np.arange(0, 16).reshape((4, 4))
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [177]:
y = ar[:, 3]
print(y)

[ 3  7 11 15]


## **3. 테스트 데이터 분리하기**
위에서 X와 y를 분리하는 작업에 대해서 배웠습니다. 이번에는 이미 X와 y가 분리된 데이터에 대해서 테스트 데이터를 분리하는 과정에 대해서 알아보도록 하겠습니다.

### **1) 사이킷 런을 이용하여 분리하기**
여기서는 훈련 데이터와 테스트 데이터를 유용하게 나눌 수 있는 하나의 방법을 소개합니다. 사이킷 런은 학습용 테스트와 테스트용 데이터를 분리하게 해주는 train_test_split를 지원합니다.

In [178]:
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 1234)

- X : 독립 변수 데이터. (배열이나 데이터프레임)
- y : 종속 변수 데이터. 레이블 데이터.
- test_size : 테스트용 데이터 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.
- train_size : 학습용 데이터의 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.(test_size와 train_size 중 하나만 기재해도 가능)
- random_state : 난수 시드

예를 들어보겠습니다.

In [181]:
import numpy as np
from sklearn.model_selection import train_test_split

# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
X, y = np.arange(10).reshape((5, 2)), range(5)

print(X)
print(list(y))

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [189]:
#3분의 1만 test 데이터로 지정.
#random_state 지정으로 인해 순서가 섞인 채로 훈련 데이터와 테스트 데이터가 나눠진다.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.33, random_state = 1234)

In [190]:
print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [191]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


### **2) 수동으로 분리하기**
데이터를 분리하는 방법 중 하나는 수동으로 분리하는 것입니다. 우선 임의로 X 데이터와 y 데이터를 만들어보겠습니다.

In [192]:
import numpy as np

X, y = np.arange(0, 24).reshape((12, 2)), range(12)

In [194]:
print(X)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]


In [195]:
print(list(y))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


이제 훈련 데이터의 개수와 테스트 데이터의 개수를 정해보겠습니다. n_of_train은 훈련 데이터의 개수를 의미하며, n_of_test는 테스트 데이터의 개수를 의미합니다.

In [196]:
# 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
n_of_train = int(len(X) * 0.8)

# 전체 길이에서 80%에 해당하는 길이를 뺀다.
n_of_test = int(len(X) - n_of_train)

print(n_of_train)
print(n_of_test)

9
3


주의할 점은 아직 훈련 데이터와 테스트 데이터를 나눈 것이 아니라, 이 두 개의 개수를 몇 개로 할지 정하기만 한 상태입니다.

또한 여기서 n_of_train을 len(X) * 0.8로 구했듯이 n_of_test 또한 len(X) * 0.2로 계산하면 되지 않을까라고 생각할 수 있지만, 그렇게 할 경우에는 데이터에 누락이 발생합니다.

- *예를 들어서 전체 데이터의 개수가 4,518이라고 가정했을 때 4,518의 80%의 값은 3,614.4로 소수점을 내리면 3,614가 됩니다. 또한 4,518의 20%의 값은 903.6으로 소수점을 내리면 903이 됩니다. 그리고 3,614 + 903 = 4517이므로 데이터 1개가 누락된 것을 알 수 있습니다.*

그러므로 어느 한 쪽을 먼저 계산하고 그 값만큼 제외하는 방식으로 계산해야 합니다.

In [197]:
# 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
# n_of_train = 9 / X[9:]
X_test = X[n_of_train:]

# 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
# n_of_train = 9 / y[9:]
y_test = y[n_of_train:]

# 전체 데이터 중에서 80%만큼 뒤의 데이터 저장
# n_of_train = 9 / X[:9]
X_train = X[:n_of_train]

# 전체 데이터 중에서 80%만큼 뒤의 데이터 저장
# n_of_train = 9 / y[:9]
y_train = y[:n_of_train]

In [198]:
print(X_test)
print(list(y_test))

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]


각각 길이가 3인 것으로 보아 제대로 분할된 것을 알 수 있습니다.