# **단어 토큰화(Word Tokenization)**

### **word_tokenize**

In [2]:
import nltk
from nltk.tokenize import word_tokenize

# word_tokenize는 Don't를 Do와 n't로 분리하였으며, 반면 Jone's는 Jone과 's로 분리한 것을 확인할 수 있습니다.
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


### **WordPunctTokenizer**

In [6]:
import nltk
from nltk.tokenize import WordPunctTokenizer

# WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있기때문에, Don't를 Don과 '와 t로 분리하였으며, 이와 마찬가지로 Jone's를 Jone과 '와 s로 분리한 것을 확인
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


### **Penn Treebank Tokenization**

* **규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.**
* **규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.**

In [8]:
import nltk
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


---
# **문장 토큰화(Sentence Tokenization)**

### **sent_tokenize (여러 문장 분리)**

In [9]:
import nltk
from nltk.tokenize import sent_tokenize

text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."

print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


### **sent_tokenize (문장 중간의 온점 분리)**

In [11]:
import nltk
from nltk.tokenize import sent_tokenize

# NLTK는 단순히 온점을 구분자로 하여 문장을 구분하지 않았기 때문에, Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


---
# **품사 태깅(Part-of-speech tagging)**

In [13]:
import nltk
from nltk.tokenize import word_tokenize

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


### **POS Tag (영어 품사 태깅)**

- **PRP는 인칭 대명사**
- **VBP는 동사**
- **RB는 부사**
- **VBG는 현재부사**
- **IN은 전치사**
- **NNP는 고유 명사**
- **NNS는 복수형 명사**
- **CC는 접속사**
- **DT는 관사**

In [15]:
from nltk.tag import pos_tag

x = word_tokenize(text)
print(pos_tag(x))

[('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


### **Okt(한국어 품사 태깅)**

1. **morphs :** 형태소 추출
2. **pos :** 품사 태깅(Part-of-speech tagging)
3. **nouns :** 명사 추출

In [17]:
from konlpy.tag import Okt
okt = Okt()

print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [18]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [19]:
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']


### **Kkma(한국어 품사 태깅)**

In [20]:
from konlpy.tag import Kkma  
kkma = Kkma()

print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [21]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [22]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']


---
# **정제(Cleaning)와 정규화(Normalization)**

- **정제(cleaning) :** 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
- **정규화(normalization) :** 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

---
# **표제어 추출(Lemmatization)**
표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단합니다.

- 예를 들어서 **am, are, is**는 서로 다른 스펠링이지만 그 **뿌리 단어는 be**라고 볼 수 있습니다.
- 이 때, 이 단어들의 **표제어는 be**라고 합니다.

표제어 추출은 **문맥을 고려**하며, 수행했을 때의 결과는 해당 **단어의 품사 정보를 보존**

### **WordNetLemmatizer**

In [25]:
import nltk
from nltk.stem import WordNetLemmatizer
n = WordNetLemmatizer()

# 표제어 추출은 어간 추출과는 달리 단어의 형태가 적절히 보존되는 양상을 보이는 특징
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


---
# **어간 추출(Stemming)**
어간 추출을 수행한 결과는 **품사 정보가 보존되지 않습니다.** (다시 말해 **POS 태그를 고려하지 않습니다.)** 더 정확히는, 어간 추출을 한 결과는 **사전에 존재하지 않는 단어일 경우가 많습니다.**

- **Stemming**
  - am → am
  - the going → the go
  - having → hav

- **Lemmatization**
  - am → be
  - the going → the going
  - having → have

### **Porter Algorithm**

In [26]:
import nltk
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()

text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [27]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [28]:
import nltk
from nltk.stem import PorterStemmer
s = PorterStemmer()

words = ['formalize', 'allowance', 'electricical']
[s.stem(w) for w in words]

['formal', 'allow', 'electric']

In [31]:
import nltk
from nltk.stem import PorterStemmer
s = PorterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


### **LancasterStemmer**

In [33]:
import nltk
from nltk.stem import LancasterStemmer
l = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([l.stem(w) for w in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


---
# **불용어(Stopword)**

### **NLTK에서 불용어 확인하기**

In [34]:
import nltk  
from nltk.corpus import stopwords  
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

### **NLTK를 통해서 불용어 제거하기**

In [35]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result = []
for w in word_tokens:
    if w not in stop_words:
        result.append(w)
        
print(word_tokens)
print(result)

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


### **한국어에서 불용어 제거하기**

In [36]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"

stop_words = stop_words.split(' ')

word_tokens = word_tokenize(example)

# result = []
# for w in word_tokens:
#     if w not in stop_words:
#         result.append(w)

result = [word for word in word_tokens if word not in stop_words]

print(word_tokens)
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


---
# **정규 표현식 실습**

### **.기호 : 한 개의 임의의 문자 표현**

In [39]:
import re
r = re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.

In [38]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

### **?기호 :앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우**

In [40]:
import re
r = re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않는다.

In [45]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [44]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

### * **기호 : 바로 앞의 문자가 0개 이상일 경우**

In [46]:
import re
r = re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [47]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [48]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [49]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

### **+기호 : 앞의 문자가 최소 1개 이상일 경우**

In [50]:
import re
r = re.compile("ab+c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

In [51]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [52]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

### **^기호 : 시작되는 글자를 지정**

In [53]:
import re
r = re.compile("^a")
r.search("bbc") # 아무런 결과도 출력되지 않는다.

In [54]:
r.search("ab")

<re.Match object; span=(0, 1), match='a'>

### **{숫자} 기호 : 해당 문자를 숫자만큼 반복한 것**

In [55]:
import re
r = re.compile("ab{2}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [56]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [57]:
r.search("abbbbbc") # 아무런 결과도 출력되지 않는다.

### **{숫자1, 숫자2} 기호 : 숫자1 이상 숫자2 이하만큼 반복**

In [58]:
import re
r = re.compile("ab{2,8}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [59]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [60]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [61]:
r.search("abbbbbbbbbc") # 아무런 결과도 출력되지 않는다.

### **{숫자,} 기호 : 문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 만큼 반복**

In [62]:
import re
r = re.compile("a{2,}bc")
r.search("bc") # 아무런 결과도 출력되지 않는다.
r.search("aa") # 아무런 결과도 출력되지 않는다.

In [63]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [64]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

### **[ ] 기호 : [ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미**

In [65]:
import re
r = re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [66]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [67]:
r.search("aaaaaaa")                                                                                               

<re.Match object; span=(0, 1), match='a'>

In [70]:
r.search("baac")

<re.Match object; span=(0, 1), match='b'>

In [71]:
import re
r = re.compile("[a-z]")
r.search("AAA") # 아무런 결과도 출력되지 않는다.

In [72]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

In [73]:
r.search("111") # 아무런 결과도 출력되지 않는다.

### **[^문자] 기호 : ^ 기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할**

In [74]:
import re
r = re.compile("[^abc]")
r.search("a") # 아무런 결과도 출력되지 않는다.
r.search("ab") # 아무런 결과도 출력되지 않는다.
r.search("b") # 아무런 결과도 출력되지 않는다.

In [75]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [76]:
r.search("1")                                                                                                

<re.Match object; span=(0, 1), match='1'>

### **re.match() 와 re.search()의 차이**

- search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면
- match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인합니다. 

In [86]:
import re
r = re.compile("ab.")

In [87]:
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [88]:
r.match("kkkabc")  #아무런 결과도 출력되지 않는다.

### **re.split() : 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴**

In [90]:
import re
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [91]:
import re
text = """사과
딸기
수박
메론
바나나"""
re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [92]:
import re
text = "사과+딸기+수박+메론+바나나"
re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

### **re.findall() : 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴**

In [94]:
import re
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  

re.findall("\d+",text)

['010', '1234', '1234', '30']

In [95]:
re.findall("\d+", "문자열입니다.")

[]

### **re.sub() : 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체**

In [97]:
import re
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

### **정규 표현식 텍스트 전처리 예제**

In [98]:
import re  

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [99]:
re.findall('\d+',text)

['100', '101', '102']

In [100]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [101]:
re.findall('[A-Z]{4}',text)

['PROF', 'STUD', 'STUD']

In [102]:
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

---
# **정규 표현식을 이용한 토큰화**

### **RegexpTokenizer**
* **RegexpTokenizer()에서 괄호 안에 토큰으로 원하는 정규 표현식을 넣어서 사용**

In [105]:
import nltk
from nltk.tokenize import RegexpTokenizer

# RegexpTokenizer(원하는 정규 표현식 사용)
tokenizer = RegexpTokenizer("[\w]+")

print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [107]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\s]+", gaps=True)

print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


---
# **데이터의 분리(Splitting Data)**

### **사이킷 런을 이용하여 분리하기**
    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

- **X :** 독립 변수 데이터. (배열이나 데이터프레임)
- **y :** 종속 변수 데이터. 레이블 데이터.
- **test_size :** 테스트용 데이터 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.
- **train_size :** 학습용 데이터의 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.
  (test_size와 train_size 중 하나만 기재해도 가능)
- **random_state :** 난수 시드

In [108]:
import numpy as np
from sklearn.model_selection import train_test_split

# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
X, y = np.arange(10).reshape((5, 2)), range(5)

print(X)
print(list(y)) #레이블 데이터

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [112]:
#3분의 1만 test 데이터로 지정.
#random_state 지정으로 인해 순서가 섞인 채로 훈련 데이터와 테스트 데이터가 나눠진다.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.33,
                                                   random_state = 1234)

In [113]:
print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [114]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


### **수동으로 분리하기**

In [115]:
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
import numpy as np
X, y = np.arange(0,24).reshape((12,2)), range(12)

In [116]:
print(X)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]


In [117]:
print(list(y))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [118]:
# 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
n_of_train = int(len(X) * 0.8)

# 전체 길이에서 80%에 해당하는 길이를 뺀다.
n_of_test = int(len(X) - n_of_train)

print(n_of_train)
print(n_of_test)

9
3


In [119]:
X_train = X[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장

X_test = X[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장

In [120]:
print(X_test)
print(list(y_test))

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]
