# 토큰화 (Tokenization)

- 문장이나 단얼ㄹ 더 작은 단위로 나누어 분석 가능한 단위(토큰, Token)으로 변환하는 과정
- 토큰의 다뉘가 상황에 따라 다르지만, 보통 의미있는 혹은 처리하는 단위로써 토큰 정의
- 자연어 처리에서 크롤링, 데이터 수집 등으로 얻은 코퍼스 데이터는 정제되지 않은 경우가 많은데 이를 사용 용도에 맞게 토큰화, 정제, 정규화하는 과정이 필요

**토큰화 목적**

- 문법적 구조 이해
- 유연한 데이터 활용

In [1]:
text = "NLP is fascinating. It has many application in real-world scenarios."

In [2]:
import nltk

# 단어 토큰화
tokens = nltk.word_tokenize(text)
print('단어 토큰화:', tokens)

# 문장 토큰화
sentences = nltk.sent_tokenize(text)
print('문장 토큰화:', sentences)

# 문장별 단어 토큰화
for sentence in sentences:
    tokens = nltk.word_tokenize(sentence)
    print('문장별 단어 토큰화:', tokens)


단어 토큰화: ['NLP', 'is', 'fascinating', '.', 'It', 'has', 'many', 'application', 'in', 'real-world', 'scenarios', '.']
문장 토큰화: ['NLP is fascinating.', 'It has many application in real-world scenarios.']
문장별 단어 토큰화: ['NLP', 'is', 'fascinating', '.']
문장별 단어 토큰화: ['It', 'has', 'many', 'application', 'in', 'real-world', 'scenarios', '.']


In [3]:
# 단어 토큰화
print(nltk.word_tokenize(text))

# 문장 토큰화
print(nltk.sent_tokenize(text))

# 문장별 단어 토큰화
for sent in nltk.sent_tokenize(text):
    print(nltk.word_tokenize(sent))

['NLP', 'is', 'fascinating', '.', 'It', 'has', 'many', 'application', 'in', 'real-world', 'scenarios', '.']
['NLP is fascinating.', 'It has many application in real-world scenarios.']
['NLP', 'is', 'fascinating', '.']
['It', 'has', 'many', 'application', 'in', 'real-world', 'scenarios', '.']


### Subword Tokenizing

- BertTokenizer
    - 단어를 부분 단위로 쪼개어 희귀하거나 새로운 단어도 부분적으로 표현할 수 있도록 함 → 어휘 크기를 줄이고 다양한 언어 패턴 학습 기능

In [4]:
!pip install transformers



In [5]:
from transformers import BertTokenizer

# → Hugging Face 토큰화 모델 사용
# Hugging Face란 : 머신러닝 모델 및 데이터셋을 쉽게 공유할 수 있는 플랫폼

# 사전 학습된 형태의 토크나이저를 가져오겠다.
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
word = 'unhappiness'
subwords = tokenizer.tokenize(word)
print(subwords)
# 결과 설명:
# BertTokenizer를 처음 불러올 때, 내부적으로 여러 파일(vocab.txt, config.json 등)이 로드됩니다.
# 이 중 vocab.txt에는 모델이 인식할 수 있는 모든 서브워드(subword)들이 저장되어 있습니다.
# 'unhappiness'를 토크나이즈하면, 'un'은 vocab.txt에 독립적으로 존재하는 서브워드이기 때문에 그대로 출력됩니다.
# 이어지는 'ha', 'pp', 'iness'는 단독 단어가 아닌, 접두어나 접미사로서 기존 단어들과 연결되어 등장할 수 있도록 '##'가 앞에 붙어 출력됩니다.
# 이 '##' 표시는 해당 토큰이 앞 단어에 이어 붙는 부분임을 의미합니다.
# 즉, ['un', '##ha', '##pp', '##iness']와 같은 결과가 나오는 이유는, BERT의 워드피스(WordPiece) 방식이 희귀 단어도 부분적으로 나눠 어휘 크기를 줄이고 처리할 수 있게 설계되었기 때문입니다.

['un', '##ha', '##pp', '##iness']


In [6]:
tokenizer.tokenize(text)

['nl',
 '##p',
 'is',
 'fascinating',
 '.',
 'it',
 'has',
 'many',
 'application',
 'in',
 'real',
 '-',
 'world',
 'scenarios',
 '.']

##### 문자 단위 토큰화

In [7]:
# 파이썬 기초에서 배운 문자 단위 토큰화 방법 : list() → 문자 단위로 토큰화
text = "Hello, world!"
tokens = list(text)
print(tokens)

['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']


In [8]:
# regular expression → 정규표현식을 사용하여 문자 단위로 토큰화

import re
text = "Time files like an arrow; fruit flies like a banana"
re.findall(r'\b\w+\b', text)

# r'' : 파이썬 raw text (이스케이핑 문자를 문자 그대로 처리)
# \b  : 경계문자 (boundary / 공백, 구두점, ...)
# \w  : 글자 (word / 영문자, 숫자, _)
# \w+ : 수량자 (하나 이상)
# => 경계 문자로 감싸인 하나 이상의 글자를 전부 찾아라.

['Time',
 'files',
 'like',
 'an',
 'arrow',
 'fruit',
 'flies',
 'like',
 'a',
 'banana']

In [9]:

# 아래는 정규표현식을 사용해서 영어 문장에서 단어(글자 덩어리)만 뽑아내는 코드예요.
# 아주 쉬운 설명: 문장에서 알파벳이나 숫자, 언더바(_)로 이루어진 단어만 골라줘요. 
# 단어 사이에 쉼표(,)나 마침표(.) 같은 기호들은 빼고, 진짜 '단어'만 모아주는 거예요!

# 예시
text = "I like apples, oranges, and bananas!"
words = re.findall(r'\b\w+\b', text)
print(words)  # 결과: ['I', 'like', 'apples', 'oranges', 'and', 'bananas']

# 이런 식으로 re.findall() 함수는 '문장에서 단어만 찾아서 리스트로 만들어줘!'라는 뜻이에요.

# 추가 설명
# - r'' : '이스케이프 문자(\)를 그대로 써도 돼!'라는 뜻의 파이썬 기능이에요. 즉, 백슬래시(\)가 특수문자로 인식되지 않고 문자 그대로 쓰입니다.
# - \b : '단어의 경계'를 의미해요. 즉, 공백이나 구두점(.,! 등)과 단어 사이를 구분해줘요.
# - \w : 'word(단어) 문자'를 뜻하는데, 알파벳, 숫자, 언더스코어(_)를 포함합니다.
# - \w+ : +는 '하나 이상'이라는 뜻이에요. 즉, 하나 이상의 연속된 '단어 문자'(알파벳, 숫자, 언더스코어)를 모두 모아서 단어로 인식하는 것이죠!
# 예를 들어, r'\b\w+\b'는 "경계에서부터 시작되는 하나 이상의 단어문자(알파벳/숫자/_)로 이루어진 부분들을 모두 찾아줘!"라는 뜻이랍니다.

['I', 'like', 'apples', 'oranges', 'and', 'bananas']


In [10]:
from nltk.tokenize import WordPunctTokenizer, word_tokenize

text = "Don't hesitate to use well-being practices for self-care."

# WordPuncttokenizer: 단어/구두점으로 토큰을 구분 (', - 포함 단어도 분리)
word_punct_tokenizer = WordPunctTokenizer()
print(word_punct_tokenizer.tokenize(text))

print(word_tokenize(text))

# # 예시
# text = "I like apples, oranges, and bananas!"
# words = re.findall(r'\b\w+\b', text)
# print(words)  # 결과: ['I', 'like', 'apples', 'oranges', 'and', 'bananas']


['Don', "'", 't', 'hesitate', 'to', 'use', 'well', '-', 'being', 'practices', 'for', 'self', '-', 'care', '.']
['Do', "n't", 'hesitate', 'to', 'use', 'well-being', 'practices', 'for', 'self-care', '.']


In [11]:
# TreebankWordTokenizer는 Penn Treebank 코퍼스의 tokenization 규칙을 따르는 토크나이저입니다.
# 이 토크나이저는 표준적인 영어 어절의 분리뿐만 아니라, 하이픈, 구두점, 약어, 숫자와 기호(쉼표, 달러표시, 온점 등)처럼
# 복잡한 패턴도 적절히 처리하여 토큰을 나눕니다.
# 예를 들어, 약어("Dr.Smith"), 화폐 단위("$100.50"), 날짜("2025/02/18")와 같이 
# 일반적인 단어 경계로 단순 분리하기 어려운 케이스도 Treebank 규칙에 맞게 토큰화해줍니다.

from nltk.tokenize import TreebankWordTokenizer

text = '''
COVID-19(전염병), Dr.Smith(의사), NASA(우주항공국) 등 특정 기관이나 명칭이 있다. 
특수 문자 또한 태그 <br>, 가격 $100.50, 2025/02/18 날짜표현에 사용될 수 있다. 
이러한 경우, $100.50을 하나의 토큰으로 유지할 필요가 있다.
'''

treebank_tokenizer = TreebankWordTokenizer()
print(treebank_tokenizer.tokenize(text))

print(word_tokenize(text))

# treebank_tokenizer와 word_tokenize의 토큰화 결과는 비슷하지만 약간씩 차이가 있습니다.
# 예를 들어, treebank_tokenizer는 약어, 하이픈, 구두점 등 Penn Treebank의 세부 규칙을 따르기 때문에
# 일부 특수케이스(예: "Dr.Smith", "$100.50", 날짜, 괄호 등)에 조금 더 세밀하게 토큰을 나눕니다.
# 반면 word_tokenize는 내부적으로 TreebankWordTokenizer를 기반으로 하지만,
# 전처리 및 언어 모델링 용도로 조금 다르게 동작할 수 있습니다(예: 줄바꿈, 특수문자 처리 등).
# 실제 출력된 토큰을 보면, 둘 다 쉼표와 온점 등 구두점을 별도 토큰으로 분리했지만,
# 괄호나 특수기호에 따라 토큰화 결과에 차이가 있을 수 있습니다.
# 따라서 텍스트 처리 목적(정밀한 문법단위 분할 vs. 일반적 단어 분리 등)에 따라
# 두 토크나이저 중 적합한 것을 선택하는 것이 좋겠습니다.

['COVID-19', '(', '전염병', ')', ',', 'Dr.Smith', '(', '의사', ')', ',', 'NASA', '(', '우주항공국', ')', '등', '특정', '기관이나', '명칭이', '있다.', '특수', '문자', '또한', '태그', '<', 'br', '>', ',', '가격', '$', '100.50', ',', '2025/02/18', '날짜표현에', '사용될', '수', '있다.', '이러한', '경우', ',', '$', '100.50을', '하나의', '토큰으로', '유지할', '필요가', '있다', '.']
['COVID-19', '(', '전염병', ')', ',', 'Dr.Smith', '(', '의사', ')', ',', 'NASA', '(', '우주항공국', ')', '등', '특정', '기관이나', '명칭이', '있다', '.', '특수', '문자', '또한', '태그', '<', 'br', '>', ',', '가격', '$', '100.50', ',', '2025/02/18', '날짜표현에', '사용될', '수', '있다', '.', '이러한', '경우', ',', '$', '100.50을', '하나의', '토큰으로', '유지할', '필요가', '있다', '.']


### 영어와 한국어 토큰화 및 형태소 분석의 차이점

- **영어(English)**
    - 영어는 띄어쓰기를 기준으로 대부분의 어절(token)이 분리됩니다.
    - NLTK, spaCy 같은 라이브러리의 `word_tokenize`와 같은 함수로 비교적 쉽게 단어 단위로 분리가 가능합니다.
    - 영어의 형태소 분석(morphological analysis)은 대부분 단어의 원형(lemma) 추출이나 접두/접미어 처리에 초점을 맞춥니다.

- **한국어(Korean)**
    - 한국어는 교착어(Agglutinative language)로, 한 어절에 여러 문법적 의미(어간+어미+조사 등)가 결합되어 있습니다.
    - 띄어쓰기만으로 정확한 토큰 분리가 어렵고, **형태소 분석기**가 필요합니다.
    - 대표적인 형태소 분석 라이브러리로는 [KoNLPy](https://konlpy.org/)의 `Mecab`, `Okt`, `Kkma`, `Komoran` 등이 있습니다.
    - 형태소 분석기는 각 단어를 다시 품사, 어근 등 세부 단위(morpheme)로 쪼개고 품사 태깅을 제공합니다.

#### 주요 차이점 요약

| 구분      | 영어                        | 한국어                         |
|-----------|----------------------------|--------------------------------|
| 토큰 기준 | 띄어쓰기, 구두점            | 띄어쓰기 + 형태소(어미, 조사)  |
| 처리 도구 | NLTK, spaCy 등              | KoNLPy, Mecab, Okt 등          |
| 라이브러리 설치 | 기본적으로 NLTK 등으로 충분 | 추가로 KoNLPy, 형태소 분석기 필요 |

#### 한국어 형태소 분석기 설치 예시(KoNLPy + Okt):

```python
# pip로 설치
!pip install konlpy

# 사용 예시
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs("한국어 형태소 분석은 재미있어요!"))
```

### 한국어 토큰화

In [12]:
!pip install kss==5.0.0



In [13]:
# kss (Korean Sentence Splitter)
# 한국어 문장 또는 한국어/ 영어 혼합 문장 등에 문장단위 토큰 지원
import kss

text = "배경은 1920년대의 경성부이다. 주인공이자 인력거꾼 김 첨지의 아내는 병에 걸린 지 1달 가량이 지나 있었다. 아내는 단 한 번도 약을 먹어본 적이 없는데, 그 이유는 '병이란 놈에게 약을 주어 보내면 재미를 붙여서 자꾸 온다.'는 김 첨지의 신조 때문. 멍청이, 꼰대...가 아닐수 없다. 사실 이건 핑계고, 약을 살 돈도 벌지 못하고 있었다는 이유가 더 크다."

kss.split_sentences(text)

[Kss]: Because there's no supported C++ morpheme analyzer, Kss will take pecab as a backend. :D
For your information, Kss also supports mecab backend.
We recommend you to install mecab or konlpy.tag.Mecab for faster execution of Kss.
Please refer to following web sites for details:
- mecab: https://cleancode-ws.tistory.com/97
- konlpy.tag.Mecab: https://uwgdqo.tistory.com/363

  from_pos_data.costs[idx]
  least_cost += word_cost


['배경은 1920년대의 경성부이다.',
 '주인공이자 인력거꾼 김 첨지의 아내는 병에 걸린 지 1달 가량이 지나 있었다.',
 "아내는 단 한 번도 약을 먹어본 적이 없는데, 그 이유는 '병이란 놈에게 약을 주어 보내면 재미를 붙여서 자꾸 온다.'는 김 첨지의 신조 때문.",
 '멍청이, 꼰대...가 아닐수 없다.',
 '사실 이건 핑계고, 약을 살 돈도 벌지 못하고 있었다는 이유가 더 크다.']

### 품사 태깅

**pos_tag**

pos_tag는 자연어 처리(NLP)에서 단어에 품사를 태깅하는 함수로, 주로 NLTK와 같은 라이브러리에서 사용된다.

- nltk pos_tag() 주요 품사 태깅<br>

1. **NN (Noun, Singular)**  
   단수 명사를 나타낸다. 하나의 사물이나 개념을 지칭한다.  
   예시: "cat", "book", "apple"

2. **NNS (Noun, Plural)**  
   복수 명사를 나타낸다. 두 개 이상의 사물이나 개념을 지칭한다.  
   예시: "cats", "books", "apples"

3. **NNP (Proper Noun, Singular)**  
   단수 고유 명사를 나타낸다. 특정한 사람, 장소 또는 조직의 이름을 지칭한다.  
   예시: "Alice", "London", "NASA"

4. **NNPS (Proper Noun, Plural)**  
   복수 고유 명사를 나타낸다. 두 개 이상의 특정한 사람, 장소 또는 조직의 이름을 지칭한다.  
   예시: "Smiths", "United Nations"

5. **VB (Verb, Base Form)**  
   동사의 원형을 나타낸다. 일반적으로 현재 시제와 함께 사용된다.  
   예시: "run", "eat", "play"

6. **VBD (Verb, Past Tense)**  
   동사의 과거형을 나타낸다.  
   예시: "ran", "ate", "played"

7. **VBG (Verb, Gerund or Present Participle)**  
   동명사 또는 현재 분사를 나타낸다. 일반적으로 "-ing" 형태이다.  
   예시: "running", "eating", "playing"

8. **VBN (Verb, Past Participle)**  
   동사의 과거 분사형을 나타낸다. 주로 완료 시제와 함께 사용된다.  
   예시: "run" (as in "has run"), "eaten", "played"

9. **VBZ (Verb, 3rd Person Singular Present)**  
   3인칭 단수 현재형 동사를 나타낸다. 주어가 3인칭 단수일 때 사용된다.  
   예시: "runs", "eats", "plays"

10. **JJ (Adjective)**  
    형용사를 나타낸다. 명사를 수식하여 그 특성을 설명한다.  
    예시: "big", "blue", "happy"

11. **JJR (Adjective, Comparative)**  
    비교급 형용사를 나타낸다. 두 개의 대상을 비교할 때 사용된다.  
    예시: "bigger", "bluer", "happier"

12. **JJS (Adjective, Superlative)**  
    최상급 형용사를 나타낸다. 세 개 이상의 대상을 비교할 때 사용된다.  
    예시: "biggest", "bluest", "happiest"

13. **RB (Adverb)**  
    부사를 나타낸다. 동사, 형용사 또는 다른 부사를 수식한다.  
    예시: "quickly", "very", "well"

14. **RBR (Adverb, Comparative)**  
    비교급 부사를 나타낸다. 두 개의 대상을 비교할 때 사용된다.  
    예시: "more quickly", "better"

15. **RBS (Adverb, Superlative)**  
    최상급 부사를 나타낸다. 세 개 이상의 대상을 비교할 때 사용된다.  
    예시: "most quickly", "best"

16. **IN (Preposition or Subordinating Conjunction)**  
    전치사 또는 종속 접속사를 나타낸다. 명사와의 관계를 나타내거나 종속절을 시작한다.  
    예시: "in", "on", "because"

17. **DT (Determiner)**  
    한정사를 나타낸다. 명사의 수와 상태를 정의한다.  
    예시: "the", "a", "some"

18. **PRP (Personal Pronoun)**  
    인칭 대명사를 나타낸다. 사람, 사물 등을 대체할 때 사용된다.  
    예시: "I", "you", "he", "they"

19. **PRP$ (Possessive Pronoun)**  
    소유 대명사를 나타낸다. 소유 관계를 나타낸다.  
    예시: "my", "your", "his", "their"

In [14]:
import nltk
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


True

In [15]:
from nltk.tag import pos_tag

text = "Time flies like an arrow."
tokens = word_tokenize(text)
pos_tag = pos_tag(tokens)
pos_tag

[('Time', 'NNP'),
 ('flies', 'NNS'),
 ('like', 'IN'),
 ('an', 'DT'),
 ('arrow', 'NN'),
 ('.', '.')]

**spacy 주요 품사 태깅**

| 태그 | 설명                 | 예시                 |
|------|----------------------|----------------------|
| ADJ  | 형용사               | big, nice           |
| ADP  | 전치사               | in, to, on          |
| ADV  | 부사                 | very, well          |
| AUX  | 조동사               | is, have (조동사로 사용될 때) |
| CONJ | 접속사               | and, or             |
| DET  | 한정사/관사          | the, a              |
| INTJ | 감탄사               | oh, wow             |
| NOUN | 명사                 | dog, table          |
| NUM  | 숫자                 | one, two, 3         |
| PART | 소사                 | 'to' (to fly에서), not |
| PRON | 대명사               | he, she, it         |
| PROPN| 고유명사             | John, France        |
| PUNCT| 구두점               | ., !, ?             |
| SCONJ| 종속 접속사          | because, if         |
| SYM  | 기호                 | $, %, @             |
| VERB | 동사                 | run, eat            |
| X    | 알 수 없는 품사       | 외국어 단어, 잘못된 형식 |

In [16]:
!pip install spacy



In [17]:
import spacy

spacy.cli.download('en_core_web_sm')       # 영어 모델 다운로드 (사용 전 1회는 반드시 다운로드)
spacy_nlp = spacy.load('en_core_web_sm')   # 로드

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [18]:
tokens = spacy_nlp(text)

for token in tokens:
    print(token.text, ":", token.pos_)

Time : NOUN
flies : VERB
like : ADP
an : DET
arrow : NOUN
. : PUNCT


### KoNLPy 품사 태깅

- 한국어 자연어 처리를 위한 라이브러리
- 형태소 분석, 품사 태깅, 텍스트 전처리 등 기능 지원
- 여러 형태소 분석기 중 적합한 분석기 선택 가능

In [19]:
!pip install konlpy



### Java와 JDK는 다른가요? 그리고 konlpy.tag.Okt 사용 준비

 - **JVM(Java Virtual Machine)** 은 자바로 만든 프로그램을 실행하는 가상 머신입니다.
 - **JDK(Java Development Kit)** 는 자바 개발에 필요한 모든 도구가 들어 있는 패키지이고, 이 안에 JVM도 포함되어 있습니다.
   - 즉, **JDK를 설치하면 JVM도 같이 설치** 됩니다.
   - 자바 프로그램을 실행하려면 최소한 JVM이 필요하고, 보통 JDK를 설치해야 합니다.
   - 예전에는 JRE(Java Runtime Environment)만으로도 실행이 가능했으나, 요즘은 대부분 JDK 설치가 권장/필요합니다.
 - **Java와 JDK의 차이점**
   - "Java"는 언어 및 플랫폼 전체를 가리키는 용어로, 자바 언어(JVM, JDK 모두 포함)를 의미합니다.
   - "JDK"는 자바로 코딩/컴파일/실행하는데 필요한 개발 키트(Package)입니다.
   - *즉, 정리하면*: JDK = JVM + 개발도구들(컴파일러 등)

 - konlpy의 형태소 분석기 **Okt** 는 Java(정확히는 JDK / JVM)에 의존하므로, **JDK가 반드시 필요** 합니다.
 - 여러 JDK 중에는 최근 많이 사용되고, 무료/오픈소스로 신뢰도 높은 **Temurin JDK** (17버전 등 LTS 권장)를 사용하는 것이 좋습니다.

 - JDK 설치 및 환경변수 설정 방법 예시 (Windows 기준):
     1. Temurin JDK 17 (예시: Temurin 17.0.16+8) 버전을 다운로드/설치합니다.
         - 공식 사이트: https://adoptium.net/ 또는 https://adoptium.net/temurin/releases
         - 설치 경로 예시: `C:\SKN_19\dev\jdk-17.0.16+8`
     2. **환경변수 설정**
         - `Ctrl+R` → `sysdm.cpl ,3` 입력 (시스템 속성 – 고급 – 환경 변수)
         - [시스템 변수]에서 "새로 만들기" 클릭
         - 변수 이름: `JAVA_HOME`
         - 변수 값: `C:\SKN_19\dev\jdk-17.0.16+8`
         - 확인
     3. [시스템 변수]에서 `Path` 선택 → "편집"
         - 새 항목 추가: `%JAVA_HOME%\bin`
         - (실행 우선순위 향상을 위해) 추가한 항목을 가장 위로 이동
         - 확인
     4. 환경변수 적용을 위해 **cmd 등 터미널을 새로 열어** 아래 명령어로 정상 인식되는지 확인합니다:
         ```
         echo %JAVA_HOME%
         java -version
         ```
     5. 이제 konlpy 및 Okt 등 자바 기반 툴이 정상 동작해야 합니다.

 - 참고: Mecab 등 일부 형태소 분석기는 Java 대신 C++ 환경이 필요할 수 있습니다.
 - **정리**: Okt 등 konlpy 일부 모듈은 JDK(예: Temurin JDK)가 필요하고, JAVA_HOME 과 시스템 PATH 환경변수를 반드시 지정해주어야 합니다. Mecab 등은 C++ 기반입니다.

In [20]:
from konlpy.tag import Okt

text = "오늘 점심은 뭐 먹어볼까. 맛있는 게 뭐지?"
okt = Okt()

morphs = okt.morphs(text)
morphs

['오늘', '점심', '은', '뭐', '먹어', '볼까', '.', '맛있는', '게', '뭐', '지', '?']

In [21]:
# 품사 태깅
pos_tags = okt.pos(text)
pos_tags

[('오늘', 'Noun'),
 ('점심', 'Noun'),
 ('은', 'Josa'),
 ('뭐', 'Noun'),
 ('먹어', 'Verb'),
 ('볼까', 'Verb'),
 ('.', 'Punctuation'),
 ('맛있는', 'Adjective'),
 ('게', 'Noun'),
 ('뭐', 'Noun'),
 ('지', 'Josa'),
 ('?', 'Punctuation')]

In [22]:
# 명사 추출
nouns = okt.nouns(text)
nouns

['오늘', '점심', '뭐', '게', '뭐']

In [24]:
text_jeju = "오늘 점심은 뭐 먹엉 볼까게. 맛있는 거 멘디?"

# 품사 태깅
pos_tags = okt.pos(text_jeju)
print('품사 태킹 :', pos_tags)

# 명사 추출
nouns = okt.nouns(text_jeju)
print('명사 추출 :', nouns)

품사 태킹 : [('오늘', 'Noun'), ('점심', 'Noun'), ('은', 'Josa'), ('뭐', 'Noun'), ('먹', 'Verb'), ('엉', 'Exclamation'), ('볼까', 'Verb'), ('게', 'Noun'), ('.', 'Punctuation'), ('맛있는', 'Adjective'), ('거', 'Noun'), ('멘디', 'Noun'), ('?', 'Punctuation')]
명사 추출 : ['오늘', '점심', '뭐', '게', '거', '멘디']
