In [None]:
import nltk
from nltk.tokenize import word_tokenize

text = "아 진짜 배고프네 밥 어디 맛있는데 없나"
tokens = word_tokenize(text)
print(tokens)

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

text = "This is a simple example to show the stop words removal."
words = word_tokenize(text)
stop_words = set(stopwords.words('English'))
filtered_words = [word for word in words if word.lower() not in stop_words]

print("Original words:",words)
print("Filtered words:",filtered_words)

In [None]:
from konlpy.tag import Okt

# Okt 형태소 분석기 객체 생성
okt = Okt()

text = "오늘 날씨가 매우 좋아서 기분이 좋다."

# 형태소 분석 (형태소와 품사 태깅)
morphs = okt.pos(text)
print("형태소 분석 결과:", morphs)

# 명사 추출
nouns = okt.nouns(text)
print("명사 추출 결과:", nouns)

# 어절 단위 토큰화
words = okt.morphs(text)
print("어절 단위 토큰화 결과:", words)

In [None]:
from konlpy.tag import Okt

okt = Okt()

text = "예쁜 꽃들이 피어서 기분이 좋았다."

# 기본 품사 태깅
morphs_default = okt.pos(text)
print("기본 품사 태깅:", morphs_default)

# norm=Ture: 문장 정규화 
morphs_norm = okt.pos(text, norm=True)
print("문장 정규화:", morphs_norm)

#stem=True: 어간 추출 
morphs_stem = okt.pos(text, stem=True)
print("어간 추출:", morphs_stem)

# norm=True, stem=True 함께 사용
morphs_norm_stem = okt.pos(text, norm=True, stem=True)
print("정규화 + 어간 추출:,", morphs_norm_stem)



In [None]:
from konlpy.tag import Okt

okt = Okt()

text = "하늘이 파랗게 빛나고 새들이 노래한다."

tagged_words = okt.pos(text)
verbs = [word for word, tag in tagged_words if tag.startswith('V')] # 'V'로 시작하는 품사(동사) 추출
print("추출된 동사:",verbs)

In [None]:
from konlpy.tag import Okt

okt = Okt()
text = "인공지능 기술은 미래 산업의 핵심 동력이다. 특히 머신러닝과 딥러닝 분야가 주목받고 있다."

tagged_words = okt.pos(text)
print("Okt 기본 품사 태깅 결과:", tagged_words)

# 사용자 정의 품사 태그 매핑 규칙 (예시)
custom_mapping = {
    ('인공지능', 'Noun') : '기술용어',
    ('머신러닝', 'Noun') : '기술용어',
    ('딥러닝', 'Noun'): '기술용어',
    ('핵심', 'Noun') : '중요단어',
    ('동력', 'Noun') : '중요단어'
}

custom_tagged_words = []
for word, tag in tagged_words :
    if (word, tag) in custom_mapping :
        custom_tagged_words.append((word, custom_mapping[(word, tag)]))
    else :
        custom_tagged_words.append((word, tag))
        
print("사용자 정의 품사 태깅 결과:", custom_tagged_words)

In [None]:
from konlpy.tag import Okt

okt = Okt()
text = "이 약물은 혈압을 낮추는 효과가 있습니다."

# 사용자 정의 사전 (단어: 사용자 정의 품사 태그)
custom_dictionary = {
    "약물": "의학용어",
    "혈압": "의학용어",
    "낮추는": "효과",
    "효과" : "결과"
}

custom_tagged_words = []
words = okt.morphs(text) #어절 단위로 먼저 토큰화

for word in words :
    if word in custom_dictionary:
        custom_tagged_words.append((word, custom_dictionary[word]))
    else :
        # 사전에 없는 단어는 Okt의 기분 품사 태깅 사용 (선택 사항)
        default_tag = okt.pos(word, stem=True)[0][1] if okt.pos(word,stem=True) else 'Unknown'
        custom_tagged_words.append((word, default_tag))
        
print("사용자 정의 품사 태깅 결과:", custom_tagged_words)