# Konlpy 사용

In [1]:
from konlpy.tag import Okt

In [2]:
okt = Okt()

In [3]:
sentence = "우리는 인공지능을 만들기 위해서 공부한다"

# Perform morphological analysis(형태소 분석)
morphs = okt.morphs(sentence)
print("Morphs:", morphs)

# Perform part-of-speech tagging(품사 태깅)
pos = okt.pos(sentence)
print("Pos tagging:", pos)

Morphs: ['우리', '는', '인공', '지능', '을', '만들기', '위해', '서', '공부', '한다']
Pos tagging: [('우리', 'Noun'), ('는', 'Josa'), ('인공', 'Noun'), ('지능', 'Noun'), ('을', 'Josa'), ('만들기', 'Noun'), ('위해', 'Noun'), ('서', 'Josa'), ('공부', 'Noun'), ('한다', 'Verb')]


# Mecab-ko 사용

In [3]:
from mecab import MeCab

In [4]:
mecab = MeCab()

In [5]:
# sentence = "우리는 인공지능을 만들기 위해서 공부한다"
sentence = "내가 그린 기린 그림은 목이 긴 기린 그린 그림이고, 네가 그린 기린 그림은 목이 안 긴 기린 그린 그림이다."

morphs = mecab.morphs(sentence)
print("Morphs:", morphs)

pos = mecab.pos(sentence)
print("Pos tagging:", pos)

Morphs: ['내', '가', '그린', '기린', '그림', '은', '목', '이', '긴', '기린', '그린', '그림', '이', '고', ',', '네', '가', '그린', '기린', '그림', '은', '목', '이', '안', '긴', '기린', '그린', '그림', '이', '다', '.']
Pos tagging: [('내', 'NP'), ('가', 'JKS'), ('그린', 'VV+ETM'), ('기린', 'NNG'), ('그림', 'NNG'), ('은', 'JX'), ('목', 'NNG'), ('이', 'JKS'), ('긴', 'VA+ETM'), ('기린', 'NNG'), ('그린', 'VV+ETM'), ('그림', 'NNG'), ('이', 'VCP'), ('고', 'EC'), (',', 'SC'), ('네', 'NP'), ('가', 'JKS'), ('그린', 'VV+ETM'), ('기린', 'NNG'), ('그림', 'NNG'), ('은', 'JX'), ('목', 'NNG'), ('이', 'JKS'), ('안', 'MAG'), ('긴', 'VA+ETM'), ('기린', 'NNG'), ('그린', 'VV+ETM'), ('그림', 'NNG'), ('이', 'VCP'), ('다', 'EF'), ('.', 'SF')]


In [6]:
sentence = "해시계는 매우 단순한 장치다. 땅에 막대기 하나만 꽂으면 원시적 형태의 해시계가 뚝딱 완성된다. 북반구에서는 그림자가 시계방향으로 돈다. 이 그림자 위치를 따라가며 시간을 적당히 표시하면 된다. 그런데 막대를 꽂을 때, 천구의 북극을 향하도록 하거나 대충 북극성을 가리키게 기울이면 정확성이 한결 높아진다. 이렇게 하면 계절이 바뀌어도 그림자가 가리키는 시각이 달라지지 않는다.가장 일반적인 해시계는 평평한 원판에 눈금이 표시된 것인데, 공원 같은 곳에서 쉽게 볼 수 있다. 이런 형태의 해시계는 그림자가 눈금판 주위를 도는 속도가 일정하지않기 때문에 시간 표시 간격이 균일하지 않다. 해시계가 잘 맞지 않는 이유는 여러 가지이다. 지구의 공전 속도가 일정하지 않은 탓도 있고, 서머타임 제도 때문이기도 하다."

In [7]:
# 형태소 분석 실행
parsed = mecab.parse(sentence)

In [12]:
# 각 Morpheme 객체의 surface 속성을 추출하여 단어 리스트로 변환
word_list = [morpheme.surface for morpheme in parsed if morpheme.surface.strip()]

In [13]:
word_list

['해시계',
 '는',
 '매우',
 '단순',
 '한',
 '장치',
 '다',
 '.',
 '땅',
 '에',
 '막대기',
 '하나',
 '만',
 '꽂',
 '으면',
 '원시',
 '적',
 '형태',
 '의',
 '해시계',
 '가',
 '뚝딱',
 '완성',
 '된다',
 '.',
 '북반구',
 '에서',
 '는',
 '그림자',
 '가',
 '시계',
 '방향',
 '으로',
 '돈다',
 '.',
 '이',
 '그림자',
 '위치',
 '를',
 '따라가',
 '며',
 '시간',
 '을',
 '적당히',
 '표시',
 '하',
 '면',
 '된다',
 '.',
 '그런데',
 '막대',
 '를',
 '꽂',
 '을',
 '때',
 ',',
 '천구',
 '의',
 '북극',
 '을',
 '향하',
 '도록',
 '하',
 '거나',
 '대충',
 '북극성',
 '을',
 '가리키',
 '게',
 '기울이',
 '면',
 '정확',
 '성',
 '이',
 '한결',
 '높',
 '아',
 '진다',
 '.',
 '이렇게',
 '하',
 '면',
 '계절',
 '이',
 '바뀌',
 '어도',
 '그림자',
 '가',
 '가리키',
 '는',
 '시각',
 '이',
 '달라지',
 '지',
 '않',
 '는다',
 '.',
 '가장',
 '일반',
 '적',
 '인',
 '해시계',
 '는',
 '평평',
 '한',
 '원판',
 '에',
 '눈금',
 '이',
 '표시',
 '된',
 '것',
 '인데',
 ',',
 '공원',
 '같',
 '은',
 '곳',
 '에서',
 '쉽',
 '게',
 '볼',
 '수',
 '있',
 '다',
 '.',
 '이런',
 '형태',
 '의',
 '해시계',
 '는',
 '그림자',
 '가',
 '눈금판',
 '주위',
 '를',
 '도',
 '는',
 '속도',
 '가',
 '일정',
 '하',
 '지',
 '않',
 '기',
 '때문',
 '에',
 '시간',
 '표시',
 '간격',
 '이',
 '

In [14]:
len(word_list)

196

In [15]:
# 중복을 제거한 단어 리스트
unique_words = set(word_list)

In [16]:
len(unique_words)

109