In [None]:
# konlpy 패키지 설치: 한국어 형태소 분석을 위한 라이브러리입니다.
!pip install konlpy



Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m24.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (494 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m494.1/494.1 kB[0m [31m15.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.2 konlpy-0.6.0


In [None]:

# pandas 라이브러리를 pd라는 이름으로 임포트: 데이터 처리를 위한 주요 라이브러리입니다.
import pandas as pd

# konlpy 라이브러리에서 여러 형태소 분석기를 임포트: 한국어 텍스트를 형태소 단위로 분석합니다.
from konlpy.tag import Okt, Komoran, Hannanum, Kkma

# 각 형태소 분석기 객체를 생성합니다.
okt = Okt()
komoran = Komoran()
hannanum = Hannanum()
kkma = Kkma()



In [None]:

# Okt 형태소 분석기: 'Noun', 'Adjective', 'Verb' 태그 사용
def tokenizer_okt(text):
    morph = okt.pos(text)
    words = [word for word, tag in morph if tag in ['Noun', 'Adjective', 'Verb'] and len(word) > 1]
    return words

# Komoran 형태소 분석기: 'NNG' (일반 명사), 'NNP' (고유 명사), 'VV' (동사), 'VA' (형용사) 태그 사용
def tokenizer_komoran(text):
    morph = komoran.pos(text)
    words = [word for word, tag in morph if tag in ['NNG', 'NNP', 'VV', 'VA'] and len(word) > 1]
    return words

# Hannanum 형태소 분석기: 'N', 'P', 'F'로 시작하는 품사 태그를 주로 사용 (명사: 'N', 동사: 'P', 형용사: 'F')
def tokenizer_hannanum(text):
    morph = hannanum.pos(text)
    words = [word for word, tag in morph if tag.startswith(('N', 'P', 'F')) and len(word) > 1]
    return words

# Kkma 형태소 분석기: 'NNG' (일반 명사), 'NNP' (고유 명사), 'VV' (동사), 'VA' (형용사) 태그 사용
def tokenizer_kkma(text):
    morph = kkma.pos(text)
    words = [word for word, tag in morph if tag in ['NNG', 'NNP', 'VV', 'VA'] and len(word) > 1]
    return words


In [None]:
# 각 형태소 분석기의 결과를 확인하는 함수입니다.
def compare_analyzers(text):
    print("Okt 분석 결과:", tokenizer_okt(text))
    print("Komoran 분석 결과:", tokenizer_komoran(text))
    print("Hannanum 분석 결과:", tokenizer_hannanum(text))
    print("Kkma 분석 결과:", tokenizer_kkma(text))


In [None]:

# 비교할 장문 텍스트 (예시)
text = """
어제 나는 친구들과 함께 서울의 한 카페에서 영어 공부를 했다.
우리는 매일 같이 열심히 공부하기로 약속했다.
하지만 오늘은 비가 와서 카페에 가지 못했다.
"""

In [None]:
# 형태소 분석기 결과 비교
compare_analyzers(text)

Okt 분석 결과: ['어제', '친구', '서울', '카페', '영어', '공부', '했다', '우리', '매일', '공부', '하기로', '약속', '했다', '오늘', '와서', '카페', '가지', '했다']
Komoran 분석 결과: ['친구', '서울', '카페', '영어', '공부', '공부', '약속', '오늘', '카페']
Hannanum 분석 결과: ['어제', '친구들', '서울', '카페', '영어', '공부', '우리', '공부', '약속', '오늘', '카페', '가지', '못하']
Kkma 분석 결과: ['어제', '친구', '서울', '카페', '영어', '공부', '공부', '약속', '오늘', '카페']
