# 2023-2 언어데이터과학 11강 (2023-10-16) `konlpy` 패키지와 한국어 형태소 분석


## 오늘의 목표

1. 형태소의 개념을 설명할 수 있다.
2. 파이썬에서 한국어 문장을 형태소로 분석할 수 있다.

## 형태소(morpheme)

의미를 가진 최소 단위.

> "나는 집에 가고 싶다."
> + 단어: 나는, 집에, 가고, 싶다.
> + 형태소: 나, 는, 집, 에, 가, 고, 싶, 다.

> "I want to go home."
> + 단어: I, want, to, go, home.
> + 형태소: I, want, to, go, home.

> "집"
> + 집이, 집에, 집을, 집은, .... -> "집"이라는 공통된 명사를 분석하지 못함.
> + "집이": "집" + "이" -> 형태소 분석.





### 형태소 분석의 문제

+ 단어는 띄어쓰기 단위로 분리가 가능했다.
+ 형태소의 경우는 일괄적으로 분리할 수 없다.

--> `konlpy`라는 모듈을 사용해서 형태소 분석을 처리할 수 있다.

## `konlpy` 패키지

### 설치하기

설치 명령: `pip install -U <모듈 이름>`

In [2]:
%pip install -U konlpy

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


### 모듈 사용하기

`konlpy`에서 사용 가능한 형태소 분석기의 종류

+ Okt(Open Korean Twitter)
+ Kkma(꼬꼬마)
+ Komoran
+ (Mecab)

In [3]:
from konlpy.tag import Okt, Kkma, Komoran

### 형태소 분석기의 특징

In [4]:
sentence = '수업이 끝나면 집에 간다.'

#### OKT

In [5]:
okt = Okt() # 형태소 분석기 초기화

In [6]:
print(dir(okt)) # 어떤 메소드가 있는지 알아보기

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'jki', 'morphs', 'normalize', 'nouns', 'phrases', 'pos', 'tagset']


In [7]:
okt.morphs(sentence) # Okt의 특징: 명사구 위주로 처리 / 빠름

['수업', '이', '끝나면', '집', '에', '간다', '.']

#### 꼬꼬마

In [8]:
kkma = Kkma()

In [9]:
kkma.morphs(sentence) # Kkma의 특징: 동사구도 분리 가능 / 매우 느림

['수업', '이', '끝나', '면', '집', '에', '가', 'ㄴ다', '.']

#### Komoran

In [10]:
komoran = Komoran()

### 명사만 추출하기

In [11]:
komoran.morphs(sentence)

['수업', '이', '끝나', '면', '집', '에', '가', 'ㄴ다', '.']

### 모든 형태소를 품사태그(POS-tag)와 함께 추출하기

+ 품사: 동사, 명사, 형용사, ....

In [12]:
okt.pos(sentence)

[('수업', 'Noun'),
 ('이', 'Josa'),
 ('끝나면', 'Verb'),
 ('집', 'Noun'),
 ('에', 'Josa'),
 ('간다', 'Noun'),
 ('.', 'Punctuation')]

In [13]:
kkma.pos(sentence) # NNG: 일반명사, JKS: 주격 조사, VV: 일반동사 어간, ...

[('수업', 'NNG'),
 ('이', 'JKS'),
 ('끝나', 'VV'),
 ('면', 'ECE'),
 ('집', 'NNG'),
 ('에', 'JKM'),
 ('가', 'VV'),
 ('ㄴ다', 'EFN'),
 ('.', 'SF')]

In [14]:
komoran.pos(sentence) # NNG: 일반명사, JKS: 주격 조사, VV: 일반동사 어간, ...

[('수업', 'NNG'),
 ('이', 'JKS'),
 ('끝나', 'VV'),
 ('면', 'EC'),
 ('집', 'NNG'),
 ('에', 'JKB'),
 ('가', 'VV'),
 ('ㄴ다', 'EF'),
 ('.', 'SF')]

In [15]:
okt.pos(sentence, join=True)

['수업/Noun',
 '이/Josa',
 '끝나면/Verb',
 '집/Noun',
 '에/Josa',
 '간다/Noun',
 './Punctuation']