# 2024-2 언어데이터과학 10강 (2024-10-15) `konlpy` 패키지와 한국어 형태소 분석

## 오늘의 목표

1. 형태소의 개념을 설명할 수 있다.
2. 파이썬에서 한국어 문장을 형태소로 분석할 수 있다.

## 형태소(morpheme)

의미를 가진 최소 단위.

> "나는 집에 가고 싶다."
> + 단어: 나는, 집에, 가고, 싶다.
> + 형태소: 나, 는, 집, 에, 가, 고, 싶, 다.

> "I want to go home."
> + 단어: I, want, to, go, home.
> + 형태소: I, want, to, go, home.

> "집"
> + 집이, 집에, 집을, 집은, .... -> "집"이라는 공통된 명사를 분석하지 못함.
> + "집이": "집" + "이" -> 형태소 분석.





### 형태소 분석의 문제

+ 단어는 띄어쓰기 단위로 분리가 가능했다.
+ 형태소의 경우는 일괄적으로 분리할 수 없다.

--> `konlpy`라는 모듈을 사용해서 형태소 분석을 처리할 수 있다.

## `konlpy` 패키지

### 설치하기

설치 명령: `pip install -U <모듈 이름>`

In [1]:
%pip install -U konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Collecting lxml>=4.1.0 (from konlpy)
  Downloading lxml-5.3.0-cp312-cp312-manylinux_2_28_x86_64.whl.metadata (3.8 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m49.2 MB/s[0m eta [36m0:00:00[0m:00:01[0m
[?25hDownloading JPype1-1.5.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
Downloading lxml-5.3.0-cp312-cp312-manylinux_2_28_x86_64.whl (4.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.9/4.9 MB[0m [31m48.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: lxml, JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0 lxml-5.3.0
Note: you may need to restart the kernel to use updated packages.


### 모듈 사용하기

`konlpy`에서 사용 가능한 형태소 분석기의 종류

+ Okt(Open Korean Twitter)
+ Kkma(꼬꼬마)
+ Komoran
+ (Mecab)

In [2]:
from konlpy.tag import Okt, Kkma, Komoran

### 형태소 분석기의 특징

In [3]:
sentence = '수업이 끝나도 집에 못 간다.'

#### OKT

In [4]:
okt = Okt() # 형태소 분석기 초기화

In [5]:
print(dir(okt)) # 어떤 메소드가 있는지 알아보기

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'jki', 'morphs', 'normalize', 'nouns', 'phrases', 'pos', 'tagset']


In [6]:
okt.morphs(sentence) # Okt의 특징: 명사구 위주로 처리 / 빠름

['수업', '이', '끝나도', '집', '에', '못', '간다', '.']

#### 꼬꼬마

In [7]:
kkma = Kkma()

In [8]:
kkma.morphs(sentence) # Kkma의 특징: 동사구도 분리 가능 / 매우 느림

['수업', '이', '끝', '나도', '집', '에', '못', '갈', 'ㄴ다', '.']

#### Komoran

In [9]:
komoran = Komoran()

In [10]:
komoran.morphs(sentence)

['수업', '이', '끝나', '아도', '집', '에', '못', '가', 'ㄴ다', '.']

### 명사만 추출하기

In [11]:
komoran.nouns(sentence)

['수업', '집']

### 모든 형태소를 품사태그(POS-tag)와 함께 추출하기

+ 품사: 동사, 명사, 형용사, ....

In [12]:
okt.pos(sentence)

[('수업', 'Noun'),
 ('이', 'Josa'),
 ('끝나도', 'Verb'),
 ('집', 'Noun'),
 ('에', 'Josa'),
 ('못', 'Noun'),
 ('간다', 'Noun'),
 ('.', 'Punctuation')]

In [13]:
kkma.pos(sentence) # NNG: 일반명사, JKS: 주격 조사, VV: 일반동사 어간, ...

[('수업', 'NNG'),
 ('이', 'JKS'),
 ('끝', 'NNG'),
 ('나도', 'NNG'),
 ('집', 'NNG'),
 ('에', 'JKM'),
 ('못', 'MAG'),
 ('갈', 'VV'),
 ('ㄴ다', 'EFN'),
 ('.', 'SF')]

In [14]:
komoran.pos(sentence) # NNG: 일반명사, JKS: 주격 조사, VV: 일반동사 어간, ...

[('수업', 'NNG'),
 ('이', 'JKS'),
 ('끝나', 'VV'),
 ('아도', 'EC'),
 ('집', 'NNG'),
 ('에', 'JKB'),
 ('못', 'MAG'),
 ('가', 'VV'),
 ('ㄴ다', 'EF'),
 ('.', 'SF')]

In [15]:
okt.pos(sentence, join=True)

['수업/Noun',
 '이/Josa',
 '끝나도/Verb',
 '집/Noun',
 '에/Josa',
 '못/Noun',
 '간다/Noun',
 './Punctuation']