# stanza

- stanza를 사용하기 위해서는 pytorch가 필요하다. 윈도의 경우에는 다음과 같이 설치한다. 맥, 리눅스 등에서는 stanza를 설치할 때 함께 설치된다.

In [1]:
!conda install -y -c pytorch pytorch torchvision

Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... done

## Package Plan ##

  environment location: C:\Users\msi\anaconda3

  added / updated specs:
    - pytorch
    - torchvision


The following packages will be UPDATED:

  ca-certificates    conda-forge::ca-certificates-2020.12.~ --> pkgs/main::ca-certificates-2021.1.19-haa95532_1


Preparing transaction: ...working... done
Verifying transaction: ...working... done
Executing transaction: ...working... done


- 다음으로 stanza를 설치한다.

In [3]:
!pip install stanza

Collecting stanza
  Downloading stanza-1.2-py3-none-any.whl (282 kB)
Installing collected packages: stanza
Successfully installed stanza-1.2


# 모형 다운로드

- stanza는 기계학습 방식을 사용하기 때문에 한국어 데이터에 학습된 모형이 필요하다. 언어별 모형은 공식 문서에서 확인할 수 있다.

In [1]:
import stanza

- 기본은 kaist이고, package = 'gsd'로 gsd로 할 수 있다.

stanza.download('ko')

- 모형을 불러온다.

In [2]:
nlp = stanza.Pipeline('ko')

2021-03-28 21:38:34 INFO: Loading these models for language: ko (Korean):
| Processor | Package |
-----------------------
| tokenize  | kaist   |
| pos       | kaist   |
| lemma     | kaist   |
| depparse  | kaist   |

2021-03-28 21:38:34 INFO: Use device: gpu
2021-03-28 21:38:34 INFO: Loading: tokenize
2021-03-28 21:38:40 INFO: Loading: pos
2021-03-28 21:38:41 INFO: Loading: lemma
2021-03-28 21:38:41 INFO: Loading: depparse
2021-03-28 21:38:42 INFO: Done loading processors!


- 한국어 모형에는 kaist와 gsd 두 가지가 있다. kaist가 기본이나 gsd 패키지를 사용하려면 다음과 같이 한다.

In [3]:
stanza.download('ko', package='gsd')
nlp = stanza.Pipeline('ko', package='gsd')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/master/resources_1.2.0.json: 128kB [00:00, 64.1MB/s]
2021-03-28 21:38:45 INFO: Downloading these customized packages for language: ko (Korean)...
| Processor | Package |
-----------------------
| tokenize  | gsd     |
| pos       | gsd     |
| lemma     | gsd     |
| depparse  | gsd     |
| pretrain  | gsd     |

2021-03-28 21:38:45 INFO: File exists: C:\Users\msi\stanza_resources\ko\tokenize\gsd.pt.
2021-03-28 21:38:45 INFO: File exists: C:\Users\msi\stanza_resources\ko\pos\gsd.pt.
2021-03-28 21:38:45 INFO: File exists: C:\Users\msi\stanza_resources\ko\lemma\gsd.pt.
2021-03-28 21:38:45 INFO: File exists: C:\Users\msi\stanza_resources\ko\depparse\gsd.pt.
2021-03-28 21:38:45 INFO: File exists: C:\Users\msi\stanza_resources\ko\pretrain\gsd.pt.
2021-03-28 21:38:45 INFO: Finished downloading models and saved to C:\Users\msi\stanza_resources.
2021-03-28 21:38:45 INFO: Loading these models for language: ko (Korean):
|

# 형태소 분석

- 아래 text 변수에 저장된 예시 문장의 형태소와 품사를 분석한다.

In [4]:
text = '오늘은 자연어 처리를 배우기 좋은 날이다. 자연어 처리는 재미있다.'

- nlp() 로 문장의 형태소를 분석한다. 분석 결과는 doc 변수에 저장한다.

In [5]:
doc = nlp(text)

In [6]:
doc

[
  [
    {
      "id": 1,
      "text": "오늘은",
      "lemma": "오늘+은",
      "upos": "NOUN",
      "xpos": "NNG+JX",
      "head": 6,
      "deprel": "nsubj",
      "misc": "start_char=0|end_char=3"
    },
    {
      "id": 2,
      "text": "자연어",
      "lemma": "자연어",
      "upos": "NOUN",
      "xpos": "NNG",
      "head": 4,
      "deprel": "obj",
      "misc": "start_char=4|end_char=7"
    },
    {
      "id": 3,
      "text": "처리를",
      "lemma": "처리+를",
      "upos": "NOUN",
      "xpos": "NNG+JKO",
      "head": 2,
      "deprel": "flat",
      "misc": "start_char=8|end_char=11"
    },
    {
      "id": 4,
      "text": "배우기",
      "lemma": "배우기",
      "upos": "NOUN",
      "xpos": "VV+ETN",
      "head": 5,
      "deprel": "nsubj",
      "misc": "start_char=12|end_char=15"
    },
    {
      "id": 5,
      "text": "좋은",
      "lemma": "좋+은",
      "upos": "VERB",
      "xpos": "VA+ETM",
      "head": 6,
      "deprel": "acl:relcl",
      "misc": "start_char=16|end_char=18"
 

- .sentences에 분석된 문장들이 리스트 형태로 담겨 있다.

In [7]:
sentence = doc.sentences[0]

- .words에는 분석된 어절들이 리스트 형태로 담겨 있다.

In [8]:
word = sentence.words[0]

- .lemma는 어절을 이루는 형태소의 표제어(lemma)들을 보여준다. 형태소가 2개 이상인 경우 + 표시로 구분되어 있다.

In [9]:
word.lemma

'오늘+은'

- .xpos에는 품사 정보가 있다.

In [10]:
word.xpos

'NNG+JX'

# 단어와 품사 태그 짝짓기

- 형태소 분석에서 원하는 품사를 추출하는 방법을 알아보자. 이는 출력 결과에서 lemma 와 xpos 를 짝지은 쌍이 된다.

In [13]:
import stanza
nlp = stanza.Pipeline('ko')

2021-03-28 21:40:27 INFO: Loading these models for language: ko (Korean):
| Processor | Package |
-----------------------
| tokenize  | kaist   |
| pos       | kaist   |
| lemma     | kaist   |
| depparse  | kaist   |

2021-03-28 21:40:27 INFO: Use device: gpu
2021-03-28 21:40:27 INFO: Loading: tokenize
2021-03-28 21:40:27 INFO: Loading: pos
2021-03-28 21:40:27 INFO: Loading: lemma
2021-03-28 21:40:27 INFO: Loading: depparse
2021-03-28 21:40:28 INFO: Done loading processors!


- 먼저 텍스트를 처리해보자.

In [39]:
text = '오늘은 자연어 처리를 공부하기 좋은 날이다. 자연어 처리는 재미있다.'

In [40]:
doc = nlp(text)

- '오늘은'의 분석 결과를 보자

In [41]:
word = doc.sentences[0].words[0]
word

{
  "id": 1,
  "text": "오늘은",
  "lemma": "오늘+은",
  "upos": "NOUN",
  "xpos": "ncn+jxt",
  "head": 6,
  "deprel": "dislocated",
  "misc": "start_char=0|end_char=3"
}

- '오늘은'은 '오늘'과 '은'이 합쳐진 형태이다

In [42]:
word.lemma

'오늘+은'

- 이들의 품사는 다음과 같다. 명사는 n으로 시작하고, 조사는 j로 시작한다.

In [43]:
word.xpos

'ncn+jxt'

- 형태소들은 + 기호로 구분되어 있으므로 .split 를 분리한다.

In [44]:
lemma = word.lemma.split('+')

In [45]:
xpos = word.xpos.split('+')

- zip 함수로 lemma와 xpos의 각 원소를 짝짓을 수 있다.

In [46]:
list(zip(lemma, xpos))

[('오늘', 'ncn'), ('은', 'jxt')]

- doc의 첫 문장에서 모든 형태소와 그 품사를 짝지어 출력해본다.

In [47]:
for word in doc.sentences[0].words:
    lemma = word.lemma.split('+')
    xpos = word.xpos.split('+')
    for token, pos in zip(lemma, xpos):
        print(token, pos)

오늘 ncn
은 jxt
자연어 ncn
처리 ncpa
를 jco
공부 ncpa
하 xsv
기 etn
좋 paa
ㄴ etm
날 ncn
이 jp
다 ef
. sf


In [48]:
for sentence in doc.sentences:
    for word in sentence.words:
        lemma = word.lemma.split('+')
        xpos = word.xpos.split('+')
        for tok,pos in zip(lemma,xpos):
            print(tok,pos)

오늘 ncn
은 jxt
자연어 ncn
처리 ncpa
를 jco
공부 ncpa
하 xsv
기 etn
좋 paa
ㄴ etm
날 ncn
이 jp
다 ef
. sf
자연어 ncn
처리 ncpa
는 jxt
재미있 ncps
다 xsm
. sf
