- 한국어 텍스트에서 명사만 추출해보자.
- 형태소 분석을 해 볼 예시 문장은 다음과 같다.

In [1]:
import stanza

In [2]:
nlp = stanza.Pipeline('ko')

2021-03-26 11:28:00 INFO: Loading these models for language: ko (Korean):
| Processor | Package |
-----------------------
| tokenize  | kaist   |
| pos       | kaist   |
| lemma     | kaist   |
| depparse  | kaist   |

2021-03-26 11:28:00 INFO: Use device: gpu
2021-03-26 11:28:00 INFO: Loading: tokenize
2021-03-26 11:28:03 INFO: Loading: pos
2021-03-26 11:28:04 INFO: Loading: lemma
2021-03-26 11:28:04 INFO: Loading: depparse
2021-03-26 11:28:04 INFO: Done loading processors!


In [3]:
text = '오늘 커피를 마셨다.'

In [4]:
doc = nlp(text)

In [6]:
doc

[
  [
    {
      "id": 1,
      "text": "오늘",
      "lemma": "오늘",
      "upos": "NOUN",
      "xpos": "ncn",
      "head": 3,
      "deprel": "advmod",
      "misc": "start_char=0|end_char=2"
    },
    {
      "id": 2,
      "text": "커피를",
      "lemma": "커피+를",
      "upos": "NOUN",
      "xpos": "ncn+jco",
      "head": 3,
      "deprel": "obj",
      "misc": "start_char=3|end_char=6"
    },
    {
      "id": 3,
      "text": "마셨다",
      "lemma": "마시+었+다",
      "upos": "VERB",
      "xpos": "pvg+ep+ef",
      "head": 0,
      "deprel": "root",
      "misc": "start_char=7|end_char=10"
    },
    {
      "id": 4,
      "text": ".",
      "lemma": ".",
      "upos": "PUNCT",
      "xpos": "sf",
      "head": 3,
      "deprel": "punct",
      "misc": "start_char=10|end_char=11"
    }
  ]
]

In [10]:
for sentence in doc.sentences:
    for word in sentence.words:
        lemma = word.lemma.split('+')
        xpos = word.xpos.split('+')

        for tok, pos in zip(lemma, xpos):
                print(tok,pos)

오늘 ncn
커피 ncn
를 jco
마시 pvg
었 ep
다 ef
. sf


- 명사 표시는 n으로 시작하므로 해당하는 형태소만 출력한다.

In [13]:
for sentence in doc.sentences:
    for word in sentence.words:
        lemma = word.lemma.split('+')
        xpos = word.xpos.split('+')

        for tok, pos in zip(lemma, xpos):
            if pos[0] == 'n':
                print(tok,pos)

오늘 ncn
커피 ncn


In [14]:
for word in doc.sentences[0].words:
    lemma = word.lemma.split('+')
    xpos = word.xpos.split('+')

    for tok, pos in zip(lemma, xpos):
        if pos.startswith('n'):
            print(tok)

오늘
커피


- 문장을 넣으면 명사를 추출하는 함수 extract_noun을 아래와 같이 정의합니다.

In [None]:
def extract_noun(text):
    doc = nlp(text)
    nouns=[]
    for sentence in doc.sentences:
        for word in sentence.words:
            lemma = word.lemma.split('+')
            xpos = word.xpos.split('+')
            for tok, pos in zip(lemma, xpos):
                if pos.startswith('n'):
                    nouns.append(tok)
    return nouns

In [15]:
def extract_noun(text):
    doc = nlp(text)
    for sentence in doc.sentences:
        for word in sentence.words:
            lemma = word.lemma.split('+')
            xpos = word.xpos.split('+')
            for tok, pos in zip(lemma, xpos):
                if pos.startswith('n'):
                    yield tok

- extract_noun 함수에 문장을 넣으면 명사가 추출됩니다. 여러 문장을 넣어서, 명사가 추출되는지 확인합니다.

In [16]:
list(extract_noun('편의점에서 커피를 샀다.'))

['편의점', '커피']

In [17]:
list(extract_noun('토끼는 당근을 좋아할까?'))

['토끼', '당근']