# 자연어처리(NLP: Natural Language Process)
1. 용어
  - 자연어(NL: Natural Language): 사람이 일상 생활에서 사용하는 언어.
  - 자연어 처리: 이러한 자연어를 컴퓨터가 다룰 수 있도록 처리하는 작업.
  - 형태소(morpheme): 언어의 의미를 지닌 가장 작은 단위.
  - 토큰(token): NLP 다룰 수 있도록 문장을 쪼개는 단위. 이번 프로젝트에서는 형태소를 토큰으로 삼음.
  - 토크나이징(tokenizing): 문장을 토큰 단위로 쪼개는 작업.
  - 형태소 분석기: 문장을 형태소 단위로 쪼개는 도구.
  - [품사][1](POS: Part Of Speech): 문장 내 역할, 형식, 기능 등으로 단어에게 분류.
  - 품사 태깅(POS tagging): 문장에서 쪼갠 형태소에 품사를 매기는 일.
  - KoNLPy: 이번 프로젝트에서 형태소 분석에 사용할 패키지.


[1]: https://namu.wiki/w/%ED%92%88%EC%82%AC

In [35]:
sentence = "아버지가 방에 들어가신다."
paragraph = "브룩스 여기 있었다. 레드도 여기 있었다."
sentence_with_unknowns = "나 어제 '더 글로리' 정주행했어!"

In [31]:
def analyze(engine, sentence: str, paragraph: str, normalized=False):
    if hasattr(engine, "normalize") and not normalized:
        norm_sentence = engine.normalize(sentence)
        norm_paragraph = engine.normalize(paragraph)
        print(f"정규화된 문장: {norm_sentence}")
        print(f"정규화된 문단: {norm_paragraph}\n")
        analyze(engine, norm_sentence, norm_paragraph, normalized=True)
        return

    if not normalized:
        print(f"예제 문장: {sentence}")
        print(f"예제 문단: {paragraph}\n")

    morphs = engine.morphs(sentence)
    print(f"형태소 추출: {morphs}")

    pos = engine.pos(sentence)
    print(f"품사 태깅: {pos}")

    nouns = engine.nouns(sentence)
    print(f"명사 추출: {nouns}")

    if hasattr(engine, "sentences"):
        sentences = engine.sentences(paragraph)
        print(f"문장 추출: {sentences}")

    if hasattr(engine, "phrases"):
        phrases = engine.phrases(sentence)
        print(f"어구 추출: {phrases}")

## Kkma

In [1]:
from konlpy.tag._kkma import Kkma

In [4]:
kkma = Kkma()  # 꼬꼬마 형태소 분석기

In [16]:
analyze(kkma, sentence, paragraph)

예제 문장: 아버지가 방에 들어가신다.
예제 문단: 브룩스 여기 있었다. 레드도 여기 있었다.

형태소 추출: ['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다', '.']
품사 태깅: [('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN'), ('.', 'SF')]
명사 추출: ['아버지', '방']
문장 추출: ['브룩스 여기 있었다.', '레드도 여기 있었다.']


## Komoran

In [17]:
from konlpy.tag._komoran import Komoran

In [18]:
komoran = Komoran()

In [23]:
analyze(komoran, sentence, paragraph)

예제 문장: 아버지가 방에 들어가신다.
예제 문단: 브룩스 여기 있었다. 레드도 여기 있었다.

형태소 추출: ['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다', '.']
품사 태깅: [('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('시', 'EP'), ('ㄴ다', 'EF'), ('.', 'SF')]
명사 추출: ['아버지', '방']


## Okt

In [24]:
from konlpy.tag._okt import Okt

In [25]:
okt = Okt()

In [32]:
analyze(okt, sentence, paragraph)

정규화된 문장: 아버지가 방에 들어가신다.
정규화된 문단: 브룩스 여기 있었다. 레드도 여기 있었다.

형태소 추출: ['아버지', '가', '방', '에', '들어가신다', '.']
품사 태깅: [('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb'), ('.', 'Punctuation')]
명사 추출: ['아버지', '방']
어구 추출: ['아버지']


## 사용자 사전 등록
형태소 분석기 훈련 시 없던 신조어 등을 등록할 수 있다. 분석 시에 등록된 단어들은 사용자 사전 기준에 따라
우선 처리된다. KoNLPy가 인식할 수 있는 품사 목록은 [여기][1]서.

[1]: https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0

In [45]:
komoran_with_dict = Komoran(userdic="user_dict.tsv")

In [46]:
pos_with_dict = komoran_with_dict.pos(sentence_with_unknowns)
pos_without_dict = komoran.pos(sentence_with_unknowns)

print(f"사용자 사전 없는 형태소 분석: {pos_without_dict}")
print(f"사용자 사전을 등록한 형태소 분석: {pos_with_dict}")

사용자 사전 없는 형태소 분석: [('나', 'NP'), ('어제', 'MAG'), ("'", 'SS'), ('더', 'MAG'), ('글로리', 'NNP'), ("'", 'SS'), ('정주', 'NNP'), ('행하', 'VV'), ('았', 'EP'), ('어', 'EF'), ('!', 'SF')]
사용자 사전을 등록한 형태소 분석: [('나', 'NP'), ('어제', 'MAG'), ("'", 'SS'), ('더 글로리', 'NNP'), ("'", 'SS'), ('정주행', 'NNG'), ('하', 'XSV'), ('았', 'EP'), ('어', 'EF'), ('!', 'SF')]
