<a href="https://colab.research.google.com/github/junieberry/NLP-withPyTorch/blob/main/02_BasicNLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 2.1 말뭉치, 토큰, 타입

**말뭉치(corpus)**는 원시 텍스트나 연관된 메타데이터 포함

일반적으로 **토큰**으로 묶었을 때 유용함

이러한 과정을 **토큰화**라고 함

메타데이터가 붙은 텍스트를 **샘플**, 혹은 데이터 포인트라고 일컬음

샘플의 모등은 **데이터셋**이라고 함

텍스트 토큰화

In [7]:
import spacy
nlp = spacy.load('en')
text = "Mary, don't slap the green witch"
tokenized_text = [str(token) for token in nlp(text.lower())]

print(tokenized_text)

['mary', ',', 'do', "n't", 'slap', 'the', 'green', 'witch']


## 2.2 유니그램, 바이그램, 트라이그램, n-그램

**n-그램(n-gram)**은 텍스트에 있는 고정 길이 n의 연속된 토큰 시퀀스

때론 부분 단어의 정보가 유용할 수 있다.


In [8]:
def n_grams(text, n):
  return [text[i:i+n] for i in range(len(text)-n+1)]

print(n_grams(tokenized_text, 3))

[['mary', ',', 'do'], [',', 'do', "n't"], ['do', "n't", 'slap'], ["n't", 'slap', 'the'], ['slap', 'the', 'green'], ['the', 'green', 'witch']]


## 2.3 표제어와 어간

**표제어(lemma)** : 단어의 기본형

fly는 flew, flies 등의 표제어이다.

토큰을 표제어로 바꾸어 벡터 표현의 차원을 줄이기도 한다.

아래 예제에서 spaCy는 사전에 정의된 WordNet을 사용해 표제어를 추출한다.

이러한 표제어 추출 방식 대신 **어간 추출(stemming)** 방식도 있다.

어간 추출 방식에서는 수동으로 만든 규칙을 통해 단어의 끝을 잘라 어간 형태로 축소한다.

In [9]:
nlp = spacy.load('en')
doc = nlp(u"he was running late")
for token in doc:
  print('{} --> {}'.format(token, token.lemma_))

he --> -PRON-
was --> be
running --> run
late --> late


## 2.4 문장과 문서 분류하기

1장의 TF나 TF-IDF가 긴 텍스트 뭉치 분류에 용이하다.

레이블된 데이터셋이 적을 때는 준지도 학습이 유용하다.

## 2.5 단어 분류하기: 품사 태깅

**품사 : part-of-speech(POS)**

단어 분류 작업의 예제

In [10]:
nlp = spacy.load('en')
doc = nlp(u"Mary slapped the green witch.")
for token in doc:
  print('{} -- {}'.format(token, token.pos_))

Mary -- PROPN
slapped -- VERB
the -- DET
green -- ADJ
witch -- NOUN
. -- PUNCT


## 2.6 청크 나누기와 개체명 인식

때로는 텍스트 구에 레이블을 할당해야 한다.

```
[NP Mary] [VP slapped] [the green witch].
```

NP = 명사구

VP = 동사구


이와 같은 **chunking** 혹은 **shallow parsing**을 통해 고차원의 단위를 유도할 수 있다.



## 2.7 문장 구조

구 단위를 식별하는 부분 구문 분석과 다르게 **구문 분석(parsing)**은 구 사이의 관계를 파악한다.

- 구성 구문 분석
- 의존 구문 분석


## 2.8 단어 의미와 의미론

단어에는 의미가 하나 이상 있다.

이때의 의미를 **sense**라고 한다.