<a href="https://colab.research.google.com/github/movie112/INU-DILAB/blob/main/NLP_pytorch/NLP_ch2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 파이토치로 배우는 자연어 처리: ch2
## 2. NLP 기술 빠르게 훑어보기   
2.1 말뭉치, 토큰, 타입   
2.2 유니그램, 바이그램, 트라이그램,,, n-그램   
2.3 포제어와 어간   
2.4 문장과 문서 분류하기   
2.5 단어 분류하기: 품사 태깅   
2.6 청크 나누기와 개체명 인식   
2.7 문장구조   
2.8 단어 의미와 의미론

---


## 2.1 말뭉치, 토큰, 타입
- 모든 NLP 작업은 `말뭉치(cprpus)`라 부르는 텍스트 데이터에서 시작
  - 말뭉치는 원시 텍스트(ASCII, UTF-8)와 메타데이터를 포함
- 원시 텍스트
  - 문자(바이트) 시퀀스지만 일반적으로 문자를 __토큰__이라는 연속된 단위로 묶었을 때 유용
  - 영어에서 토큰은 공백 문자나 구두점으로 구분되는 단어와 숫자에 해당
- 메타 데이터
  - 식별자, 레이블, 타임스탬프 등 텍스트와 관련된 어떤 부가 정보도 될 수 있다.
  - 메타 데이터가 붙은 텍스트를 __샘플__, __데이터 포인트__ 라고 부름
  - 샘플의 모음인 말뭉치는 __데이터셋__이라고 부름

- 토큰화: 텍스트를 토큰으로 나누는 과정


- 텍스트 토큰화

In [2]:
import spacy
nlp = spacy.load('en')
text = "Mary, don't slap the green witch"
print([str(token) for token in nlp(text.lower())])

['mary', ',', 'do', "n't", 'slap', 'the', 'green', 'witch']


In [3]:
from nltk.tokenize import TweetTokenizer
tweet =u"Snow White and the Seven Degrees #MakeAMovieCold @ midnight:-)"
tokenizer = TweetTokenizer()
print(tokenizer.tokenize(tweet.lower()))

['snow', 'white', 'and', 'the', 'seven', 'degrees', '#makeamoviecold', '@', 'midnight', ':-)']


- `타입`: 말뭉치에 등장하는 고유한 토큰
  - 말뭉치에 있는 모든 타입의 집합이 어휘.
  - 단어는 내용어(content words), 불용어(stopword)로 구분
  - 관사와 전치사 같은 불용어는 대부분 내용어를 보충하는 문법적인 용도로 사용

## 2,2 유니그램, 바이그램, 트라이그램,,,n-그램
n-그램: 텍스트에 있는 고정길이(n)의 연속된 코튼 시퀀스   
바이그램: 토큰 2개

In [4]:
def n_grams(test, n):
  '''
  tokes tokens or test, returns a list of n-grams
  '''
  return [test[i:i+n] for i in range(len(test)-n+1)]

cleaned = ['mary', ',', "n't", 'slap', 'green', 'witch', '.']
print(n_grams(cleaned, 3))

[['mary', ',', "n't"], [',', "n't", 'slap'], ["n't", 'slap', 'green'], ['slap', 'green', 'witch'], ['green', 'witch', '.']]


부분단어(subword) 자체가 융용한 정보를 전달한다면 문자 n-그램을 생성할 수 있다. 예를들어 'methanol'의 접미사 '-ol'은 알코올 종류를 나타냄 유기 화합물 이름을 구분하는 작업에서는 n-그램으로 찾은 부분 단어의 정보가 유용할 것. 이런 경우 같은 코드를 재사용할 수 있지만 모든 문자의 n-그램을 토큰 하나로 취급

## 2.3 표제어와 어간
표제어(lemma): 단어의 기본형

In [6]:
nlp = spacy.load('en')
doc = nlp("he was running late")
for token in doc:
  print('{}-->{}'.format(token, token.lemma_))

he-->-PRON-
was-->be
running-->run
late-->late


어간 추출:(stemming) 표제어 추출 대신 사용하는 축소기법
- 수동으로 만든 규칙을 사용해 단어의 끝을 잘라 어간(stem)이라는 공통 형태로 축소
- Porter와 Snowball 어간 추출기가 유명

## 2.4 문장과 문서 분류하기
- TF, TF-IDF 표현이 긴 텍스트 뭉치를 문류하는 데 유용

## 2.5 단어 분류하기: 품사 태깅
문서에 레이블을 할당하는 개념을 단어나 토큰으로 확장할 수 있다. 단어 분류 작업의 예로 품사(part of speech(POS)), 태깅(tagging)

In [None]:
nlp = spacy.load('en')
doc = nlp(u"Mary slapped the green witch.")
for token in doc:
  print('{} - {}'.format(token, token.pos_))

Mary - PROPN
slapped - VERB
the - DET
green - ADJ
witch - NOUN
. - PUNCT


## 2.6 청크 나누기와 개체명 인식
종종 연속된 여러 토큰으로 구분되는 텍스트 구에 레이블을 할당해야 함   
example) "Mary flapped the green witch."
- 명사구(NP), 동사구(VP)를 구별 필요: [NP Mary] [VP slapped] [the green witch]
- 이를 청크 나누기(chunking) 또는 부분 구문 분석(shallow parsing)
- 목적: 명사, 동사 같은 문법 요소로 구성된 고차원의 단위를 유도해 내는 것


In [None]:
nlp = spacy.load('en')
doc = nlp(u"Mary slapped the green witch.")
for chunk in doc.noun_chunks:
  print('{} - {}'.format(chunk, chunk.label_))

Mary - NP
the green witch - NP


- 개체명(named entity): 실제 세상의 개념을 의미하는 문자열

## 문장 구조
구문 분석(parsaing): 구 사이의 관계 파악   
- 구성 구문 분석
- 의존 구문 분석

## 단어 의미와 의미론
- 의미(sense): 단어가 나타내는 각각의 뜻