# 자연어 처리 (NLP, Natural Language Processing)

- **`자연어`**
  - 사람들이 일상적으로 사용하는 언어 (↔ 인공어)
  - 음성, 텍스트
  - 불규칙적

- **`자연어 처리`**
  - 자연어를 기계를 이용해 모사할 수 있도록 연구하고 이를 구현하는 AI분야

<!-- - **`처리 과정`**
  - 이해과정 (NLUnderstanding) : 화자의 의도 파악
  - 문장생성과정 (NLGeneration) : 언어로 표현 -->

- **`단어 표현`**: `텍스트`를 `숫자`로 바꿔야함 (기계가 인식할 수 있도록)
  1. 주어진 텍스트 데이터를 문장이나 단어 단위로 토크나이징
  2. 불용어 제거 후 vocabulary(사전) 생성
  3. stemming이나 lemmatization으로 특징 추출
  4. 3을 TF-IDF같은 툴로 특징 추출한 결과물을 모델에 이용


## **sklearn을 이용한 특징 추출**
  - 특징 추출: 텍스트 데이터에서 단어나 문장들을 어떤 특정 값으로 바꿔주는 것
    - `CountVectorizer`: **횟수**를 기준으로 특징 추출
    - `TfidfVectorizer`: **TF**와 **IDF**를 이용해 특징 추출 (TF가 높을수록, DF가 낮을수록 중요한 단어)
    - `HashingVectorizer`

In [41]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, HashingVectorizer

text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']

In [42]:
# CountVectorizer
count_vectorizer = CountVectorizer()    # CountVectorizer 객체 생성
count_vectorizer.fit(text_data)         # fitting
print('cnt vec:', count_vectorizer.vocabulary_)     # vocabulary 확인

# TF-IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_vectorizer.fit(text_data)
print('tfidf:', tfidf_vectorizer.vocabulary_)

# Hashing
hash_vectorizer = HashingVectorizer(n_features=10)    # n_features: 사전의 크기에 해당
hash_vectorizer.fit(text_data)

cnt vec: {'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}
tfidf: {'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}


HashingVectorizer(n_features=10)

In [29]:
# *** 아래 두 dictionary 만들어서 사용 ***
word2idx = count_vectorizer.vocabulary_             
idx2word = {v:k for (k, v) in word2idx.items()}     # 역으로 value값으로 key를 찾을 수 있도록 바꾼 dictionary를 하나 만들어줌
print(word2idx)
print(idx2word)

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}
{2: '나는', 6: '배가', 0: '고프다', 3: '내일', 7: '점심', 5: '뭐먹지', 1: '공부', 8: '해야겠다', 4: '먹고', 9: '해야지'}


In [44]:
sentence = [text_data[0]]

# CountVectorizer
print(count_vectorizer.transform(sentence).toarray())    # 단점: 실제 문장 순서와 다름
count_vectorizer.transform(sentence)                     # 1인 위치만 기록하고 나머지는 0으로 저장하는 방식

# TF-IDF
print()
print(tfidf_vectorizer.transform(sentence).toarray())

# Hashing
print()
print(hash_vectorizer.transform(sentence).toarray())

[[1 0 1 0 0 0 1 0 0 0]]

[[0.57735027 0.         0.57735027 0.         0.         0.
  0.57735027 0.         0.         0.        ]]

[[ 0.          0.57735027  0.          0.          0.57735027  0.
  -0.57735027  0.          0.          0.        ]]


## **자연어 토크나이징**
  - 텍스트에 대한 정보를 단어나 문장같은 **특정 단위**별로 나눔
  


### 영어 토크나이징

In [49]:
import nltk
nltk.download('punkt')        # 
nltk.download('stopwords')    # 불용어 목록

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [51]:
from nltk.tokenize import sent_tokenize, word_tokenize

paragraph = """
Natural language processing (NLP) is a subfield of computer science, information engineering, 
and artificial intelligence concerned with the interactions between computers and human (natural) languages, 
in particular how to program computers to process and analyze large amounts of natural language data. 
Challenges in natural language processing frequently involve speech recognition, natural language understanding, 
and natural language generation.
"""
sent_tokens = sent_tokenize(paragraph)
print(sent_tokens)

['\nNatural language processing (NLP) is a subfield of computer science, information engineering, \nand artificial intelligence concerned with the interactions between computers and human (natural) languages, \nin particular how to program computers to process and analyze large amounts of natural language data.', 'Challenges in natural language processing frequently involve speech recognition, natural language understanding, \nand natural language generation.']


In [60]:
word_tokens = [word_tokenize(sent_token) for sent_token in sent_tokens]
word_tokens[1]

['Challenges',
 'in',
 'natural',
 'language',
 'processing',
 'frequently',
 'involve',
 'speech',
 'recognition',
 ',',
 'natural',
 'language',
 'understanding',
 ',',
 'and',
 'natural',
 'language',
 'generation',
 '.']

In [63]:
# stop word
stopwords = nltk.corpus.stopwords.words('english')    # 등록된 stop word
stopwords.append(',')   # 원하는 불용어 추가

stopwords[:15]  # 불용어 목록 확인

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours']

In [65]:
# 불용어 제거
all_tokens = []
for sent in word_tokens:
  all_tokens.append([word for word in sent if word.lower() not in stopwords])
all_tokens[1]

['Challenges',
 'natural',
 'language',
 'processing',
 'frequently',
 'involve',
 'speech',
 'recognition',
 'natural',
 'language',
 'understanding',
 'natural',
 'language',
 'generation',
 '.']

In [66]:
# Stemming, 어간 추출 (단어에서 변하지 않는 부분)
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

for word in ['working', 'works', 'worked']:
  print(stemmer.stem(word))

work
work
work


In [68]:
# Lemmatization (표제어 추출)
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

lemma = WordNetLemmatizer()
for word in ['working', 'works', 'worked']:
  print(lemma.lemmatize(word, 'v'))   # v: 동사

for word in ['happier', 'happiest']:
  print(lemma.lemmatize(word, 'a'))   # a: 형용사

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
work
work
work
happy
happy


In [76]:
for word in all_tokens[1]:
  print(stemmer.stem(word))

challeng
nat
langu
process
frequ
involv
speech
recognit
nat
langu
understand
nat
langu
gen
.


In [78]:
# 문장이나 단어 단위로 토크나이징(word.tokens) -> 불용어제거하고 volcabulary 생성(all_tokens) -> stemming -> TF-IDF
word2idx = {}
n_idx = 0
for sent in all_tokens:
  for word in sent:
    if word.lower() not in word2idx:
      word2idx[word.lower()] = n_idx
      n_idx += 1

idx2word = {v:k for k, v in word2idx.items()}

In [None]:
word2idx

In [96]:
# 
senten = []
for sent in all_tokens:
  senten.append([word2idx[word.lower()] for word in sent])
print(senten)

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 3, 0, 5, 17, 18, 19, 15, 20, 21, 22, 23, 0, 1, 24, 25], [26, 0, 1, 2, 27, 28, 29, 30, 0, 1, 31, 0, 1, 32, 25]]


#### POS tag, part of Speech(품사) tagging


In [99]:
# POS tag
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')   # 품사 태깅을 위해 필요한 도구

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [101]:
sentence = """
Natural language processing (NLP) is a subfield of computer science, information engineering, 
and artificial intelligence concerned with the interactions between computers and human (natural) languages, 
in particular how to program computers to process and analyze large amounts of natural language data. 
"""
word_tokens = word_tokenize(sentence)
print(word_tokens)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


In [104]:
nltk.pos_tag(word_tokens)[:5]

[('Natural', 'JJ'),
 ('language', 'NN'),
 ('processing', 'NN'),
 ('(', '('),
 ('NLP', 'NNP')]

In [105]:
# 명사(NN)와 형용사(JJ)만 표시
sent_nnjj = [word for word, pos in nltk.pos_tag(word_tokens) if pos == 'NN' or pos == 'JJ']
sent_nnjj

['Natural',
 'language',
 'processing',
 'subfield',
 'computer',
 'science',
 'information',
 'engineering',
 'artificial',
 'intelligence',
 'human',
 'natural',
 'particular',
 'program',
 'large',
 'natural',
 'language']

In [None]:
# bigram, trigram, n-gram(n개 묶음)
bigram = [(a, b) for a, b in nltk.bigrams(sent_nnjj)]
trigram = [(a, b, c) for a, b, c in nltk.trigrams(sent_nnjj)]
ngram = [(a, b, c, d) for a, b, c, d in nltk.ngrams(sent_nnjj, 4)]

print(bigram, trigram, ngram)

### 한글 토크나이징

In [108]:
!pip install konlpy

import konlpy
from konlpy.tag import Okt

okt = Okt()

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 5.7 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 36.6 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


In [113]:
text = '한글 자연어 처리는 재밌다 이제부터 열심히 해야지 ㅎㅎㅎ.'

print(okt.morphs(text))
print(okt.morphs(text, stem=True))    # 형태소 단위로 나눈 후 어간 추출

['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '해야지', 'ㅎㅎㅎ', '.']
['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '하다', 'ㅎㅎㅎ', '.']


In [116]:
# 명사 추출
print('명사추출:', okt.nouns(text))

# 어절 추출
print('어절 추출:', okt.phrases(text))

# 품사 태깅
print('품사 태깅')
print(okt.pos(text))
print(okt.pos(text, join=True))

명사추출: ['한글', '자연어', '처리', '이제']
어절 추출: ['한글', '한글 자연어', '한글 자연어 처리', '이제', '자연어', '처리']
품사 태깅
[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('재밌다', 'Adjective'), ('이제', 'Noun'), ('부터', 'Josa'), ('열심히', 'Adverb'), ('해야지', 'Verb'), ('ㅎㅎㅎ', 'KoreanParticle'), ('.', 'Punctuation')]
['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '재밌다/Adjective', '이제/Noun', '부터/Josa', '열심히/Adverb', '해야지/Verb', 'ㅎㅎㅎ/KoreanParticle', './Punctuation']




---



## 단어 표현 (Word Representation)
  - word embedding, word vector라고도 불림
  - `분포가설` (Distributed hypothesis)
    - 같은 문맥의 단어, 즉 비슷한 위치에 나오는 단어는 비슷한 의미를 가진다
  - `카운트 기반 방법`과 `예측 기반 방법`
   1. `카운트 기반 방법` : 특정 문맥 안에서 단어들이 동시에 등장하는 횟수를 세는 방법
      - **동시발생행렬**(Co-occurence Matrix) 생성 후 행렬을 수치화해서 단어벡터로 만드는 방법을 사용하는 방식
        - 특이값 분해 (SVD)
        - 잠재의미분석 (Latent Semantic Analysis, LSA)
        - Hyperspace Analogue to Language (HAL)
        - Hellinger PCA (Principal Component Analysis)
   2. `학습 기반 방법` : 신경망 등을 통해 문맥 안의 단어들을 예측하는 방법
    - Word2vec


#### Co-occurence matrix 생성 방법

In [2]:
# 카운트 기반 방법에 사용되는 동시발생행렬 생성
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
text = ['성진과 창욱은 야구장에 갔다',
        '성진과 태균은 도서관에 갔다',
        '성진과 창욱은 공부를 좋아한다']

In [11]:
cv = CountVectorizer()
x = cv.fit_transform(text).toarray()
print(x)
print(x.T)

[[1 0 0 1 1 0 1 0]
 [1 0 1 1 0 0 0 1]
 [0 1 0 1 0 1 1 0]]
[[1 1 0]
 [0 0 1]
 [0 1 0]
 [1 1 1]
 [1 0 0]
 [0 0 1]
 [1 0 1]
 [0 1 0]]


In [8]:
C = np.dot(x.T, x)    # 동시발생행렬
np.fill_diagonal(C, 0)
C

array([[0, 0, 1, 2, 1, 0, 1, 1],
       [0, 0, 0, 1, 0, 1, 1, 0],
       [1, 0, 0, 1, 0, 0, 0, 1],
       [2, 1, 1, 0, 1, 1, 2, 1],
       [1, 0, 0, 1, 0, 0, 1, 0],
       [0, 1, 0, 1, 0, 0, 1, 0],
       [1, 1, 0, 2, 1, 1, 0, 0],
       [1, 0, 1, 1, 0, 0, 0, 0]])

#### 학습 기반 방법