## 자연어 처리(NLP: Natural Language Processing)

### 정의

- 언어 모델(Language Model, LM)은 언어라는 현상을 모델링하고자 단어 시퀀스(문장)에 확률을 할당(assign)하는 모델로서 특정 문장(=단어의 나열)이 등장할 확률을 계산해 줌
- 언어 모델을 만드는 방법은 크게는 통계를 이용한 방법과 인공 신경망을 이용한 방법으로 구분할 수 있으며 최근에는 통계를 이용한 방법보다는 인공 신경망을 이용한 방법이 더 좋은 성능을 보여주고 있음.
- 문장에 대해 확률을 계산할 수 있다는 건, 단어(혹은 문장)를 적절하게 선택하거나 생성해야하는 경우 여러 후보 중에서 더 적절한(확률이 높은) 후보를 선택하는 데에 사용될 수 있음

### 언어모델 종류

#### Unigram 언어 모델(bag of words)

제일 단순한 언어모델로서 각각의 단어가 출현할 확률이 독립이라고 가정하고 모두 따로따로 계산.
- 각각의 단어를 독립적으로 보기 때문에 단어의 순서를 전혀 고려하지 않게 됨.
- 이 모델에서는 전체 문장에서 각 어휘가 몇 번씩 등장했는지만 고려함. (순서 고려안함)
- 학습용 말뭉치에서 각 어휘의 빈도를 조사해서 등장 확률을 계산

확률을 추정하는 것과 계산하는 것이 매우 빠르기 때문에 노이즈 데이터를 1차로 필터링하는데 사용되며 SentencePiece라는 서브워드 토크나이저에서 토큰의 유용성을 판단하는 데에도 사용됨

#### n-gram 언어 모델

Unigram과 달리 이전 단어를 고려하여 다음 단어의 확률을 계산
n-gram 모델에서는 다음 단어를 예측하기 위해 이전의 n-1개의 단어를 활용
- n은 보통 2~6개 선택함
- 2-gram 모델 예: a 다음에 b가 나올 확률 계산 -> a?의 빈도수 / ab의 빈도수
- 3-gram 모델 예: aba 다음에 c가 나올 확률 계산 -> abc의 빈도수 / ab?의 빈도수
- 출현빈도수가 0인 자료에 대한 문제해결: 학습 말뭉치에 등장하지 않는 패턴에 대해 적당히 추정하는 Smoothing 기법

#### Kneser-ney 언어 모델

Kneser-ney smoothing은 n-gram 모델의 여러 smoothing 기법 중에서 가장 높은 성능을 내는 것으로 알려져 있음
- ab 다음에 c가 등장할 확률을 계산할 때, b 다음에 c가 등장할 확률도 함께 고려함
- b 다음 c가 등장할 확률을 계산할 때도 c가 등장할 확률도 함꼐 고려함.
- 따라서 만약 abc가 등장한 빈도가 0일지라도, bc가 등장한 빈도와 그냥 c가 등장한 빈도가 모두 0일리는 없으므로, 최종적으로 항상 0보다 큰 확률값을 계산해낼 수 있게 됨

### Count기반 단어 표현 모델

#### TF-IDF(Term Frequency-Inverse Document Frequency) 개념

- 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서내에서 얼마나 중요한 것인지를 나타내는 통계적 수치임. (기본적으로 단어의 빈도수를 이용한 수치화 방법이기 때문에 단어의 의미를 고려하지 못한다는 단점이 있음)
- TF-IDF(Term Frequency-Inverse Document Frequency)는 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법임.
- 우선 DTM을 만든 후, TF-IDF 가중치를 부여하며 TF-IDF는 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있음.
- 사이킷런에서 TfidVectorizer 패키지로 사용해도 되나 한글과 영문숫자가 혼용된경우 한글만 처리하는 경우가 있어 상황에 따라 직접 모듈을 제작해야함.

#### DTM과 TF

- DTM: 문서(Document)별의 단어(Term) 출현 빈도수(TF)를 가로 세로의 행열(matrix) 단위로 표시한 자료
- TF(Term Frequency): 어떤 단어가 특정 문서에 얼마나 많이 쓰였는지의 횟수

#### TF-IDF

- TF(Term Frequency): 특정 단어가 하나의 데이터 안에서 등장하는 횟수
- DF(Document Frequency): 특정 단어가 여러 데이터에 자주 등장하는지를 알려주는 지표
- IDF(Inverse Document Frequency): DF에 역수를 취해(inverse) 구함
- TF-IDF: TF와 IDF를 곱한 값. 즉 TF가 높고, DF가 낮을수록 값이 커지는 것을 이용하는 것. 여러문서에 출현빈도가 높으면 TF-IDF값은 낮아짐

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
%cd /content/drive/MyDrive/dataAnalysis/data

/content/drive/MyDrive/dataAnalysis/data


In [20]:
import numpy as np

txt = [
  '파이썬 차트 파이썬 머신러닝',
  '차트 파이썬 R 차트',
  'R 분석 시각화'
]

# 외부데이터 불러오기
f = open('샘플텍스트.txt', 'r', encoding='utf-8')
tmp = f.read()
txt = tmp.split('\n')
txt

['파이썬 차트 파이썬 머신러닝', '차트 파이썬 R 차트', 'R 분석 시각화']

In [23]:
## [방법1] 빈칸단위로 나누기

txt_list = []
for i in txt:
  txt_list.append(i.split(' '))

txt_list

[['파이썬', '차트', '파이썬', '머신러닝'], ['차트', '파이썬', 'R', '차트'], ['R', '분석', '시각화']]

In [24]:
## [방법2] 데이터 나누기 컴프리헨션

txt_list = [i.split(' ') for i in txt]
txt_list

[['파이썬', '차트', '파이썬', '머신러닝'], ['차트', '파이썬', 'R', '차트'], ['R', '분석', '시각화']]

In [28]:
## [방법1] 2차원리스트를 1차원으로 변형

import numpy as np

data_list = []
for i in txt_list:
  for j in i:
    data_list.append(j)

data_list

['파이썬', '차트', '파이썬', '머신러닝', '차트', '파이썬', 'R', '차트', 'R', '분석', '시각화']

In [29]:
## [방법2] 2차원 리스트 1차원 결합 컴프리헨션

data_list = [j for i in txt_list for j in i]
data_list

['파이썬', '차트', '파이썬', '머신러닝', '차트', '파이썬', 'R', '차트', 'R', '분석', '시각화']

In [30]:
## [방법3] 넘파이를 이용하여서 한개의 리스트로 제작가능

tmp = np.concatenate(np.array(txt_list))
tmp

  This is separate from the ipykernel package so we can avoid doing imports until


array(['파이썬', '차트', '파이썬', '머신러닝', '차트', '파이썬', 'R', '차트', 'R', '분석',
       '시각화'], dtype='<U4')

In [42]:
## [방법1] 중복제거. 이 작업은 중복제거 되지만 sort 되지는 않음.

unique_list = []
for i in data_list:
  if i in unique_list:
    pass
  else:
    unique_list.append(i)

# unique_list.sort()
unique_list

['파이썬', '차트', '머신러닝', 'R', '분석', '시각화']

In [35]:
## [방법2] 넘파이 제공 unique함수 사용
## 이 unique 함수에 대한 기술은 아래 사이트에서 확인하면 됨
## https://github.com/numpy/numpy/blob/v1.21.0/numpy/lib/arraysetops.py#L138-L317
## 위의 사이트에서 unique 함수에 대하여 확인

np.unique(tmp)

array(['R', '머신러닝', '분석', '시각화', '차트', '파이썬'], dtype='<U4')

In [36]:
## [방법3] set함수를 이용
## set함수는 index를 제공하지 않음. list 함수로 변경해야함

a = list(set(data_list))
a[0]

'차트'

In [52]:
## DTM 제작
## [방법1] count 함수 사용

import pandas as pd

dtm = []
for a in unique_list:
  row = []
  for i in txt_list:
    row.append(i.count(a))
  dtm.append(row)

df = pd.DataFrame(dtm)
df = df.T
df.columns = unique_list
df

numdf = df.values
print(np.sum(numdf, axis=0))
print(np.sum(numdf, axis=1))

df

[3 3 1 2 1 1]
[4 4 3]


Unnamed: 0,파이썬,차트,머신러닝,R,분석,시각화
0,2,1,1,0,0,0
1,1,2,0,1,0,0
2,0,0,0,1,1,1


In [53]:
## 컬럼자료의 출현횟수를 계산함.
## 직접작성
## [방법2] count 함수도 직접 제작

import pandas as pd

result = []

for col in unique_list:
  list_ = []
  for row in txt_list:
    cnt = 0

    for item in row:
      if col == item:
        cnt += 1

    list_.append(cnt)
  result.append(list_)

df = pd.DataFrame(result)
print(df)

print('-----------------')
df = df.T
print(df)

df.columns = unique_list
display(df)

print(np.sum(df.values, axis=1))
print(np.sum(df.values, axis=0))

   0  1  2
0  2  1  0
1  1  2  0
2  1  0  0
3  0  1  1
4  0  0  1
5  0  0  1
-----------------
   0  1  2  3  4  5
0  2  1  1  0  0  0
1  1  2  0  1  0  0
2  0  0  0  1  1  1


Unnamed: 0,파이썬,차트,머신러닝,R,분석,시각화
0,2,1,1,0,0,0
1,1,2,0,1,0,0
2,0,0,0,1,1,1


[4 4 3]
[3 3 1 2 1 1]


In [56]:
## [방법3]

txt = [
  '파이썬 차트 파이썬 머신러닝',
  '차트 파이썬 R 차트',
  'R 분석 시각화'
]

vocab = list(set(w for doc in txt for w in doc.split()))
vocab.sort()
vocab

def tf(t, d):
  return d.count(t)

result = []
N = len(txt)
for i in range(N):
  result.append([])
  d = txt[i]
  for j in range(len(vocab)):
    t = vocab[j]
    result[-1].append(tf(t, d))

tf_ = pd.DataFrame(result, columns=vocab)
tf_

Unnamed: 0,R,머신러닝,분석,시각화,차트,파이썬
0,0,1,0,0,1,2
1,1,0,0,0,2,1
2,1,0,1,1,0,0


In [62]:
## [참고] 사이킷런 모듈
## 한글과 영어가 혼용되면 영어를 표시못하는 단점이 있음

txt = [
  '파이썬 차트 파이썬 머신러닝',
  '차트 파이썬 R 차트',
  'R 분석 시각화'
]

from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer() # 일반적으로 공백을 기준으로 나눔
tdm = cv.fit_transform(txt)

display(tf_)
print(tdm)

# 단어목록 확인
feature = cv.get_feature_names_out()
print(feature)

print('\n----tf Matrix----')
txt_tdm = tdm.todense()
print(txt_tdm)

pd.DataFrame(tdm.todense(), columns=feature)

Unnamed: 0,R,머신러닝,분석,시각화,차트,파이썬
0,0,1,0,0,1,2
1,1,0,0,0,2,1
2,1,0,1,1,0,0


  (0, 4)	2
  (0, 3)	1
  (0, 0)	1
  (1, 4)	1
  (1, 3)	2
  (2, 1)	1
  (2, 2)	1
['머신러닝' '분석' '시각화' '차트' '파이썬']

----tf Matrix----
[[1 0 0 1 2]
 [0 0 0 2 1]
 [0 1 1 0 0]]


Unnamed: 0,머신러닝,분석,시각화,차트,파이썬
0,1,0,0,1,2
1,0,0,0,2,1
2,0,1,1,0,0


In [66]:
## 참고: 장바구니 분석을 위한 count

txt = [
  '파이썬 차트 파이썬 머신러닝',
  '차트 파이썬 R 차트',
  'R 분석 시각화'
]

vocab = list(set(w for doc in txt for w in doc.split()))

result = []
for data in txt_list:
  list_ = [True if x in data else False for x in unique_list]
  result.append(list_)

result

pd.DataFrame(result, columns=unique_list)

Unnamed: 0,파이썬,차트,머신러닝,R,분석,시각화
0,True,True,True,False,False,False
1,True,True,False,True,False,False
2,False,False,False,True,True,True


In [68]:
## TF-IDF 제작-1

txt = [
  '파이썬 차트 파이썬 머신러닝',
  '차트 파이썬 R 차트',
  'R 분석 시각화'
]

vocab = list(set(w for doc in txt for w in doc.split()))
vocab.sort()
vocab

def tf(t, d):
  return d.count(t)

result = []
N = len(txt)
for i in range(N):
  result.append([])
  d = txt[i]
  for j in range(len(vocab)):
    t = vocab[j]
    result[-1].append(tf(t, d))

tf_ = pd.DataFrame(result, columns=vocab)
tf_

from math import log # IDF 계산을 위해

N = len(tf_)
print(N)
re = []

for row in tf_.values:
  line = []
  for col in row:
    line.append(log(N / (col + 1)))
  re.append(line)

pd.DataFrame(np.array(result) * np.array(re), columns=vocab)

3


Unnamed: 0,R,머신러닝,분석,시각화,차트,파이썬
0,0.0,0.405465,0.0,0.0,0.405465,0.0
1,0.405465,0.0,0.0,0.0,0.0,0.405465
2,0.405465,0.0,0.405465,0.405465,0.0,0.0


In [70]:
## TF-IDF 제작-2
## https://wikidocs.net/31698
from math import log

def tf(t, d):
  return d.count(t)

def idf(t):
  df = 0
  for doc in docs:
    df += t in doc
  
  return log(N / (df + 1))

def tfidf(t, d):
  return tf(t, d) * idf(t)

def split(docs):
  return list(set(w for doc in docs for w in doc.split()))

In [73]:
## TF-IDF 제작

import pandas as pd # 데이터프레임 사용을 위해
from math import log # IDF 계산을 위해

docs = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
]

vocab = split(docs)
vocab.sort()

N = len(docs)

result = []
for i in range(N):
  result.append([])
  d = docs[i]
  for j in range(len(vocab)):
    t = vocab[j]
    result[-1].append(tfidf(t, d))

tfidf_ = pd.DataFrame(result, columns=vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147
