<a href="https://colab.research.google.com/github/hdpark1208/StudyCode/blob/main/NLP/NLP_LanguageModel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 통계적 언어모델(Statistical Language Model, SLM)
> 조건부 확률에 의한 카운트 기반의 접근방식
* 카운터 기반 접근의 한계 - 희소 문제(Sparsity Problem)

### N-gram Language Model
> n-gram : n개의 연속적인 단어 뭉치
> 앞의 n 개의 단어를 통해 유추한다. 하지만 n이 작을 경우 문맥이 고려되지 않을 수 있다는 문제가 있다  
> 그렇다고 n을 크게 선택할 경우 희소 문제는 커지므로 trade-off 문제가 된다


## 언어 모델의 평가 방법(Evaluation Metric)

* Perplexity(PPL) : 언어모델을 평가하기 위한 내부 평가 지표 ~ 헷갈리는 정도 
* PPL은 선택할 수 있는 가능한 경우의 수를 의미하는 분기계수(branching factor)이다
* PPL이 낮다는 것은 테스트 데이터 상에서 높은 정확도를 보인다는 의미. 반드시 문맥적으로 좋다는 걸 의미하진 않는다.

## 단어의 표현 방법
1. Local Representation (Discrete)
2. Distributed Representation (Continuous)

![image.png](attachment:image.png)
출처 : https://wikidocs.net/31767

## Bag of Words(BOW)
> 단어의 빈도에만 집중하는 텍스트 데이터의 수치화 표현 방법
1. 각 단어에 고유한 정수 인덱스를 부여한다
2. 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만든다

In [None]:
from konlpy.tag import Okt
import re
okt = Okt()

* insert(a, b)는 리스트의 a번째 위치에 b를 삽입하는 함수이다

In [None]:
test = [1,2,3,4,5]
test.insert(3,30)
test

[1, 2, 3, 30, 4, 5]

In [None]:
test = {0:0,1:10,2:20,3:30}
test.get(3) # value

30

In [None]:
sentence = "정.부가 발.표하는 물가상.승률.과. .소비자가 느끼는 물가상승률은 다르다."
token = re.sub("(\.)","",sentence) # 정규표현식을 통해 온점을 제거하는 정제 작업
print(token,"\n")
token=okt.morphs(token) # OKT 형태소 분석기를 통해 토큰화 작업을 수행
print(token)

정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다 

['정부', '가', '발표', '하는', '물가상승률', '과', '소비자', '가', '느끼는', '물가상승률', '은', '다르다']


In [None]:
word2index={}
bow=[]
for voca in token:
    if voca not in word2index.keys():
        word2index[voca]=len(word2index) 
        # token을 읽으면서, word2index에 없는 단어를 word2index에 추가
        # 그러면 word2index 의 길이가 1 늘어나므로 인덱스를 겹치지않고 계속 부여할 수 있다
        bow.insert(len(word2index)-1,1)
        #리스트에도 자리마다 1을 넣어준다
    else:
        index = word2index.get(voca)
        bow[index]=bow[index]+1
        
print(word2index) # 각 token의 인덱스
print(bow) # 인덱스가 가르키는 token의 빈도

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


In [None]:
sentence1 = '소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.'
token = re.sub("(\.)","",sentence1)
token = okt.morphs(token)

for voca in token: # 문장 추가
    if voca not in word2index.keys():
        word2index[voca]=len(word2index) 
        bow.insert(len(word2index)-1,1)
    else:
        index = word2index.get(voca)
        bow[index]=bow[index]+1
        
print(word2index) # 각 token의 인덱스
print(bow) # 인덱스가 가르키는 token의 빈도

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}
[1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]


* 라이브러리를 이용하여 빠르게

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['you know i want your love. because i love you.']
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)
# CountVectorizer는 길이가 2 이상인 문자만 토큰으로 인식한다(Cleaning)
# i 제거

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


* 사용자지정 불용어

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

text =["Family is not an important thing. It's everything"]
vect = CountVectorizer(stop_words=["the","a","an","is","not"])
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


* CountVectorizer 불용어

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything. every any some"]
vect = CountVectorizer(stop_words="english")
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


* NLTK 불용어

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text=["Family is not an important thing. It's everything. every any some"]
sw = stopwords.words("english")
vect = CountVectorizer(stop_words =sw)
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 2, 'important': 3, 'thing': 4, 'everything': 1, 'every': 0}


## Document-Term Matrix, DTM
> 서로 다른 문서들의 Bow들을 결합한 표현 방법 ( 각 Bow를 행으로 하는 행렬)
* 문서 간 비교가 가능하게 수치화시킨다는 의의가 있다

## TF-IDF(Term Frequency-Inverse Document Frequency)
> 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취하는 식)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법  
1. DTM을 만든다
2. TF-IDF 가중치를 부여한다
* 특정 단어의 빈도가 높으면 중요하게 보지만 그 단어가 모든 문서에 쓰이는 단어라면 덜 중요하게 보는 것이다

In [None]:
# 직접 구현
import pandas as pd
from math import log

In [None]:
docs = [
    '먹고 싶은 바나나',
    '먹고 싶은 사과',
    '길고 노란 바나나 바나나',
    '저는 과일이 좋아요'
]
vocab = list(set(w for doc in docs for w in doc.split()))

vocab.sort()

vocab

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']

In [None]:
N = len(docs) # 총 문서의 수

def tf(t,d): # 특정문서 d에서 단어 t가 나온 횟수
    return d.count(t)

def idf(t): # 
    df = 0
    for doc in docs:
        df += t in doc
    return log(N/(df+1))

def tfidf(t,d):
    return tf(t,d)*idf(t)

In [None]:
tf('나','나 나나 나비 너 너 나무')

5

In [None]:
test = 0

test += '나' in '나 나무 나 무 나무나무' # 있으면 1 없으면 0
test += '나무' in '나 나무 나 무 나무나무' # 있으면 1 없으면 0
test += '무나' in '나 나무 나 무 나무나무' # 있으면 1 없으면 0
test += '물' in '나 나무 나 무 나무나무' # 있으면 1 없으면 0

test

3

In [None]:
result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]
        result[-1].append(tf(t,d))
tf_ = pd.DataFrame(result,columns = vocab)
tf_


Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,1,0,1,0,0
1,0,0,0,1,0,1,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


In [None]:
result = []
for j in range(len(vocab)):
    t= vocab[j]
    result.append(idf(t))
    
idf_ = pd.DataFrame(result,index = vocab,columns = ['IDF'])
idf_

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [None]:
result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]

        result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


* 사이킷런을 이용한 TF-IDE

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]
tfidfv = TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray())
print(tfidfv.vocabulary_)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
