#### 단어표현(Word Representation) 방법 분류 참고 사이트
https://heytech.tistory.com/335
* * *

- 단어 표현
    - 국소/이산 표현: 단어에 특정값 또는 숫자 매핑
    - 분산/연속 표현: 주변 단어를 이용하여 표현 (LSA, LDA, Word2vec, FastText, GloVe)
    
- 문장/문서 표현
    - Bag of Words(BoW) : 단어들의 순서를 무시, 단어(n-gram 포함)들의 출현을 이용하여 텍스트자료를 수치화 하는 방법
    - 벡터공간모형(Vector Space model): 문서의 단어들의 여부 (또는 빈도)를 단어집합(딕션너리) 크기 만큼의 벡터로 표현
    - 문서단어행렬(Document-Term Matrix; DTM): 전체 문서집합에 대하여 각 문서를 BoW모형과 벡터공간모형을 이용하여 같은 길이의 벡터를 생성하고, 이들을 결합하여 행렬로 표시

### 1. BoW 모형을 이용한 문서단어행렬(DTM)

#### 1) CountVectorizer : 빈도기반

In [17]:
from sklearn.feature_extraction.text import CountVectorizer    # CountVectorizer : 빈도기반

corpus = [
    "철수는 통계학과에 다닌다.",
    "빅데이터 분석에 필요한 것은 통계학적 지식과 프로그래밍 능력이다.",
    "4차산업의 핵심기술로 인공지능과 빅데이터가 있다.",
    "텍스트자료는 빅데이터에서 중요한 재료이다."
    ]
vector = CountVectorizer() # default: 길이가 2이상인 단어만 추출 
                           # 띄어쓰기만을 기준

In [18]:
# corpus 문서별 단어를 정수로 매핑하고, 단어의 빈도 수를 희소행렬(sparse martrix)로 변환
dtm = vector.fit_transform(corpus)
dtm.toarray()

array([[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0],
       [0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0],
       [1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0]],
      dtype=int64)

In [19]:
import pandas as pd
tf = pd.DataFrame(dtm.toarray(), columns = vector.get_feature_names_out())
tf

Unnamed: 0,4차산업의,것은,능력이다,다닌다,분석에,빅데이터,빅데이터가,빅데이터에서,인공지능과,있다,재료이다,중요한,지식과,철수는,텍스트자료는,통계학과에,통계학적,프로그래밍,필요한,핵심기술로
0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0
1,0,1,1,0,1,1,0,0,0,0,0,0,1,0,0,0,1,1,1,0
2,1,0,0,0,0,0,1,0,1,1,0,0,0,0,0,0,0,0,0,1
3,0,0,0,0,0,0,0,1,0,0,1,1,0,0,1,0,0,0,0,0


In [7]:
vector.vocabulary_    # 단어: 정수인덱스로 구성된 딕션너리

{'철수는': 13,
 '통계학과에': 15,
 '다닌다': 3,
 '빅데이터': 5,
 '분석에': 4,
 '필요한': 18,
 '것은': 1,
 '통계학적': 16,
 '지식과': 12,
 '프로그래밍': 17,
 '능력이다': 2,
 '4차산업의': 0,
 '핵심기술로': 19,
 '인공지능과': 8,
 '빅데이터가': 6,
 '있다': 9,
 '텍스트자료는': 14,
 '빅데이터에서': 7,
 '중요한': 11,
 '재료이다': 10}

- 불용어 제거 후 문서단어행렬(DTM) 만들기 (사용자정의 불용어)

In [8]:
from sklearn.feature_extraction.text import CountVectorizer   # CountVectorizer : 빈도기반

text=["Family is not an important thing","It's everything."]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"]) # 불용어의 사용자 정의
m = vect.fit_transform(text) # 단어의 빈도 수를 희소행렬로 받아옴

print(m.toarray()) # 희소행렬을 numpy array로 변환

[[0 1 1 0 1]
 [1 0 0 1 0]]


In [9]:
print(vect.vocabulary_) # 단어와 매치되는 정수 인덱스 딕션너리

{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


- 불용어 제거 후 문서단어행렬(DTM) 만들기 (```CountVectorizer```에서 제공하는 자체 불용어)

In [10]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(stop_words="english")

print(vect.fit_transform(text).toarray())

[[1 1 1]
 [0 0 0]]


In [11]:
print(vect.vocabulary_)

{'family': 0, 'important': 1, 'thing': 2}


- 불용어 제거 후 문서단어행렬(DTM) 만들기 (nltk에서 지원하는 불용어)

In [12]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
text=["Family is not an important thing","It's everything."]
sw = stopwords.words("english")
vect = CountVectorizer(stop_words =sw)

print(vect.fit_transform(text).toarray()) 

[[0 1 1 1]
 [1 0 0 0]]


In [13]:
print(vect.vocabulary_)

{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}


#### 2) TfidfVectorizer : TF-IDF 기반

In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    "철수는 통계학과에 다닌다.",
    "빅데이터 분석에 필요한 것은 통계학적 지식과 프로그래밍 능력이다.",
    "4차산업의 핵심기술로 인공지능과 빅데이터가 있다.",
    "텍스트자료는 빅데이터에서 중요한 재료이다."
    ]
tfidfv = TfidfVectorizer().fit_transform(corpus)
tfidfv.toarray()

array([[0.        , 0.        , 0.        , 0.57735027, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.57735027, 0.        ,
        0.57735027, 0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.35355339, 0.35355339, 0.        , 0.35355339,
        0.35355339, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.35355339, 0.        , 0.        ,
        0.        , 0.35355339, 0.35355339, 0.35355339, 0.        ],
       [0.4472136 , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.4472136 , 0.        , 0.4472136 , 0.4472136 ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.4472136 ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.5       , 0.        , 0.        ,
        0.5       , 0.5       , 0.        , 0

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidfv = TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray())

[[0.         0.         0.         0.57735027 0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.57735027 0.         0.57735027 0.         0.
  0.         0.        ]
 [0.         0.35355339 0.35355339 0.         0.35355339 0.35355339
  0.         0.         0.         0.         0.         0.
  0.35355339 0.         0.         0.         0.35355339 0.35355339
  0.35355339 0.        ]
 [0.4472136  0.         0.         0.         0.         0.
  0.4472136  0.         0.4472136  0.4472136  0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.4472136 ]
 [0.         0.         0.         0.         0.         0.
  0.         0.5        0.         0.         0.5        0.5
  0.         0.         0.5        0.         0.         0.
  0.         0.        ]]


### 2. 한글처리
#### 1) 형태소 분석
- morph: 형태소를 분리하여 단어 추출
- nouns: 명사에 해당되는 단어 추출
- pos: 단어 + 형태소

In [1]:
from konlpy.tag import Okt
corpus = [
    "철수는 통계학과에 다닌다.",
    "빅데이터 분석에 필요한 것은 통계학적 지식과 프로그래밍 능력이다.",
    "4차산업의 핵심기술로 인공지능과 빅데이터가 있다.",
    "텍스트자료는 빅데이터에서 중요한 재료이다."
    ]

okt = Okt()
okt_pos = okt.pos(corpus[0],
        norm=True,   # 정규화(normalization)
        stem=True    # 어간추출(stemming)
        )
print(okt_pos)

[('철수', 'Noun'), ('는', 'Josa'), ('통계', 'Noun'), ('학과', 'Noun'), ('에', 'Josa'), ('다니다', 'Verb'), ('.', 'Punctuation')]


In [3]:
# 형태소(POS)가 명사,동사,알파벳,숫자에 해당되는 단어 추출
# 정규화(normalization) 어간추출(stemming) 처리
def tokenizer(raw_texts, pos=["Noun","Alpha","Verb","Number"], stopword=[]):
    okt_pos = okt.pos(raw_texts, 
            norm=True,   # 정규화(normalization)
            stem=True    # 어간추출(stemming)
            )
    o = [word for word, tag in okt_pos if len(word) > 1 and tag in pos and word not in stopword]
    return(o)

tokenizer(corpus[0])

['철수', '통계', '학과', '다니다']

- TF-IDF 기반 DTM  (해석참고: https://heytech.tistory.com/337)

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorize = TfidfVectorizer(
    tokenizer=tokenizer, # 문장에 대한 tokenizer (위에 정의한 함수 이용)
    min_df=1,            # 단어가 출현하는 최소 문서의 개수
    sublinear_tf=True    # tf값에 1+log(tf)를 적용하여 tf값이 무한정 커지는 것을 막음
)

X = vectorize.fit_transform(corpus)
X.toarray()



array([[0.        , 0.        , 0.5       , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.5       , 0.        , 0.5       , 0.        ,
        0.        , 0.5       , 0.        ],
       [0.        , 0.43003652, 0.        , 0.43003652, 0.27448674,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.43003652, 0.        , 0.        , 0.        , 0.43003652,
        0.43003652, 0.        , 0.        ],
       [0.43003652, 0.        , 0.        , 0.        , 0.27448674,
        0.43003652, 0.43003652, 0.        , 0.        , 0.43003652,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.43003652],
       [0.        , 0.        , 0.        , 0.        , 0.34578314,
        0.        , 0.        , 0.5417361 , 0.5417361 , 0.        ,
        0.        , 0.        , 0.5417361 , 0.        , 0.        ,
        0.        , 0.        , 0.        ]])

In [12]:
# Term Freqeuncy
import pandas as pd
tfidf = pd.DataFrame(X.toarray(), columns = vectorize.get_feature_names_out())
tfidf

Unnamed: 0,기술,능력,다니다,분석,빅데이터,산업,인공,자료,재료,지능,지식,철수,텍스트,통계,통계학,프로그래밍,학과,핵심
0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.5,0.0,0.0,0.5,0.0
1,0.0,0.430037,0.0,0.430037,0.274487,0.0,0.0,0.0,0.0,0.0,0.430037,0.0,0.0,0.0,0.430037,0.430037,0.0,0.0
2,0.430037,0.0,0.0,0.0,0.274487,0.430037,0.430037,0.0,0.0,0.430037,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.430037
3,0.0,0.0,0.0,0.0,0.345783,0.0,0.0,0.541736,0.541736,0.0,0.0,0.0,0.541736,0.0,0.0,0.0,0.0,0.0


In [13]:
# Document Frequency 
freq = tfidf.astype(bool).sum(axis = 0)
freq

기술       1
능력       1
다니다      1
분석       1
빅데이터     3
산업       1
인공       1
자료       1
재료       1
지능       1
지식       1
철수       1
텍스트      1
통계       1
통계학      1
프로그래밍    1
학과       1
핵심       1
dtype: int64

In [None]:
# 위 결과를 통해 '빅데이터'라는 단어만 3개의 문서에서 등장한 것을 알 수 있다.

### 3. 문서 유사도(Document Similarity)
- 유클리드 거리(euclidean_distances), 코사인유사도(cosine similarity)

In [22]:
# corpus = [
#0    "철수는 통계학과에 다닌다.",
#1    "빅데이터 분석에 필요한 것은 통계학적 지식과 프로그래밍 능력이다.",
#2    "4차산업의 핵심기술로 인공지능과 빅데이터가 있다.",
#3    "텍스트자료는 빅데이터에서 중요한 재료이다."
#    ]

X[1].toarray()    # 2번째 문서

array([[0.        , 0.43003652, 0.        , 0.43003652, 0.27448674,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.43003652, 0.        , 0.        , 0.        , 0.43003652,
        0.43003652, 0.        , 0.        ]])

In [28]:
from sklearn.metrics.pairwise import euclidean_distances

# 유클리드 거리 계산
print(euclidean_distances(X[0], X[1]))
print(euclidean_distances(X[0], X[2]))
print(euclidean_distances(X[0], X[3]))
print(euclidean_distances(X[1], X[2]))
print(euclidean_distances(X[1], X[3]))
print(euclidean_distances(X[2], X[3]))

# 유클리드 거리가 가까울수록 문서간 유사하다고 해석할 수 있다.

[[1.41421356]]
[[1.41421356]]
[[1.41421356]]
[[1.35989487]]
[[1.34542715]]
[[1.34542715]]


In [29]:
from sklearn.metrics.pairwise import cosine_similarity

# 코사인 유사도
print(cosine_similarity(X[0], X[1]))
print(cosine_similarity(X[0], X[2]))
print(cosine_similarity(X[0], X[3]))
print(cosine_similarity(X[1], X[2]))
print(cosine_similarity(X[1], X[3]))
print(cosine_similarity(X[2], X[3]))

# 코사인 유사도는 1에 가까울수록 두 벡터가 유사하다고 해석하며, 
# 문서의 길이가 다른 경우에도 비교적 공정하게 비교할 수 있다는 장점이 있다. 
# 두 벡터 사이의 각도가 0도일 때 코사인 유사도가 최댓값인 1을 갖는다.

[[0.]]
[[0.]]
[[0.]]
[[0.07534297]]
[[0.09491289]]
[[0.09491289]]
