# 아마존 제품리뷰 TDM - 긍/부정 감정사전
* datasets ref : 아마존 리뷰 https://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences
* datasets ref : 인공지능 관련 뉴스메타데이터 https://www.data.go.kr/dataset/15012945/fileData.do 

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('./datasets/datasets_review/amazon_cells_labelled.txt', sep="\t", header=None)

In [3]:
df.head()

Unnamed: 0,0,1
0,So there is no way for me to plug it in here i...,0
1,"Good case, Excellent value.",1
2,Great for the jawbone.,1
3,Tied to charger for conversations lasting more...,0
4,The mic is great.,1


In [4]:
content = df[0]
sentiment = df[1]

* TF-IDF 가중치를 사용해 TDM을 만들기

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [6]:
tfidf = TfidfVectorizer(stop_words='english',
                        lowercase=True,
                        max_features=1000)

In [7]:
tdm = tfidf.fit_transform(content)
tdm.toarray()[:2]

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [8]:
tfidf.get_feature_names()[-5:]

['wrongly', 'year', 'years', 'yell', 'yes']

* pickle 저장  : tfidf, tdm, df['sentiment']

In [9]:
import joblib

In [10]:
with open('amazon.pkl', 'wb') as f:
    joblib.dump(
        {'vectorizer': tfidf, 'tdm': tdm, 'sentiment': sentiment},
        f
    )

In [11]:
# article = pd.read_csv('./datasets_review/한국언론진흥재단_2019년 12월 정치 분야 고빈도 사용 명사.csv', encoding='cp949', engine='python')
# article.head()

FileNotFoundError: [Errno 2] No such file or directory: './datasets_review/한국언론진흥재단_2019년 12월 정치 분야 고빈도 사용 명사.csv'

## 유클리드 거리

In [None]:
from sklearn.metrics.pairwise import euclidean_distances

In [None]:
euclidean_distances(tdm[0], tdm[1])  #0 번~1번 기사 거리

In [None]:
# 0번 문서와 유클리드 거리가 가장 가까운 문서를 찾는다.
dist = euclidean_distances(tdm[0], tdm[1:])
np.argmin(dist) + 1 

In [None]:
article.loc[22]

## 코사인 유사도

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cosine_similarity(tdm[0], tdm[1])

In [None]:
sim = cosine_similarity(tdm[0], tdm[1:])

In [None]:
np.argmax(sim) + 1

In [None]:
article.loc[1394, '본문']

## 문서 클러스터링
ref : http://doc.mindscale.kr/km/unstructured/04.html

In [None]:
import pandas as pd
import joblib

In [None]:
with open('amazon.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)

In [None]:
df = pd.read_csv('./datasets_review/amazon_cells_labelled.txt', sep="\t", header=None)

### 스펙트럴 클러스터링
* 그래프 기반 클러스터링의 일종 --> 이웃이 비슷한 것들끼리 묶는다
* [step1] 각각의 대상으로부터 유사도 그래프(비슷한 대상들끼리 연결한 그래프)를 만든다
* [step2] 라플라시안 행렬(Laplacian matrix)로부터 k개의 고유벡터를 계산하여 각 대상의 특성으로 삼는다
* [step3] 위의 특성을 바탕으로 k-means 클러스터링을 한다

In [None]:
from sklearn.cluster import SpectralClustering

In [None]:
# 문서들을 유클리드 거리를 기준으로 4개의 클러스터로 군집
cl = SpectralClustering(n_clusters=4, random_state=1234)
labels = cl.fit_predict(tdm[:100])
labels

In [None]:
from operator import itemgetter

In [None]:
# 각 클러스터별 최빈도 단어 
words = vectorizer.get_feature_names()

def top10(labels):
    freq_words = []
    for i in range(4):
        count = tdm[labels == i, :].sum(axis=0)
        ws = [w for w, n in sorted(zip(words, count.flat), key=itemgetter(1), reverse=True)[:10]]
        freq_words.append(ws)

    return pd.DataFrame(freq_words)

In [None]:
top10(labels)

In [None]:
# 코사인 유사도를 바탕으로 클러스터링

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cl_cos = SpectralClustering(n_clusters=4, affinity=cosine_similarity, random_state=1234)
labels_cos = cl_cos.fit_predict(tdm[:100])
top10(labels_cos)

### KMeans 클러스터링
* k개의 평균들 : 데이터와 군집의 중심점의 거리를 재서, 그 거리가 가장 가까운 군집으로 묶는다
* [step1] k개의 중심점을 무작위로 정한다. 
* [step2] 중심점과 거리를 재서 가장 가까운 군집에 모든 데이터를 할당한다.
* [step3] 군집에 속한 멤버들의 평균을 내서 중심점을 정한다. 
* [step4] 더이상 중심점에 변화가 없을 때까지 2~3을 반복<br>
<img src="./img/img12.png" width=400> 

In [None]:
from sklearn.cluster import KMeans

In [None]:
km = KMeans(n_clusters=4, random_state=1234)
labels_km = km.fit_predict(tdm)
top10(labels_km)

* 정규화 후 KMeans

In [None]:
from sklearn.preprocessing import Normalizer

In [None]:
nom = Normalizer(copy=False)
pos = nom.fit_transform(tdm)
km = KMeans(n_clusters=4, random_state=1234)
labels_nom = km.fit_predict(tdm)
top10(labels_nom)

# 잠재 의미 분석(LSA : Latent Semantic Analysis)
* TDM에 특이값 분해를 적용하여 차원을 축소하는 것
* 예) 
    - 유사의미 : "고양이 좋다" "고양이 귀엽다"
    - 다른의미, 단어문서행렬 거리는 같다 :  "고양이 좋다" "강아지 좋다" 

In [None]:
import pandas as pd

In [None]:
with open('amazon.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)
tdm.shape

*  LSA 적용 : 특이값 분해로 차원 축소

In [None]:
from sklearn.decomposition import TruncatedSVD

In [None]:
svd = TruncatedSVD(n_components=30)
pos = svd.fit_transform(tdm)
pos.shape

In [None]:
import matplotlib.pyplot as plt

In [None]:
dim1 = 0
dim2 = 1
plt.plot(pos[sentiment == 1, dim1], pos[sentiment == 1, dim2], 'ro')  # 긍정적인 코멘트 (빨간색)
plt.plot(pos[sentiment == 0, dim1], pos[sentiment == 0, dim2], 'bo')  # 부정적인 코멘트 (파란색)

* 노멀라이징 : 문서 길이에 따라 좌표가 달라진다. 이 영향을 제거하기 위해 문서의 원점에서 거리를 1로 변환

In [None]:
from sklearn.preprocessing import Normalizer
norm = Normalizer(copy=False)
pos2 = norm.fit_transform(pos)
dim1 = 0
dim2 = 1
plt.plot(pos2[sentiment == 1, dim1], pos2[sentiment == 1, dim2], 'ro')  # 긍정적인 코멘트 (빨간색)
plt.plot(pos2[sentiment == 0, dim1], pos2[sentiment == 0, dim2], 'bo')  # 부정적인 코멘트 (파란색)

* 파이프라인 = LSA + 노멀라이징

In [None]:
from sklearn.pipeline import make_pipeline
lsa = make_pipeline(svd, norm)
lsa.transform(tdm)

## 잠재 디리클레 할당(LDA, Latent Dirichlet Allocation)
* 사람의 개입 없이 이러한 단어들이 하나의 주제를 이룬다는 것을 컴퓨터가 스스로 발견하는 것이 LDA의 핵심
* 흔히 사용되는 클러스터링에서 하나의 문서는 오직 하나의 클러스터에만 속한다. 반면 LDA는 하나의 문서가 여러 가지 주제를 가질 수 있다.
* 베이지언 통계학에 바탕을 둔 비지도 텍스트 분석 방법
* 분석에 이론적 가정 추가 가능 : 간에 따른 변화, 저자의 독특한 개성 등을 포함시켜 분석 가능
* 각각의 문서는 여러 주제들이 섞여 있다 = '주제'(topic)는 단어의 분포다 = 한 문서의 단어들은 문서를 이루는 주제에서 나온 것이다

In [None]:
# !pip install gensim

In [None]:
import pandas as pd
import joblib

In [None]:
with open('ai_news.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)

In [None]:
words = vectorizer.get_feature_names()
word_dict = dict(enumerate(words))  #{단어 번호: 단어} 형태의 딕셔너리로 변환
word_dict[0]   #'4차 산업'
word_dict[100] #'광주'

* gensim 형식으로 변환

In [None]:
from gensim.matutils import Sparse2Corpus

In [None]:
corpus = Sparse2Corpus(tdm.T)
corpus

* 분석

In [None]:
from gensim.models.ldamodel import LdaModel

In [None]:
lda = LdaModel(corpus=corpus,
               num_topics=100,
               passes=3,
               iterations=100,
               id2word=word_dict,
               random_state=123)

In [None]:
lda.show_topic(0) 

In [None]:
lda.show_topic(2)

* 문서의 주제(비율) 확인

In [None]:
row = tdm[0]
doc = list(zip(row.indices, row.data))
doc

In [None]:
row = tdm[0]  #첫 번째 문서의 [(단어번호,빈도수)..]
doc = list(zip(row.indices, row.data))
doc

In [None]:
doc_words = [(words[i], n) for i, n in doc]
doc_words

* 문서 토픽(비율) 확인하기

In [None]:
lda.get_document_topics(doc)

In [None]:
lda.show_topic(28)

* 모형 저장/불러오기

In [None]:
lda.save('lda_test.lda')

In [None]:
lda2 = LdaModel.load('lda_test.lda')  # 기존 모형과 구분짓기 위해 lda2 로 저장한다.

In [None]:
lda2

<pre>
https://doc.mindscale.kr/km/unstructured/1.html , 서론
https://doc.mindscale.kr/km/unstructured/2.html , 웹 스크래핑
https://doc.mindscale.kr/km/unstructured/3.html , 형태소 분석과 단어 문서 행렬
https://doc.mindscale.kr/km/unstructured/4.html , 주제 분석
https://doc.mindscale.kr/km/unstructured/5.html , 기계학습과 인공신경망
https://doc.mindscale.kr/km/unstructured/6.html , 텍스트의 지도학습
https://doc.mindscale.kr/km/unstructured/7.html , 이미지의 지도학습
https://doc.mindscale.kr/km/unstructured/8.html , 텍스트의 비지도학습
https://doc.mindscale.kr/km/unstructured/9.html , 합성곱 신경망
https://doc.mindscale.kr/km/unstructured/10.html , 순환신경망
https://doc.mindscale.kr/km/unstructured/11.html , 단어 임베딩
https://doc.mindscale.kr/km/unstructured/12.html , 챗봇
https://doc.mindscale.kr/km/unstructured/13.html , 기계 번역
https://doc.mindscale.kr/km/unstructured/14.html , 주의


# 아마존 제품리뷰 TDM - 긍/부정 감정사전
* datasets ref : 아마존 리뷰 https://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences
* datasets ref : 인공지능 관련 뉴스메타데이터 https://www.data.go.kr/dataset/15012945/fileData.do 

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('./datasets_review/amazon_cells_labelled.txt', sep="\t", header=None)

In [None]:
df.head()

In [None]:
content = df[0]
sentiment = df[1]

* TF-IDF 가중치를 사용해 TDM을 만들기

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
tfidf = TfidfVectorizer(stop_words='english',
                        lowercase=True,
                        max_features=1000)

In [None]:
tdm = tfidf.fit_transform(content)
tdm.toarray()[:2]

In [None]:
tfidf.get_feature_names()[-5:]

* pickle 저장  : tfidf, tdm, df['sentiment']

In [None]:
import joblib

In [None]:
with open('amazon.pkl', 'wb') as f:
    joblib.dump(
        {'vectorizer': tfidf, 'tdm': tdm, 'sentiment': sentiment},
        f
    )

In [None]:
article = pd.read_csv('./datasets_review/한국언론진흥재단_2019년 12월 정치 분야 고빈도 사용 명사.csv', encoding='cp949', engine='python')
article.head()

## 유클리드 거리

In [None]:
from sklearn.metrics.pairwise import euclidean_distances

In [None]:
euclidean_distances(tdm[0], tdm[1])  #0 번~1번 기사 거리

In [None]:
# 0번 문서와 유클리드 거리가 가장 가까운 문서를 찾는다.
dist = euclidean_distances(tdm[0], tdm[1:])
np.argmin(dist) + 1 

In [None]:
article.loc[0, '본문']

## 코사인 유사도

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cosine_similarity(tdm[0], tdm[1])

In [None]:
sim = cosine_similarity(tdm[0], tdm[1:])

In [None]:
np.argmax(sim) + 1

In [None]:
article.loc[1394, '본문']

## 문서 클러스터링
ref : http://doc.mindscale.kr/km/unstructured/04.html

In [None]:
import pandas as pd
import joblib

In [None]:
with open('amazon.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)

In [None]:
df = pd.read_csv('./datasets_review/amazon_cells_labelled.txt', sep="\t", header=None)

### 스펙트럴 클러스터링
* 그래프 기반 클러스터링의 일종 --> 이웃이 비슷한 것들끼리 묶는다
* [step1] 각각의 대상으로부터 유사도 그래프(비슷한 대상들끼리 연결한 그래프)를 만든다
* [step2] 라플라시안 행렬(Laplacian matrix)로부터 k개의 고유벡터를 계산하여 각 대상의 특성으로 삼는다
* [step3] 위의 특성을 바탕으로 k-means 클러스터링을 한다

In [None]:
from sklearn.cluster import SpectralClustering

In [None]:
# 문서들을 유클리드 거리를 기준으로 4개의 클러스터로 군집
cl = SpectralClustering(n_clusters=4, random_state=1234)
labels = cl.fit_predict(tdm[:100])
labels

In [None]:
from operator import itemgetter

In [None]:
# 각 클러스터별 최빈도 단어 
words = vectorizer.get_feature_names()

def top10(labels):
    freq_words = []
    for i in range(4):
        count = tdm[labels == i, :].sum(axis=0)
        ws = [w for w, n in sorted(zip(words, count.flat), key=itemgetter(1), reverse=True)[:10]]
        freq_words.append(ws)

    return pd.DataFrame(freq_words)

In [None]:
top10(labels)

In [None]:
# 코사인 유사도를 바탕으로 클러스터링

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cl_cos = SpectralClustering(n_clusters=4, affinity=cosine_similarity, random_state=1234)
labels_cos = cl_cos.fit_predict(tdm[:100])
top10(labels_cos)

### KMeans 클러스터링
* k개의 평균들 : 데이터와 군집의 중심점의 거리를 재서, 그 거리가 가장 가까운 군집으로 묶는다
* [step1] k개의 중심점을 무작위로 정한다. 
* [step2] 중심점과 거리를 재서 가장 가까운 군집에 모든 데이터를 할당한다.
* [step3] 군집에 속한 멤버들의 평균을 내서 중심점을 정한다. 
* [step4] 더이상 중심점에 변화가 없을 때까지 2~3을 반복<br>
<img src="./img/img12.png" width=400> 

In [None]:
from sklearn.cluster import KMeans

In [None]:
km = KMeans(n_clusters=4, random_state=1234)
labels_km = km.fit_predict(tdm)
top10(labels_km)

* 정규화 후 KMeans

In [None]:
from sklearn.preprocessing import Normalizer

In [None]:
nom = Normalizer(copy=False)
pos = nom.fit_transform(tdm)
km = KMeans(n_clusters=4, random_state=1234)
labels_nom = km.fit_predict(tdm)
top10(labels_nom)

# 잠재 의미 분석(LSA : Latent Semantic Analysis)
* TDM에 특이값 분해를 적용하여 차원을 축소하는 것
* 예) 
    - 유사의미 : "고양이 좋다" "고양이 귀엽다"
    - 다른의미, 단어문서행렬 거리는 같다 :  "고양이 좋다" "강아지 좋다" 

In [None]:
import pandas as pd

In [None]:
with open('amazon.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)
tdm.shape

*  LSA 적용 : 특이값 분해로 차원 축소

In [None]:
from sklearn.decomposition import TruncatedSVD

In [None]:
svd = TruncatedSVD(n_components=30)
pos = svd.fit_transform(tdm)
pos.shape

In [None]:
import matplotlib.pyplot as plt

In [None]:
dim1 = 0
dim2 = 1
plt.plot(pos[sentiment == 1, dim1], pos[sentiment == 1, dim2], 'ro')  # 긍정적인 코멘트 (빨간색)
plt.plot(pos[sentiment == 0, dim1], pos[sentiment == 0, dim2], 'bo')  # 부정적인 코멘트 (파란색)

* 노멀라이징 : 문서 길이에 따라 좌표가 달라진다. 이 영향을 제거하기 위해 문서의 원점에서 거리를 1로 변환

In [None]:
from sklearn.preprocessing import Normalizer
norm = Normalizer(copy=False)
pos2 = norm.fit_transform(pos)
dim1 = 0
dim2 = 1
plt.plot(pos2[sentiment == 1, dim1], pos2[sentiment == 1, dim2], 'ro')  # 긍정적인 코멘트 (빨간색)
plt.plot(pos2[sentiment == 0, dim1], pos2[sentiment == 0, dim2], 'bo')  # 부정적인 코멘트 (파란색)

* 파이프라인 = LSA + 노멀라이징

In [None]:
from sklearn.pipeline import make_pipeline
lsa = make_pipeline(svd, norm)
lsa.transform(tdm)

## 잠재 디리클레 할당(LDA, Latent Dirichlet Allocation)
* 사람의 개입 없이 이러한 단어들이 하나의 주제를 이룬다는 것을 컴퓨터가 스스로 발견하는 것이 LDA의 핵심
* 흔히 사용되는 클러스터링에서 하나의 문서는 오직 하나의 클러스터에만 속한다. 반면 LDA는 하나의 문서가 여러 가지 주제를 가질 수 있다.
* 베이지언 통계학에 바탕을 둔 비지도 텍스트 분석 방법
* 분석에 이론적 가정 추가 가능 : 간에 따른 변화, 저자의 독특한 개성 등을 포함시켜 분석 가능
* 각각의 문서는 여러 주제들이 섞여 있다 = '주제'(topic)는 단어의 분포다 = 한 문서의 단어들은 문서를 이루는 주제에서 나온 것이다

In [None]:
# !pip install gensim

In [None]:
import pandas as pd
import joblib

In [None]:
with open('ai_news.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)

In [None]:
words = vectorizer.get_feature_names()
word_dict = dict(enumerate(words))  #{단어 번호: 단어} 형태의 딕셔너리로 변환
word_dict[0]   #'4차 산업'
word_dict[100] #'광주'

* gensim 형식으로 변환

In [None]:
from gensim.matutils import Sparse2Corpus

In [None]:
corpus = Sparse2Corpus(tdm.T)
corpus

* 분석

In [None]:
from gensim.models.ldamodel import LdaModel

In [None]:
lda = LdaModel(corpus=corpus,
               num_topics=100,
               passes=3,
               iterations=100,
               id2word=word_dict,
               random_state=123)

In [None]:
lda.show_topic(0) 

In [None]:
lda.show_topic(2)

* 문서의 주제(비율) 확인

In [None]:
row = tdm[0]
doc = list(zip(row.indices, row.data))
doc

In [None]:
row = tdm[0]  #첫 번째 문서의 [(단어번호,빈도수)..]
doc = list(zip(row.indices, row.data))
doc

In [None]:
doc_words = [(words[i], n) for i, n in doc]
doc_words

* 문서 토픽(비율) 확인하기

In [None]:
lda.get_document_topics(doc)

In [None]:
lda.show_topic(28)

* 모형 저장/불러오기

In [None]:
lda.save('lda_test.lda')

In [None]:
lda2 = LdaModel.load('lda_test.lda')  # 기존 모형과 구분짓기 위해 lda2 로 저장한다.

In [None]:
lda2

<pre>
https://doc.mindscale.kr/km/unstructured/1.html , 서론
https://doc.mindscale.kr/km/unstructured/2.html , 웹 스크래핑
https://doc.mindscale.kr/km/unstructured/3.html , 형태소 분석과 단어 문서 행렬
https://doc.mindscale.kr/km/unstructured/4.html , 주제 분석
https://doc.mindscale.kr/km/unstructured/5.html , 기계학습과 인공신경망
https://doc.mindscale.kr/km/unstructured/6.html , 텍스트의 지도학습
https://doc.mindscale.kr/km/unstructured/7.html , 이미지의 지도학습
https://doc.mindscale.kr/km/unstructured/8.html , 텍스트의 비지도학습
https://doc.mindscale.kr/km/unstructured/9.html , 합성곱 신경망
https://doc.mindscale.kr/km/unstructured/10.html , 순환신경망
https://doc.mindscale.kr/km/unstructured/11.html , 단어 임베딩
https://doc.mindscale.kr/km/unstructured/12.html , 챗봇
https://doc.mindscale.kr/km/unstructured/13.html , 기계 번역
https://doc.mindscale.kr/km/unstructured/14.html , 주의


# 아마존 제품리뷰 TDM - 긍/부정 감정사전
* datasets ref : 아마존 리뷰 https://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences
* datasets ref : 인공지능 관련 뉴스메타데이터 https://www.data.go.kr/dataset/15012945/fileData.do 

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('./datasets_review/amazon_cells_labelled.txt', sep="\t", header=None)

In [None]:
df.head()

In [None]:
content = df[0]
sentiment = df[1]

* TF-IDF 가중치를 사용해 TDM을 만들기

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
tfidf = TfidfVectorizer(stop_words='english',
                        lowercase=True,
                        max_features=1000)

In [None]:
tdm = tfidf.fit_transform(content)
tdm.toarray()[:2]

In [None]:
tfidf.get_feature_names()[-5:]

* pickle 저장  : tfidf, tdm, df['sentiment']

In [None]:
import joblib

In [None]:
with open('amazon.pkl', 'wb') as f:
    joblib.dump(
        {'vectorizer': tfidf, 'tdm': tdm, 'sentiment': sentiment},
        f
    )

In [None]:
article = pd.read_csv('./datasets_review/한국언론진흥재단_2019년 12월 정치 분야 고빈도 사용 명사.csv', encoding='cp949', engine='python')
article.head()

## 유클리드 거리

In [None]:
from sklearn.metrics.pairwise import euclidean_distances

In [None]:
euclidean_distances(tdm[0], tdm[1])  #0 번~1번 기사 거리

In [None]:
# 0번 문서와 유클리드 거리가 가장 가까운 문서를 찾는다.
dist = euclidean_distances(tdm[0], tdm[1:])
np.argmin(dist) + 1 

In [None]:
article.loc[0, '본문']

## 코사인 유사도

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cosine_similarity(tdm[0], tdm[1])

In [None]:
sim = cosine_similarity(tdm[0], tdm[1:])

In [None]:
np.argmax(sim) + 1

In [None]:
article.loc[1394, '본문']

## 문서 클러스터링
ref : http://doc.mindscale.kr/km/unstructured/04.html

In [None]:
import pandas as pd
import joblib

In [None]:
with open('amazon.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)

In [None]:
df = pd.read_csv('./datasets_review/amazon_cells_labelled.txt', sep="\t", header=None)

### 스펙트럴 클러스터링
* 그래프 기반 클러스터링의 일종 --> 이웃이 비슷한 것들끼리 묶는다
* [step1] 각각의 대상으로부터 유사도 그래프(비슷한 대상들끼리 연결한 그래프)를 만든다
* [step2] 라플라시안 행렬(Laplacian matrix)로부터 k개의 고유벡터를 계산하여 각 대상의 특성으로 삼는다
* [step3] 위의 특성을 바탕으로 k-means 클러스터링을 한다

In [None]:
from sklearn.cluster import SpectralClustering

In [None]:
# 문서들을 유클리드 거리를 기준으로 4개의 클러스터로 군집
cl = SpectralClustering(n_clusters=4, random_state=1234)
labels = cl.fit_predict(tdm[:100])
labels

In [None]:
from operator import itemgetter

In [None]:
# 각 클러스터별 최빈도 단어 
words = vectorizer.get_feature_names()

def top10(labels):
    freq_words = []
    for i in range(4):
        count = tdm[labels == i, :].sum(axis=0)
        ws = [w for w, n in sorted(zip(words, count.flat), key=itemgetter(1), reverse=True)[:10]]
        freq_words.append(ws)

    return pd.DataFrame(freq_words)

In [None]:
top10(labels)

In [None]:
# 코사인 유사도를 바탕으로 클러스터링

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cl_cos = SpectralClustering(n_clusters=4, affinity=cosine_similarity, random_state=1234)
labels_cos = cl_cos.fit_predict(tdm[:100])
top10(labels_cos)

### KMeans 클러스터링
* k개의 평균들 : 데이터와 군집의 중심점의 거리를 재서, 그 거리가 가장 가까운 군집으로 묶는다
* [step1] k개의 중심점을 무작위로 정한다. 
* [step2] 중심점과 거리를 재서 가장 가까운 군집에 모든 데이터를 할당한다.
* [step3] 군집에 속한 멤버들의 평균을 내서 중심점을 정한다. 
* [step4] 더이상 중심점에 변화가 없을 때까지 2~3을 반복<br>
<img src="./img/img12.png" width=400> 

In [None]:
from sklearn.cluster import KMeans

In [None]:
km = KMeans(n_clusters=4, random_state=1234)
labels_km = km.fit_predict(tdm)
top10(labels_km)

* 정규화 후 KMeans

In [None]:
from sklearn.preprocessing import Normalizer

In [None]:
nom = Normalizer(copy=False)
pos = nom.fit_transform(tdm)
km = KMeans(n_clusters=4, random_state=1234)
labels_nom = km.fit_predict(tdm)
top10(labels_nom)

# 잠재 의미 분석(LSA : Latent Semantic Analysis)
* TDM에 특이값 분해를 적용하여 차원을 축소하는 것
* 예) 
    - 유사의미 : "고양이 좋다" "고양이 귀엽다"
    - 다른의미, 단어문서행렬 거리는 같다 :  "고양이 좋다" "강아지 좋다" 

In [None]:
import pandas as pd

In [None]:
with open('amazon.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)
tdm.shape

*  LSA 적용 : 특이값 분해로 차원 축소

In [None]:
from sklearn.decomposition import TruncatedSVD

In [None]:
svd = TruncatedSVD(n_components=30)
pos = svd.fit_transform(tdm)
pos.shape

In [None]:
import matplotlib.pyplot as plt

In [None]:
dim1 = 0
dim2 = 1
plt.plot(pos[sentiment == 1, dim1], pos[sentiment == 1, dim2], 'ro')  # 긍정적인 코멘트 (빨간색)
plt.plot(pos[sentiment == 0, dim1], pos[sentiment == 0, dim2], 'bo')  # 부정적인 코멘트 (파란색)

* 노멀라이징 : 문서 길이에 따라 좌표가 달라진다. 이 영향을 제거하기 위해 문서의 원점에서 거리를 1로 변환

In [None]:
from sklearn.preprocessing import Normalizer
norm = Normalizer(copy=False)
pos2 = norm.fit_transform(pos)
dim1 = 0
dim2 = 1
plt.plot(pos2[sentiment == 1, dim1], pos2[sentiment == 1, dim2], 'ro')  # 긍정적인 코멘트 (빨간색)
plt.plot(pos2[sentiment == 0, dim1], pos2[sentiment == 0, dim2], 'bo')  # 부정적인 코멘트 (파란색)

* 파이프라인 = LSA + 노멀라이징

In [None]:
from sklearn.pipeline import make_pipeline
lsa = make_pipeline(svd, norm)
lsa.transform(tdm)

## 잠재 디리클레 할당(LDA, Latent Dirichlet Allocation)
* 사람의 개입 없이 이러한 단어들이 하나의 주제를 이룬다는 것을 컴퓨터가 스스로 발견하는 것이 LDA의 핵심
* 흔히 사용되는 클러스터링에서 하나의 문서는 오직 하나의 클러스터에만 속한다. 반면 LDA는 하나의 문서가 여러 가지 주제를 가질 수 있다.
* 베이지언 통계학에 바탕을 둔 비지도 텍스트 분석 방법
* 분석에 이론적 가정 추가 가능 : 간에 따른 변화, 저자의 독특한 개성 등을 포함시켜 분석 가능
* 각각의 문서는 여러 주제들이 섞여 있다 = '주제'(topic)는 단어의 분포다 = 한 문서의 단어들은 문서를 이루는 주제에서 나온 것이다

In [None]:
# !pip install gensim

In [None]:
import pandas as pd
import joblib

In [None]:
with open('ai_news.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)

In [None]:
words = vectorizer.get_feature_names()
word_dict = dict(enumerate(words))  #{단어 번호: 단어} 형태의 딕셔너리로 변환
word_dict[0]   #'4차 산업'
word_dict[100] #'광주'

* gensim 형식으로 변환

In [None]:
from gensim.matutils import Sparse2Corpus

In [None]:
corpus = Sparse2Corpus(tdm.T)
corpus

* 분석

In [None]:
from gensim.models.ldamodel import LdaModel

In [None]:
lda = LdaModel(corpus=corpus,
               num_topics=100,
               passes=3,
               iterations=100,
               id2word=word_dict,
               random_state=123)

In [None]:
lda.show_topic(0) 

In [None]:
lda.show_topic(2)

* 문서의 주제(비율) 확인

In [None]:
row = tdm[0]
doc = list(zip(row.indices, row.data))
doc

In [None]:
row = tdm[0]  #첫 번째 문서의 [(단어번호,빈도수)..]
doc = list(zip(row.indices, row.data))
doc

In [None]:
doc_words = [(words[i], n) for i, n in doc]
doc_words

* 문서 토픽(비율) 확인하기

In [None]:
lda.get_document_topics(doc)

In [None]:
lda.show_topic(28)

* 모형 저장/불러오기

In [None]:
lda.save('lda_test.lda')

In [None]:
lda2 = LdaModel.load('lda_test.lda')  # 기존 모형과 구분짓기 위해 lda2 로 저장한다.

In [None]:
lda2

<pre>
https://doc.mindscale.kr/km/unstructured/1.html , 서론
https://doc.mindscale.kr/km/unstructured/2.html , 웹 스크래핑
https://doc.mindscale.kr/km/unstructured/3.html , 형태소 분석과 단어 문서 행렬
https://doc.mindscale.kr/km/unstructured/4.html , 주제 분석
https://doc.mindscale.kr/km/unstructured/5.html , 기계학습과 인공신경망
https://doc.mindscale.kr/km/unstructured/6.html , 텍스트의 지도학습
https://doc.mindscale.kr/km/unstructured/7.html , 이미지의 지도학습
https://doc.mindscale.kr/km/unstructured/8.html , 텍스트의 비지도학습
https://doc.mindscale.kr/km/unstructured/9.html , 합성곱 신경망
https://doc.mindscale.kr/km/unstructured/10.html , 순환신경망
https://doc.mindscale.kr/km/unstructured/11.html , 단어 임베딩
https://doc.mindscale.kr/km/unstructured/12.html , 챗봇
https://doc.mindscale.kr/km/unstructured/13.html , 기계 번역
https://doc.mindscale.kr/km/unstructured/14.html , 주의


# 아마존 제품리뷰 TDM - 긍/부정 감정사전
* datasets ref : 아마존 리뷰 https://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences
* datasets ref : 인공지능 관련 뉴스메타데이터 https://www.data.go.kr/dataset/15012945/fileData.do 

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('./datasets_review/amazon_cells_labelled.txt', sep="\t", header=None)

In [None]:
df.head()

In [None]:
content = df[0]
sentiment = df[1]

* TF-IDF 가중치를 사용해 TDM을 만들기

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
tfidf = TfidfVectorizer(stop_words='english',
                        lowercase=True,
                        max_features=1000)

In [None]:
tdm = tfidf.fit_transform(content)
tdm.toarray()[:2]

In [None]:
tfidf.get_feature_names()[-5:]

* pickle 저장  : tfidf, tdm, df['sentiment']

In [None]:
import joblib

In [None]:
with open('amazon.pkl', 'wb') as f:
    joblib.dump(
        {'vectorizer': tfidf, 'tdm': tdm, 'sentiment': sentiment},
        f
    )

In [None]:
article = pd.read_csv('./datasets_review/한국언론진흥재단_2019년 12월 정치 분야 고빈도 사용 명사.csv', encoding='cp949', engine='python')
article.head()

## 유클리드 거리

In [None]:
from sklearn.metrics.pairwise import euclidean_distances

In [None]:
euclidean_distances(tdm[0], tdm[1])  #0 번~1번 기사 거리

In [None]:
# 0번 문서와 유클리드 거리가 가장 가까운 문서를 찾는다.
dist = euclidean_distances(tdm[0], tdm[1:])
np.argmin(dist) + 1 

In [None]:
article.loc[0, '본문']

## 코사인 유사도

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cosine_similarity(tdm[0], tdm[1])

In [None]:
sim = cosine_similarity(tdm[0], tdm[1:])

In [None]:
np.argmax(sim) + 1

In [None]:
article.loc[1394, '본문']

## 문서 클러스터링
ref : http://doc.mindscale.kr/km/unstructured/04.html

In [None]:
import pandas as pd
import joblib

In [None]:
with open('amazon.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)

In [None]:
df = pd.read_csv('./datasets_review/amazon_cells_labelled.txt', sep="\t", header=None)

### 스펙트럴 클러스터링
* 그래프 기반 클러스터링의 일종 --> 이웃이 비슷한 것들끼리 묶는다
* [step1] 각각의 대상으로부터 유사도 그래프(비슷한 대상들끼리 연결한 그래프)를 만든다
* [step2] 라플라시안 행렬(Laplacian matrix)로부터 k개의 고유벡터를 계산하여 각 대상의 특성으로 삼는다
* [step3] 위의 특성을 바탕으로 k-means 클러스터링을 한다

In [None]:
from sklearn.cluster import SpectralClustering

In [None]:
# 문서들을 유클리드 거리를 기준으로 4개의 클러스터로 군집
cl = SpectralClustering(n_clusters=4, random_state=1234)
labels = cl.fit_predict(tdm[:100])
labels

In [None]:
from operator import itemgetter

In [None]:
# 각 클러스터별 최빈도 단어 
words = vectorizer.get_feature_names()

def top10(labels):
    freq_words = []
    for i in range(4):
        count = tdm[labels == i, :].sum(axis=0)
        ws = [w for w, n in sorted(zip(words, count.flat), key=itemgetter(1), reverse=True)[:10]]
        freq_words.append(ws)

    return pd.DataFrame(freq_words)

In [None]:
top10(labels)

In [None]:
# 코사인 유사도를 바탕으로 클러스터링

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cl_cos = SpectralClustering(n_clusters=4, affinity=cosine_similarity, random_state=1234)
labels_cos = cl_cos.fit_predict(tdm[:100])
top10(labels_cos)

### KMeans 클러스터링
* k개의 평균들 : 데이터와 군집의 중심점의 거리를 재서, 그 거리가 가장 가까운 군집으로 묶는다
* [step1] k개의 중심점을 무작위로 정한다. 
* [step2] 중심점과 거리를 재서 가장 가까운 군집에 모든 데이터를 할당한다.
* [step3] 군집에 속한 멤버들의 평균을 내서 중심점을 정한다. 
* [step4] 더이상 중심점에 변화가 없을 때까지 2~3을 반복<br>
<img src="./img/img12.png" width=400> 

In [None]:
from sklearn.cluster import KMeans

In [None]:
km = KMeans(n_clusters=4, random_state=1234)
labels_km = km.fit_predict(tdm)
top10(labels_km)

* 정규화 후 KMeans

In [None]:
from sklearn.preprocessing import Normalizer

In [None]:
nom = Normalizer(copy=False)
pos = nom.fit_transform(tdm)
km = KMeans(n_clusters=4, random_state=1234)
labels_nom = km.fit_predict(tdm)
top10(labels_nom)

# 잠재 의미 분석(LSA : Latent Semantic Analysis)
* TDM에 특이값 분해를 적용하여 차원을 축소하는 것
* 예) 
    - 유사의미 : "고양이 좋다" "고양이 귀엽다"
    - 다른의미, 단어문서행렬 거리는 같다 :  "고양이 좋다" "강아지 좋다" 

In [None]:
import pandas as pd

In [None]:
with open('amazon.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)
tdm.shape

*  LSA 적용 : 특이값 분해로 차원 축소

In [None]:
from sklearn.decomposition import TruncatedSVD

In [None]:
svd = TruncatedSVD(n_components=30)
pos = svd.fit_transform(tdm)
pos.shape

In [None]:
import matplotlib.pyplot as plt

In [None]:
dim1 = 0
dim2 = 1
plt.plot(pos[sentiment == 1, dim1], pos[sentiment == 1, dim2], 'ro')  # 긍정적인 코멘트 (빨간색)
plt.plot(pos[sentiment == 0, dim1], pos[sentiment == 0, dim2], 'bo')  # 부정적인 코멘트 (파란색)

* 노멀라이징 : 문서 길이에 따라 좌표가 달라진다. 이 영향을 제거하기 위해 문서의 원점에서 거리를 1로 변환

In [None]:
from sklearn.preprocessing import Normalizer
norm = Normalizer(copy=False)
pos2 = norm.fit_transform(pos)
dim1 = 0
dim2 = 1
plt.plot(pos2[sentiment == 1, dim1], pos2[sentiment == 1, dim2], 'ro')  # 긍정적인 코멘트 (빨간색)
plt.plot(pos2[sentiment == 0, dim1], pos2[sentiment == 0, dim2], 'bo')  # 부정적인 코멘트 (파란색)

* 파이프라인 = LSA + 노멀라이징

In [None]:
from sklearn.pipeline import make_pipeline
lsa = make_pipeline(svd, norm)
lsa.transform(tdm)

## 잠재 디리클레 할당(LDA, Latent Dirichlet Allocation)
* 사람의 개입 없이 이러한 단어들이 하나의 주제를 이룬다는 것을 컴퓨터가 스스로 발견하는 것이 LDA의 핵심
* 흔히 사용되는 클러스터링에서 하나의 문서는 오직 하나의 클러스터에만 속한다. 반면 LDA는 하나의 문서가 여러 가지 주제를 가질 수 있다.
* 베이지언 통계학에 바탕을 둔 비지도 텍스트 분석 방법
* 분석에 이론적 가정 추가 가능 : 간에 따른 변화, 저자의 독특한 개성 등을 포함시켜 분석 가능
* 각각의 문서는 여러 주제들이 섞여 있다 = '주제'(topic)는 단어의 분포다 = 한 문서의 단어들은 문서를 이루는 주제에서 나온 것이다

In [None]:
# !pip install gensim

In [None]:
import pandas as pd
import joblib

In [None]:
with open('ai_news.pkl', 'rb') as f:
    data = joblib.load(f)
locals().update(data)

In [None]:
words = vectorizer.get_feature_names()
word_dict = dict(enumerate(words))  #{단어 번호: 단어} 형태의 딕셔너리로 변환
word_dict[0]   #'4차 산업'
word_dict[100] #'광주'

* gensim 형식으로 변환

In [None]:
from gensim.matutils import Sparse2Corpus

In [None]:
corpus = Sparse2Corpus(tdm.T)
corpus

* 분석

In [None]:
from gensim.models.ldamodel import LdaModel

In [None]:
lda = LdaModel(corpus=corpus,
               num_topics=100,
               passes=3,
               iterations=100,
               id2word=word_dict,
               random_state=123)

In [None]:
lda.show_topic(0) 

In [None]:
lda.show_topic(2)

* 문서의 주제(비율) 확인

In [None]:
row = tdm[0]
doc = list(zip(row.indices, row.data))
doc

In [None]:
row = tdm[0]  #첫 번째 문서의 [(단어번호,빈도수)..]
doc = list(zip(row.indices, row.data))
doc

In [None]:
doc_words = [(words[i], n) for i, n in doc]
doc_words

* 문서 토픽(비율) 확인하기

In [None]:
lda.get_document_topics(doc)

In [None]:
lda.show_topic(28)

* 모형 저장/불러오기

In [None]:
lda.save('lda_test.lda')

In [None]:
lda2 = LdaModel.load('lda_test.lda')  # 기존 모형과 구분짓기 위해 lda2 로 저장한다.

In [None]:
lda2

<pre>
https://doc.mindscale.kr/km/unstructured/1.html , 서론
https://doc.mindscale.kr/km/unstructured/2.html , 웹 스크래핑
https://doc.mindscale.kr/km/unstructured/3.html , 형태소 분석과 단어 문서 행렬
https://doc.mindscale.kr/km/unstructured/4.html , 주제 분석
https://doc.mindscale.kr/km/unstructured/5.html , 기계학습과 인공신경망
https://doc.mindscale.kr/km/unstructured/6.html , 텍스트의 지도학습
https://doc.mindscale.kr/km/unstructured/7.html , 이미지의 지도학습
https://doc.mindscale.kr/km/unstructured/8.html , 텍스트의 비지도학습
https://doc.mindscale.kr/km/unstructured/9.html , 합성곱 신경망
https://doc.mindscale.kr/km/unstructured/10.html , 순환신경망
https://doc.mindscale.kr/km/unstructured/11.html , 단어 임베딩
https://doc.mindscale.kr/km/unstructured/12.html , 챗봇
https://doc.mindscale.kr/km/unstructured/13.html , 기계 번역
https://doc.mindscale.kr/km/unstructured/14.html , 주의
