# **자연어 8일 - UnSupervised with NLP**
자연어 Token 데이터를 활용한 K-Means 의 구현

# **Search Engine Index 복습**
1. **DTM (Document Term Matrix) 모델 :** 전체 Token을 확인하여 검색 비용이 높다
1. **TDM (Term-Document Matrix) 모델 :** Token 별 **검색 Tree** 를 미리 재구성해 비용이 낮다

In [1]:
collection = [
    ["Hadoop", "Big Data", "HBase", "Java", "Spark", "Storm", "Cassandra"],
    ["NoSQL", "MongoDB", "Cassandra", "HBase", "Postgres"],
    ["Python", "scikit-learn", "scipy", "numpy", "statsmodels", "pandas"],
    ["R", "Python", "statistics", "regression", "probability"],
    ["machine learning", "regression", "decision trees", "libsvm"],
    ["Python", "R", "Java", "C++", "Haskell", "programming languages"],
    ["statistics", "probability", "mathematics", "theory"],
    ["machine learning", "scikit-learn", "Mahout", "neural networks"],
    ["neural networks", "deep learning", "Big Data", "artificial intelligence"],
    ["Hadoop", "Java", "MapReduce", "Big Data"],
    ["statistics", "R", "statsmodels"],
    ["C++", "deep learning", "artificial intelligence", "probability"],
    ["pandas", "R", "Python"],
    ["databases", "HBase", "Postgres", "MySQL", "MongoDB"],
    ["libsvm", "regression", "support vector machines"]
]

In [7]:
from random import seed, randrange
seed(0)

K = 3
V = list(set([t for d in collection for t in d]))
Z = list(list(randrange(K) for t in d)
         for d in collection)
Phi = list(list(0 for t in V) for k in range(K))
Theta = list(list(0 for k in range(K)) for d in collection)

for i, d in enumerate(Z):
    for j, topic in enumerate(d):
        Phi[topic][V.index(collection[i][j])] += 1
        Theta[i][topic] += 1

In [8]:
from random import random, sample, choices

def gibbsSampling(i, j):
    candidates = list()
    for k in range(K):
        candidates.append(A(i, j, k) * B(i, k))
    
    _sum = sum(candidates)
    candidates = [_/_sum for _ in candidates]
    
#     k = choices(list(range(K)), candidates)
    
    k = 0
    threshold = random()
    for _k, _ in enumerate(candidates):
        threshold -= _
        if threshold < 0:
            k = _k
            break
    return k


In [9]:
def A(i, j, k):
    return (Phi[k][V.index(collection[i][j])] + b)\
            / (sum(Phi[k])+b*len(Phi[k]))

def B(i, k):
    return (Theta[i][k] + a)

In [10]:
a = 0.1
b = 0.1

for _ in range(1000):
    for i, d in enumerate(Z):
        for j, topic in enumerate(d):
            termIdx = V.index(collection[i][j])
            Phi[topic][termIdx] -= 1
            Theta[i][topic] -= 1
            
            k = gibbsSampling(i, j)
            
            Z[i][j] = k
            Phi[k][termIdx] += 1
            Theta[i][k] += 1

In [11]:
for k in range(K):
    print(sorted(list(zip(Phi[k], V)), key=lambda x:x[0],
                 reverse=True)[:5])
    print()

[(3, 'regression'), (2, 'scikit-learn'), (2, 'deep learning'), (2, 'artificial intelligence'), (2, 'machine learning')]

[(3, 'HBase'), (3, 'Big Data'), (3, 'Java'), (2, 'Hadoop'), (2, 'Cassandra')]

[(4, 'R'), (3, 'probability'), (3, 'statistics'), (2, 'statsmodels'), (2, 'pandas')]



# TDM

In [12]:
# 정규식에서 숫자는 : String Range 값을 특정 합니다
import os, re
fileFolder = "./News/" 
fileList   = [fileFolder + _  for _ in os.listdir(fileFolder) 
               if re.match("\d{10}.txt", _) ]

# 네이버 뉴스 수집자료를 collection 로 묶는다
collection = []
for _ in fileList:
    with open(_) as f:
        collection.append(f.read())

In [13]:
collection[0]

'// flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback() {}\n\n\t\n\t교수는 스스로 7점 만점에 6.3점…학생은 4.3점 줘고혁진 코리아텍 교수 설문조사 결과…연구환경 인식 차이 커\'불 꺼진 교수실\'[연합뉴스 자료 사진](대전=연합뉴스) 이재림 기자 = 국내 청년 과학자와 교수 간 연구 환경에 대한 인식차가 적지 않은 것으로 나타났다. 진로에 대한 관심 여부는 그 간극이 크게 벌어져 있는 것으로 파악됐다.    25일 한국연구재단(NRF)에 따르면 고혁진 한국산업기술대학교(코리아텍) 교수를 비롯한 재단 정책혁신팀은 연구환경에 대한 이해당사자 간 인식 차이 조사 심층진단 내용을 \'NRF 이슈리포트\'로 발표했다.    4월 17∼25일 이공계 대학원생 및 박사 후 연구원(청년과학자) 3천301명을 상대로, 5월 2∼16일 이공분야 지원사업 수행 교수(연구책임자) 2천488명을 상대로 각각 설문 조사했다.    연구실 문화를 살필 수 있는 문항에 대한 응답 분석 결과 모든 항목에서 교수가 학생보다 긍정적이었다.    교수의 경우는 긍정적 응답 비율이 부정적인 것보다 압도적으로 높았다.    학생 인식 수준을 기준으로 한 인식 수준 표준화 값(교수 인식 수준-학생 인식 수준/학생 인식 수준)을 보면 두 집단의 인식 차이는 24.8% 정도다.    특히 진로에 대한 적극적인 관심에 대한 차이는 46.5%나 됐다.     \'지도교수는 제자의 진로에 대해 적극적인 관심을 갖고 있다\'라는 문항에 교수는 6.3점을, 학생은 4.3점(이상 7점 만점)을 각각 매겼다.    이는 지난해 국제 학술지 네이처(nature)가 \'연구실 리더십 문제\'(Leadership problem In The Lab)에서 공개한 외국 사례를 크게 웃도는 수치다. 외국에서 연구책임자와 연구원 간 진로 상담 인식 차이는 28%였다.    국내의 경우 동료·선배와의 차별 여부(32.8%)와 과제 참여를 통한 경제적 보상(30.4

In [14]:
# 전처리
import re
from string import punctuation
pattern1 = re.compile(r"[{0}]".format(re.escape(punctuation)))

# 5글자 이상의 영어
pattern2 = re.compile(r"[A-z]{5,}")
pattern3 = re.compile(r"[^ㄱ-ㅎㅏ-ㅣ가-힣]")
# 하이퍼스페이스 2개 이상일 때
pattern4 = re.compile(r"\s{2,}")

for i, d in enumerate(collection):
    collection[i] = \
        pattern4.sub(" ", pattern3.sub(" ", pattern2.sub(" ", pattern1.sub(" ", d))))

collection[10]

' 오류를 우회하기 위한 함수 추가 그리샴 취임 후 한달새 침묵 미국인 대변인 목소리도 몰라 트럼프 대변인 역할 보좌로 한정스테파니 그리샴 미 백악관 대변인 연합뉴스 서울경제 도널드 트럼프 미국 대통령의 새로운 입 으로 발탁된 스테파니 그리샴 백악관 대변인이 취임 후 거의 한 달이 지나도록 모습을 보이지 않고 있다 최근 트럼프 대통령이 민주당의 유색 여성 의원들을 겨냥해 인종차별적 막말을 퍼부어 미 정가가 발칵 뒤집어졌지만 그리샴은 단 한 차례도 공식 해명조차 내놓지 않았다 일 현지시간 미 정치전문매체 폴리티코 등 현지언론에 따르면 지난달 일 세라 샌더스 전 대변인의 후임으로 임명된 그리샴은 방송출연은 커녕 기자들의 질문에도 답하지 않는 등 언론과의 접촉을 극도로 삼가고 있다 그는 트럼프 대통령이 민주당 소속 유색 여성 초선의원 인방에게 너희 나라로 돌아가라 등 막말을 일주일 넘게 쏟아내는 와중에도 트위터에 트럼프 대통령을 옹호하는 짧은 글 하나를 올린 것 외엔 메시지를 내지 않았다 백악관 대변인의 이 같은 저자세 는 트럼프 대통령과 언론의 불편한 관계가 영향을 미친 것으로 보인다 트럼프 대통령은 뉴욕타임스 워싱턴포스트 등 주류 언론을 매일 가짜 뉴스 라고 공격하며 전쟁을 벌이고 있고 이 때문에 세라 샌더스 전임 백악관 대변인도 언론 정례 브리핑을 중단한 채 기자단과 냉각기를 가졌다 폴리티코는 그러나 트럼프 대통령의 막말로 미 정계가 정치적 스펙트럼을 떠나 비판으로 들끓고 있는데도 미국인 대다수는 그리샴의 목소리조차 알지 못한다면서 이는 백악관 대변인으로는 매우 이례적이라고 지적했다 그리샴 대변인은 일일 업무 대부분을 하급자들에게 맡기고 본인은 과거 멜라니아 여사의 대변인을 맡았을 때처럼 꼭 필요할 때만 전면에 나서겠다는 입장으로 알려졌다 트위터를 통해 직접 중요 내용을 공개하는 소통 방식을 선호하는 트럼프 대통령에게 언론의 관심을 집중시키고 본인은 기자들에게는 대통령과 직접 접촉할 기회를 최대한 많이 만들어주는 일종의 중개인 역할을 하겠다는 것이다 한편 폴리

In [15]:
from konlpy.tag import Mecab
ne = Mecab().nouns
V = []
for i, d in enumerate(collection):
    collection[i] = [noun for noun in ne(d)  if len(noun) > 1]
    V.extend(collection[i])

In [16]:
V = list(set(V))

In [17]:
V[:19]

['낙원',
 '추구',
 '횟집',
 '복지',
 '타스',
 '자행',
 '탐지',
 '레버리지',
 '어려움',
 '특허',
 '후임자',
 '심리',
 '방통',
 '인터내셔널',
 '지체',
 '담화',
 '압력',
 '화물기',
 '상체']

In [19]:
from random import seed, randrange
seed(0)

K = 20
V = list(set([t for d in collection for t in d]))
Z = list(list(randrange(K) for t in d)
         for d in collection)
Phi = list(list(0 for t in V) for k in range(K))
Theta = list(list(0 for k in range(K)) for d in collection)
Phisum = list(0 for k in range(K))

for i, d in enumerate(Z):
    for j, topic in enumerate(d):
        Phi[topic][V.index(collection[i][j])] += 1
        Theta[i][topic] += 1
        Phisum[topic] += 1

In [20]:
from random import random, sample, choices

def gibbsSampling(i, j):
    candidates = list()
    for k in range(K):
        candidates.append(A(i, j, k) * B(i, k))
    
    _sum = sum(candidates)
    candidates = [_/_sum for _ in candidates]
    
#     k = choices(list(range(K)), candidates)
    
    k = 0
    threshold = random()
    for _k, _ in enumerate(candidates):
        threshold -= _
        if threshold < 0:
            k = _k
            break
    return k


In [21]:
N = len(V)

def A(i, j, k):
    return (Phi[k][V.index(collection[i][j])] + b)\
            / (Phisum[k] + b*N) #len(Phi[k]))

def B(i, k):
    return (Theta[i][k] + a)

In [22]:
a = 0.1
b = 0.1

for _ in range(10):
    for i, d in enumerate(Z):
        for j, topic in enumerate(d):
            termIdx = V.index(collection[i][j])
            Phi[topic][termIdx] -= 1
            Theta[i][topic] -= 1
            Phisum[topic] -= 1
            
            k = gibbsSampling(i, j)
            
            Z[i][j] = k
            Phi[k][termIdx] += 1
            Theta[i][k] += 1
            Phisum[topic] += 1

In [27]:
# i번쨰 문서의 j번쨰 단어의 Topic 이 K 일때
# Perplexity
# P(토픽비율) = Theta[i][k] / sum(Theta[i])
# P(단어비율) = Phi[k][j=v] / sum(Phi[k])

from wordcloud import WordCloud
font = "/home/markbaum/.local/share/fonts/D2Coding.ttf"
wc   = WordCloud(font_path=font, # max_words=10,
                 background_color="white")

for k in range(K):
    print(sorted(list(zip(Phi[k], V)), key=lambda x:x[0], reverse=True)[:10])
#     temp = sorted(list(zip(Phi[k], V)), key=lambda x:x[0], reverse=True)[:10]
#     wc.generate_from_frequencies({_[1]:_[0]  for _ in temp})    
#     plt.imshow(wc.to_array())
#     plt.axis("off")
#     plt.show()

[(1, '대법관'), (1, '윤석열'), (1, '이정아'), (0, '낙원'), (0, '추구'), (0, '횟집'), (0, '복지'), (0, '타스'), (0, '자행'), (0, '탐지')]
[(11, '보예'), (11, '보디'), (8, '국왕'), (7, '말레이시아'), (6, '황병승'), (4, '결혼'), (4, '일본군'), (4, '무하'), (3, '성희롱'), (3, '스타')]
[(25, '리콜'), (20, '기아차'), (17, '현대차'), (16, '결함'), (15, '편의점'), (15, '주차'), (10, '관리법'), (10, '세타'), (10, '파업'), (10, '쓰촨')]
[(107, '일본'), (24, '안보'), (23, '이순신'), (19, '임상훈'), (15, '캐치'), (14, '치매'), (13, '정걸'), (13, '양국'), (13, '해협'), (13, '장군')]
[(1, '지난주'), (1, '일지'), (0, '낙원'), (0, '추구'), (0, '횟집'), (0, '복지'), (0, '타스'), (0, '자행'), (0, '탐지'), (0, '레버리지')]
[(1, '외교관'), (0, '낙원'), (0, '추구'), (0, '횟집'), (0, '복지'), (0, '타스'), (0, '자행'), (0, '탐지'), (0, '레버리지'), (0, '어려움')]
[(248, '한국'), (213, '러시아'), (196, '기자'), (193, '일본'), (162, '정부'), (153, '미국'), (132, '북한'), (126, '추가'), (119, '뉴스'), (116, '네이버')]
[(4, '독립군'), (2, '카자흐스탄'), (1, '신원'), (1, '작가'), (1, '물질'), (1, '호기'), (1, '성기'), (0, '낙원'), (0, '추구'), (0, '횟집')]
[(1, '가로수길'), (1, '유리창'), (0, '낙원'), (0, 

In [None]:
[(i, d.index(max(d)))  for i, d  in enumerateerate(Theta)]

In [26]:
temp

[(1, '대법관'),
 (1, '윤석열'),
 (1, '이정아'),
 (0, '낙원'),
 (0, '추구'),
 (0, '횟집'),
 (0, '복지'),
 (0, '타스'),
 (0, '자행'),
 (0, '탐지')]

In [None]:
LSA : 동일한 성능에 동일한 결과를 추출

In [None]:
SVD : 

In [None]:
K-means

1. Top K
1. Instance Based Learning
1. 학습의 과정이 미리 있어야 한다 (추가/ 삭제 과정이 가능)
1. 경계면, 오류로 분류가 다르게 나온경우 분류 방식으로 대안으로 적용가능


KNN : True 벨류가 있다 (지도학습)
    주변의 K개의 이웃이 있을때 

# 감성분석

In [None]:

PMI   NPMI

Focus Based Supervised Learning
1. 특정한 Seed Word 를 사용하여 긍부정을 판단할 수 있다
1. Corpus 와 Dictionary 를 바탕으로 감성분석을 진행

Web 분석은 실시간성을 반영해, 각종 지표들의 선행지표로써 추정하는 모델링 방법들이 연구

Twitter Sentiment
1. 개별 이벤트별로 Sentiment 분석결과를 Dash Board 로 제공
1. 맞는 부분을 추려서 쓸만한 부분들을 연구