# LSA

#### DTM 만들기

In [105]:
import numpy as np
A=np.array([[0,0,0,1,0,1,1,0,0],[0,0,0,1,1,0,1,0,0],[0,1,1,0,2,0,0,0,0],[1,0,0,0,0,0,0,1,1]])
np.shape(A)

(4, 9)

#### SVD

In [106]:
U, s, VT = np.linalg.svd(A, full_matrices = True) # 시그마 대신 s를 사용

In [107]:
print(U.round(2)) # 소수 둘째자리에서 반올림
np.shape(U)

[[-0.24  0.75  0.   -0.62]
 [-0.51  0.44 -0.    0.74]
 [-0.83 -0.49 -0.   -0.27]
 [-0.   -0.    1.    0.  ]]


(4, 4)

In [108]:
# Numpy의 linalg.svd()는 특이값 분해의 결과로 대각 행렬이 아니라 특이값의 리스트를 반환
print(s.round(2))
np.shape(s)

[2.69 2.05 1.73 0.77]


(4,)

In [109]:
# 다시 대각 행렬로 바꾸어 주어야 함
S = np.zeros((4, 9)) # 대각 행렬의 크기인 4 x 9의 임의의 행렬 생성
S[:4, :4] = np.diag(s) # 특이값을 대각행렬에 삽입
print(S.round(2))
np.shape(S)

[[2.69 0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   2.05 0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   1.73 0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.77 0.   0.   0.   0.   0.  ]]


(4, 9)

In [110]:
print(VT.round(2)) # 직교 행렬 VT(V의 전치 행렬)
np.shape(VT)

[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]
 [ 0.58 -0.    0.    0.   -0.    0.   -0.    0.58  0.58]
 [ 0.   -0.35 -0.35  0.16  0.25 -0.8   0.16 -0.   -0.  ]
 [-0.   -0.78 -0.01 -0.2   0.4   0.4  -0.2   0.    0.  ]
 [-0.29  0.31 -0.78 -0.24  0.23  0.23  0.01  0.14  0.14]
 [-0.29 -0.1   0.26 -0.59 -0.08 -0.08  0.66  0.14  0.14]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19  0.75 -0.25]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19 -0.25  0.75]]


(9, 9)

In [111]:
# U × S × VT를 하면 기존의 행렬 A가 나오는지 확인
np.allclose(A, np.dot(np.dot(U,S), VT).round(2))

True

#### Truncated SVD (t=2)

In [112]:
S=S[:2,:2]
print(S.round(2))

[[2.69 0.  ]
 [0.   2.05]]


In [113]:
U=U[:,:2]
print(U.round(2))

[[-0.24  0.75]
 [-0.51  0.44]
 [-0.83 -0.49]
 [-0.   -0.  ]]


In [114]:
VT=VT[:2,:]
print(VT.round(2))

[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]]


#### U × S × VT연산을 통해 기존 행렬과의 비교

In [115]:
A_prime=np.dot(np.dot(U,S), VT)
print(A)
print(A_prime.round(2))

[[0 0 0 1 0 1 1 0 0]
 [0 0 0 1 1 0 1 0 0]
 [0 1 1 0 2 0 0 0 0]
 [1 0 0 0 0 0 0 1 1]]
[[ 0.   -0.17 -0.17  1.08  0.12  0.62  1.08 -0.   -0.  ]
 [ 0.    0.2   0.2   0.91  0.86  0.45  0.91  0.    0.  ]
 [ 0.    0.93  0.93  0.03  2.05 -0.17  0.03  0.    0.  ]
 [ 0.    0.    0.    0.    0.   -0.    0.    0.    0.  ]]


### 실습 예제3

#### 1) 뉴스그룹 데이터에 대한 이해

In [122]:
import pandas as pd
from sklearn.datasets import fetch_20newsgroups
dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers', 'footers', 'quotes'))
documents = dataset.data
len(documents)

11314

In [123]:
documents[1]

"\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"

In [124]:
dataset.target_names # target_name에는 카테고리가 표시

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

#### 2) 텍스트 전처리

In [125]:
news_df = pd.DataFrame({'document':documents})
# 특수 문자 제거
news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]", " ")
# 길이가 3이하인 단어는 제거 (길이가 짧은 단어 제거)
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]))
# 전체 단어에 대한 소문자 변환
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: x.lower())

In [126]:
news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy your logic runs steam sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway maybe start newsgroup atheist hard bummin much forget your flintstone chewables bake timmons'

In [127]:
!pip install stopwords



In [139]:
import nltk
nltk.download('stopwords')
stop_words = stopwords.words('english') # NLTK로부터 불용어를 받아옵니다.
tokenized_doc = news_df['clean_doc'].apply(lambda x: x.split()) # 토큰화
tokenized_doc = tokenized_doc.apply(lambda x: [item for item in x if item not in stop_words])
# 불용어를 제거합니다.

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\HP1\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [129]:
print(tokenized_doc[1])

['yeah', 'expect', 'people', 'read', 'actually', 'accept', 'hard', 'atheism', 'need', 'little', 'leap', 'faith', 'jimmy', 'logic', 'runs', 'steam', 'sorry', 'pity', 'sorry', 'feelings', 'denial', 'faith', 'need', 'well', 'pretend', 'happily', 'ever', 'anyway', 'maybe', 'start', 'newsgroup', 'atheist', 'hard', 'bummin', 'much', 'forget', 'flintstone', 'chewables', 'bake', 'timmons']


#### 3) TF-IDF 행렬 만들기

In [133]:
# 역토큰화 (토큰화 작업을 역으로 되돌림)
detokenized_doc = []
for i in range(len(news_df)):
    t = ' '.join(tokenized_doc[i])
    detokenized_doc.append(t)

news_df['clean_doc'] = detokenized_doc

In [134]:
news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy logic runs steam sorry pity sorry feelings denial faith need well pretend happily ever anyway maybe start newsgroup atheist hard bummin much forget flintstone chewables bake timmons'

In [135]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english', max_features= 1000, # 상위 1,000개의 단어를 보존 
                             max_df = 0.5, smooth_idf=True)

X = vectorizer.fit_transform(news_df['clean_doc'])
X.shape # TF-IDF 행렬의 크기 확인

(11314, 1000)

#### 4) 토픽 모델링

In [136]:
from sklearn.decomposition import TruncatedSVD
svd_model = TruncatedSVD(n_components=20, algorithm='randomized', n_iter=100, random_state=122)
svd_model.fit(X)
len(svd_model.components_)

20

In [137]:
np.shape(svd_model.components_)

(20, 1000)

In [138]:
terms = vectorizer.get_feature_names() # 단어 집합. 1,000개의 단어가 저장됨.

def get_topics(components, feature_names, n=5):
    for idx, topic in enumerate(components):
        print("Topic %d:" % (idx+1), [(feature_names[i], topic[i].round(5)) for i in topic.argsort()[:-n - 1:-1]])
get_topics(svd_model.components_,terms)

Topic 1: [('like', 0.21386), ('know', 0.20046), ('people', 0.19293), ('think', 0.17805), ('good', 0.15128)]
Topic 2: [('thanks', 0.32888), ('windows', 0.29088), ('card', 0.18069), ('drive', 0.17455), ('mail', 0.15111)]
Topic 3: [('game', 0.37064), ('team', 0.32443), ('year', 0.28154), ('games', 0.2537), ('season', 0.18419)]
Topic 4: [('drive', 0.53324), ('scsi', 0.20165), ('hard', 0.15628), ('disk', 0.15578), ('card', 0.13994)]
Topic 5: [('windows', 0.40399), ('file', 0.25436), ('window', 0.18044), ('files', 0.16078), ('program', 0.13894)]
Topic 6: [('chip', 0.16114), ('government', 0.16009), ('mail', 0.15625), ('space', 0.1507), ('information', 0.13562)]
Topic 7: [('like', 0.67086), ('bike', 0.14236), ('chip', 0.11169), ('know', 0.11139), ('sounds', 0.10371)]
Topic 8: [('card', 0.46633), ('video', 0.22137), ('sale', 0.21266), ('monitor', 0.15463), ('offer', 0.14643)]
Topic 9: [('know', 0.46047), ('card', 0.33605), ('chip', 0.17558), ('government', 0.1522), ('video', 0.14356)]
Topic 10

## 실습 예제2

In [116]:
from konlpy.tag import Okt

df = pd.read_csv('job_review.csv')
df[:5] # 상위 5개 출력

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0.1,Unnamed: 0,industry,name,numofreviews,job,status,location,date,rate,promotion,...,managers,title,pros,len_pros,cons,len_cons,hope_to_mgr,growth,recommendation,stock_code
0,0,1000,대한민국 육군,782,특수계층/공공,전직원,강원,2017/11/28,3,3,...,3,"""어느직장이나 그렇겟지만 부대의 위치와 지휘관급들의 성향에따라 극과 극을 달릴수 있다.""",휴가같은 경우는 자신의 상관의 성향에 따라 정말 극과극을달리고 월급이나 추가수당 걱...,14,많이 나아졌다고는 하나 지휘관 급들의 생각이 틀에박혀있고 불필요하고 비효율적인 행위...,12,"겉보기식의 생활, 복지개선이아니라 실질적인것들에 대해 개선이 이루어졌으면 함.",0,1,
1,1,1000,대한민국 육군,782,경영/기획/컨설팅,전직원,인천,2017/11/16,1,2,...,5,"""장교로서 근무지가 3군수지원 사령부의 경우\r\n군수지원부대의 메카중하나이나\r\...","군관사공급을 통한주거안정, 월급의 안정성, 대출받기 쉬움",6,"명확하지 않은 업무지시, 하급자 책임전가\r\n상습적인 인격모독, 성희롱, 성범죄 등등",9,"법대로 좀 해라, 맨날 말로만 규정과 방침강조,\r\n고급장교들의 책임회피, 허술한...",0,0,
2,2,1000,대한민국 육군,782,인사/총무,전직원,경기,2017/11/13,3,2,...,1,"""애국심과 군인정신이 본인의 가치관과 맞지않으면 근무하기 힘드나 국방수호라는 보람을...",관사와 식비 제공으로 미혼기준으로 월 100이상 모으는게 어렵지 않음.\r\n공무원...,20,불규칙한 야근이 잦고 일일 초과근무 시간이 제한되어 있어 새벽까지 업무를 하는 경우...,31,"날이 갈 수록 근무여건이 좋아지고 있지만, 전역간부로서 병사들에게 랜턴과 배터리 지...",1,0,
3,3,1000,대한민국 육군,782,특수계층/공공,현직원,경기,2017/11/12,2,3,...,3,"""사명감과 희생정신으로 확고히 무장된 사람이 아니라면 버티기 힘들며 사교성과 인간관...",공직이므로 휴일은 칼같이 보장됨.훈련등으로 휴일출근 시 전투휴무로 평일에 휴식할 수...,20,"경직된 조직문화, 상급자의 부당한 지시에 목소리를 낼 수 없음, 고질적인 인력부족,...",13,고칠건 고쳐나가야 한다. 현재있는 사람의 소중함을 느끼고 인격적으로 대우하기를,0,0,
4,4,1000,대한민국 육군,782,전문직,현직원,대구,2017/11/11,3,2,...,4,"""사회에서 배우지 못하는것을 많이 배웁니다\r\n군대라는 사회라 참 보수적이며 사람...","모든것을 배울수있습니다\r\n현장작업,인사,군수,협조등 전투기술이외 많이 배울수있습니다",5,"비합리적인 인사제도(출신과비출신), 매우보수적인사회,\r\n계급으로 인한 비평등사회...",11,혁신적이고 자유로운 군대로 바뀌어야합니다\r\n좀더 사람을 위한 운용을 해주십시요,0,0,


In [117]:
df = df.dropna()

In [118]:
okt=Okt() 
noun_list = []
detokenized_doc = []

for sentence in df.cons:
    noun_list = okt.nouns(sentence)
    noun_list = [n for n in noun_list if len(n) > 1]
    t = ' '.join(noun_list)
    detokenized_doc.append(t)
    
df.txt = detokenized_doc

  if sys.path[0] == '':


In [119]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(max_features= 1000, # 상위 1,000개의 단어를 보존 
                             max_df = 0.5, smooth_idf=True)

X = vectorizer.fit_transform(df.txt)
X.shape # TF-IDF 행렬의 크기 확인

(42597, 1000)

In [121]:
from sklearn.decomposition import TruncatedSVD
svd_model = TruncatedSVD(n_components=5, algorithm='randomized', n_iter=100, random_state=122)
svd_model.fit(X)
len(svd_model.components_)

np.shape(svd_model.components_)

terms = vectorizer.get_feature_names() # 단어 집합. 1,000개의 단어가 저장됨.

def get_topics(components, feature_names, n=5):
    for idx, topic in enumerate(components):
        print("Topic %d:" % (idx+1), [(feature_names[i], topic[i].round(5)) for i in topic.argsort()[:-n - 1:-1]])
get_topics(svd_model.components_,terms)

Topic 1: [('업무', 0.41195), ('문화', 0.27665), ('야근', 0.24744), ('연봉', 0.23917), ('강도', 0.23545)]
Topic 2: [('업무', 0.59217), ('강도', 0.42926), ('부서', 0.11518), ('시간', 0.05256), ('차이', 0.04147)]
Topic 3: [('연봉', 0.62293), ('회사', 0.19461), ('복지', 0.1844), ('야근', 0.13345), ('직원', 0.10676)]
Topic 4: [('야근', 0.63024), ('시간', 0.24544), ('주말', 0.21196), ('퇴근', 0.2045), ('출근', 0.17944)]
Topic 5: [('연봉', 0.47001), ('야근', 0.31096), ('문화', 0.25944), ('군대', 0.16662), ('강도', 0.09031)]
