# TEXT MINING for PRACTICE
- 본 자료는 텍스트 마이닝을 활용한 연구 및 강의를 위한 목적으로 제작되었습니다.
- 본 자료를 강의 목적으로 활용하고자 하시는 경우 꼭 아래 메일주소로 연락주세요.
- 본 자료에 대한 허가되지 않은 배포를 금지합니다.
- 강의, 저작권, 출판, 특허, 공동저자에 관련해서는 문의 바랍니다.
- **Contact : ADMIN(admin@teanaps.com)**

---

In [1]:
# 텍스트 분석을 위한 TEANAPS 패키지를 설치합니다.
# TEANAPS는 Google Colaboratory/Linux 환경에 최적화되어 있습니다.
# Windows 환경에서 일부 기능에 제한이 있을 수 있습니다.

In [2]:
# TEANAPS (https://github.com/fingeredman/teanaps)
#!git clone https://github.com/fingeredman/teanaps.git

In [3]:
#!ls

In [4]:
#!python "teanaps/teanaps_setup.py"

## WEEK 07-2. 단어 임베딩 이해하기
- Python으로 문서에 출현단 단어를 임베딩하는 방법에 대해 다룹니다.

---

### 1. 문서를 명사형 문장으로 변환하기

---

In [5]:
# TEANAPS 형태소 분석기를 불러옵니다.
from teanaps.nlp import MorphologicalAnalyzer
from teanaps.nlp import Processing

ma = MorphologicalAnalyzer()
processing = Processing()

tokenized_sentence_list = []

PATH = "data/article_sample.txt"
POS_LIST = ["NNG", "NNP"]

f = open(PATH, encoding="utf-8")

for line in f:
    line = line.strip()
    col = line.split("\t") # [label, souce, datetime, title, content]
    label = col[0]
    source = col[1]
    datetime = col[2]
    title = col[3]
    content = col[4]
    tagged_word_list = ma.parse(content)
    tokenized_sentence = processing.get_plain_text(tagged_word_list, pos_list=POS_LIST, tag=False)
    tokenized_sentence_list.append(tokenized_sentence)
f.close()

tokenized_sentence_list[:3]

['금융 비트코인 쇠락 재적 결함 보고서 넷 코리아 손 예술 기자 대표 암호 화폐 비트코인 가격 급 변동 불구 일부 암호 화폐 옹호 론자 비트코인 몇 가지 결함 해소 국면 것 예측 그 결함 전제 국내외 정부 감독 당국 선제 시각 및 규제 환경 정비 주장 한국 금융 연구원 비트코인 쇠락 재적 결함 보고서 암호 화폐 옹호 론 입장 그 제시 세 가지 결함 발표 여기 암호 화폐 옹호 론자 암호 화폐 부가가치 낼 수 사업 모델 등장 가능성 집중 인물 통칭 그 위해 비트코인 세 가지 결함 우선 해소 보고 하나 비트코인 재화 용역 구입 사용 시장 은 것 미국 비트코인 시장조사 기관 사토시 캐피탈 리서치 지난 기준 비트코인 사용 거래 결제 액 약 중국 알리페 위챗 페이 거래 결제 액 약 감안 시장 것 두 번 비트코인 거래 건수 급증 블록 용량 제한 등 채굴 통핸 결제 처리 지연 이용자 거래 완료 위해 부담 수수료 문제 것 비트코인 기반 기술 블록 체인 구성 각 블록 용량 메가바이트 초당 평균 거래 처리 건수 건 약 개 블록 형성 반면 비자 경우 초당 거래 처리 건수 수 건 달 세 번 거래소 해킹 등 사기 거래 노출 점 지난 캐나다 암호 화폐 거래소 대표이사 이자 설립 사망 거액 고객 암호 화폐 분 시로 파산 보호 신청 파산관재인 은 비밀 키 관리 설립 사망 이전 개월 간 핫월렛 고객 암호 폐가 발표 핫월렛 인터넷 연결 암호 화폐 전자지갑 세 가지 결함 불구 비트코인 이용 오프라인 결제 나라 디지털 화폐 대한 실험 시도 상태 이 때문 암호 화폐 비트코인 정말 법정 통화 보완 거나 지급 결제 가치 저장 수단 역할 수 가늠 위해 선 재적 결함 대처 국내외 정부 감독 당국 암호 화폐 대한 시각 및 규제 환경 정비 게 이 보고서 의견 옹호 론 지적 세 가지 결함 중 일부 금융 소비자 투자자 보호 문제 직결 상황 한국 금융 연구원 암호 화폐 수용 검토 정부 감독 당국 소비자 보호 강화 및 금융시장 안정 확보 관점 시장 참가자 정보 공시 의무 강화 결제 계좌 및 전자지갑 제공 거래소 금

### 2. Word2Vec 알고리즘으로 문서 학습하기

---

#### 2.1. Word2Vec 학습하기

---

In [6]:
#!pip install gensim

In [2]:
import gensim

In [8]:
stopword_list = []
#stopword_list = processing.get_stopword()
#print(stopword_list[-10:])

In [9]:
total_word_list = []
for tokenized_sentence in tokenized_sentence_list:
    word_list = [word for word in tokenized_sentence.split(" ") if word not in stopword_list]
    total_word_list.append(word_list)

In [10]:
#print(total_word_list)

In [11]:
model = gensim.models.Word2Vec(total_word_list, iter=1, window=5, min_count=1, workers=4)
model.train(total_word_list, total_examples=len(total_word_list), epochs=10)

(248241, 291090)

#### 2.2. Word2Vec 학습결과 활용하기

---

In [13]:
#print(model.wv.vocab)

In [14]:
sim_word_list = model.wv.most_similar(positive=["비트코인"], topn=10)
print(sim_word_list)

[('화폐', 0.9977630376815796), ('디지털', 0.9977118372917175), ('한국', 0.9963743090629578), ('암호', 0.9963252544403076), ('블록', 0.9962316751480103), ('견제', 0.9954952597618103), ('나스닥', 0.995326042175293), ('경제', 0.9950853586196899), ('비롯', 0.9949107766151428), ('매체', 0.9945082664489746)]


#### 2.3. Word2Vec 학습결과 시각화하기

---

In [16]:
from sklearn.manifold import TSNE
import pandas as pd

vocab = list(model.wv.vocab)
X = model[vocab]
tsne = TSNE(n_components=2)
X_tsne = tsne.fit_transform(X)
df = pd.DataFrame(X_tsne, index=vocab, columns=['x', 'y'])
df.shape


Call to deprecated `__getitem__` (Method will be removed in 4.0.0, use self.wv.__getitem__() instead).



(3492, 2)

In [17]:
from teanaps.visualization import GraphVisualizer

gv = GraphVisualizer()

In [18]:
#list(df['x'])

In [19]:
#list(df['y'])

In [20]:
#list(df.index)

In [21]:
sim_word_list = model.wv.most_similar(positive=["부동산"], topn=30)
print(sim_word_list)

[('종사', 0.9916563630104065), ('모니터링', 0.9910761117935181), ('브리프', 0.9900681376457214), ('악화', 0.990037202835083), ('이중', 0.9900189638137817), ('신탁', 0.9897236227989197), ('국내', 0.989656925201416), ('그림자', 0.989579439163208), ('선제', 0.987723708152771), ('관련', 0.9873843193054199), ('대체', 0.9873437881469727), ('펀드', 0.9859089851379395), ('투자', 0.9852128028869629), ('호황', 0.9841533899307251), ('규모', 0.9824382066726685), ('위탁', 0.9819413423538208), ('사업', 0.9815232753753662), ('디지털', 0.9810513257980347), ('투', 0.980873703956604), ('편입', 0.9803615808486938), ('유동화', 0.9802529811859131), ('신업', 0.9799972176551819), ('민감', 0.9796713590621948), ('특화된', 0.979412853717804), ('기고', 0.9787383675575256), ('타격', 0.9783099889755249), ('자산', 0.9782371520996094), ('환매', 0.9780794382095337), ('발간', 0.9778479337692261), ('학습', 0.9778220653533936)]


In [22]:
x1 = []
y1 = []
label1 = []

x2 = []
y2 = []
label2 = []

for x, y, label in zip(list(df['x']), list(df['y']), list(df.index)):
    if label in [word for word, sim in sim_word_list]:
        x1.append(x)
        y1.append(y)
        label1.append(label)
    else:
        x2.append(x)
        y2.append(y)
        label2.append(label)

data_meta_list = []

data_meta = {
    "data_name": "COORDINATES1",
    "x_data": x1,
    "y_data": y1,
    "label": label1
}
data_meta_list.append(data_meta)

data_meta = {
    "data_name": "COORDINATES2",
    "x_data": x2,
    "y_data": y2,
    "label": label2
}
data_meta_list.append(data_meta)

graph_meta = {
    "title": "SCATTER",
    "x_name": "X",
    "y_name": "Y"
}

gv.draw_scatter(data_meta_list, graph_meta)

### 3. 위키피디아를 활용해 학습한 Word2Vec 모델 활용하기

---

In [3]:
model = gensim.models.Word2Vec.load("data/wiki.model")

In [24]:
model.wv.most_similar(positive=["전봇대", "전등"], negative=[], topn=10)

[('난로', 0.7592601776123047),
 ('방바닥', 0.7346104383468628),
 ('철문', 0.7283652424812317),
 ('벽난로', 0.7227192521095276),
 ('물탱크', 0.719506561756134),
 ('선풍기', 0.7163629531860352),
 ('아궁이', 0.7059392333030701),
 ('철사', 0.7055197954177856),
 ('부뚜막', 0.7043353915214539),
 ('수도관', 0.7031855583190918)]

In [7]:
model.wv.get_vector("엔진")

array([ 0.9304346 ,  2.2533457 ,  6.0151324 , -3.86598   , -0.82833725,
        3.0826788 ,  0.39980417, -0.12721346,  3.1993756 ,  0.00680062,
       -2.3969638 , -0.58052576, -1.3990179 , -1.5865258 ,  1.0017129 ,
       -2.3121803 ,  1.3083236 , -2.7358963 ,  2.6824775 ,  0.60132796,
        1.7926233 , -1.3271345 , -1.2120124 ,  0.2603908 ,  0.37837586,
        2.862264  ,  3.0046256 , -1.2135824 , -0.47829142,  0.93783826,
       -0.6072774 , -0.01488591,  1.379466  ,  0.36165532,  0.6285186 ,
       -5.1974854 ,  1.5264227 , -2.5281825 ,  1.4061353 ,  1.0535885 ,
        1.8831809 , -4.9000196 ,  1.7695531 ,  0.8081559 ,  1.8334516 ,
        1.0551983 , -6.24194   ,  0.92843115, -2.221826  , -2.0895445 ,
       -2.3707626 , -3.3663828 ,  0.27760667, -1.1761427 ,  4.22711   ,
        0.5773466 ,  3.0011559 , -0.8110689 , -0.659829  ,  5.8431387 ,
        1.3858166 ,  2.0160887 , -2.4879007 ,  1.8777392 , -0.48474088,
        2.5801554 , -0.68181217,  2.460708  , -2.3849316 ,  0.49

In [4]:
model.wv.most_similar(positive=["엔진"])

[('터보차저', 0.7279133200645447),
 ('전기모터', 0.7278844118118286),
 ('트랜스미션', 0.7198393940925598),
 ('가솔린', 0.7194545269012451),
 ('OHV', 0.7068746089935303),
 ('변속기', 0.7041382193565369),
 ('DOHC', 0.7023363709449768),
 ('섀시', 0.6998150944709778),
 ('프로펠러', 0.6976213455200195),
 ('디젤엔진', 0.6948943138122559)]

In [26]:
model.wv.most_similar(positive=["아빠", "여성"], negative=["남성"])

[('엄마', 0.8517739772796631),
 ('아저씨', 0.6820619106292725),
 ('어디가', 0.6796489953994751),
 ('친구', 0.6589521169662476),
 ('신혼', 0.6444262266159058),
 ('괴짜', 0.6426041126251221),
 ('할머니', 0.6371489763259888),
 ('아줌마', 0.6364408731460571),
 ('룸메이트', 0.6234321594238281),
 ('아내', 0.6198647618293762)]

In [27]:
model.wv.most_similar(positive=["왕자", "여성"], negative=["남성"])

[('왕녀', 0.7314920425415039),
 ('여왕', 0.6171671748161316),
 ('이아손', 0.5895238518714905),
 ('아들', 0.5856923460960388),
 ('대왕', 0.5848723649978638),
 ('왕비', 0.5842419862747192),
 ('삼촌', 0.5803187489509583),
 ('왕세자', 0.5697871446609497),
 ('시녀', 0.5668401718139648),
 ('공주', 0.5660519599914551)]

In [28]:
model.wv.most_similar(positive=["서울", "일본"], negative=["한국"])

[('도쿄', 0.6773518323898315),
 ('교토', 0.6354459524154663),
 ('오사카', 0.6219913363456726),
 ('서울특별시', 0.5624315142631531),
 ('후쿠오카', 0.5568024516105652),
 ('도쿄도', 0.5443399548530579),
 ('나고야', 0.5367218255996704),
 ('오사카부', 0.5236438512802124),
 ('홋카이도', 0.5192624926567078),
 ('요코하마', 0.5188096761703491)]

In [29]:
model.wv.most_similar(positive=["오른쪽", "여성"], negative=["왼쪽"])

[('남성', 0.8275579810142517),
 ('동성애자', 0.6669595241546631),
 ('이성애자', 0.653519868850708),
 ('남성은', 0.6204222440719604),
 ('한국인', 0.6175050139427185),
 ('남녀', 0.6024686098098755),
 ('독신', 0.5987606644630432),
 ('동성애', 0.5984399914741516),
 ('아동', 0.5788646936416626),
 ('성전환자', 0.574138343334198)]

In [30]:
model.wv.most_similar(positive=["서울", "맛집"])

[('강남', 0.6851245164871216),
 ('인사동', 0.640274167060852),
 ('서울특별시', 0.6207906603813171),
 ('연희동', 0.6170412302017212),
 ('압구정동', 0.6069209575653076),
 ('서울시', 0.6068366765975952),
 ('부산', 0.6065454483032227),
 ('춘천', 0.602898895740509),
 ('명동', 0.5961471796035767),
 ('노량진', 0.5898141860961914)]