## 스팸분석 전처리

In [1]:
import pickle
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

In [2]:
spam_header = 'spam\t'
no_spam_header = 'ham\t'

documents = []
labels = []

In [4]:
with open('SMSSpamCollection','r',encoding = 'utf-8') as file_handle:
    for line in file_handle:
#         print(line) # 한줄씩 분리
        if line.startswith(spam_header):
            labels.append(1) # 스팸메일시
            documents.append(line[len(spam_header):])
        elif line.startswith(no_spam_header):
            labels.append(0) # 스팸메일이 아닐시
            documents.append(line[len(no_spam_header):])

In [8]:
documents[:5]

['Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...\n',
 'Ok lar... Joking wif u oni...\n',
 "Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's\n",
 'U dun say so early hor... U c already then say...\n',
 "Nah I don't think he goes to usf, he lives around here though\n"]

In [10]:
labels[:5]

[0, 0, 1, 0, 0]

In [13]:
vectorizer = CountVectorizer()
term_counts = vectorizer.fit_transform(documents)

In [14]:
vocabulary = vectorizer.get_feature_names_out()
vocabulary

array(['00', '000', '000pes', ..., 'èn', 'ú1', '〨ud'], dtype=object)

In [17]:
vocabulary[1000:1100]

array(['ahhhh', 'ahmad', 'ahold', 'aid', 'aids', 'aig', 'aight', 'ain',
       'aint', 'air', 'air1', 'airport', 'airtel', 'aiya', 'aiyah',
       'aiyar', 'aiyo', 'ajith', 'ak', 'aka', 'akon', 'al', 'alaikkum',
       'alaipayuthe', 'albi', 'album', 'alcohol', 'aldrine', 'alert',
       'alertfrom', 'alerts', 'aletter', 'alex', 'alfie', 'algarve',
       'algebra', 'algorithms', 'ali', 'alian', 'alibi', 'alive', 'all',
       'allah', 'allalo', 'allday', 'alle', 'allo', 'allow', 'allowed',
       'allows', 'almost', 'alone', 'along', 'alot', 'already', 'alright',
       'alrite', 'also', 'alter', 'alternative', 'although', 'alto18',
       'aluable', 'alwa', 'always', 'alwys', 'am', 'amanda', 'amazing',
       'ambitious', 'ambrith', 'american', 'ami', 'amigos', 'amk', 'amla',
       'amma', 'ammae', 'ammo', 'amnow', 'among', 'amongst', 'amore',
       'amount', 'amp', 'amplikater', 'amrca', 'amrita', 'ams', 'amt',
       'amused', 'amy', 'an', 'ana', 'anal', 'analysis', 'anand', 'and

In [18]:
len(vocabulary) # 유니크한단어

8713

## 단어빈도분석

In [2]:
import codecs
from konlpy.tag import Okt

data = codecs.open("박근혜_국정연설문_2016.txt","r",encoding = "utf-8")
text = data.read()

In [8]:
okt = Okt()

word_dic = {}
lines = text.split("\r\n")
lines[:5]

['존경하는 국민 여러분, 국회의장과 국회의원 여러분,',
 '',
 '저는 오늘, 북한의 핵실험과 미사일 발사에 따른 한반도의 위기가 고조되고 있는 상황에서 국민 여러분의 불안과 위기감에 대해 정부의 대처 방안을 설명 드리고 국회의 협력과 동참을 당부 드리고자 이 자리에 섰습니다.',
 '',
 '북한은 우리 정부와 국제사회의 거듭된 반대와 경고에도 불구하고 새해 벽두부터 4차 핵실험을 감행하여 한반도는 물론 전 세계 평화에 대한 기대에 정면도전을 했습니다.']

In [15]:
for line in lines:
    malist = okt.pos(line,norm=True, stem=True)
    for word in malist:
        if word[1] == "Noun": # 명사이면
            if not (word[0] in word_dic):
                word_dic[word[0]] = 0
            word_dic[word[0]] += 1

keys = sorted(word_dic.items(), key=lambda x:x[1], reverse=True)

In [16]:
for word, count in keys:
    print("{0}({1})".format(word, count))

print()

것(54)
북한(53)
우리(50)
국민(29)
수(21)
도발(20)
정부(19)
핵(19)
여러분(15)
위해(14)
미사일(13)
그(13)
한반도(11)
국제사회(11)
지원(11)
정권(10)
지금(10)
상황(9)
이(9)
제재(9)
노력(9)
더(9)
위(9)
개성(9)
산업(9)
대해(8)
등(8)
평화(7)
이상(7)
의료(7)
공단(7)
앞(7)
저(6)
협력(6)
대북(6)
이제(6)
생각(6)
국가(6)
기업(6)
부탁(6)
서비스(6)
존경(5)
국회의원(5)
핵실험(5)
발사(5)
세계(5)
변화(5)
동안(5)
작년(5)
지속(5)
차원(5)
위협(5)
때(5)
통과(5)
내부(5)
유지(5)
경제(5)
힘(5)
일자리(5)
위기(4)
대한(4)
규탄(4)
긴장(4)
남북(4)
사업(4)
이후(4)
개발(4)
의지(4)
결코(4)
가장(4)
조치(4)
대한민국(4)
가동(4)
중단(4)
주민(4)
때문(4)
과정(4)
선택(4)
대비(4)
고용(4)
국회의장(3)
국회(3)
동참(3)
당부(3)
자리(3)
차(3)
사회(3)
극단(3)
김정은(3)
최근(3)
직접(3)
공격(3)
구축(3)
더욱(3)
대응(3)
신뢰(3)
민생(3)
환경(3)
민간(3)
보건(3)
적극(3)
총(3)
실효(3)
법안(3)
취(3)
일부(3)
바로(3)
문제(3)
안보(3)
스스로(3)
모든(3)
이번(3)
결정(3)
지급(3)
사실(3)
여러(3)
귀환(3)
지난(3)
안위(3)
반(3)
일(3)
단합(3)
분열(3)
모두(3)
해(3)
낼(3)
테러(3)
안전(3)
법(3)
육성(3)
청년(3)
개혁(3)
대처(2)
거듭(2)
불구(2)
감행(2)
도전(2)
다시(2)
공언(2)
국제(2)
시간(2)
배치(2)
계속(2)
포격(2)
바(2)
정착(2)
상생(2)
남북관계(2)
단호(2)
발표(2)
문화(2)
달(2)
고위(2)
대상(2)
민족(2)
진행(2)
발전(2)
검토(2)
불(2)
능력(2)
고도화(2)
과거(2)
일도(2)
실질(2)
실천(

### 불용어 리스트

In [17]:
stop_words = "것 수 그 지금 이 더 위 대해 등 앞 저 이제 생각 동안 작년 때 대한 이후 결코 가장 때문 최근 직접 더욱 총 취 일부 바로 모든 이번 여러 지난 반 일 해 낼 모두 바 달 불 안 촉 속 원 또한 위해 취해 내 분 각종 최고 률 감 전 또 만약"

In [18]:
stop_words = stop_words.split()
stop_words[:15]

['것',
 '수',
 '그',
 '지금',
 '이',
 '더',
 '위',
 '대해',
 '등',
 '앞',
 '저',
 '이제',
 '생각',
 '동안',
 '작년']

## 연관검색어검색

In [19]:
import codecs
from konlpy.tag import Twitter
from konlpy.tag import Okt
from gensim.models import word2vec

data = codecs.open("박근혜_국정연설문_2016.txt","r",encoding = "utf-8")
text = data.read()

In [28]:
okt = Okt()

results = []
lines = text.split("\r\n")

for line in lines:
    malist = okt.pos(line, norm=True, stem=True)
    r = []
    #print(malist) => ('존경', 'Noun')
    for word in malist:
        if not word[1] in ["Josa","Eomi","Punctuation"]:
            r.append(word[0])

    rl = (" ".join(r)).strip()
    results.append(rl)

    print(rl)
    
    wakati_file = 'park.wakati'

# 조사, 어미, 구두점은 제외한 연설문

존경 하다 국민 여러분 국회의장 국회의원 여러분

저 오늘 북한 핵실험 미사일 발사 따르다 한반도 위기 고조 되다 있다 상황 국민 여러분 불안 위기 감 대해 정부 대처 방안 설명 드리다 국회 협력 동참 당부 드리다 이 자리 서다

북한 우리 정부 국제사회 거듭 되다 반대 경고 불구 새해 벽두 4 차 핵실험 감행 하다 한반도 물론 전 세계 평화 대한 기대 정면 도전 하다

특히 국제사회 규탄 제재 논의 되다 와중 또 다시 탄도 미사일 발사 추가 핵실험 미사일 발사 공언 있다 것 국제 사회 바라다 평화 그 들 원하다 않다 것 보여주다 극단 적 도발 행위 이다

만약 이대로 변화 없이 시간 흘러가다 브레이크 없이 폭주 있다 김정은 정권 핵 미사일 실전 배치 하다 되다 것 우리 두려움 공포 시달리다 되다 것 이다

그 동안 북한 수없이 도발 계속 하다 오다

최근 하다 2010년 천안함 폭침 46 명의 소중하다 우리 장병 목숨 빼앗다 연평도 포격 도발 우리 영토 직접 적 무력 공격 가하다 작년 8월 에도 DMZ 지뢰 포격 도발 일으키다 바 있다

북한 이러하다 도발 불구 우리 어떻 게 북한 변화 시키다 한반도 평화 정착 상생 남북관계 구축 하다 위해 지속 적 노력 기울이다 오다

저 국정 무게중심 한반도 평화 정착 통일기 반 구축 두다 더 이상 한반도 긴장 상황 일어나지 않다 하다 노력 다해 오다

정부 출범 초기 북한 핵 용납 하다 않다 도발 더욱 단호 하다 대응 하 되다 한편 남북 간 신뢰 구축 하다 위 ‘ 한반도 신뢰 프로세스 정책 기조 표방 하다

2014년 3월 에는 드레스덴 선언 발표 하다 민생 문화 환경 3 대다 통로 함께 열다 갈다 것 제안 하다

작년 8월 에는 남북 간 긴장 극도 달 상황 고위 당국 간 회담 열다 현안 해결 하다 위해 노력 하다

UNICEF WHO 등 국제 기구 382억원 과 민간 단체 사업 32억원 을 지원 하다 북한 취약 계층 대상 보건 의료 사업 펼치다 오다

작년 10월 에는 북한 요청 따르다 우리 전문가 들 금강산 방문 하

In [32]:
with open(wakati_file,'w',encoding='utf-8') as data:
    data.write('\n'.join(results))
    
data = word2vec.LineSentence(wakati_file)

model = word2vec.Word2Vec(data, window=10, hs=1, min_count=2, sg=1)
model.save('park.model')

print("\n\n================= 분석 완료 ==================")





### 유의어검색

In [33]:
from gensim.models import word2vec

model = word2vec.Word2Vec.load("park.model")
similar_words = model.wv.most_similar(positive=["북한"])

In [34]:
for word_set in similar_words:
    print(f'{word_set[0]:<10}: {word_set[1]}')

우리        : 0.9971605539321899
위해        : 0.9969573616981506
하다        : 0.9965653419494629
정권        : 0.9963976740837097
시키다       : 0.9963375329971313
도발        : 0.9961424469947815
일자리       : 0.9959779977798462
안전        : 0.9959621429443359
지금        : 0.995922863483429
주민        : 0.9959120750427246


### 불용어제거

In [35]:
stop_words = "것 수 그 지금 이 더 위 대해 등 앞 저 이제 생각 동안 작년 때 대한 이후 결코 가장 때문 최근 직접 더욱 총 취 일부 바로 모든 이번 여러 지난 반 일 해 낼 모두 바 달 불 안 촉 속 원 또한 위해 취해 내 분 각종 최고 률 감 전 또 만약"

In [36]:
stop_words = stop_words.split()
stop_words[:15]

['것',
 '수',
 '그',
 '지금',
 '이',
 '더',
 '위',
 '대해',
 '등',
 '앞',
 '저',
 '이제',
 '생각',
 '동안',
 '작년']

In [38]:
data = codecs.open("박근혜_국정연설문_2016.txt","r",encoding = "utf-8")
text = data.read()

In [39]:
okt = Okt()

results = []
lines = text.split("\r\n")

for line in lines:
    malist = okt.pos(line, norm=True, stem=True)
    r = []
    for word in malist: # 불용어제외
        if (not word[1] in ["Josa","Eomi","Punctuation"]) and not word[0] in stop_words:
            r.append(word[0])

    rl = (" ".join(r)).strip()
    results.append(rl)

    print(rl)
    
    wakati_file = 'park.wakati'

# 조사, 어미, 구두점은 제외한 연설문

존경 하다 국민 여러분 국회의장 국회의원 여러분

오늘 북한 핵실험 미사일 발사 따르다 한반도 위기 고조 되다 있다 상황 국민 여러분 불안 위기 정부 대처 방안 설명 드리다 국회 협력 동참 당부 드리다 자리 서다

북한 우리 정부 국제사회 거듭 되다 반대 경고 불구 새해 벽두 4 차 핵실험 감행 하다 한반도 물론 세계 평화 기대 정면 도전 하다

특히 국제사회 규탄 제재 논의 되다 와중 다시 탄도 미사일 발사 추가 핵실험 미사일 발사 공언 있다 국제 사회 바라다 평화 들 원하다 않다 보여주다 극단 적 도발 행위 이다

이대로 변화 없이 시간 흘러가다 브레이크 없이 폭주 있다 김정은 정권 핵 미사일 실전 배치 하다 되다 우리 두려움 공포 시달리다 되다 이다

북한 수없이 도발 계속 하다 오다

하다 2010년 천안함 폭침 46 명의 소중하다 우리 장병 목숨 빼앗다 연평도 포격 도발 우리 영토 적 무력 공격 가하다 8월 에도 DMZ 지뢰 포격 도발 일으키다 있다

북한 이러하다 도발 불구 우리 어떻 게 북한 변화 시키다 한반도 평화 정착 상생 남북관계 구축 하다 지속 적 노력 기울이다 오다

국정 무게중심 한반도 평화 정착 통일기 구축 두다 이상 한반도 긴장 상황 일어나지 않다 하다 노력 다해 오다

정부 출범 초기 북한 핵 용납 하다 않다 도발 단호 하다 대응 하 되다 한편 남북 간 신뢰 구축 하다 ‘ 한반도 신뢰 프로세스 정책 기조 표방 하다

2014년 3월 에는 드레스덴 선언 발표 하다 민생 문화 환경 3 대다 통로 함께 열다 갈다 제안 하다

8월 에는 남북 간 긴장 극도 상황 고위 당국 간 회담 열다 현안 해결 하다 노력 하다

UNICEF WHO 국제 기구 382억원 과 민간 단체 사업 32억원 을 지원 하다 북한 취약 계층 대상 보건 의료 사업 펼치다 오다

10월 에는 북한 요청 따르다 우리 전문가 들 금강산 방문 하다 산림 병충해 방제 사업 실시 하다 민족 동 질 성 회복 개성 만월대 공동 조사 ‧ 발굴 사업 진행 하다 오다 민간 차원 다양하다 

In [41]:
with open(wakati_file, 'w', encoding='utf-8') as data:
    data.write("\n".join(results))

data = word2vec.LineSentence(wakati_file)

model = word2vec.Word2Vec(data, window=10, hs=1, min_count=2, sg=1)
model.save("park.model")

print("\n\n================= 분석 완료 ==================")





In [42]:
model = word2vec.Word2Vec.load("park.model")
similar_words = model.wv.most_similar(positive=["북한"])

for word_set in similar_words:
    print(f'{word_set[0]:<10}: {word_set[1]}')

시키다       : 0.9973742365837097
이다        : 0.9969392418861389
우리        : 0.9967218637466431
되다        : 0.9966172575950623
들         : 0.9965224266052246
적         : 0.9964736104011536
있다        : 0.9964265823364258
없다        : 0.9962542057037354
민생        : 0.9962518811225891
국가        : 0.9962104558944702


In [None]:
stop_words2 = ""