- 학번 : 201611125
- 이름 : 김정수
- 학과 : 게임전공

# 10주차 과제

'제74주년 경찰의 날 기념식 축사' 전문을 읽고 TF-IDF를 계산하세요.

전문은 http://www.korea.kr/archive/speechView.do?newsId=132031636 에서 읽을 수 있고,

해당 사이트에서 텍스트만 파일로 저장한 후 사용한다.



* 1) DataFrame을 생성

* 2) 단어로 분리해서, 출력

* 3) 불용어 구성, 출력 - 축사 전문에서 한글자로 된 단어를 찾아내 스스로 구성

* 4) 불용어 제거하고, 출력

* 5) TF-IDF를 계산하고, 출력

* 6) TF-IDF 컬럼을 features로 구성, 출력

In [1]:
import pyspark
import os
from pyspark.sql.types import *
from pyspark.sql.functions import udf
import numpy as np
from pyspark.sql import functions as F
from scipy.stats import norm

In [2]:
myConf = pyspark.SparkConf()
spark = pyspark.sql.SparkSession.builder\
        .master("local")\
        .appName("myApp")\
        .config(conf = myConf)\
        .getOrCreate()

21/11/09 00:29:35 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


## 데이터 불러오기 & 전처리

In [3]:
# 형태소 분석기 khaiii 사용 
from khaiii import KhaiiiApi
k_api = KhaiiiApi()

In [4]:
# 토크나이징 겸 형태소 분석 함수
def tokeni(sen):
    _v = k_api.analyze(sen)
    tok = []
    for word in _v:
        tok += [str(w.lex) for w in word.morphs]
    return tok

In [5]:
# 파일 읽어서 RDD 생성
rdd = spark.sparkContext.textFile(os.path.join("data", "제74주년 경찰의 날 기념식 축사.txt"))

In [6]:
# DF 생성 전 전처리, 문장을 "." 기준으로 분리
_rdd = rdd.filter(lambda x: len(x) > 1)\
        .flatMap(lambda x: x.split(". "))

In [7]:
# khaiii와 spakr map reduce를 같이 사용시
# ValueError: ctypes objects containing pointers cannot be pickled
# 오류 발생으로 RDD -> List -> RDD -> DF로 변환
_rd = _rdd.collect()
_token = [[r, tokeni(r)] for r in _rd]
tokens = spark.sparkContext.parallelize(_token)

In [8]:
df_original = spark.createDataFrame(tokens, ["Original", "Token"])

## 문제 1,2) 원본 문장, 토크나이징(형태소 기반)된 문장 출력

In [9]:
df_original.show(3)

+---------------------------------+----------------------------+
|                         Original|                       Token|
+---------------------------------+----------------------------+
| 존경하는 국민 여러분, 경찰관 ...|[존경, 하, 는, 국민, 여러...|
|국민의 안전을 위해 밤낮없이 애...|[국민, 의, 안전, 을, 위하...|
|전몰·순직 경찰관들의 고귀한 희...| [전, 몰, ·, 순직, 경찰관...|
+---------------------------------+----------------------------+
only showing top 3 rows



## 불용어 사전 생성, Khaiii 사용

In [10]:
def take_khaiii(x):
    value = k_api.analyze(x)
    ans = []
    for word in value:
        morphs = [(mo.lex, mo.tag) for mo in word.morphs]
        ans += morphs
    return ans

In [11]:
stops = []
for sen in _rd: stops += take_khaiii(sen)

In [12]:
print(stops[:10])

[('존경', 'NNG'), ('하', 'XSV'), ('는', 'ETM'), ('국민', 'NNG'), ('여러분', 'NP'), (',', 'SP'), ('경찰관', 'NNG'), ('여러분', 'NP'), (',', 'SP'), ('일흔', 'NR')]


## 품사를 기반으로 불용어 확인
- S를 포함하는 품사 -> 특수 문자, 숫자, 한자 등등 불필요한 문자 제거
- E를 포함하는 품사 -> 선어말, 종결, 연결.. 어미 불필요한 문자 제거
- J를 포함하는 품사 -> 조사 불필요한 문자 제거
- V를 포함하는 품사 -> 지정사, 용언 불필요한 문자 제거
- 글자 수가 1개인 단어 제거 -> 의미 파악 불가한 불필요한 문자 제거
- 카이 품사 정보 -> https://github.com/kakao/khaiii/wiki/%EC%BD%94%ED%8D%BC%EC%8A%A4

In [13]:
tags = ["S", "E", "J", "V"]

In [14]:
stop_dic = []
for word in stops: 
    if "S" in word[1] or "E" in word[1] or "J" in word[1] or "V" in word[1] or len(word[0]) == 1: 
        stop_dic.append(word[0])

In [15]:
stop_dic = list(set(stop_dic))

In [16]:
from pyspark.ml.feature import StopWordsRemover

stop = StopWordsRemover(inputCol = "Token", outputCol = "Execpt")

In [17]:
stopwords = []
_stopwords = stop.getStopWords()
for e in stop_dic:
    stopwords.append(e)
    
stop.setStopWords(stopwords)

StopWordsRemover_67b6d14cdd11

## 문제 3) 불용어 파악

In [18]:
# 한글만 들어있는 불용어 사전 출력 확인
for e in stop.getStopWords():
    print (e, end="/")

돌아보/그리하여/게/안/제/나서/의/1/날/있/며/로/크/았/18/앞장서/애쓰/와/불/었/못하/은/줄/./아/않/여야/그/거나/나타나/ㄹ/지키/어서/였/권/그리고/매듭짓/더/좋/위하/려/거/전하/다/ㄴ/과/위/몰/삼/님/대하/”/명/돌/8/열리/후/572/1945/가/롭/비하/잃/길/미루/바라/를/7/15/법/흔들리/을/시/으시/던지/6/서/%/넘/없/니다/25/흘리/고자/앞/74/·/맞추/어/습니다/찰/“/는/,/여/고/늘리/오/비/도/2015/‘/으려/네/에/싸우/알리/에게/갖추/무/내/점/자면/지/이/같/으로/전/5/ㅂ니다/그러/고맙/2/성/회/거듭나/받/년/피/겠/닿/표/들/업/처럼/드리/하/ㅂ/다고/에서/수/것/스럽/ㅁ/등/기/80/주/느냐는/만/참/그러나/락/돕오/되/적/찾/’/만들/나/께/ㄴ다는/

## 문제 4) 불용어 처리된 부분 포함 출력

In [19]:
stopDf = stop.transform(df_original)
stopDf["Token", "Execpt"].show(n = 2, truncate=False)

+----------------------------------------------------------------------------------------------------------------------------+--------------------------------------------------------+
|Token                                                                                                                       |Execpt                                                  |
+----------------------------------------------------------------------------------------------------------------------------+--------------------------------------------------------+
|[존경, 하, 는, 국민, 여러분, ,, 경찰관, 여러분, ,, 일흔, 네, 돌, ‘, 경찰, 의, 날, ’, 이, ㅂ니다, .]                         |[존경, 국민, 여러분, 경찰관, 여러분, 일흔, 경찰]        |
|[국민, 의, 안전, 을, 위하, 여, 밤낮없이, 애쓰, 시, 는, 전국, 의, 15, 만, 경찰관, 여러분, 께, 먼저, 감사, 를, 드리, ㅂ, 니다]|[국민, 안전, 밤낮없이, 전국, 경찰관, 여러분, 먼저, 감사]|
+----------------------------------------------------------------------------------------------------------------------------+--------------------------------------------------------

## TF-IDF

In [20]:
from pyspark.ml.feature import HashingTF, IDF
hashTF = HashingTF(inputCol = "Execpt", outputCol = "Hash")
hashDf = hashTF.transform(stopDf)

In [21]:
hashDf.select("Execpt", "Hash").show(n = 1, truncate=False)

+------------------------------------------------+--------------------------------------------------------------------------+
|Execpt                                          |Hash                                                                      |
+------------------------------------------------+--------------------------------------------------------------------------+
|[존경, 국민, 여러분, 경찰관, 여러분, 일흔, 경찰]|(262144,[162,89874,101948,160086,181449,251574],[1.0,2.0,1.0,1.0,1.0,1.0])|
+------------------------------------------------+--------------------------------------------------------------------------+
only showing top 1 row



In [22]:
idf = IDF(inputCol = "Hash", outputCol = "IDF")
idfModel = idf.fit(hashDf)

idfDf = idfModel.transform(hashDf)

## 문제 5, 6

In [118]:
idfDf.select("Execpt", "IDF").show(n = 3, truncate = False)

+--------------------------------------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|Execpt                                                  |IDF                                                                                                                                                                                                                 |
+--------------------------------------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|[존경, 국민, 여러분, 경찰관, 여러분, 일흔, 경찰]        |(262144,[162,89874,101948,160086,181449,251574],[1.3862943611198906,3.2549128358735575,3.332204510175204,1.9459101490553132,3.332204510175204,0

21/11/09 00:59:10 WARN DAGScheduler: Broadcasting large task binary with size 4.0 MiB


## 각 문장 별로 중요한(TF-IDF 값이 큰) 단어 확인 

In [24]:
_temp = idfDf.select("Original", "Execpt", "IDF")

_temp = _temp.toPandas()

In [116]:
for i in range(3):
    print("문장 :: ", _temp["Original"][i])
    print("단어 추출 :: ", _temp["Execpt"][i])
    
    _t = _temp["IDF"][i].toArray()
    _t = np.delete(_t, np.where(_t == 0.0))
    print("TF-IDF ::", end = " ")
    for _ts in _t: print("%f" %_ts, end = " / ")
    max_where = np.where(_t == _t.max())
    print(" ")
    print("\n가장 높은 TF-IDF 값을 가진 단어 출력")
    for n in max_where[0]:
        print("%d번째 단어 :: %s || TF-IDF :: %f" %(n, _temp["Execpt"][i][n], _t[n]))
    print("-" * 100, end = "\n\n")

문장 ::  존경하는 국민 여러분, 경찰관 여러분, 일흔네 돌 ‘경찰의 날’입니다.
단어 추출 ::  ['존경', '국민', '여러분', '경찰관', '여러분', '일흔', '경찰']
TF-IDF :: 1.386294 / 3.254913 / 3.332205 / 1.945910 / 3.332205 / 0.767255 /  

가장 높은 TF-IDF 값을 가진 단어 출력
2번째 단어 :: 여러분 || TF-IDF :: 3.332205
4번째 단어 :: 여러분 || TF-IDF :: 3.332205
----------------------------------------------------------------------------------------------------

문장 ::  국민의 안전을 위해 밤낮없이 애쓰시는 전국의 15만 경찰관 여러분께 먼저 감사를 드립니다
단어 추출 ::  ['국민', '안전', '밤낮없이', '전국', '경찰관', '여러분', '먼저', '감사']
TF-IDF :: 1.386294 / 2.926739 / 3.332205 / 1.627456 / 2.233592 / 1.945910 / 3.332205 / 2.926739 /  

가장 높은 TF-IDF 값을 가진 단어 출력
2번째 단어 :: 밤낮없이 || TF-IDF :: 3.332205
6번째 단어 :: 먼저 || TF-IDF :: 3.332205
----------------------------------------------------------------------------------------------------

문장 ::  전몰·순직 경찰관들의 고귀한 희생에 경의를 표합니다
단어 추출 ::  ['순직', '경찰관', '고귀', '희생', '경의']
TF-IDF :: 3.332205 / 1.945910 / 3.332205 / 3.332205 / 3.332205 /  

가장 높은 TF-IDF 값을 가진 단어 출력
0번째 단어 :: 순직 || TF-IDF :: 3.