## 9주 기념축사 TF-IDF
2019.10.21일 '제74주년 경찰의 날 기념식 축사' 전문을 변환하세요.
전문은 http://www.korea.kr/archive/speechView.do?newsId=132031636에서 읽을 수 있고, 해당 사이트에서 텍스트만 파일로 저장해서 사용한다.

* 1) DataFrame 생성
* 2) 단어로 분리해서, 출력
* 3) 불용어 구성, 출력 - 축사 전문에서 한글자로 된 단어를 찾아내 스스로 구성
* 4) 불용어 제거하고, 출력
* 5) TF-IDF를 계산하고, 출력
* 6) TF-IDF 컬럼을 features로 구성, 출력

#### 1. dataFrame 생성하기

In [0]:
dbutils.fs.ls("dbfs:/FileStore/tables/제74주년_경찰의_날_기념식_축사.txt")

In [0]:
import os
import pyspark

myConf=pyspark.SparkConf()
spark=pyspark.sql.SparkSession.builder.master("local").appName("myApp").config(conf=myConf).getOrCreate()

# 경로를 pas에 저장한 후, pas를 통해 가져온 데이터를 rdd로 생성한다. 
# rdd=spark.sparkContext.textFile(os.path.join("/FileStore/tables/","제74주년_경찰의_날_기념식_축사.txt"))
pas = os.path.join("/FileStore/tables/","제74주년_경찰의_날_기념식_축사.txt")
rdd=spark.sparkContext.textFile(pas).map(lambda x: x.split(';'))
rdd.take(1)

In [0]:
df=spark.createDataFrame(rdd, ['sent'])
df.show(truncate=True)

#### 2. 단어로 분리해서 출력

In [0]:
# Tokenizer로 white space 분리하기
from pyspark.ml.feature import Tokenizer
tokenizer = Tokenizer(inputCol="sent", outputCol="words")
tokDf = tokenizer.transform(df)
tokDf.show()

In [0]:
# RegexTokenizer로 분리하기 (정규표현식을 사용하여 분리 및 특정 패턴 추출)
from pyspark.ml.feature import RegexTokenizer
re = RegexTokenizer(inputCol="sent", outputCol="wordsReg", pattern="\\s+")
reDf=re.transform(df)
reDf.show()

#### 3. 불용어 구성, 출력 - 축사 전문에서 한글자로 된 단어를 찾아내 스스로 구성

In [0]:
from pyspark.ml.feature import StopWordsRemover
stop = StopWordsRemover(inputCol="wordsReg", outputCol="nostops")

# 불용어 리스트 가져오기
stopwords=list()
_stopwords=stop.getStopWords()
for e in _stopwords:
    stopwords.append(e)

In [0]:
# 내가 지정한 불용어 리스트를 추가해서 재설정하기
_mystopwords=[u"그",u"에", u"우리", u"등", u"것이", u"그러나", u"우리", u"우리의", u"그리고", u"또한", u"여러분의", u"여러분,", u"위해", u"비롯한", u"참", u"이와 같은"]
for e in _mystopwords:
    stopwords.append(e)
stop.setStopWords(stopwords)

In [0]:
# 내가 추가한 불용어가 있는지 확인하기
for e in stop.getStopWords():
    print (e, end="/")

#### 4. 불용어 제거하고, 출력

In [0]:
# transformer로 불용어를 제거하기
stopDf=stop.transform(reDf)
stopDf.show()

##### + CountVetorizer하기

In [0]:
# Spark CountVectorizer, CountVectorizer는 단어를 분리하고 나서, 빈도를 계산할 수 있음. 결과는 단어별 단어빈도 TF. 제거해야할 단어, 즉 문서에 사용된 빈도 document frequency를 minDF, maxDF를 통해 설정할 수 있음. 소수점을 사용하면, 비율, 즉 '사용된 문서 수/전체 문서 수'를 의미함.

from pyspark.ml.feature import CountVectorizer
cv = CountVectorizer(inputCol="nostops", outputCol="cv", vocabSize=350, minDF=1.0)
cvModel = cv.fit(stopDf)

In [0]:
cvDf = cvModel.transform(stopDf)

# 일부 컬럼만 선택해서 결과 보기 
cvDf.select('sent','nostops','cv').show() 

In [0]:
# CountVectorizer에서 사용된 단어 목록을 출력(sparse vector의 컬럼 개수와 동일함)
cvModel.vocabulary

#### 5. TF-IDF를 계산하고, 출력

In [0]:
# HashingTF는 단어집합을 워드벡터 word vector로 변환하는데, 해시함수를 사용해서 단어에 해당하는 일련번호를 결정함
from pyspark.ml.feature import HashingTF, IDF

hashTF = HashingTF(inputCol="nostops", outputCol="hash")
hashDf = hashTF.transform(stopDf)
# hashDf.select("nostops", "hash").show(truncate=False)

In [0]:
idf = IDF(inputCol="hash", outputCol="idf")
idfModel = idf.fit(hashDf)
idfDf = idfModel.transform(hashDf)

In [0]:
for e in idfDf.select("nostops","hash").take(10):
    print(e)

#### 6. TF-IDF 컬럼을 features로 구성, 출력

In [0]:
idfDf.printSchema()

In [0]:
idfDf=idfDf.withColumnRenamed('nostops', 'label').withColumnRenamed('hash', 'features')

In [0]:
for e in idfDf.select("label","features").take(10):
    print(e)