# 연설문을 기계학습하기 위해 변환

## 스파크 기본설정

In [1]:
import os
import sys

#home=os.path.expanduser("~") # HOME이 설정되어 있지 않으면 expanduser('~')를 사용한다.
#osn.environ["PYSPARK_PYTHON"] = "/usr/bin/python"
os.environ["SPARK_HOME"]=os.path.join(os.path.expanduser("~"),r"C:\Users\user\spark-2.0.0-bin-hadoop2.7\spark-2.0.0-bin-hadoop2.7")
os.environ["PYLIB"]=os.path.join(os.environ["SPARK_HOME"],'python','lib')
sys.path.insert(0,os.path.join(os.environ["PYLIB"],'py4j-0.10.1-src.zip'))
sys.path.insert(0,os.path.join(os.environ["PYLIB"],'pyspark.zip'))

In [2]:
import pyspark
spark = pyspark.sql.SparkSession.builder\
    .master("local")\
    .appName("myApp")\
    .config("spark.sql.warehouse.dir", r"C:\Users\user\MyStudySpace\2019-2\BigData_Spark\src")\
    .getOrCreate()

In [4]:
import os
#spark.createDataFrame(os.path.join("data", "20191021_policeAddress.txt"))
df=spark.read.text(os.path.join("data", "20191021_policeAddress.txt"))

from pyspark.sql.types import StructType, StructField, StringType
police=spark.read.option("header","true")\
    .option("delimiter"," ")\
    .option("inferSchema","true")\
    .schema(
        StructType([
            StructField("sent",StringType()),
            ])
    )\
    .text(os.path.join("data", "20191021_policeAddress.txt")) 

In [6]:
police.show(truncate = False)

+-------------------------------------------------------------------------------------------------------------------------------------+
|sent                                                                                                                                 |
+-------------------------------------------------------------------------------------------------------------------------------------+
|존경하는 국민 여러분, 경찰관 여러분, 일흔네 돌 ‘경찰의 날’입니다.                                                                                              |
|                                                                                                                                     |
|국민의 안전을 위해 밤낮없이 애쓰시는 전국의 15만 경찰관 여러분께 먼저 감사를 드립니다. 전몰·순직 경찰관들의 고귀한 희생에 경의를 표합니다. 유가족 여러분께 위로의 마음을 전합니다.                              |
|                                                                                                                                     |
|오늘 홍조근정훈장을 받으신 중앙경찰학교장 이은정 치안감님, 근정포장을 받으신 광주남부

### 1) Tokenizer

In [7]:
from pyspark.ml.feature import Tokenizer
tokenizer = Tokenizer(inputCol="sent", outputCol="words")
tokDf = tokenizer.transform(police)

In [9]:
tokDf.show(5, truncate = False)

+-------------------------------------------------------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------------------------------------------------------------------------+
|sent                                                                                                                                 |words                                                                                                                                                            |
+-------------------------------------------------------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------------------------------------------------------------------------+
|존경하는 국민 여러분, 경찰관 여러분, 일흔네 돌 ‘경찰의 날’입니다.                                                                  

### 2) Stopwords

In [16]:
from pyspark.ml.feature import StopWordsRemover
stop = StopWordsRemover(inputCol="words", outputCol="stWords")

_mystopwords=[u"돌",u"큰", u"더", u"참", u"그"]
for e in _mystopwords:
    stopwords.append(e)
stop.setStopWords(stopwords)

StopWordsRemover_48f29302934633c6cce4

In [17]:
stopDf = stop.transform(tokDf)
stopDf.show()

+--------------------+--------------------+--------------------+
|                sent|               words|             stWords|
+--------------------+--------------------+--------------------+
|존경하는 국민 여러분, 경찰관 ...|[존경하는, 국민, 여러분,, ...|[존경하는, 국민, 여러분,, ...|
|                    |                  []|                  []|
|국민의 안전을 위해 밤낮없이 애...|[국민의, 안전을, 위해, 밤낮...|[국민의, 안전을, 위해, 밤낮...|
|                    |                  []|                  []|
|오늘 홍조근정훈장을 받으신 중앙...|[오늘, 홍조근정훈장을, 받으신...|[오늘, 홍조근정훈장을, 받으신...|
|                    |                  []|                  []|
|       사랑하는 경찰관 여러분,|   [사랑하는, 경찰관, 여러분,]|   [사랑하는, 경찰관, 여러분,]|
|                    |                  []|                  []|
|여러분의 헌신적 노력으로 우리의...|[여러분의, 헌신적, 노력으로,...|[여러분의, 헌신적, 노력으로,...|
|                    |                  []|                  []|
|치안의 개선은 국민의 체감으로 ...|[치안의, 개선은, 국민의, 체...|[치안의, 개선은, 국민의, 체...|
|                    |                  []|                  []|
|한국을 찾는 외국 관광객들도 우...|[한국

### 3) TF-IDF

In [19]:
from pyspark.ml.feature import HashingTF, IDF

hashTF = HashingTF(inputCol="stWords", outputCol="hash", numFeatures=50)
hashDf = hashTF.transform(stopDf)
idf = IDF(inputCol="hash", outputCol="idf")
idfModel = idf.fit(hashDf)
idfDf = idfModel.transform(hashDf)

### 4) VectorAssembler

In [21]:
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

va = VectorAssembler(inputCols=["idf"],outputCol="features")
vaDf = va.transform(idfDf)
vaDf.printSchema()
vaDf.show(5)

root
 |-- sent: string (nullable = true)
 |-- words: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- stWords: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- hash: vector (nullable = true)
 |-- idf: vector (nullable = true)
 |-- features: vector (nullable = true)

+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+
|                sent|               words|             stWords|                hash|                 idf|            features|
+--------------------+--------------------+--------------------+--------------------+--------------------+--------------------+
|존경하는 국민 여러분, 경찰관 ...|[존경하는, 국민, 여러분,, ...|[존경하는, 국민, 여러분,, ...|(50,[9,15,17,23,3...|(50,[9,15,17,23,3...|(50,[9,15,17,23,3...|
|                    |                  []|                  []|          (50,[],[])|          (50,[],[])|          (50,[],[])|
|국민의 안전을 위해 밤낮없이 애...|[국민의, 안전을, 위해, 