### Text Classification with PySpark
#### MultiClass Text Classification

#### Task
+ predict the subject category given a course title or text

#### Pyspark
+ pipenv install pyspark


In [1]:
import findspark
findspark.init()

In [2]:
# Load Pkgs
from pyspark import SparkContext

In [3]:
sc = SparkContext(master="local[2]")

In [4]:
# Launch UI
sc

In [5]:
# Create A Spark Session
from pyspark.sql import SparkSession

In [6]:
spark = SparkSession.builder.appName("TextClassifierwithPySpark").getOrCreate()

In [7]:
# Load Our Dataset
df = spark.read.csv("clean-datas/TwitterCleanData.csv",header=True,inferSchema=True)

In [8]:
df.show()

+---+--------------------+
|_c0|       Cleaning_Data|
+---+--------------------+
|  0|อุบลจะจมบาดาลแล้ว...|
|  1|อุบลจะจมบาดาลแล้ว...|
|  2|สนใจงานออนไลน์หาร...|
|  3|งั้นหอเตือนภัยก็ไ...|
|  4|ที่ดันเเท็กกันอยู...|
|  5|นี่คือบ้านของเราเ...|
|  6|อุบลจะจมบาดาลแล้ว...|
|  7|                null|
|  8|เมื่อไหร่สำนักข่า...|
|  9|น้องๆน่าสงสารมากก...|
| 10|อุบลจะจมบาดาลแล้ว...|
| 11|อุบลจะจมบาดาลแล้ว...|
| 12|ฝากรีหน่อยค่ะคุณย...|
| 13|น้ำท่วมอุบลวันนี้...|
| 14|นี่คือบ้านของเราเ...|
| 15|ย้ำตอนนี้น้ำไฟถูก...|
| 16|ถูกตัดขาดคือแล้วย...|
| 17|นี่คือบ้านของเราเ...|
| 18|ไม่ใช่ทางม้าลายแต...|
| 19|น้องๆน่าสงสารมากก...|
+---+--------------------+
only showing top 20 rows



In [9]:
# Columns
df.columns

['_c0', 'Cleaning_Data']

In [10]:
# Select Columns
df.select('Cleaning_Data').show()

+--------------------+
|       Cleaning_Data|
+--------------------+
|อุบลจะจมบาดาลแล้ว...|
|อุบลจะจมบาดาลแล้ว...|
|สนใจงานออนไลน์หาร...|
|งั้นหอเตือนภัยก็ไ...|
|ที่ดันเเท็กกันอยู...|
|นี่คือบ้านของเราเ...|
|อุบลจะจมบาดาลแล้ว...|
|                null|
|เมื่อไหร่สำนักข่า...|
|น้องๆน่าสงสารมากก...|
|อุบลจะจมบาดาลแล้ว...|
|อุบลจะจมบาดาลแล้ว...|
|ฝากรีหน่อยค่ะคุณย...|
|น้ำท่วมอุบลวันนี้...|
|นี่คือบ้านของเราเ...|
|ย้ำตอนนี้น้ำไฟถูก...|
|ถูกตัดขาดคือแล้วย...|
|นี่คือบ้านของเราเ...|
|ไม่ใช่ทางม้าลายแต...|
|น้องๆน่าสงสารมากก...|
+--------------------+
only showing top 20 rows



In [11]:
df = df.select('Cleaning_Data')

In [12]:
df.show(5)

+--------------------+
|       Cleaning_Data|
+--------------------+
|อุบลจะจมบาดาลแล้ว...|
|อุบลจะจมบาดาลแล้ว...|
|สนใจงานออนไลน์หาร...|
|งั้นหอเตือนภัยก็ไ...|
|ที่ดันเเท็กกันอยู...|
+--------------------+
only showing top 5 rows



In [13]:
# Value Counts
df.groupBy('Cleaning_Data').count().show()

+--------------------+-----+
|       Cleaning_Data|count|
+--------------------+-----+
|อมกมีคนจมน้ำเสียช...|   37|
|มันขนาดนี้แล้วอ่ะมึง|    1|
|ขอโทษนะสื่อต่างๆเ...|    5|
|ฝั่งเซนทรัลต้องนั...|   35|
|วันนี้อากาศเย็นมา...|    3|
|ช่วยช้างตกงานกันจ...|    1|
|แกน้ำมันสูงมากจริ...|    2|
|ฝากทุกคนด้วยนะคะใ...|    1|
|ไม่แปลกที่หลายๆท่...|    1|
|พี่หนุ่มเพจข่าวสา...|    1|
|ตรรกะความคิดอิรัฐ...|    1|
|บ้านชั้นถูกน้ำท่ว...|    1|
|อย่าพึ่งให้แท็กจม...|    8|
|นี่เป็นเด็กจากกทม...|    4|
|สงสารพี่น้องชาวอุ...|    2|
|ล่าสุดน้ำมูลสูงกว...|    2|
|เข้าใจหรือยังว่าก...|    4|
|น้ำท่วมในไทยทุกปี...|    2|
|บังคับรีค่ะน้ำท่ว...|    1|
|ยังมีน้องๆที่ต้อง...|    1|
+--------------------+-----+
only showing top 20 rows



In [14]:
# Value Counts via pandas
df.toPandas()['Cleaning_Data'].value_counts()

น้ำท่วมอุบลวันนี้มีคนจมน้ำเสียชีวิตทีนี้จะออกข่าวได้ยังครับขอแสดงความเสียใจกับครอบครัวผู้สูญเสียนะครับน้ําท่วมอุบล          7356
บ้านเราเองท่วมมาจะเป็นเดือนแล้วสื่อเงียบรัฐบาลเงียบเจ้าหน้าที่ทัองถิ่นเงียบประชาชนต้องช่วยเหลือกันเองแย่มากน้ําท่วม         5327
ฝากรีทวิตช่วยชาวอุบลเราด้วยนะคะน้ำท่วมหนักสุดในรอบปีเลยน้ําท่วมอุบล                                                         4395
นี่คือบ้านของเราเองครับถ่ายเมื่อเกือบสัปดาห์ก่อนน้ำยังขึ้นเรื่อยๆอยู่เลยอยากฝากโซเชียลเป็นกระบอกเสียงให้หน่วยงานเข้าช่วย    3107
อุบลจะจมบาดาลแล้วช่วยพวกเราด้วยน้ําท่วมอุบล                                                                                 2981
                                                                                                                            ... 
ตอนนี้ที่อุบลคือหนักมากๆลำบากกันมากๆรัฐบาลทำอะไรอยู่ไม่ใช่วันแรกมั้ยงงว่ะซื้ออาวุธใช้ภาษีประชาชนซื้อได้แต่ทีป                  1
เห็นเเล้งจะร้องไห้ถ้าเป็นเราเราจะทำยังไงขอให้น้ำลดลงไวๆด้วยเถอะ                                  

In [15]:
# Check For Missing Values
df.toPandas()['Cleaning_Data'].isnull().sum()

232

In [16]:
# Drop Missing Values
df = df.dropna(subset=('Cleaning_Data'))

In [17]:
# Check For Missing Values
df.toPandas()['Cleaning_Data'].isnull().sum()

0

In [18]:
df.show(100)

+--------------------+
|       Cleaning_Data|
+--------------------+
|อุบลจะจมบาดาลแล้ว...|
|อุบลจะจมบาดาลแล้ว...|
|สนใจงานออนไลน์หาร...|
|งั้นหอเตือนภัยก็ไ...|
|ที่ดันเเท็กกันอยู...|
|นี่คือบ้านของเราเ...|
|อุบลจะจมบาดาลแล้ว...|
|เมื่อไหร่สำนักข่า...|
|น้องๆน่าสงสารมากก...|
|อุบลจะจมบาดาลแล้ว...|
|อุบลจะจมบาดาลแล้ว...|
|ฝากรีหน่อยค่ะคุณย...|
|น้ำท่วมอุบลวันนี้...|
|นี่คือบ้านของเราเ...|
|ย้ำตอนนี้น้ำไฟถูก...|
|ถูกตัดขาดคือแล้วย...|
|นี่คือบ้านของเราเ...|
|ไม่ใช่ทางม้าลายแต...|
|น้องๆน่าสงสารมากก...|
|งานดีรีวิวแน่นมาก...|
|เหมือนพวกเราถูกลื...|
|สนใจงานออนไลน์หาร...|
|น้ำท่วมอุบลวันนี้...|
|เหมือนพวกเราถูกลื...|
|น้ำท่วมอุบลวันนี้...|
|ย้ำตอนนี้น้ำไฟถูก...|
|น้ำท่วมอุบลวันนี้...|
|น้ำท่วมอุบลวันนี้...|
|น้ําท่วมอุบลอีสาน...|
|อุบลจะจมบาดาลแล้ว...|
|ช่วยกันรีทวิตกระจ...|
|อมกมีคนจมน้ำเสียช...|
|ย้ำตอนนี้น้ำไฟถูก...|
|นี่คือบ้านของเราเ...|
|น้ำใกล้โรงพยาบาลเ...|
|นี่คือบ้านของเราเ...|
|สงสารทุกคนที่ได้ร...|
|บ้านเราเองท่วมมาจ...|
|อุบลจะจมบาดาลแล้ว...|
|ถูกตัดขาดคือแล้วย...|
|ส่วนทางเลื

### Feature Extraction
#### Build Features From Text
+ CountVectorizer
+ TFIDF
+ WordEmbedding
+ HashingTF
+ etc

In [19]:
# Load Our Pkgs
import pyspark.ml.feature

In [20]:
dir(pyspark.ml.feature)

['Any',
 'Binarizer',
 'BucketedRandomProjectionLSH',
 'BucketedRandomProjectionLSHModel',
 'Bucketizer',
 'ChiSqSelector',
 'ChiSqSelectorModel',
 'CountVectorizer',
 'CountVectorizerModel',
 'DCT',
 'DataFrame',
 'DenseMatrix',
 'DenseVector',
 'Dict',
 'ElementwiseProduct',
 'FeatureHasher',
 'Generic',
 'HasFeaturesCol',
 'HasHandleInvalid',
 'HasInputCol',
 'HasInputCols',
 'HasLabelCol',
 'HasMaxIter',
 'HasNumFeatures',
 'HasOutputCol',
 'HasOutputCols',
 'HasRelativeError',
 'HasSeed',
 'HasStepSize',
 'HasThreshold',
 'HasThresholds',
 'HashingTF',
 'IDF',
 'IDFModel',
 'Imputer',
 'ImputerModel',
 'IndexToString',
 'Interaction',
 'JM',
 'JavaEstimator',
 'JavaMLReadable',
 'JavaMLWritable',
 'JavaModel',
 'JavaParams',
 'JavaTransformer',
 'List',
 'MaxAbsScaler',
 'MaxAbsScalerModel',
 'MinHashLSH',
 'MinHashLSHModel',
 'MinMaxScaler',
 'MinMaxScalerModel',
 'NGram',
 'Normalizer',
 'OneHotEncoder',
 'OneHotEncoderModel',
 'Optional',
 'P',
 'PCA',
 'PCAModel',
 'Param',
 '

In [21]:
# Load Our Transformer & Extractor Pkgs
from pyspark.ml.feature import Tokenizer,StopWordsRemover,CountVectorizer,IDF
from pyspark.ml.feature import StringIndexer

In [22]:
df.show(100)

+--------------------+
|       Cleaning_Data|
+--------------------+
|อุบลจะจมบาดาลแล้ว...|
|อุบลจะจมบาดาลแล้ว...|
|สนใจงานออนไลน์หาร...|
|งั้นหอเตือนภัยก็ไ...|
|ที่ดันเเท็กกันอยู...|
|นี่คือบ้านของเราเ...|
|อุบลจะจมบาดาลแล้ว...|
|เมื่อไหร่สำนักข่า...|
|น้องๆน่าสงสารมากก...|
|อุบลจะจมบาดาลแล้ว...|
|อุบลจะจมบาดาลแล้ว...|
|ฝากรีหน่อยค่ะคุณย...|
|น้ำท่วมอุบลวันนี้...|
|นี่คือบ้านของเราเ...|
|ย้ำตอนนี้น้ำไฟถูก...|
|ถูกตัดขาดคือแล้วย...|
|นี่คือบ้านของเราเ...|
|ไม่ใช่ทางม้าลายแต...|
|น้องๆน่าสงสารมากก...|
|งานดีรีวิวแน่นมาก...|
|เหมือนพวกเราถูกลื...|
|สนใจงานออนไลน์หาร...|
|น้ำท่วมอุบลวันนี้...|
|เหมือนพวกเราถูกลื...|
|น้ำท่วมอุบลวันนี้...|
|ย้ำตอนนี้น้ำไฟถูก...|
|น้ำท่วมอุบลวันนี้...|
|น้ำท่วมอุบลวันนี้...|
|น้ําท่วมอุบลอีสาน...|
|อุบลจะจมบาดาลแล้ว...|
|ช่วยกันรีทวิตกระจ...|
|อมกมีคนจมน้ำเสียช...|
|ย้ำตอนนี้น้ำไฟถูก...|
|นี่คือบ้านของเราเ...|
|น้ำใกล้โรงพยาบาลเ...|
|นี่คือบ้านของเราเ...|
|สงสารทุกคนที่ได้ร...|
|บ้านเราเองท่วมมาจ...|
|อุบลจะจมบาดาลแล้ว...|
|ถูกตัดขาดคือแล้วย...|
|ส่วนทางเลื

In [23]:
# Stages For the Pipeline
tokenizer = Tokenizer(inputCol='Cleaning_Data',outputCol='mytokens')
stopwords_remover = StopWordsRemover(inputCol='mytokens',outputCol='filtered_tokens')
vectorizer = CountVectorizer(inputCol='filtered_tokens',outputCol='rawFeatures')
idf = IDF(inputCol='rawFeatures',outputCol='vectorizedFeatures')



In [24]:
# LabelEncoding/LabelIndexing
labelEncoder = StringIndexer(inputCol='Cleaning_Data',outputCol='label').fit(df)

In [25]:
labelEncoder.transform(df).show(100)

+--------------------+------+
|       Cleaning_Data| label|
+--------------------+------+
|อุบลจะจมบาดาลแล้ว...|   4.0|
|อุบลจะจมบาดาลแล้ว...|   4.0|
|สนใจงานออนไลน์หาร...| 535.0|
|งั้นหอเตือนภัยก็ไ...|  44.0|
|ที่ดันเเท็กกันอยู...| 601.0|
|นี่คือบ้านของเราเ...|   3.0|
|อุบลจะจมบาดาลแล้ว...|   4.0|
|เมื่อไหร่สำนักข่า...|  12.0|
|น้องๆน่าสงสารมากก...|   5.0|
|อุบลจะจมบาดาลแล้ว...|   4.0|
|อุบลจะจมบาดาลแล้ว...|   4.0|
|ฝากรีหน่อยค่ะคุณย...|  78.0|
|น้ำท่วมอุบลวันนี้...|   0.0|
|นี่คือบ้านของเราเ...|   3.0|
|ย้ำตอนนี้น้ำไฟถูก...|  10.0|
|ถูกตัดขาดคือแล้วย...|  27.0|
|นี่คือบ้านของเราเ...|   3.0|
|ไม่ใช่ทางม้าลายแต...|  11.0|
|น้องๆน่าสงสารมากก...|   5.0|
|งานดีรีวิวแน่นมาก...| 707.0|
|เหมือนพวกเราถูกลื...|  33.0|
|สนใจงานออนไลน์หาร...| 535.0|
|น้ำท่วมอุบลวันนี้...|   0.0|
|เหมือนพวกเราถูกลื...|  33.0|
|น้ำท่วมอุบลวันนี้...|   0.0|
|ย้ำตอนนี้น้ำไฟถูก...|  10.0|
|น้ำท่วมอุบลวันนี้...|   0.0|
|น้ำท่วมอุบลวันนี้...|   0.0|
|น้ําท่วมอุบลอีสาน...|  24.0|
|อุบลจะจมบาดาลแล้ว...|   4.0|
|ช่วยกันรี

In [26]:
labelEncoder.labels

['น้ำท่วมอุบลวันนี้มีคนจมน้ำเสียชีวิตทีนี้จะออกข่าวได้ยังครับขอแสดงความเสียใจกับครอบครัวผู้สูญเสียนะครับน้ําท่วมอุบล',
 'บ้านเราเองท่วมมาจะเป็นเดือนแล้วสื่อเงียบรัฐบาลเงียบเจ้าหน้าที่ทัองถิ่นเงียบประชาชนต้องช่วยเหลือกันเองแย่มากน้ําท่วม',
 'ฝากรีทวิตช่วยชาวอุบลเราด้วยนะคะน้ำท่วมหนักสุดในรอบปีเลยน้ําท่วมอุบล',
 'นี่คือบ้านของเราเองครับถ่ายเมื่อเกือบสัปดาห์ก่อนน้ำยังขึ้นเรื่อยๆอยู่เลยอยากฝากโซเชียลเป็นกระบอกเสียงให้หน่วยงานเข้าช่วย',
 'อุบลจะจมบาดาลแล้วช่วยพวกเราด้วยน้ําท่วมอุบล',
 'น้องๆน่าสงสารมากกกกกขอบคุณพี่ๆที่เข้าไปช่วยจริงๆส่วนแท็กก็แมสเถอะอุบลแทบจะใช้เรือสัญจรแทนรถแล้วน้ําท่วมอุบล',
 'มันหดหู่จริงๆนะที่เห็นชาวบ้านได้แต่นั่งมองหลังคาบ้านตัวเองกำลังจ่มน้ำลงเรื่อยๆข่าวเงียบมากจะไม่ทำอะไรช่วยเราเลยจริงๆหรออ',
 'นี้คือบรรยากาศค่ายอพยพน้ําท่วมอุบลครับเต็นท์ต่อครอบครัวย้ายเต็นท์ครั้งเพราะคาดการณ์ระดับน้ำผิดห้องน้ำไ',
 'ฝากรีกระจายข่าวค่ะตอนนี้น้ำท่วมอุบลหนักมากชาวบ้านเดือดร้อนเป็นกระบอกเสียงให้ชาวอุบลกันนะคะน้ําท่วมอุบลฝากแท็ก',
 'ก็มันชื่อหอเตือนภัย',
 'ย้ำตอนนี้น้ำไฟถูกตัดขาดแล้วและอา

In [27]:
# Dict of Labels
label_dict = {'อุบลจะจมบาดาล':0.0,
 'สงสาร':1.0,
 'จมน้ำเสียชีวิต':2.0,
 'น้ำท่วมสูง':3.0}

In [28]:
df.show()

+--------------------+
|       Cleaning_Data|
+--------------------+
|อุบลจะจมบาดาลแล้ว...|
|อุบลจะจมบาดาลแล้ว...|
|สนใจงานออนไลน์หาร...|
|งั้นหอเตือนภัยก็ไ...|
|ที่ดันเเท็กกันอยู...|
|นี่คือบ้านของเราเ...|
|อุบลจะจมบาดาลแล้ว...|
|เมื่อไหร่สำนักข่า...|
|น้องๆน่าสงสารมากก...|
|อุบลจะจมบาดาลแล้ว...|
|อุบลจะจมบาดาลแล้ว...|
|ฝากรีหน่อยค่ะคุณย...|
|น้ำท่วมอุบลวันนี้...|
|นี่คือบ้านของเราเ...|
|ย้ำตอนนี้น้ำไฟถูก...|
|ถูกตัดขาดคือแล้วย...|
|นี่คือบ้านของเราเ...|
|ไม่ใช่ทางม้าลายแต...|
|น้องๆน่าสงสารมากก...|
|งานดีรีวิวแน่นมาก...|
+--------------------+
only showing top 20 rows



In [29]:
df = labelEncoder.transform(df)

In [30]:
df.show(5)

+--------------------+-----+
|       Cleaning_Data|label|
+--------------------+-----+
|อุบลจะจมบาดาลแล้ว...|  4.0|
|อุบลจะจมบาดาลแล้ว...|  4.0|
|สนใจงานออนไลน์หาร...|535.0|
|งั้นหอเตือนภัยก็ไ...| 44.0|
|ที่ดันเเท็กกันอยู...|601.0|
+--------------------+-----+
only showing top 5 rows



In [31]:
### Split Dataset
(trainDF,testDF) = df.randomSplit((0.7,0.3),seed=42)

In [32]:
trainDF.show()

+--------------------+-----+
|       Cleaning_Data|label|
+--------------------+-----+
|กกตควรพิจารณาให้ส...|486.0|
|กกตควรพิจารณาให้ส...|486.0|
|กกตยกเลิกวันของสส...|351.0|
|กกตยกเลิกวันของสส...|351.0|
|กกตยกเลิกวันของสส...|351.0|
|กกตยกเลิกวันของสส...|351.0|
|กฎกกตวันเหี้ยมากท...|283.0|
|กฎกกตวันเหี้ยมากท...|283.0|
|กฎกกตวันเหี้ยมากท...|283.0|
|กระจายข่าวอุบลตอน...| 98.0|
|กระจายข่าวอุบลตอน...| 98.0|
|กระจายข่าวอุบลตอน...| 98.0|
|กระจายข่าวอุบลตอน...| 98.0|
|กระจายข่าวอุบลตอน...| 98.0|
|กระจายข่าวอุบลตอน...| 98.0|
|กระจายข่าวอุบลตอน...| 98.0|
|กระจายข่าวอุบลตอน...| 98.0|
|กระจายข่าวอุบลตอน...| 98.0|
|กระจายข่าวอุบลตอน...| 98.0|
|กระจายข่าวอุบลตอน...| 98.0|
+--------------------+-----+
only showing top 20 rows



In [33]:
### Estimator
from pyspark.ml.classification import LogisticRegression

In [34]:
lr = LogisticRegression(featuresCol='vectorizedFeatures',labelCol='label')

#### Building the Pipeline

In [35]:
from pyspark.ml import Pipeline

In [36]:
pipeline = Pipeline(stages=[tokenizer,stopwords_remover,vectorizer,idf,lr])

In [37]:
pipeline

Pipeline_a83b64b44736

In [38]:
pipeline.stages

Param(parent='Pipeline_a83b64b44736', name='stages', doc='a list of pipeline stages')

In [39]:
# Building MOdel
lr_model = pipeline.fit(trainDF)

ConnectionRefusedError: [WinError 10061] No connection could be made because the target machine actively refused it

In [None]:
lr_model

In [None]:
# Predictions on our Test Dataset
predictions = lr_model.transform(testDF)

In [None]:
predictions.show()

In [None]:
# Select Columns
predictions.columns

In [None]:
predictions.select('rawPrediction','probability','subject','label','prediction').show(10)

In [None]:
### Model Evaluation
#+ Accuracy
#+ Precision
#+ F1score
#+ etc


In [None]:
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

In [None]:
evaluator = MulticlassClassificationEvaluator(labelCol='label',predictionCol='prediction',metricName='accuracy')

In [None]:
accuracy = evaluator.evaluate(predictions)

In [None]:
accuracy

In [None]:
#### Method 2: Precision. F1Score (Classification Report)
from pyspark.mllib.evaluation import MulticlassMetrics

In [None]:
lr_metric = MulticlassMetrics(predictions['label','prediction'].rdd)

In [None]:
print("Accuracy:",lr_metric.accuracy)
print("Precision:",lr_metric.precision(1.0))
print("Recall:",lr_metric.recall(1.0))
print("F1Score:",lr_metric.fMeasure(1.0))

### Confusion Matrix
+ convert to pandas
+ sklearn

In [None]:
y_true = predictions.select('label')
y_true = y_true.toPandas()
y_pred = predictions.select('prediction')
y_pred = y_pred.toPandas()

In [None]:
from sklearn.metrics import confusion_matrix,classification_report

In [None]:
cm = confusion_matrix(y_true,y_pred)

In [None]:
cm

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import itertools

def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')


In [None]:
label_dict.keys()

In [None]:
class_names = ['Web Development', 'Business Finance', 'Musical Instruments', 'Graphic Design','N4','N5']

In [None]:
plot_confusion_matrix(cm,class_names)

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Classication Report
print(classification_report(y_true,y_pred))

In [None]:
# Classication Report
print(classification_report(y_true,y_pred,target_names=class_names))

In [None]:
class_temp = predictions.select("label").groupBy("label")\
                        .count().sort('count', ascending=False).toPandas()
class_temp = class_temp["label"].values.tolist()
class_names = map(str, class_temp)
# # # print(class_name)
class_names

### Making Single Prediction
+ sample as DF
+ apply pipeline

In [None]:
from pyspark.sql.types import StringType

In [None]:
ex1 = spark.createDataFrame([
    ("Building Machine Learning Apps with Python and PySpark",StringType())
],
# Column Name
["course_title"]

)

In [None]:
ex1.show()

In [None]:
# Show Full 
ex1.show(truncate=False)

In [None]:
# Predict
pred_ex1 = lr_model.transform(ex1)

In [None]:
pred_ex1.show()

In [None]:
pred_ex1.columns

In [None]:
pred_ex1.select('course_title','rawPrediction','probability','prediction').show()

In [None]:
label_dict

In [None]:
### Save and Load Model

In [None]:
# Saving Model
modelPath = "models/pyspark_lr_model_26_Feb_2021"
lr_model.save(modelPath)

In [None]:
# Loading pickled model via pipeline api
from pyspark.ml.pipeline import PipelineModel
persistedModel = PipelineModel.load(modelPath)

In [None]:
modelPath

In [None]:
lr_model

In [None]:
lr_model.save(modelPath)