# Glitz Content Classifier

** About **
- Name: Antoni F. Setiawan
- Occupation: Lead Software Developer and Data Scientist at Adplus
- Email: antoni.fs@gmail.com
- Github: @antonifs
- LinkedIn: @antonifs



** Description **

Notebook ini akan mengeksplorasi dataset dari masing-masing kategori di website Glitz yang akan dijadikan data train dan data tes.

** Hipotesis **

Semua konten yang dipublikasikan di website Glitz memiliki kategori, dan setiap kategori mempunyai karakter sehingga bisa diklasifikasikan kategorinya; diformulasikan melalui pattern kontennya.

### Our Trail Map
1. Eksplorasi data
2. Stopword removal
3. Steaming
4. Topic Modeling with LDA
5. Word vector model with word2vec
6. Evaluation

In [1]:
import pandas as pd
import glob

In [2]:
style_filenames = glob.glob('./output/glitz/style/*.txt')
style_filenames[:4]

['./output/glitz/style/07b712e9da5f7142456e336d4b7c6439d8cb9516.txt',
 './output/glitz/style/09e9045cd2ae0fe88dab44fe7b2ce275bd316df0.txt',
 './output/glitz/style/0a6640d2ff0e1d1c3095e43fa2be21654340e152.txt',
 './output/glitz/style/0afad3c58d6facb9f816a466e0d02b75efffdf16.txt']

In [3]:
beauty_filenames = glob.glob('./output/glitz/beauty/*.txt')
beauty_filenames[:4]

['./output/glitz/beauty/0ab2c8d9067742a4322050ed4be708a8f0057754.txt',
 './output/glitz/beauty/123367c4eca66c6c70374d3a117425fa809b7c30.txt',
 './output/glitz/beauty/17557f0df2255fcbfe4165427440797f6abaf895.txt',
 './output/glitz/beauty/1b5df8470d04ae18f87989edc7d94f2147b1ae82.txt']

In [4]:
wellness_filenames = glob.glob('./output/glitz/wellness/*.txt')
wellness_filenames[:4]

['./output/glitz/wellness/0518148dc03040ffe28b4e16724dfe48f5fec53d.txt',
 './output/glitz/wellness/10f30a6f4522871775d37c45326aee5f772b1cf4.txt',
 './output/glitz/wellness/1cd9fc66df4fbae4106c4a5e5c95b7951646ed44.txt',
 './output/glitz/wellness/256d63c2546679c649fa8a3685e3e5902f9ffb7a.txt']

In [5]:
entertainment_filenames = glob.glob('./output/glitz/entertainment/*.txt')
entertainment_filenames[:4]

['./output/glitz/entertainment/00ffbb0ae6751011edc803050f8e45daee5f9147.txt',
 './output/glitz/entertainment/11a8b0b24073ea43007628b4eb9eda1135e26631.txt',
 './output/glitz/entertainment/1809255aa1b90aad4df75b13636bf7aed25d1dfa.txt',
 './output/glitz/entertainment/19a8d6f46156d765f2496b58d26f9bec96715bb9.txt']

In [6]:
relationship_filenames = glob.glob('./output/glitz/relationship/*.txt')
relationship_filenames[:4]

['./output/glitz/relationship/01b5dbb15c4b904df604f262a2d6fba35c0ff0d0.txt',
 './output/glitz/relationship/0df880ce3466f237a118e3a385cdc165da0cd600.txt',
 './output/glitz/relationship/1d155d34f81e6726e22851bbcaa5d58f80351bca.txt',
 './output/glitz/relationship/1f8db050f31843ffb82efea470e92f35b02f4091.txt']

In [7]:
living_filenames = glob.glob('./output/glitz/living/*.txt')
living_filenames[:4]

['./output/glitz/living/021d1f3d1118c7a73322e94e4750652fca8f4945.txt',
 './output/glitz/living/113a158c0f2542efb587abd4a59f8c396aba8899.txt',
 './output/glitz/living/1af133f204476c43d7d8b10fcbcd475282fdaca3.txt',
 './output/glitz/living/1da550213a97b87c53430ec9cb0f5a7c41227069.txt']

In [8]:
leisure_filenames = glob.glob('./output/glitz/leisure/*.txt')
leisure_filenames[:4]

['./output/glitz/leisure/0a3ca068e01c71f1bb176acc5d579a449b23c145.txt',
 './output/glitz/leisure/1276765e5cc2ae2fb37ff11ab8f85d7fe216e6f5.txt',
 './output/glitz/leisure/13432f0e268c7fb9e60cb83e0a39ff15f0df1800.txt',
 './output/glitz/leisure/1499925519adb4d1c87bc0d96fdc406f5378febb.txt']

In [9]:
style_text = []
for filename in style_filenames:
    with open(filename) as f:
        style_text.append(f.read())

style_text[1:2]

['Tepat hari ini, 2 Oktober negara kita memperingati hari salah satu seni budaya Indonesia yang paling terkenal, batik. Semakin bangga karena batik terus berinovasi seiring dengan perkembangan zaman. Desainnya semakin variatif, motifnya jauh dari kata membosankan, dan bisa diaplikasikan dalam berbagai kesempatan. Untuk menambah koleksi batik di lemari Anda, GLITZMEDIA.CO berikan rekomendasi 12 busana bergaya modern dan chic. Penampilan akan lebih segar dan muda. Sebagai tabungan gaya, batik tak akan pernah lekang oleh waktu. Tergantung dari seberapa cerdas Anda memadupadankannya.\xc2\xa0   KIRI: Kimono Jacket, COTTONINK.CO.ID KANAN:\xc2\xa0Sleeveless Top, ALOES via BOBOBOBO.COM \n\nPAGE\n1\n2\n3\n4\n5\n\n PAGE 1 2 3 4 5\n']

In [10]:
beauty_text = []
for filename in beauty_filenames:
    with open(filename) as f:
        beauty_text.append(f.read())

beauty_text[1:2]

['Tepat hari ini, 2 Oktober negara kita memperingati hari salah satu seni budaya Indonesia yang paling terkenal, batik. Semakin bangga karena batik terus berinovasi seiring dengan perkembangan zaman. Desainnya semakin variatif, motifnya jauh dari kata membosankan, dan bisa diaplikasikan dalam berbagai kesempatan. Untuk menambah koleksi batik di lemari Anda, GLITZMEDIA.CO berikan rekomendasi 12 busana bergaya modern dan chic. Penampilan akan lebih segar dan muda. Sebagai tabungan gaya, batik tak akan pernah lekang oleh waktu. Tergantung dari seberapa cerdas Anda memadupadankannya.\xc2\xa0   KIRI: Kimono Jacket, COTTONINK.CO.ID KANAN:\xc2\xa0Sleeveless Top, ALOES via BOBOBOBO.COM \n\nPAGE\n1\n2\n3\n4\n5\n\n PAGE 1 2 3 4 5\n']

In [11]:
wellness_text = []
for filename in wellness_filenames:
    with open(filename) as f:
        wellness_text.append(f.read())

wellness_text[1:2]

['Tepat hari ini, 2 Oktober negara kita memperingati hari salah satu seni budaya Indonesia yang paling terkenal, batik. Semakin bangga karena batik terus berinovasi seiring dengan perkembangan zaman. Desainnya semakin variatif, motifnya jauh dari kata membosankan, dan bisa diaplikasikan dalam berbagai kesempatan. Untuk menambah koleksi batik di lemari Anda, GLITZMEDIA.CO berikan rekomendasi 12 busana bergaya modern dan chic. Penampilan akan lebih segar dan muda. Sebagai tabungan gaya, batik tak akan pernah lekang oleh waktu. Tergantung dari seberapa cerdas Anda memadupadankannya.\xc2\xa0   KIRI: Kimono Jacket, COTTONINK.CO.ID KANAN:\xc2\xa0Sleeveless Top, ALOES via BOBOBOBO.COM \n\nPAGE\n1\n2\n3\n4\n5\n\n PAGE 1 2 3 4 5\n']

In [12]:
entertainment_text = []
for filename in entertainment_filenames:
    with open(filename) as f:
        entertainment_text.append(f.read())

entertainment_text[1:2]

['Tepat hari ini, 2 Oktober negara kita memperingati hari salah satu seni budaya Indonesia yang paling terkenal, batik. Semakin bangga karena batik terus berinovasi seiring dengan perkembangan zaman. Desainnya semakin variatif, motifnya jauh dari kata membosankan, dan bisa diaplikasikan dalam berbagai kesempatan. Untuk menambah koleksi batik di lemari Anda, GLITZMEDIA.CO berikan rekomendasi 12 busana bergaya modern dan chic. Penampilan akan lebih segar dan muda. Sebagai tabungan gaya, batik tak akan pernah lekang oleh waktu. Tergantung dari seberapa cerdas Anda memadupadankannya.\xc2\xa0   KIRI: Kimono Jacket, COTTONINK.CO.ID KANAN:\xc2\xa0Sleeveless Top, ALOES via BOBOBOBO.COM \n\nPAGE\n1\n2\n3\n4\n5\n\n PAGE 1 2 3 4 5\n']

In [13]:
relationship_text = []
for filename in relationship_filenames:
    with open(filename) as f:
        relationship_text.append(f.read())

relationship_text[1:2]

['Tepat hari ini, 2 Oktober negara kita memperingati hari salah satu seni budaya Indonesia yang paling terkenal, batik. Semakin bangga karena batik terus berinovasi seiring dengan perkembangan zaman. Desainnya semakin variatif, motifnya jauh dari kata membosankan, dan bisa diaplikasikan dalam berbagai kesempatan. Untuk menambah koleksi batik di lemari Anda, GLITZMEDIA.CO berikan rekomendasi 12 busana bergaya modern dan chic. Penampilan akan lebih segar dan muda. Sebagai tabungan gaya, batik tak akan pernah lekang oleh waktu. Tergantung dari seberapa cerdas Anda memadupadankannya.\xc2\xa0   KIRI: Kimono Jacket, COTTONINK.CO.ID KANAN:\xc2\xa0Sleeveless Top, ALOES via BOBOBOBO.COM \n\nPAGE\n1\n2\n3\n4\n5\n\n PAGE 1 2 3 4 5\n']

In [14]:
living_text = []
for filename in living_filenames:
    with open(filename) as f:
        living_text.append(f.read())

living_text[1:2]

['Tepat hari ini, 2 Oktober negara kita memperingati hari salah satu seni budaya Indonesia yang paling terkenal, batik. Semakin bangga karena batik terus berinovasi seiring dengan perkembangan zaman. Desainnya semakin variatif, motifnya jauh dari kata membosankan, dan bisa diaplikasikan dalam berbagai kesempatan. Untuk menambah koleksi batik di lemari Anda, GLITZMEDIA.CO berikan rekomendasi 12 busana bergaya modern dan chic. Penampilan akan lebih segar dan muda. Sebagai tabungan gaya, batik tak akan pernah lekang oleh waktu. Tergantung dari seberapa cerdas Anda memadupadankannya.\xc2\xa0   KIRI: Kimono Jacket, COTTONINK.CO.ID KANAN:\xc2\xa0Sleeveless Top, ALOES via BOBOBOBO.COM \n\nPAGE\n1\n2\n3\n4\n5\n\n PAGE 1 2 3 4 5\n']

In [15]:
leisure_text = []
for filename in leisure_filenames:
    with open(filename) as f:
        leisure_text.append(f.read())

leisure_text[1:2]

['Tepat hari ini, 2 Oktober negara kita memperingati hari salah satu seni budaya Indonesia yang paling terkenal, batik. Semakin bangga karena batik terus berinovasi seiring dengan perkembangan zaman. Desainnya semakin variatif, motifnya jauh dari kata membosankan, dan bisa diaplikasikan dalam berbagai kesempatan. Untuk menambah koleksi batik di lemari Anda, GLITZMEDIA.CO berikan rekomendasi 12 busana bergaya modern dan chic. Penampilan akan lebih segar dan muda. Sebagai tabungan gaya, batik tak akan pernah lekang oleh waktu. Tergantung dari seberapa cerdas Anda memadupadankannya.\xc2\xa0   KIRI: Kimono Jacket, COTTONINK.CO.ID KANAN:\xc2\xa0Sleeveless Top, ALOES via BOBOBOBO.COM \n\nPAGE\n1\n2\n3\n4\n5\n\n PAGE 1 2 3 4 5\n']

In [16]:
df_style = pd.DataFrame({'text': style_text, 'class': 'style'})

In [17]:
df_beauty = pd.DataFrame({'text': beauty_text, 'class': 'beauty'})

In [18]:
df_wellness = pd.DataFrame({'text': wellness_text, 'class': 'wellness'})

In [19]:
df_entertainment = pd.DataFrame({'text': entertainment_text, 'class': 'entertainment'})

In [20]:
df_relationship = pd.DataFrame({'text': relationship_text, 'class': 'relationship'})

In [21]:
df_living = pd.DataFrame({'text': living_text, 'class': 'living'})

In [22]:
df_leisure = pd.DataFrame({'text': leisure_text, 'class': 'leisure'})

In [23]:
frames = [df_style, df_beauty, df_wellness, df_entertainment, df_relationship, df_living, df_leisure]

data = pd.concat(frames, ignore_index=True)

In [24]:
data['label'] = data['class'].map({'style': 1, 'beauty': 2, 'wellness': 3, 
                                   'entertainment': 4, 'relationship': 5, 
                                   'living': 6, 'leisure': 7})

In [25]:
data.head()

Unnamed: 0,class,text,label
0,style,Jika sebelumnya Pevita Pearce dan Velove Vexia...,1
1,style,"Tepat hari ini, 2 Oktober negara kita memperin...",1
2,style,\n\n \n\n \n\n \n\n \n\n Perhelatan mode berge...,1
3,style,\n\n \n\n \n\n \n\n \n\n \n\n \n\n \n\n \n\n \...,1
4,style,Sangat beruntung tinggal di Indonesia. Dikelil...,1


In [26]:
data.shape

(280, 3)

In [27]:
from sklearn.cross_validation import train_test_split

In [28]:
X = data.text
Y = data.label

In [29]:
X_train, X_test, y_train, y_test = train_test_split(X, Y)

In [30]:
print X_train.shape, X_test.shape, y_train.shape, y_test.shape

(210,) (70,) (210,) (70,)


### Vectorize
Content text pada dataframe dijadikan vector 

In [31]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()

In [32]:
vect.fit(X_train)
X_train_dtm = vect.transform(X_train)

In [33]:
X_test_dtm = vect.transform(X_test)

In [34]:
from sklearn.naive_bayes import MultinomialNB
nb = MultinomialNB()

In [35]:
%time nb.fit(X_train_dtm, y_train)

CPU times: user 2.19 ms, sys: 724 µs, total: 2.92 ms
Wall time: 2.37 ms


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [36]:
y_pred_class = nb.predict(X_test_dtm)

In [37]:
from sklearn import metrics
metrics.accuracy_score(y_test, y_pred_class)

0.0

In [38]:
metrics.confusion_matrix(y_test, y_pred_class)

array([[0, 0, 3, 0, 0, 0, 4],
       [0, 0, 1, 1, 0, 4, 4],
       [1, 0, 0, 1, 0, 4, 8],
       [0, 0, 2, 0, 0, 5, 3],
       [0, 0, 0, 0, 0, 3, 3],
       [1, 0, 4, 1, 0, 0, 4],
       [1, 0, 5, 1, 0, 6, 0]])

In [39]:
df2_beauty = pd.DataFrame({'text': beauty_text, 'label': 0})
df2_relationship = pd.DataFrame({'text': relationship_text, 'label': 1})

In [41]:
data2 = pd.concat([df2_beauty, df2_relationship], ignore_index=True)
data2.shape

(80, 2)

In [42]:
data.head()

Unnamed: 0,class,text,label
0,style,Jika sebelumnya Pevita Pearce dan Velove Vexia...,1
1,style,"Tepat hari ini, 2 Oktober negara kita memperin...",1
2,style,\n\n \n\n \n\n \n\n \n\n Perhelatan mode berge...,1
3,style,\n\n \n\n \n\n \n\n \n\n \n\n \n\n \n\n \n\n \...,1
4,style,Sangat beruntung tinggal di Indonesia. Dikelil...,1
