# Glitz Content Classifier

** About **
- Name: Antoni F. Setiawan
- Occupation: Lead Software Developer and Data Scientist at Adplus
- Email: antoni.fs@gmail.com
- Github: @antonifs
- LinkedIn: @antonifs



** Description **

Notebook ini akan mengeksplorasi dataset dari masing-masing kategori di website Glitz yang akan dijadikan data train dan data tes.

** Hipotesis **

Semua konten yang dipublikasikan di website Glitz memiliki kategori, dan setiap kategori mempunyai karakter sehingga bisa diklasifikasikan kategorinya; diformulasikan melalui pattern kontennya.

### Our Trail Map
1. Eksplorasi data
2. Stopword removal
3. Steaming
4. Topic Modeling with LDA
5. Word vector model with word2vec
6. Evaluation

In [2]:
import pandas as pd
import glob

In [3]:
sport_filenames = glob.glob('./output/Sport_IAB17/*.txt')
sport_filenames[:4]

['./output/Sport_IAB17/009fc2d165000da03490892b3a31f2745f0e2f77.txt',
 './output/Sport_IAB17/017be6b4117c7e4641706561a4d9fd9edc28d221.txt',
 './output/Sport_IAB17/03ffb77a1ad2f80e75321d439b05efcd0fb78c91.txt',
 './output/Sport_IAB17/0440df7b9f81b0dd1fbb4fb42a7f4dbc7ed74dee.txt']

In [4]:
style_filenames = glob.glob('./output/Style_and_Fashion_IAB18/*.txt')
style_filenames[:4]

['./output/Style_and_Fashion_IAB18/00d3c2f805c8fff26bfeeec83b3cfd8100943724.txt',
 './output/Style_and_Fashion_IAB18/04f82c847e198d38b39e05fa5ed282b7bf99beb8.txt',
 './output/Style_and_Fashion_IAB18/05e38a6dfa6465fd114633f9020ff4f39755e235.txt',
 './output/Style_and_Fashion_IAB18/07ef9408f3ed2ec09b52ab9a0b05b8b4e3b00ebe.txt']

In [5]:
tech_filenames = glob.glob('./output/Technology_Computing_IAB19/*.txt')
tech_filenames[:4]

['./output/Technology_Computing_IAB19/04050a32b11ea9af3e51fd4047b2b97acbeacb88.txt',
 './output/Technology_Computing_IAB19/0849073880e97bbc182011604b209fd7e4d5dbaa.txt',
 './output/Technology_Computing_IAB19/092b0b12521c9e0de5b22db538de6f3c38e5c584.txt',
 './output/Technology_Computing_IAB19/0961f48410b3b2b0b8560fb311a8aead788b5827.txt']

In [6]:
sport_text = []
for filename in sport_filenames:
    with open(filename) as f:
        sport_text.append(f.read())

sport_text[1:2]

['Kamis, 3 November 2016 - 07:15 wib  MEKSIKO \xe2\x80\x93 Pembalap Ferrari, Sebastian Vettel, mengucapkan maaf yang sebesar-besarnya kepada Charlie Whiting dan Federasi Internasional Automotive (FIA). Permintaan maaf tersebut diungkapkan setelah ia berkata kasar usai berlaga di Grand Prix (GP) Meksiko.\nSaat berlaga di Meksiko, Vettel memang melontarkan beberapa kata-kata kasar melalui siaran radio miliknya. Saat itu pembalap berkebangsaan Jerman tersebut sangat kesal ketika pembalap Red Bull, Max Verstappen, yang tidak memberikannya jalan usai menyelonong keluar lintasan.\r\n                  \nBERITA REKOMENDASI\n\n\nBrawn Bantah Jadi Calon Pengganti Ecclestone sebagai Bos F1Alonso Ingin McLaren-Honda Fokus pada KecepatanManajer Verstappen Bantah Kliennya Hancurkan F1\nSaat ini Presiden FIA, Jean Todt, sedang melakukan investigasi mengenai perilaku Vettel yang berbicara kasar saat balapan. Oleh sebab itu Vettel yang mengaku bersalah, langsung membuat permintaan maaf yang sebesar-bes

In [7]:
style_text = []
for filename in style_filenames:
    with open(filename) as f:
        style_text.append(f.read())

style_text[1:2]

["Berita perceraian Brad Pitt dan Angelina Jolie tentu mengagetkan banyak pihak. Kebersamaan mereka selama 10 tahun tentu membuat banyak netizen ikut sedih dengan berita perceraian mereka. Berbagai dugaan akan penyebab perceraian mereka pun bermunculan. Salah satunya adalah perselingkuhan antara Brad Pitt dengan lawan mainnya di film Allied, Marion Cotillard. Melihat adanya kesalahpahaman akan berita yang beredar, Cotillard pun langsung menepis berita tersebut dan mengatakan bahwa dirinya justru tengah mengandung anak kedua dari Guillaume Canet, pasangannya. \xe2\x80\x9cFirstly, many years ago, I met the man of my life, father of our son and of the baby we are expecting. He is my love, my best friend, the only one that I need. Secondly to those who have indicated that I am devastated, I am very well thank you,\xe2\x80\x9d\xc2\xa0ungkap Cotillard.\xc2\xa0 \xe2\x80\x9cThis crafted conversation isn\xe2\x80\x99t distressing. And to all the media and the haters who are quick to pass judgmen

In [8]:
tech_text = []
for filename in tech_filenames:
    with open(filename) as f:
        tech_text.append(f.read())

tech_text[1:2]

['KOMPAS.com - Indocomtech 2016 resmi dibuka pada Rabu (2/11/2016). Seperti biasa, pameran gadget dan teknologi tahunan yang sekarang mengusung tajuk baru \xe2\x80\x9cBRI Indocomtech\xe2\x80\x9d ini dilangsungkan di Jakarta Convention Center, Senayan.Sebanyak 300 perserta menempati area eksebisi seluas 17.000 meter persegi di Hall A, Prefunction Hall A, Hall B, Prefunction Hall B, area Cenderawasih, dan Main Lobby JCC. Para peserta berasal dari berbagai bidang, termasuk telekomunikasi, komputer, software, games, smartphone, serta produk elektronik dan aksesori.Baca: Bisa Tukar Tambah Android dengan iPhone 6 di Indocomtech 2016 Selain eksibitor dalam negeri, seperti tahun sebelumnya, BRI Indocomtech 2016 turut menghadirkan area paviliun khusus untuk produsen TIK dari China, Taiwan, dan Hongkong yang berisi lebih dari 100 peserta.Berbekal kamera Samsung Gear 360, KompasTekno sempat berkeliling dan menjelajahi arena pameran untuk merekam apa saja yang ada di sana, dalam video 360 derajat.

In [13]:
df_sport = pd.DataFrame({'text': sport_text, 'class': 'sport'})

In [14]:
df_style = pd.DataFrame({'text': style_text, 'class': 'style'})

In [15]:
df_tech = pd.DataFrame({'text': tech_text, 'class': 'tech'})

In [16]:
frames = [df_sport, df_style, df_tech]

data = pd.concat(frames, ignore_index=True)

In [17]:
data['label'] = data['class'].map({'sport': 1, 'style': 2, 'tech': 3})

In [29]:
data

Unnamed: 0,class,text,label
0,sport,"REPORTER JAKARTA, Kompas.com - Di bidang olah ...",1
1,sport,"Kamis, 3 November 2016 - 07:15 wib MEKSIKO – ...",1
2,sport,\n ©2008 - 2015 PT. Kom...,1
3,sport,"BILBAO, Kompas.com - Indonesia menang telak 5-...",1
4,sport,"TEMPO.CO, Jakarta - Maria Selena, Duta Pekan O...",1
5,sport,"Senin, 31 Oktober 2016 - 17:41 wib Niki Lauda ...",1
6,sport,\n,1
7,sport,"Jum'at, 28 Oktober 2016 - 19:22 wib Agung Ali ...",1
8,sport,"TEMPO.CO, Rio de Janeiro - Usain Bolt menjadi ...",1
9,sport,\n,1


In [26]:
data.shape

(280, 3)

In [27]:
from sklearn.cross_validation import train_test_split

In [28]:
X = data.text
Y = data.label

In [29]:
X_train, X_test, y_train, y_test = train_test_split(X, Y)

In [30]:
print X_train.shape, X_test.shape, y_train.shape, y_test.shape

(210,) (70,) (210,) (70,)


### Vectorize
Content text pada dataframe dijadikan vector 

In [31]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()

In [32]:
vect.fit(X_train)
X_train_dtm = vect.transform(X_train)

In [33]:
X_test_dtm = vect.transform(X_test)

In [34]:
from sklearn.naive_bayes import MultinomialNB
nb = MultinomialNB()

In [35]:
%time nb.fit(X_train_dtm, y_train)

CPU times: user 2.19 ms, sys: 724 µs, total: 2.92 ms
Wall time: 2.37 ms


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [36]:
y_pred_class = nb.predict(X_test_dtm)

In [37]:
from sklearn import metrics
metrics.accuracy_score(y_test, y_pred_class)

0.0

In [38]:
metrics.confusion_matrix(y_test, y_pred_class)

array([[0, 0, 3, 0, 0, 0, 4],
       [0, 0, 1, 1, 0, 4, 4],
       [1, 0, 0, 1, 0, 4, 8],
       [0, 0, 2, 0, 0, 5, 3],
       [0, 0, 0, 0, 0, 3, 3],
       [1, 0, 4, 1, 0, 0, 4],
       [1, 0, 5, 1, 0, 6, 0]])

In [39]:
df2_beauty = pd.DataFrame({'text': beauty_text, 'label': 0})
df2_relationship = pd.DataFrame({'text': relationship_text, 'label': 1})

In [41]:
data2 = pd.concat([df2_beauty, df2_relationship], ignore_index=True)
data2.shape

(80, 2)

In [42]:
data.head()

Unnamed: 0,class,text,label
0,style,Jika sebelumnya Pevita Pearce dan Velove Vexia...,1
1,style,"Tepat hari ini, 2 Oktober negara kita memperin...",1
2,style,\n\n \n\n \n\n \n\n \n\n Perhelatan mode berge...,1
3,style,\n\n \n\n \n\n \n\n \n\n \n\n \n\n \n\n \n\n \...,1
4,style,Sangat beruntung tinggal di Indonesia. Dikelil...,1
