# 2440016804 nomor 4b

### Code ini menggunakan corpus yang ada pada nomor 3 dengan beberapa tambahan text dan juga label untuk mendemonstrasikan penggunaan TF-IDF dalam problem classification

#### Import library dan dataset

In [1]:
#Menggunakan library pandas dan numpy
import numpy as np
import pandas as pd

In [2]:
#File .csv berada dalam folder yang sama
csv_path = 'corpus_nomor_3.csv'
data = pd.read_csv(csv_path)

Berikut adalah contoh data yang ada pada corpus_nomor_3.csv

In [3]:
data.head(5)

Unnamed: 0,text,is_positive
0,saya suka dengan makanan laut,1
1,saya tidak suka dengan makanan laut,0
2,saya suka dengan minuman yang manis,1
3,saya benci dengan minuman yang manis,0
4,kemarin saya makan makanan laut,1


Untuk melakukan proses klasifikasi, kita harus meng-extract variabel independent dan variabel dependentnya terlebih dahulu. is_positive = dependent, text = independent

In [4]:
# Membuat set feature dan label dengan mengextract
# variable independent dan dependent
text = data['text']
label = data['is_positive']

In [5]:
text.head(3)

0          saya suka dengan makanan laut
1    saya tidak suka dengan makanan laut
2    saya suka dengan minuman yang manis
Name: text, dtype: object

In [6]:
label.head(3)

0    1
1    0
2    1
Name: is_positive, dtype: int64

#### Metode TF-IDF

Setelah itu, kita bisa memulai proses TF-IDF dengan bantuan library sklearn

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer

Setelah itu, kita buat corpusnya menggunakan variable text

In [8]:
corpus = list(text)

Kemudian, dari corpus ini, kita buat feature table untuk TF-IDF nya menggunakan TfidfVectorizer. Setelah itu kita perlu melakukan .fit() pada vectorizer tersebut menggunakan corpus. Model TF-IDF ini kemudian yang akan mengtransformasi data berupa teks menjadi representasi TF-IDF

In [9]:
tfidf = TfidfVectorizer() 
tfidf.fit(corpus)
tfidf_features = tfidf.transform(corpus)

In [10]:
print(tfidf_features)

  (0, 24)	0.5095875771359335
  (0, 23)	0.2234118179927761
  (0, 16)	0.4344157030482929
  (0, 13)	0.5594404836084055
  (0, 7)	0.4344157030482929
  (1, 28)	0.5292128755748472
  (1, 24)	0.4323794985413791
  (1, 23)	0.18956248968009376
  (1, 16)	0.3685969836592324
  (1, 13)	0.4746791456845585
  (1, 7)	0.3685969836592324
  (2, 29)	0.448529992666489
  (2, 24)	0.448529992666489
  (2, 23)	0.1966431396328495
  (2, 19)	0.49240964118573916
  (2, 17)	0.412677709315777
  (2, 7)	0.3823650356580068
  (3, 29)	0.4395477248143441
  (3, 23)	0.19270516139204466
  (3, 19)	0.48254863888394295
  (3, 17)	0.40441341978711637
  (3, 7)	0.3747077881523111
  (3, 0)	0.48254863888394295
  (4, 23)	0.21768640404498363
  (4, 16)	0.42328285543208855
  :	:
  (12, 1)	0.4318435239940037
  (13, 29)	0.39317828281677175
  (13, 28)	0.4812323673184781
  (13, 24)	0.39317828281677175
  (13, 23)	0.17237601327149538
  (13, 19)	0.43164287857955863
  (13, 17)	0.36175041972317745
  (13, 7)	0.33517854009146386
  (14, 27)	0.480015069603

#### Training dan testing model

Untuk problem classification, SVM merupakan salah satu algoritma terbaik yang bisa digunakan. Maka, pada code ini akan digunakan algoritma SVM untuk memprediksi label pada training data. Karena data di corpus ini sangat sedikit, maka akan dilakukan split 50/50 untuk data training dan testing

In [11]:
# Import algoritma SVM
from sklearn.svm import LinearSVC

In [12]:
# Melakukan split data training dan testing
train_percent = 0.5
train_cutoff = int(np.floor(train_percent*len(text)))

# Membuat model dan melakukan prediksi terhadap data testing
tfidf_model = LinearSVC()
tfidf_model.fit(tfidf_features[0:train_cutoff],label[0:train_cutoff])
tfidf_prediction = tfidf_model.predict(tfidf_features[train_cutoff+1:len(text)])

Berikut adalah hasil prediksi dari model diatas

In [13]:
print(tfidf_prediction)

[1 1 1 1 0 1 0 0]


#### Evaluating model

Evaluasi dilakukan menggunakan metrics dari library sklearn

In [14]:
#Import metrics
from sklearn.metrics import precision_recall_fscore_support

In [15]:
#Melakukan evaluasi berdasarkan metrics
#Average di set = binary karena hanya ada 2 class di dataset
#ini, yaitu 1 dan 0 (is positive atau tidak)
precision_recall_fscore_support(
        label[train_cutoff+1:len(text)], 
        tfidf_prediction, 
        average = 'binary'
        )

(1.0, 1.0, 1.0, None)