In [3]:
import pandas as pd
# train Data
trainData = pd.read_csv("https://raw.githubusercontent.com/Vasistareddy/sentiment_analysis/master/data/train.csv")
# test Data
testData = pd.read_csv("https://raw.githubusercontent.com/Vasistareddy/sentiment_analysis/master/data/test.csv")

menggunakan library pandas untuk membaca dua dataset dari URL, yaitu data latih (train.csv) dan data uji (test.csv) yang digunakan dalam analisis sentimen. Dataset tersebut dimuat ke dalam dua variabel (trainData dan testData) dan berisi teks serta label sentimen yang nantinya akan digunakan untuk melatih dan menguji model klasifikasi seperti Support Vector Machine (SVM).

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer
# Create feature vectors
vectorizer = TfidfVectorizer(min_df = 5,
                             max_df = 0.8,
                             sublinear_tf = True,
                             use_idf = True)
train_vectors = vectorizer.fit_transform(trainData['Content'])
test_vectors = vectorizer.transform(testData['Content'])

menggunakan TfidfVectorizer dari library sklearn untuk mengubah teks dalam kolom 'Content' menjadi representasi numerik berbasis TF-IDF (Term Frequency-Inverse Document Frequency), yang memperhitungkan pentingnya kata dalam dokumen. Parameter min_df=5 mengabaikan kata yang muncul di kurang dari 5 dokumen, max_df=0.8 mengabaikan kata yang muncul di lebih dari 80% dokumen (kata umum), sublinear_tf=True dan use_idf=True memastikan penggunaan perhitungan TF yang disesuaikan dan pembobotan IDF. Hasilnya, teks dalam trainData dan testData diubah menjadi vektor numerik dan disimpan dalam train_vectors dan test_vectors, yang akan digunakan untuk melatih dan menguji model SVM.

In [6]:
import time
from sklearn import svm
from sklearn.metrics import classification_report
# Perform classification with SVM, kernel=linear
classifier_linear = svm.SVC(kernel='linear')
t0 = time.time()
classifier_linear.fit(train_vectors, trainData['Label'])
t1 = time.time()
prediction_linear = classifier_linear.predict(test_vectors)
t2 = time.time()
time_linear_train = t1-t0
time_linear_predict = t2-t1
# results
print("Training time: %fs; Prediction time: %fs" % (time_linear_train, time_linear_predict))
report = classification_report(testData['Label'], prediction_linear, output_dict=True)
print('positive: ', report['pos'])
print('negative: ', report['neg'])

Training time: 9.851142s; Prediction time: 0.908700s
positive:  {'precision': 0.9191919191919192, 'recall': 0.91, 'f1-score': 0.914572864321608, 'support': 100.0}
negative:  {'precision': 0.9108910891089109, 'recall': 0.92, 'f1-score': 0.9154228855721394, 'support': 100.0}


melakukan klasifikasi sentimen menggunakan algoritma Support Vector Machine (SVM) dengan kernel linear dari library sklearn. Model SVM dilatih menggunakan data train_vectors dan label sentimen trainData['Label'], serta diuji menggunakan test_vectors. Waktu pelatihan dan prediksi dicatat menggunakan modul time. Setelah prediksi dilakukan, hasil dievaluasi menggunakan classification_report untuk menampilkan metrik evaluasi (precision, recall, dan f1-score) untuk kelas positif dan negatif. Hasil akhir menunjukkan performa model dalam mengklasifikasi sentimen pada data uji.

In [7]:
import pickle
# pickling the vectorizer
pickle.dump(vectorizer, open('vectorizer.sav', 'wb'))
# pickling the model
pickle.dump(classifier_linear, open('classifier.sav', 'wb'))

Kode ini menyimpan (men-save) objek vectorizer dan model SVM (classifier_linear) yang telah dilatih ke dalam file menggunakan modul pickle, yaitu ke file vectorizer.sav dan classifier.sav. Proses ini disebut pickling, yang berguna agar model dan vectorizer bisa digunakan kembali di masa depan tanpa perlu melatih ulang, sehingga memudahkan implementasi dalam aplikasi atau sistem analisis sentimen secara langsung.