In [2]:
import numpy as np
'''
Pada baris ini, kita mengimpor NumPy dengan menggunakan pernyataan import. 
NumPy adalah library Python yang digunakan untuk komputasi numerik. Di sini, kita mengimpor NumPy dengan alias np, 
yang merupakan konvensi umum yang memudahkan kita dalam menggunakan fungsi dan objek NumPy.
'''
import pandas as pd
'''
Dengan baris ini, kita mengimpor Pandas dengan alias pd. Pandas adalah library Python 
yang digunakan untuk analisis data dan manipulasi dataset dalam bentuk DataFrame. Dengan menggunakan Pandas,
kita dapat membaca dataset dari berbagai format file, seperti CSV, Excel, SQL, dan lainnya.
'''
from sklearn.model_selection import train_test_split
'''
Dengan baris ini, kita mengimpor fungsi train_test_split dari modul model_selection 
yang terdapat dalam library scikit-learn (sklearn). Fungsi train_test_split digunakan 
untuk membagi dataset menjadi dua bagian, yaitu data pelatihan dan data pengujian, 
sehingga kita dapat melatih model pada data pelatihan dan menguji performanya pada data pengujian.
'''
from sklearn.feature_extraction.text import TfidfVectorizer
'''
Dengan baris ini, kita mengimpor kelas TfidfVectorizer dari modul feature_extraction.text dalam library scikit-learn. 
TfidfVectorizer digunakan untuk mengubah teks menjadi representasi vektor TF-IDF (Term Frequency-Inverse Document Frequency), 
yang merupakan salah satu metode vektorisasi teks yang umum digunakan dalam pemrosesan bahasa alami dan analisis teks.
'''
from sklearn.svm import LinearSVC
'''
Dengan baris ini, kita mengimpor kelas LinearSVC dari modul svm dalam library scikit-learn. LinearSVC adalah implementasi SVM
(Support Vector Machine) untuk klasifikasi dengan kernel linier. SVM adalah algoritma pembelajaran yang digunakan
untuk pemisahan kelas dalam ruang berdimensi tinggi.
'''
from sklearn.pipeline import make_pipeline
'''
Dengan baris ini, kita mengimpor fungsi make_pipeline dari modul pipeline dalam library scikit-learn. 
make_pipeline digunakan untuk membuat pipeline, yaitu rangkaian dari beberapa estimator 
(seperti vektorisasi teks dan model klasifikasi) yang dijalankan secara berurutan. 
Pipeline ini memungkinkan kita untuk menggabungkan beberapa langkah pemrosesan data secara bersamaan.
'''
from sklearn import metrics

In [3]:
# Load dataset
df = pd.read_csv("fake_or_real_news.csv")


In [4]:
# Create binary labels
df['fake'] = df['label'].apply(lambda x: 0 if x == "REAL" else 1)

Unnamed: 0,id,title,text,label,fake
0,8476,You Can Smell Hillary’s Fear,"Daniel Greenfield, a Shillman Journalism Fello...",FAKE,1
1,10294,Watch The Exact Moment Paul Ryan Committed Pol...,Google Pinterest Digg Linkedin Reddit Stumbleu...,FAKE,1
2,3608,Kerry to go to Paris in gesture of sympathy,U.S. Secretary of State John F. Kerry said Mon...,REAL,0
3,10142,Bernie supporters on Twitter erupt in anger ag...,"— Kaydee King (@KaydeeKing) November 9, 2016 T...",FAKE,1
4,875,The Battle of New York: Why This Primary Matters,It's primary day in New York and front-runners...,REAL,0
...,...,...,...,...,...
6330,4490,State Department says it can't find emails fro...,The State Department told the Republican Natio...,REAL,0
6331,8062,The ‘P’ in PBS Should Stand for ‘Plutocratic’ ...,The ‘P’ in PBS Should Stand for ‘Plutocratic’ ...,FAKE,1
6332,8622,Anti-Trump Protesters Are Tools of the Oligarc...,Anti-Trump Protesters Are Tools of the Oligar...,FAKE,1
6333,4021,"In Ethiopia, Obama seeks progress on peace, se...","ADDIS ABABA, Ethiopia —President Obama convene...",REAL,0


In [5]:
# Drop the original label column
df = df.drop("label", axis=1)

In [9]:
# Prepare features and labels
X, y = df['text'], df['fake']
'''
Memisahkan fitur (X) dan label (y) dari DataFrame df, 
dimana X adalah teks berita dan y adalah label biner yang menunjukkan apakah berita tersebut "Fake" atau "Real".
'''

'\nMemisahkan fitur (X) dan label (y) dari DataFrame df, \ndimana X adalah teks berita dan y adalah label biner yang menunjukkan apakah berita tersebut "Fake" atau "Real".\n'

In [10]:
# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
'''
 Membagi dataset menjadi dua bagian, yaitu data pelatihan (80%) dan data pengujian (20%). 
 Ini dilakukan menggunakan fungsi train_test_split() dari scikit-learn.
'''

'\n Membagi dataset menjadi dua bagian, yaitu data pelatihan (80%) dan data pengujian (20%). \n Ini dilakukan menggunakan fungsi train_test_split() dari scikit-learn.\n'

In [11]:
# Create a pipeline that combines the vectorizer and the classifier
model = make_pipeline(TfidfVectorizer(stop_words="english", max_df=0.7), LinearSVC())
'''
Baris 19: Membuat pipeline yang terdiri dari dua tahap: vektorisasi TF-IDF dan model SVM linier. 
TfidfVectorizer digunakan untuk mengubah teks menjadi representasi vektor TF-IDF, sedangkan LinearSVC 
adalah model klasifikasi SVM linier.
'''

'\nBaris 19: Membuat pipeline yang terdiri dari dua tahap: vektorisasi TF-IDF dan model SVM linier. \nTfidfVectorizer digunakan untuk mengubah teks menjadi representasi vektor TF-IDF, sedangkan LinearSVC \nadalah model klasifikasi SVM linier.\n'

In [12]:
# Train the model
model.fit(X_train, y_train)
'''
Melatih model pada data pelatihan
'''



'\nMelatih model pada data pelatihan\n'

In [13]:
# Evaluate the model
predictions = model.predict(X_test)
print(f"Accuracy: {metrics.accuracy_score(y_test, predictions):.2f}")
'''
Menggunakan model yang dilatih untuk melakukan prediksi pada data pengujian dan 
mencetak akurasi dari model menggunakan metrik accuracy_score dari scikit-learn.
'''

Accuracy: 0.94


'\nMenggunakan model yang dilatih untuk melakukan prediksi pada data pengujian dan \nmencetak akurasi dari model menggunakan metrik accuracy_score dari scikit-learn.\n'

In [14]:
# Interactive prediction loop
def classify_news():
    print("Enter a news article to classify it as Fake or Real. Type 'exit' to quit.")
    while True:
        user_input = input("\nEnter news text: ")
        if user_input.lower() == 'exit':
            print("Exiting the program.")
            break
        prediction = model.predict([user_input])
        label = "FAKE" if prediction[0] == 1 else "REAL"
        print(f"The news article is classified as: {label}")
'''
Mendefinisikan fungsi classify_news() yang memungkinkan pengguna memasukkan teks berita dan mengklasifikasikannya 
sebagai "Fake" atau "Real". Program akan terus berjalan hingga pengguna memilih untuk keluar dengan mengetikkan 'exit'.
'''

'\nMendefinisikan fungsi classify_news() yang memungkinkan pengguna memasukkan teks berita dan mengklasifikasikannya \nsebagai "Fake" atau "Real". Program akan terus berjalan hingga pengguna memilih untuk keluar dengan mengetikkan \'exit\'.\n'

In [15]:
# Start the interactive loop
classify_news()

Enter a news article to classify it as Fake or Real. Type 'exit' to quit.

Enter news text: j
The news article is classified as: FAKE

Enter news text: Daniel Greenfield, a Shillman Journalism Fello...	
The news article is classified as: FAKE

Enter news text: exit
Exiting the program.


In [None]:
df