In [2]:
import pandas as pd

# Membaca file Excel
df = pd.read_excel('Indonlu_Sentiment.xlsx')

# Menampilkan dataset
print(df)


                                                   Tweet     Label
0      warung ini dimiliki oleh pengusaha pabrik tahu...  positive
1      mohon ulama lurus dan k212 mmbri hujjah partai...   neutral
2      lokasi strategis di jalan sumatera bandung . t...  positive
3      betapa bahagia nya diri ini saat unboxing pake...  positive
4      duh . jadi mahasiswa jangan sombong dong . kas...  negative
...                                                  ...       ...
12755  film tncfu , tidak cocok untuk penonton yang t...  negative
12756  indihome ini mahal loh bayar nya . hanya , pen...  negative
12757  be de gea , cowok cupu yang takut dengan pacar...  negative
12758  valen yang sangat tidak berkualitas . konentat...  negative
12759  restoran ini menjadi tempat pilihan saya berbu...  positive

[12760 rows x 2 columns]


In [10]:
import string
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from nltk.corpus import stopwords
import nltk

# Download stopwords bahasa Indonesia dari NLTK
nltk.download('stopwords')

# Inisialisasi stemmer dari Sastrawi
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi preprocessing teks
def preprocess_text(text):
    # Ubah teks menjadi huruf kecil
    text = text.lower()
    
    # Hapus tanda baca
    text = text.translate(str.maketrans('', '', string.punctuation))
    
    # Stemming setiap kata dalam teks
    text = ' '.join(stemmer.stem(word) for word in text.split())
    
    # Hapus stopwords (bahasa Indonesia)
    stop_words = set(stopwords.words('indonesian'))
    text = ' '.join(word for word in text.split() if word not in stop_words)
    
    return text

# Terapkan preprocessing pada kolom yang sesuai
df['cleaned_text'] = df['Tweet'].apply(preprocess_text) 

# Tampilkan kolom teks asli dan teks yang sudah dibersihkan
print(df[['Tweet', 'cleaned_text']]) 


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Risma\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


                                                   Tweet  \
0      warung ini dimiliki oleh pengusaha pabrik tahu...   
1      mohon ulama lurus dan k212 mmbri hujjah partai...   
2      lokasi strategis di jalan sumatera bandung . t...   
3      betapa bahagia nya diri ini saat unboxing pake...   
4      duh . jadi mahasiswa jangan sombong dong . kas...   
...                                                  ...   
12755  film tncfu , tidak cocok untuk penonton yang t...   
12756  indihome ini mahal loh bayar nya . hanya , pen...   
12757  be de gea , cowok cupu yang takut dengan pacar...   
12758  valen yang sangat tidak berkualitas . konentat...   
12759  restoran ini menjadi tempat pilihan saya berbu...   

                                            cleaned_text  
0      warung milik usaha pabrik puluh kenal putih ba...  
1      mohon ulama lurus k212 mmbri hujjah partai diw...  
2      lokasi strategis jalan sumatera bandung nya ny...  
3      betapa bahagia nya unboxing paket ba

In [11]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Vektorisasi teks
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['cleaned_text'])
terms = vectorizer.get_feature_names_out()

# Menampilkan hasil vektorisasi
print(X.toarray()) #convert hasil kedalam bentuk array
print(vectorizer.get_feature_names_out())

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
['00' '000' '005' ... 'zupazupa' 'zuppa' 'zwitsal']


In [12]:
from sklearn.model_selection import train_test_split

y = df['Label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Menampilkan bentuk data latih dan data uji
print(f'Train Shape: {X_train.shape}, Test Shape: {X_test.shape}')


Train Shape: (9570, 14831), Test Shape: (3190, 14831)


In [13]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
nb_model = MultinomialNB()
nb_model.fit(X_train, y_train)

y_pred_nb = nb_model.predict(X_test)

print("Akurasi Naive Bayes:", accuracy_score(y_test, y_pred_nb))
print(classification_report(y_test, y_pred_nb))

Akurasi Naive Bayes: 0.7752351097178684
              precision    recall  f1-score   support

    negative       0.74      0.65      0.69      1065
     neutral       0.94      0.24      0.38       320
    positive       0.78      0.94      0.86      1805

    accuracy                           0.78      3190
   macro avg       0.82      0.61      0.64      3190
weighted avg       0.79      0.78      0.75      3190



In [14]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# Membuat model Decision Tree
dt_model = DecisionTreeClassifier()
dt_model.fit(X_train, y_train)

# Memprediksi data uji
y_pred_dt = dt_model.predict(X_test)

# Evaluasi model
print("Akurasi Decision Tree:", accuracy_score(y_test, y_pred_dt))
print(classification_report(y_test, y_pred_dt))


Akurasi Decision Tree: 0.754858934169279
              precision    recall  f1-score   support

    negative       0.66      0.68      0.67      1065
     neutral       0.60      0.49      0.54       320
    positive       0.83      0.85      0.84      1805

    accuracy                           0.75      3190
   macro avg       0.70      0.67      0.68      3190
weighted avg       0.75      0.75      0.75      3190



In [15]:
def predict_sentiment(text, model, vectorizer):
    cleaned_text =preprocess_text(text)
    text_vector = vectorizer.transform([cleaned_text])
    prediction = model.predict(text_vector)
    return prediction[0]

new_text = "Saya sangat puas dengan produk ini!"
print("Prediksi sentimen (Naive Bayes):", predict_sentiment(new_text, nb_model, vectorizer))
print("Prediksi sentimen (Decision Tree):",predict_sentiment(new_text, dt_model, vectorizer))

Prediksi sentimen (Naive Bayes): positive
Prediksi sentimen (Decision Tree): positive


In [8]:
import string
from nltk.corpus import stopwords
import nltk
import pandas as pd

# Download stopwords bahasa Indonesia dari NLTK jika belum ada
nltk.download('stopwords', quiet=True)

# Mengambil stopwords dalam bentuk set
stop_words = set(stopwords.words('indonesian'))

# Fungsi preprocessing teks tanpa stemming
def preprocess_text(text):
    # Ubah teks menjadi huruf kecil
    text = text.lower()
    
    # Hapus tanda baca
    text = text.translate(str.maketrans('', '', string.punctuation))
    
    # Hapus stopwords (bahasa Indonesia)
    text = ' '.join(word for word in text.split() if word not in stop_words)
    
    return text

# Membaca dataset Indonlu Sentiment dari file .xlsx
df = pd.read_excel('Indonlu_Sentiment.xlsx')

# Terapkan preprocessing pada kolom yang sesuai
df['cleaned_text'] = df['Tweet'].apply(preprocess_text)  # Ganti 'text' dengan nama kolom yang benar

# Vektorisasi teks
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['cleaned_text'])

# Memisahkan label
y = df['Label']  # Pastikan 'Label' sesuai dengan nama kolom di DataFrame

# Membagi data menjadi data latih dan data uji
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Melatih model Naive Bayes
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

nb_model = MultinomialNB()
nb_model.fit(X_train, y_train)

# Memprediksi data uji
y_pred_nb = nb_model.predict(X_test)

# Menghitung dan menampilkan akurasi
accuracy = accuracy_score(y_test, y_pred_nb)
print("Akurasi Naive Bayes:", accuracy)


Akurasi Naive Bayes: 0.7793103448275862
