# Analisis Sentimen Ulasan Film

## Identitas
- **Nama**: Amirrullah Ahnaf Agil
- **NIM**: A11.2022.14195
- **Kelas**: A11.4419

## Tujuan Proyek
Proyek ini bertujuan untuk mengembangkan model Machine Learning untuk menganalisis sentimen ulasan film dari dataset IMDb. Kita akan menggunakan dataset berisi ulasan film yang diklasifikasikan sebagai positif atau negatif untuk melatih dan mengevaluasi beberapa model klasifikasi.

## Dataset
Dataset yang digunakan adalah `IMDB Dataset.csv` yang berisi ulasan film dan label sentimen. Dataset ini memiliki total 50.000 ulasan, namun untuk debugging, kita akan menggunakan subset dari 100 ulasan.

## Pra-pemrosesan Data
1. **Menghapus tag HTML**: Menghapus tag HTML dari ulasan.
2. **Menghapus karakter non-alfanumerik**: Menghapus karakter selain huruf dan angka.
3. **Mengubah teks menjadi huruf kecil**: Untuk konsistensi teks.

## Metode
1. **Pembagian Data**: Data dibagi menjadi data latih dan data uji (80:20).
2. **Vektorisasi TF-IDF**: Ulasan diubah menjadi fitur numerik menggunakan metode TF-IDF.
3. **Model Machine Learning**:
   - Naive Bayes
   - Logistic Regression
   - Random Forest


In [None]:
import pandas as pd
import os
import re
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Path ke dataset (ubah sesuai dengan path file Anda)
dataset_path = 'C:/Users/ASUS/Documents/Semester 4/Project ML/IMDB Dataset.csv'

# Memuat data dari file CSV
def load_data_from_csv(file_path):
    if os.path.exists(file_path):
        data = pd.read_csv(file_path)
        print(f"Loaded data from {file_path}")
        return data[['review', 'sentiment']]
    else:
        print(f"File not found: {file_path}")
        raise FileNotFoundError(f"Dataset file does not exist: {file_path}")

# Cek jika file ada dan load data
try:
    data = load_data_from_csv(dataset_path)
    print(f"Total reviews: {len(data)}")
except FileNotFoundError:
    exit()

# Gunakan hanya 100 ulasan untuk debugging
data = data.sample(n=100, random_state=42)
print(f"Using a subset of data with {len(data)} reviews")


In [None]:
# Pra-pemrosesan data
def preprocess_text(text):
    text = re.sub(r'<.*?>', '', text)  # Menghapus tag HTML
    text = re.sub(r'[^\w\s]', '', text)  # Menghapus karakter non-alfanumerik
    text = text.lower()  # Mengubah teks menjadi huruf kecil
    return text

data['review'] = data['review'].apply(preprocess_text)
print("Completed text preprocessing")


In [None]:
# Memisahkan data latih dan data uji
X = data['review']
y = data['sentiment']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Split data into training and testing sets")

# Vektorisasi menggunakan TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)
print("Completed TF-IDF vectorization")


In [None]:
# Model Naive Bayes
print("Training Naive Bayes model...")
nb_model = MultinomialNB()
nb_model.fit(X_train_tfidf, y_train)
print("Predicting using Naive Bayes...")
nb_pred = nb_model.predict(X_test_tfidf)
print("Naive Bayes prediction complete")


In [None]:
# Model Logistic Regression
print("Training Logistic Regression model...")
lr_model = LogisticRegression(max_iter=200)
lr_model.fit(X_train_tfidf, y_train)
print("Predicting using Logistic Regression...")
lr_pred = lr_model.predict(X_test_tfidf)
print("Logistic Regression prediction complete")


In [None]:
# Model Random Forest
print("Training Random Forest model...")
rf_model = RandomForestClassifier(n_estimators=100)
rf_model.fit(X_train_tfidf, y_train)
print("Predicting using Random Forest...")
rf_pred = rf_model.predict(X_test_tfidf)
print("Random Forest prediction complete")


In [None]:
# Evaluasi Model
def evaluate_model(y_test, y_pred):
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, pos_label='positive')  # Pastikan label positif sesuai
    recall = recall_score(y_test, y_pred, pos_label='positive')  # Pastikan label positif sesuai
    f1 = f1_score(y_test, y_pred, pos_label='positive')  # Pastikan label positif sesuai
    return accuracy, precision, recall, f1

# Evaluasi Naive Bayes
nb_accuracy, nb_precision, nb_recall, nb_f1 = evaluate_model(y_test, nb_pred)
print(f'Naive Bayes - Accuracy: {nb_accuracy}, Precision: {nb_precision}, Recall: {nb_recall}, F1-score: {nb_f1}')

# Evaluasi Logistic Regression
lr_accuracy, lr_precision, lr_recall, lr_f1 = evaluate_model(y_test, lr_pred)
print(f'Logistic Regression - Accuracy: {lr_accuracy}, Precision: {lr_precision}, Recall: {lr_recall}, F1-score: {lr_f1}')

# Evaluasi Random Forest
rf_accuracy, rf_precision, rf_recall, rf_f1 = evaluate_model(y_test, rf_pred)
print(f'Random Forest - Accuracy: {rf_accuracy}, Precision: {rf_precision}, Recall: {rf_recall}, F1-score: {rf_f1}')


## Hasil Evaluasi Model

### Naive Bayes
- **Akurasi**: 0.6
- **Presisi**: 0.529
- **Recall**: 1.0
- **F1-score**: 0.692

**Penjelasan**: Model Naive Bayes mencapai akurasi 60% dan F1-score 0.692, menunjukkan keseimbangan yang baik antara presisi dan recall. Model ini berhasil menangkap semua ulasan positif (100% recall), namun presisinya lebih rendah.

### Logistic Regression
- **Akurasi**: 0.65
- **Presisi**: 0.563
- **Recall**: 1.0
- **F1-score**: 0.72

**Penjelasan**: Model Logistic Regression memiliki akurasi 65% dan F1-score 0.72, yang merupakan hasil terbaik di antara ketiga model. Model ini juga berhasil mengidentifikasi semua ulasan positif dengan recall 100%.

### Random Forest
- **Akurasi**: 0.6
- **Presisi**: 0.545
- **Recall**: 0.667
- **F1-score**: 0.6

**Penjelasan**: Model Random Forest menunjukkan akurasi 60% dan F1-score 0.6. Meski memiliki recall yang baik, presisi dan F1-score-nya lebih rendah dibandingkan model Logistic Regression.

## Kesimpulan
- Logistic Regression memberikan hasil terbaik dalam hal akurasi dan F1-score, sementara Naive Bayes dan Random Forest memiliki performa yang serupa, dengan Naive Bayes sedikit lebih baik dalam recall.
- Semua model menunjukkan recall 100%, artinya mereka dapat menangkap semua ulasan positif, tetapi presisi bervariasi.
