<a href="https://colab.research.google.com/github/ditodewantoro/DataMining/blob/main/STKI_A11_2022_14105_UAS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analisis Sentimen pada Media Sosial untuk Meningkatkan Strategi Pemasaran

## Identitas Lengkap
- **Nama:** Eustachius Dito D
- **NIM:** A11.2022.14105
- **Mata Kuliah:** Penambangan Data
- **Dosen:** Abu Salam, M.Kom


## Ringkasan
Proyek ini bertujuan untuk mengembangkan sistem analisis sentimen dari data media sosial seperti Twitter, Facebook, dan Instagram. Sistem ini akan membantu perusahaan memahami sentimen pengguna terhadap produk atau merek tertentu untuk meningkatkan strategi pemasaran.

## Permasalahan
Kurangnya informasi komprehensif mengenai sentimen pengguna terhadap produk/merek di media sosial menghambat pengambilan keputusan pemasaran yang efektif.

## Tujuan
1. Mengidentifikasi sentimen positif, negatif, atau netral dari data teks media sosial.
2. Memberikan rekomendasi strategis berdasarkan hasil analisis sentimen.
3. Meningkatkan hubungan antara merek dan pelanggan.

## Model / Alur Penyelesaian
1. Pengumpulan Data
2. Preprocessing Data
3. Analisis Sentimen (NLP dan Machine Learning)
4. Visualisasi Hasil
5. Evaluasi Model


## Dataset
Dataset yang digunakan berasal dari Kaggle, berisi data teks dari media sosial Twitter mengenai sentimen pengguna terhadap produk atau merek tertentu. Dataset ini terdiri dari beberapa atribut:
- Tweet ID: Identifikasi unik tweet.
- Text: Teks tweet.
- Sentiment: Label sentimen (positif, negatif, atau netral).
- Timestamp: Waktu tweet dibuat.
- Username: Nama pengguna.

Dataset ini akan diolah untuk memahami pola sentimen pengguna terhadap produk atau merek tertentu.

## Exploratory Data Analysis (EDA)
1. Analisis distribusi sentimen (positif/negatif/netral).
2. Visualisasi frekuensi kata menggunakan word cloud.
3. Identifikasi pola waktu dalam pembuatan tweet.

## Proses Features Dataset
1. Pembersihan data (menghapus URL, emoticon, tanda baca).
2. Normalisasi teks (lowercase dan stemming).
3. Tokenisasi teks menggunakan teknik NLP.


## Mengunduh Dataset

In [2]:
!pip install kaggle




In [3]:
import pandas as pd

In [5]:
!kaggle datasets download -d kazanova/sentiment140

Dataset URL: https://www.kaggle.com/datasets/kazanova/sentiment140
License(s): other
sentiment140.zip: Skipping, found more recently modified local copy (use --force to force download)


In [7]:
import zipfile
with zipfile.ZipFile('sentiment140.zip', 'r') as zip_ref:
    zip_ref.extractall('sentiment140')

In [8]:
dataset = pd.read_csv('sentiment140/training.1600000.processed.noemoticon.csv', encoding='latin-1', header=None)
dataset.columns = ['Sentiment', 'Tweet ID', 'Date', 'Query', 'Username', 'Text']

##Proses Learning / Modeling

In [9]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

In [13]:
# Preprocessing Function (berdasarkan langkah sebelumnya)
import re  # Import the 're' module for regular expressions

def preprocess_text(text):
    text = re.sub(r"http\S+|www\S+|https\S+", '', text, flags=re.MULTILINE)  # Remove URLs
    text = re.sub(r'\@\w+|\#', '', text)  # Remove mentions and hashtags
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuations
    text = text.lower()  # Lowercase text
    return text

In [14]:
# Apply preprocessing to dataset
dataset['cleaned_text'] = dataset['Text'].apply(preprocess_text)


In [15]:
# Vectorization
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(dataset['cleaned_text'])
y = dataset['Sentiment']

In [17]:
# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [18]:
# Train model using Naive Bayes Classifier
model = MultinomialNB()
model.fit(X_train, y_train)

In [19]:
# Predict and evaluate model performance
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

Accuracy: 0.78156875
Classification Report:
               precision    recall  f1-score   support

           0       0.77      0.80      0.79    159494
           4       0.80      0.76      0.78    160506

    accuracy                           0.78    320000
   macro avg       0.78      0.78      0.78    320000
weighted avg       0.78      0.78      0.78    320000



## Performa Model

Hasil evaluasi model:
1. **Akurasi:** 0.78156875
2. **Precision:** 0.77 dan 0.80 (Untuk kelas 0 dan 4)
3. **Recall:** 0.80 dan 0.76 (Untuk kelas 0 dan 4)

Model menunjukkan performa yang baik dalam mengklasifikasikan sentimen positif/negatif/netral dari data teks.


##Interpretasi Hasil:

- **Akurasi**: Model Anda benar dalam memprediksi sentimen tweet sekitar 77.73% dari keseluruhan data uji.
- **Presisi**: Dari semua tweet yang diprediksi sebagai sentimen negatif (kelas 0) atau positif (kelas 4), sekitar 78% prediksi tersebut benar.
- **Recall**: Dari semua tweet yang sebenarnya memiliki sentimen negatif (kelas 0) atau positif (kelas 4), model Anda berhasil mengidentifikasi sekitar 78% dari mereka.

##Kesimpulan:

Model Anda menunjukkan performa yang cukup baik dalam mengklasifikasikan sentimen tweet. Akurasi, presisi, dan recall yang relatif seimbang menunjukkan bahwa model tidak cenderung mengklasifikasikan satu kelas sentimen lebih baik daripada yang lain.

Namun, perlu diingat bahwa akurasi sekitar 78% masih menyisakan ruang untuk perbaikan. Anda dapat mencoba beberapa hal untuk meningkatkan performa model, seperti:

- **Mencoba algoritma machine learning lain**: Selain Naive Bayes, Anda dapat mencoba algoritma lain seperti SVM, Logistic Regression, atau Random Forest.
- **Melakukan hyperparameter tuning:** Menyesuaikan parameter model dapat membantu meningkatkan performanya.
- **Menambahkan fitur baru:** Menambahkan fitur seperti penggunaan emoji, tanda baca, atau kata-kata kunci tertentu dapat memberikan informasi tambahan untuk model.
- **Menggunakan teknik pre-processing data yang lebih canggih:** Anda dapat mencoba teknik seperti stemming, lemmatization, atau stop word removal untuk membersihkan dan mempersiapkan data dengan lebih baik.