
# Analisis Sentimen pada Media Sosial untuk Prediksi Tren Pasar
### Nama: M. Aly Roiyan
### NIM: A11.2022.14662
### Kelompok: 4504



## 1. Ringkasan dan Permasalahan Project

### **Deskripsi Singkat**
Dalam beberapa tahun terakhir, media sosial telah menjadi sumber informasi yang sangat luas, memungkinkan penangkapan opini publik secara real-time. Penelitian ini bertujuan untuk menganalisis sentimen publik terhadap suatu topik di media sosial sebagai indikator dalam memprediksi tren pasar. Dengan memanfaatkan teknik Natural Language Processing (NLP) dan pembelajaran mesin, penelitian ini mengeksplorasi hubungan antara sentimen publik dan fluktuasi tren pasar di sektor tertentu.

### **Masalah**
Perubahan tren pasar sering kali dipicu oleh opini publik yang dinamis. Mengukur opini ini secara real-time menjadi tantangan, yang dapat menyebabkan keterlambatan dalam pengambilan keputusan oleh pelaku pasar.

### **Tujuan**
1. Mengembangkan model analisis sentimen yang menganalisis postingan media sosial untuk menangkap perubahan opini publik terhadap suatu topik atau sektor pasar.
2. Mengevaluasi korelasi antara hasil analisis sentimen dari media sosial dengan perubahan tren pasar.
3. Menyediakan hasil analisis untuk mendukung pengambilan keputusan yang lebih cepat dan akurat di sektor terkait.

### **Alur Penyelesaian (Bagan)**
```mermaid
graph LR
A[Pengumpulan Data] --> B[Pra-Pemrosesan Data]
B --> C[Eksplorasi Data]
C --> D[Pembangunan Model Sentimen]
D --> E[Integrasi Data Pasar]
E --> F[Analisis dan Evaluasi]
F --> G[Interpretasi Hasil dan Kesimpulan]
```



## 2. Penjelasan Dataset

### **Sumber Data**
- **Media Sosial**: Data dikumpulkan dari platform seperti Twitter atau Reddit melalui API, berisi teks postingan pengguna.
- **Data Pasar**: Informasi harga atau tren pasar diperoleh dari sumber publik seperti Yahoo Finance atau Google Finance. Dataset yang digunakan berasal dari [Kaggle Stock Market Sentiment Dataset](https://www.kaggle.com/datasets/yash612/stockmarket-sentiment-dataset/data).

### **Penjelasan Atribut**
1. **Teks**: Postingan asli dari media sosial yang berisi opini publik.
2. **Tanggal/Waktu**: Waktu postingan untuk mencocokkan data sentimen dengan data tren pasar.
3. **Sentimen**: Label sentimen (positif, netral, negatif) dari model analisis.
4. **Indikator Pasar**: Data harga atau indeks pasar pada periode waktu tertentu.
5. **Volume Engagement**: Jumlah likes, shares, atau retweets yang menunjukkan dampak opini tersebut.

### **Kode untuk Visualisasi EDA**
```python
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud

# Load dataset
dataset = pd.read_csv('stockmarket_sentiment.csv')

# Distribusi sentimen
dataset['sentiment'].value_counts().plot(kind='bar', title='Distribusi Sentimen')
plt.show()

# WordCloud untuk teks positif
positive_texts = ' '.join(dataset[dataset['sentiment'] == 'Positive']['text'])
wordcloud = WordCloud(width=800, height=400).generate(positive_texts)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()
```



## 3. Proses Features Dataset

### **Tahapan Pra-Pemrosesan**
- Membersihkan data teks: Menghapus tanda baca, angka, dan simbol.
- Tokenisasi: Memecah teks menjadi token.
- Normalisasi: Menstandarkan format kata.
- Lemmatization: Mengubah kata menjadi bentuk dasarnya.
- Mengubah teks menjadi representasi numerik menggunakan TF-IDF.

#### **Kode Preprocessing**
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

# Preprocessing teks
def clean_text(text):
    text = text.lower()
    text = re.sub(r'[\W_]+', ' ', text)
    return text

dataset['cleaned_text'] = dataset['text'].apply(clean_text)

# TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(dataset['cleaned_text'])

# Label Encoding
y = dataset['sentiment']

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```



## 4. Proses Learning / Modeling

### **Modeling**
Model yang digunakan untuk analisis sentimen meliputi Logistic Regression dan Random Forest.

#### **Kode Modeling**
```python
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# Logistic Regression
logreg = LogisticRegression()
logreg.fit(X_train, y_train)
logreg_predictions = logreg.predict(X_test)

# Random Forest
rf = RandomForestClassifier()
rf.fit(X_train, y_train)
rf_predictions = rf.predict(X_test)
```



## 5. Performa Model

### **Evaluasi Model**
Metode evaluasi yang digunakan meliputi Precision, Recall, F1-Score, dan Accuracy.

#### **Kode Evaluasi**
```python
from sklearn.metrics import classification_report

# Evaluasi Logistic Regression
print('Logistic Regression Report:')
print(classification_report(y_test, logreg_predictions))

# Evaluasi Random Forest
print('Random Forest Report:')
print(classification_report(y_test, rf_predictions))
```



## 6. Diskusi Hasil dan Kesimpulan

### **Diskusi Hasil**
- Model Logistic Regression memberikan hasil yang lebih baik dalam klasifikasi sentimen pada dataset ini dibandingkan Random Forest.
- Sentimen negatif memiliki akurasi lebih rendah dibandingkan sentimen positif.

### **Kesimpulan**
- Analisis sentimen pada media sosial dapat digunakan untuk memprediksi tren pasar.
- Sentimen publik di media sosial terbukti memiliki korelasi dengan perubahan tren pasar.
- Logistic Regression adalah model yang direkomendasikan untuk analisis ini karena memberikan hasil yang lebih stabil.
