##Latar Belakang
Raja Ampat dikenal sebagai kawasan konservasi laut prioritas di Indonesia. Namun, isu kerusakan lingkungan akibat aktivitas penambangan di wilayah ini memicu perdebatan publik, khususnya di platform media sosial seperti YouTube. Salah satu video yang banyak mendapat perhatian membahas secara langsung dampak dari aktivitas tersebut.

Dalam konteks ini, komentar-komentar dari warganet menjadi refleksi sikap sosial terhadap isu kerusakan alam dan kebijakan pembangunan di wilayah konservasi. Oleh karena itu, diperlukan pendekatan kuantitatif dan kualitatif untuk memahami isi dan sentimen dari komentar tersebut.

In [None]:
!pip install google-api-python-client pandas
from googleapiclient.discovery import build
import pandas as pd


# Api key googlecloud
api_key = 'AIzaSyCvBie-QEQn-Y4HTECi-HPFsH8ZiptIESQ'

# link yt
video_id = 'qN3axfU1Geo'

# api yt
youtube = build('youtube', 'v3', developerKey=api_key)



In [None]:
def get_comments(video_id):
    comments = []
    next_page_token = None

    while True:
        response = youtube.commentThreads().list(
            part='snippet',
            videoId=video_id,
            maxResults=100,
            pageToken=next_page_token,
            textFormat='plainText'
        ).execute()

        for item in response['items']:
            comment = item['snippet']['topLevelComment']['snippet']['textDisplay']
            comments.append(comment)

        next_page_token = response.get('nextPageToken')

        if not next_page_token:
            break

    return pd.DataFrame(comments, columns=['comment'])


In [None]:
df_comments = get_comments(video_id)
df_comments.to_csv('komentar_raja_ampat.csv', index=False)
df_comments.head()


##Pre Processing##

In [None]:
!pip install Sastrawi
!pip install nltk


In [None]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

In [None]:
import re
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Buat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Ambil daftar stopwords Bahasa Indonesia
stop_words = set(stopwords.words('indonesian'))

# Fungsi untuk membersihkan satu komentar
def clean_text(text):
    # Lowercase
    text = text.lower()
    # Hapus URL
    text = re.sub(r'http\S+|www\S+', '', text)
    # Hapus angka dan simbol
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    # Tokenisasi
    words = word_tokenize(text)
    # Hapus stopwords
    words = [word for word in words if word not in stop_words]
    # Stemming
    stemmed = [stemmer.stem(word) for word in words]
    # Gabungkan kembali
    return ' '.join(stemmed)


In [None]:
!pip install tqdm
from tqdm.notebook import tqdm
tqdm.pandas()

df_comments['cleaned'] = df_comments['comment'].progress_apply(clean_text)
df_comments[['comment', 'cleaned']].head()

In [None]:
df_comments.shape

##Pemodelan IBM Granite##

In [None]:
!pip install langchain_community
!pip install replicate



In [None]:
from langchain_community.llms import Replicate
import os
from google.colab import userdata

# Ambil token dari secret
api_token = userdata.get('api_token')
os.environ["REPLICATE_API_TOKEN"] = api_token

# Setup model Granite
model_id = "ibm-granite/granite-3.3-8b-instruct"
output = Replicate(
    model=model_id,
    replicate_api_token=api_token,
)


In [None]:
clean_comment = df_comments['cleaned'].dropna().tolist()


##Prompting

In [None]:
def generate_prompt(komentar_batch):
    #list komentar jadi teks dengan nomor
    reviews_text = "\n".join([f"Komentar {i+1}: {kom}" for i, kom in enumerate(komentar_batch)])

    # Format prompt
    prompt = f"""
Komentar-komentar berikut adalah tanggapan terhadap video yang membahas kerusakan alam di Raja Ampat.


Berikan hasil analisis berikut untuk setiap komentar:
- Sentimen:
  - **Positif** jika komentar mendukung pelestarian alam, menunjukkan kepedulian terhadap kerusakan alam, atau mengkritik perusakan.
  - **Negatif** jika komentar menyalahkan pelestarian, menyangkal adanya kerusakan, atau terkesan tidak peduli.
- Indikasi buzzer: Ya/Tidak
- Topik: kerusakan alam / isu sosial / konten settingan / tidak relevan
- Alasan: Jelaskan singkat mengapa Anda memberikan penilaian tersebut.

{reviews_text}
"""

    return prompt


In [None]:
batch_size = 20  # aman agar model tidak kelebihan input
hasil_model = []

for i in tqdm(range(0, len(clean_comment), batch_size)):
    batch = clean_comment[i:i+batch_size]
    prompt = generate_prompt(batch)

    try:
        response = output.invoke(prompt)
        hasil_model.append(response)
    except Exception as e:
        hasil_model.append(f"Error: {str(e)}")


In [None]:
df_hasil = pd.DataFrame({'komentar': clean_comment[:len(hasil_model)], 'analisis': hasil_model})
df_hasil.to_csv('hasil_analisis_granite.csv', index=False)


In [None]:
df_hasil = pd.DataFrame({'komentar': clean_comment[:len(hasil_model)], 'analisis': hasil_model})


In [None]:
import re

def parse_output_kontekstual(analisis_text):
    hasil = {
        'sentimen': None,
        'buzzer': None,
        'topik': None,
        'alasan': None
    }

    try:
        # Ambil sentimen (Positif/Negatif/Netral)
        sentimen = re.search(r"(?i)Sentimen:\s*(Positif|Negatif|Netral)", analisis_text)
        if sentimen:
            hasil['sentimen'] = sentimen.group(1).capitalize()

        # Ambil indikasi buzzer
        buzzer = re.search(r"(?i)Buzzer:\s*(Ya|Tidak)", analisis_text)
        if buzzer:
            hasil['buzzer'] = buzzer.group(1).capitalize()

        # Ambil topik
        topik = re.search(r"(?i)Topik:\s*([^\n]+)", analisis_text)
        if topik:
            hasil['topik'] = topik.group(1).strip().lower()

        # Ambil alasan
        alasan = re.search(r"(?i)Alasan:\s*(.+)", analisis_text, re.DOTALL)
        if alasan:
            hasil['alasan'] = alasan.group(1).strip()

    except Exception as e:
        hasil['alasan'] = f"Parsing error: {str(e)}"

    return hasil


In [None]:
# Parsing semua hasil
parsed_results = df_hasil['analisis'].apply(parse_output_kontekstual)

# Ubah ke DataFrame
parsed_df = pd.DataFrame(parsed_results.tolist())

# Gabung dengan komentar aslinya
df_final = pd.concat([df_hasil[['komentar']], parsed_df], axis=1)

# Simpan hasil akhir
df_final.to_csv('hasil_final_sentimen_raja_ampat.csv', index=False)


In [None]:
df_hasil

##Visualisasi Data##

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns


In [None]:
# Hitung jumlah masing-masing label sentimen
sentimen_counts = df_final['sentimen'].value_counts().reindex(['Positif', 'Negatif', 'Netral'], fill_value=0)


In [None]:
# Set style
sns.set(style="whitegrid")

# Buat bar chart
plt.figure(figsize=(8, 5))
ax = sns.barplot(
    x=sentimen_counts.index,
    y=sentimen_counts.values,
    palette="viridis"
)

# Tambahkan label
for i, v in enumerate(sentimen_counts.values):
    ax.text(i, v + 10, str(v), ha='center', fontweight='bold')

# Judul dan label
plt.title("Distribusi Sentimen Komentar YouTube – Isu Kerusakan Alam Raja Ampat", fontsize=14)
plt.xlabel("Sentimen")
plt.ylabel("Jumlah Komentar")
plt.tight_layout()
plt.show()


In [None]:
# Hitung jumlah 'Ya' dan 'Tidak' pada kolom buzzer
buzzer_counts = df_final['buzzer'].value_counts().reindex(['Ya', 'Tidak'], fill_value=0)



In [None]:
plt.figure(figsize=(6, 5))
ax = sns.barplot(
    x=buzzer_counts.index,
    y=buzzer_counts.values,
    palette="magma"
)

# Tambahkan label jumlah di atas bar
for i, v in enumerate(buzzer_counts.values):
    ax.text(i, v + 5, str(v), ha='center', fontweight='bold')

# Tambahkan judul dan label sumbu
plt.title("Distribusi Indikasi Aktivitas Buzzer pada Komentar", fontsize=14)
plt.xlabel("Indikasi Buzzer")
plt.ylabel("Jumlah Komentar")
plt.tight_layout()
plt.show()


##Data Story Telling


##Insight##


*Banyak komentar yang sebenarnya mendukung pelestarian alam (dan menolak penambangan) Tapi model justru mengklasifikasikannya sebagai negatif

##Model Granite (dan hampir semua model umum) secara default:

-Menganggap “emosi negatif” (kata seperti “rusak”, “sedih”, “parah”, “ancur”, “marah”) = sentimen negatif
Padahal dalam konteks komentar tersebut, komentar seperti itu adalah positif secara nilai karena menyuarakan kepedulian terhadap lingkungan

## Mayoritas Komentar Mengandung Kekhawatiran terhadap Lingkungan
Meski banyak diklasifikasi sebagai “Negatif” oleh model, sebenarnya mereka:

-Menunjukkan kesadaran publik terhadap isu kerusakan Raja Ampat

-Menolak aktivitas penambangan

-Mendukung pelestarian lingkungan

##Contoh:
@2046_Messages

Logika aja nih. Punya tempat bagus, potensi gede, udah terkenal di kancah internasional. Tinggal dijaga, dirawat, udah pasti investasi jangka panjang.

Malah milih duit cepet, tambang, eksploitasi alam. Alamnya jadi rusak, gada yang bisa dilakuin lagi. Dikira ekosistem terbentuk cuman 1-2 tahun aja jadi.

Dasar rakus!

@budihartanto85

Setelah nonton video penjelasan ini…gw malah makin mikir, 1 orang warga masyarakat yg terpelajar bisa bikin analisa kaya gini…apalagi pemerintah yang SEHARUSNYA punya resource dan data jauh lebih banyak, yang SEHARUSNYA (lagi) bisa jadi acuan utk pembuatan kebijakan. Dengan kata lain (gampangnya) memang yg berkuasa itu bukan bodoh atau gak mampu…tapi memang kayaknya gak peduli aja. Pure evil. Dan ini rasanya bikin makiiiin marah dan jengkel yak…

🟢 Insight:

"Masyarakat menunjukkan reaksi emosional kuat terhadap isu kerusakan alam, dengan mayoritas komentar mengungkapkan keprihatinan terhadap aktivitas penambangan di Raja Ampat. Ini menunjukkan tingginya tingkat kepedulian publik."

##Deteksi Buzzer Rendah (atau Tidak Signifikan)
Hasil model menunjukkan mayoritas komentar buzzer = Tidak, artinya:

-Gerakan buzzer belum mendominasi diskusi

-Mayoritas komentar berasal dari pengguna asli yang peduli

🟢 Insight:

"Komunitas online secara organik menyuarakan kritik terhadap kerusakan alam, menunjukkan belum terlihat dominasi narasi oleh buzzer."