In [None]:
# ==============================================================================
# SEL 1: IMPORT SEMUA LIBRARY YANG DIBUTUHKAN
# ==============================================================================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
from collections import Counter
import os

# Pengaturan agar plot dari matplotlib muncul langsung di bawah sel notebook
%matplotlib inline
# Mengatur tema visualisasi default untuk seaborn agar terlihat lebih modern
sns.set_theme(style="whitegrid")

print("✅ Library berhasil dimuat!")

---
# ==============================================================================
# SEL 2: MEMUAT DATASET YANG SUDAH DIPROSES
# ==============================================================================
# Mendefinisikan path ke file data. Penggunaan '../' artinya "naik satu level folder".
file_path = os.path.join('..', 'data', 'processed', 'analyzed_data_for_tableau.csv')

# Blok try-except untuk penanganan error jika file tidak ditemukan
try:
    df = pd.read_csv(file_path)
    print(f"💾 Data berhasil dimuat dari '{file_path}'.")
    print(f"Jumlah baris data: {len(df)}")
except FileNotFoundError:
    print(f"❌ ERROR: File tidak ditemukan di '{file_path}'.")
    print("Pastikan Anda sudah menjalankan skrip '1_data_crawling.py' dan '2_data_processing_analysis.py' terlebih dahulu.")

# Menampilkan 5 baris pertama untuk inspeksi cepat
# 'if 'df' in locals():' memastikan kode ini hanya berjalan jika dataframe 'df' berhasil dibuat
if 'df' in locals():
    display(df.head())

---
# ==============================================================================
# SEL 3: ANALISIS DESKRIPTIF DASAR
# ==============================================================================
if 'df' in locals():
    print("--- Informasi Dasar DataFrame (Tipe Data & Nilai Non-Null) ---")
    df.info()

    print("\n--- Jumlah Berita per Sumber ---")
    display(df['sumber'].value_counts().to_frame())

    print("\n--- Proporsi Sentimen (Berdasarkan Model AI) ---")
    # Menggunakan normalize=True untuk mendapatkan persentase
    sentiment_proportion = df['sentimen_ai'].value_counts(normalize=True).map('{:.2%}'.format)
    display(sentiment_proportion.to_frame())

---
# ==============================================================================
# SEL 4: VISUALISASI DATA
# ==============================================================================

### A. Distribusi Sentimen Keseluruhan
if 'df' in locals():
    plt.figure(figsize=(8, 6))
    sns.countplot(
        data=df, 
        x='sentimen_ai', 
        order=['Positive', 'Negative', 'Neutral'], 
        palette='viridis'
    )
    plt.title('Distribusi Sentimen Keseluruhan', fontsize=16)
    plt.xlabel('Sentimen', fontsize=12)
    plt.ylabel('Jumlah Artikel', fontsize=12)
    plt.show()

### B. Distribusi Sentimen Berdasarkan Sumber Berita
if 'df' in locals():
    plt.figure(figsize=(12, 7))
    sns.countplot(
        data=df, 
        x='sumber', 
        hue='sentimen_ai', 
        palette='magma', 
        hue_order=['Positive', 'Negative', 'Neutral']
    )
    plt.title('Distribusi Sentimen per Sumber Berita', fontsize=16)
    plt.xlabel('Sumber Berita', fontsize=12)
    plt.ylabel('Jumlah Artikel', fontsize=12)
    plt.xticks(rotation=45, ha='right')
    plt.legend(title='Sentimen')
    plt.tight_layout() # Menyesuaikan layout agar tidak terpotong
    plt.show()

### C. Word Cloud dari Judul Berita
if 'df' in locals():
    # Menggabungkan semua judul menjadi satu string teks
    # .dropna() penting untuk menghapus baris yang mungkin tidak memiliki judul
    all_titles = ' '.join(df['judul'].dropna())

    # Membuat objek WordCloud dengan beberapa kustomisasi
    wordcloud = WordCloud(
        width=1000, 
        height=500, 
        background_color='white', 
        colormap='ocean',
        min_font_size=10
    ).generate(all_titles)

    # Menampilkan word cloud yang sudah dibuat
    plt.figure(figsize=(15, 7))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off') # Menghilangkan sumbu x dan y untuk tampilan yang lebih bersih
    plt.title('Kata yang Paling Sering Muncul di Judul Berita', fontsize=20)
    plt.show()