
# 📊 Analisis Data untuk Dashboard Streamlit UAS

## 📌 Pendahuluan
Notebook ini bertujuan untuk melakukan eksplorasi dan analisis data sebelum ditampilkan dalam **dashboard interaktif** menggunakan **Streamlit**.  
Analisis ini mencakup:  
- Eksplorasi dataset  
- Statistik deskriptif  
- Clustering dengan **K-Means**  
- Visualisasi data (Histogram, Box Plot, Scatter Plot)  

---


In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import numpy as np

# Konfigurasi tampilan plot
sns.set_style("darkgrid")
plt.rcParams["figure.figsize"] = (8, 6)



## 📂 Membaca Dataset
Dataset yang digunakan dalam analisis ini diunggah dalam format **CSV**.  


In [None]:

# Baca dataset (Silakan ganti 'dataset.csv' dengan file yang digunakan)
file_path = "dataset.csv"  # Ganti dengan path dataset Anda

try:
    data = pd.read_csv(file_path)
    print("Dataset berhasil dimuat!")
    display(data.head())
except Exception as e:
    print(f"Terjadi kesalahan saat membaca dataset: {e}")



## 🔍 Eksplorasi Data
Melihat informasi dasar dari dataset untuk memahami struktur dan kualitas data.  


In [None]:

# Info dataset
print("Informasi dataset:")
data.info()

# Statistik deskriptif
print("\nStatistik deskriptif:")
display(data.describe())



## 🤖 Clustering dengan K-Means  
Kami akan menggunakan algoritma **K-Means** untuk mengelompokkan data berdasarkan fitur numerik.  
Sebelumnya, data akan **dinormalisasi** menggunakan `StandardScaler` agar semua fitur memiliki skala yang sama.  


In [None]:

# Memilih kolom numerik untuk clustering
numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns.tolist()

# Pastikan ada setidaknya dua kolom numerik
if len(numeric_columns) >= 2:
    selected_columns = numeric_columns[:2]  # Pilih 2 kolom pertama

    # Menghapus nilai NaN jika ada
    data_cleaned = data.dropna(subset=selected_columns)

    # Normalisasi data
    scaler = StandardScaler()
    scaled_data = scaler.fit_transform(data_cleaned[selected_columns])

    # K-Means Clustering dengan 3 klaster
    kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
    clusters = kmeans.fit_predict(scaled_data)

    # Menambahkan hasil clustering ke dataset
    data_cleaned["Cluster"] = clusters

    # Tampilkan hasil clustering
    display(data_cleaned.head())

    # Visualisasi Clustering
    plt.figure(figsize=(8, 6))
    sns.scatterplot(x=data_cleaned[selected_columns[0]], y=data_cleaned[selected_columns[1]], hue=data_cleaned["Cluster"], palette="viridis")
    plt.title(f"Visualisasi Clustering ({selected_columns[0]} vs {selected_columns[1]})")
    plt.show()
else:
    print("Dataset tidak memiliki cukup kolom numerik untuk clustering.")



## 📊 Visualisasi Data  
Kami akan membuat beberapa visualisasi data untuk memahami distribusi dan pola dalam dataset.  


In [None]:

# Pilih kolom numerik pertama untuk visualisasi
if numeric_columns:
    column = numeric_columns[0]

    # Histogram
    plt.figure(figsize=(8, 6))
    sns.histplot(data[column], bins=30, kde=True, color="#00bcd4")
    plt.title(f"Histogram dari {column}")
    plt.show()

    # Box Plot
    plt.figure(figsize=(8, 6))
    sns.boxplot(x=data[column], color="#00bcd4")
    plt.title(f"Box Plot dari {column}")
    plt.show()
else:
    print("Dataset tidak memiliki kolom numerik untuk visualisasi.")



## ✅ Kesimpulan  
- Dataset telah dieksplorasi dan dianalisis menggunakan metode statistik dan clustering.  
- Hasil clustering dengan K-Means telah divisualisasikan untuk memahami pola dalam data.  
- Visualisasi data membantu dalam memahami distribusi nilai dalam dataset.  

**Langkah selanjutnya:**  
📌 **Gunakan hasil analisis ini untuk membuat dashboard di Streamlit (`LatihanStreamlit.py`).**  
