# Explorasi Data

## Pengertian
Explorasi Data adalah tahap dalam proyek sains data yang berfokus pada analisis mendalam terhadap dataset untuk menemukan pola, tren, hubungan antar variabel, dan anomali. Tahap ini sering disebut juga sebagai Exploratory Data Analysis (EDA), yaitu proses untuk “menceritakan kisah” yang ada di balik data melalui analisis statistik dan visualisasi.

## Tujuan
* Memahami distribusi data dan karakteristik variabel.

* Mengidentifikasi pola, tren, dan hubungan antar variabel.

* Menemukan outlier atau nilai ekstrem yang perlu ditangani.

* Menguji hipotesis awal yang berkaitan dengan tujuan bisnis.

* Memberikan insight awal yang bisa menjadi dasar pemodelan.

## Langkah-Langkah
1. Analisis Statistik Deskriptif  
Menghitung ukuran pemusatan (mean, median, modus) dan ukuran penyebaran (range, varians, standar deviasi).

2. Visualisasi Distribusi Data  
Menggunakan histogram, boxplot, atau density plot untuk melihat distribusi variabel numerik.

3. Analisis Korelasi  
Menggunakan scatter plot, heatmap, atau matriks korelasi untuk melihat hubungan antar variabel.

4. Identifikasi Outlier & Anomali  
Mendeteksi nilai yang tidak wajar yang bisa memengaruhi analisis.

5. Segmentasi atau Clustering Awal  
Jika relevan, dilakukan segmentasi untuk mengenali kelompok dalam data.

## Contoh Kasus
Pada proyek e-commerce, setelah data transaksi dikumpulkan, dilakukan analisis eksplorasi. Dari histogram terlihat bahwa mayoritas pelanggan melakukan pembelian di bawah Rp 500.000, tetapi ada beberapa transaksi dengan nilai lebih dari Rp 10.000.000 yang terindikasi sebagai outlier. Analisis korelasi menunjukkan bahwa jumlah produk yang dibeli berkorelasi positif dengan total belanja. Visualisasi kategori produk menunjukkan bahwa “fashion” dan “elektronik” adalah dua kategori yang paling banyak mendominasi penjualan. Insight ini dapat membantu tim bisnis menentukan fokus strategi promosi.

## Explorasi Data POWER BI

### Tipe Data Dataset
Pertama tentukan terlebih dahulu tipe data dari setiap kolom yang ada pada dataset, cara tinggal pilih menu Transform data 
![image1](./asset/image1.png)

### Kualitas Data
#### Melihat Outlier  
Untuk melihar Outlier disini saya menggunakan kode python, yang nantinya hasilnya seperti berikut  
![image3](./asset/image3.png)

#### Konsistensi Data  
Selanjutnya untuk melihat Konsistensi data itu bisa dilakukan di bagian menu view dan jangan ceklis 3 bagian penting  
* Column quality
* Column distribution 
* Column profile 
 
Untuk hasilnya seperti pada gambar berikut:  
![image1](./asset/image2.png)

## Source Code  
Berikut untuk Source codenya

In [1]:
# Library sesuai dengan kebutuhan
import pandas as pd
import psycopg2
from psycopg2 import sql
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

ModuleNotFoundError: No module named 'scipy'

In [None]:
# Konfigurasi koneksi Aiven PostgreSQL
conn = psycopg2.connect(
    host="HOST_AIVENMU",        # contoh: mydb-psql.aivencloud.com
    port="PORT_AIVENMU",        # contoh: 22272
    dbname="DBNAME_AIVENMU",    # nama database
    user="USERNAME_AIVENMU",    # user dari Aiven
    password="PASSWORD_AIVENMU",# password dari Aiven
    sslmode="require"           # Aiven biasanya butuh SSL
)

# Query dataset
query = """
SELECT * FROM dataset_psd;
"""

# Load ke pandas DataFrame
df = pd.read_sql_query(query, conn)

# Tutup koneksi
conn.close()

# Hasil untuk Power BI
dataset = df
