# Analisis Outlier Data Penjualan Produk Elektronik

Mengacu pada repo: [Penjualan Produk Elektronik](https://github.com/izamrosiawan/infrastruktur-dan-platfrom-sains-data/tree/main/Pertemuan%202%20-%20Praprocessing%20Data/Post-Test)

In [1]:
# Import Library
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Load Data
df = pd.read_csv('Penjualan_Produk_Elektronik.csv')
df.head()

## 1. Visualisasi Data: Box Plot & Scatter Plot

In [3]:
features = df.columns
plt.figure(figsize=(16,8))
for i, col in enumerate(features):
    plt.subplot(2,2,i+1)
    sns.boxplot(y=df[col])
    plt.title(f'Boxplot {col}')
plt.tight_layout()
plt.show()

### Scatter Plot antar fitur
Visualisasi untuk mendeteksi outlier secara visual.

In [4]:
plt.figure(figsize=(10,6))
sns.scatterplot(x=df['Harga Produk (USD)'], y=df['Penjualan Harian (Unit)'])
plt.title('Scatter Plot Harga Produk vs Penjualan Harian')
plt.show()

In [5]:
# Scatter Plot untuk fitur Diskon vs Stok
plt.figure(figsize=(10,6))
sns.scatterplot(x=df['Diskon (%)'], y=df['Stok (Unit)'])
plt.title('Scatter Plot Diskon vs Stok')
plt.show()

#### Jawaban Pertanyaan Visualisasi:
- Outlier pada boxplot umumnya terlihat sebagai titik yang jauh dari kotak utama.
- Scatter plot dapat memperlihatkan data yang jauh dari kelompok utama.

## 2. Deteksi Outlier Menggunakan Statistik
### a. Z-Score

In [6]:
from scipy.stats import zscore
z_scores = df.apply(zscore)

outlier_z = {}
for col in features:
    outlier_z[col] = df[np.abs(z_scores[col]) > 3][col]
    print(f'Jumlah outlier {col} (Z-Score > 3 atau < -3):', outlier_z[col].count())

### b. IQR

In [7]:
outlier_iqr = {}
for col in features:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    outlier_iqr[col] = df[(df[col] < lower) | (df[col] > upper)][col]
    print(f'{col}: Q1={Q1:.2f}, Q3={Q3:.2f}, IQR={IQR:.2f}, Outlier={outlier_iqr[col].count()}')

#### Jawaban Statistik:
- Jumlah dan lokasi outlier bisa berbeda antara Z-Score dan IQR.

## 3. Transformasi Data: Log Transformation

In [8]:
df_log = df.copy()
for col in ['Harga Produk (USD)','Penjualan Harian (Unit)']:
    df_log[col] = np.log1p(df_log[col])

plt.figure(figsize=(12,5))
for i, col in enumerate(['Harga Produk (USD)','Penjualan Harian (Unit)']):
    plt.subplot(1,2,i+1)
    sns.boxplot(y=df_log[col])
    plt.title(f'Boxplot Log {col}')
plt.tight_layout()
plt.show()

#### Jawaban Transformasi:
- Log transformation biasanya mengurangi pengaruh outlier pada distribusi data.

## 4. Kesimpulan

- Outlier masih bisa tetap ada setelah transformasi, namun pengaruhnya berkurang.
- Transformasi data membuat distribusi lebih mendekati normal.
- Transformasi data adalah salah satu solusi, namun penanganan outlier tergantung tujuan analisis dan konteks bisnis.