# **Dive Deeper: Unsupervised Learning**

- Bagian 6 Audit Analytics untuk Bank Rakyat Indonesia
- *Last Updated*: December 2023

___



# Import Library

In [1]:
# Menyembunyikan Peringatan
import warnings
warnings.filterwarnings("ignore")
warnings.simplefilter(action='ignore', category=FutureWarning)

# Komputasi Matematika dan Array
import math
import numpy as np

# Persiapan Data
import pandas as pd

# Visualisasi Data
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Paket Machine Learning
import scipy.stats as stats
from scipy.stats import norm, skew
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from pyod.models.lof import LOF

# Paket Lainnya
from numpy.linalg import eig
from helper import biplot_pca
plt.style.use('seaborn-v0_8-whitegrid')


---


# TASK:

Dalam tugas kali ini, anda dapat melakukan anomaly detection berdasarkan alur yang telah dipelajari di kelas dengan menggunakan dataset [berikut](https://www.kaggle.com/ealaxi/paysim1). 

Dataset ini merupakan dataset sintetik yang dihasilkan menggunakan simulator bernama PaySim. Dataset berisi transaksi keuangan dengan observasi penipuan. PaySim mensimulasikan transaksi uang seluler berdasarkan sampel transaksi asli yang diambil dari catatan keuangan satu bulan dari layanan uang seluler yang diterapkan di negara Afrika. Log asli disediakan oleh perusahaan multinasional, penyedia layanan keuangan seluler, yang saat ini beroperasi di lebih dari 14 negara di seluruh dunia.

# Step-by-Step: PCA Analysis




langkah-langkah ini, kita akan melakukan analisis Principal Component Analysis (PCA), termasuk proses hingga pembuatan dataframe baru dari hasil komponen utama (Principal Components).

In [8]:
# read dataset

credit_raw = pd.read_csv('data_input/fraud.csv')
credit_raw.head()

Unnamed: 0,step,type,amount,nameOrig,oldbalanceOrg,newbalanceOrig,nameDest,oldbalanceDest,newbalanceDest,isFraud,isFlaggedFraud
0,398,CASH_OUT,229428.85,C1722971247,0.0,0.0,C992110216,1226936.33,1456365.17,0,0
1,355,CASH_OUT,65031.88,C353283462,0.0,0.0,C757039269,118417.06,183448.94,0,0
2,95,TRANSFER,8775594.43,C1917836086,8775594.43,0.0,C1694421805,0.0,0.0,1,0
3,239,TRANSFER,495991.64,C1628056782,495991.64,0.0,C913892512,0.0,0.0,1,0
4,498,CASH_OUT,207261.07,C1856398520,207261.07,0.0,C1898820013,48221.7,255482.77,1,0


**Rangkuman Dataset:**

Setiap fitur dari data dijelaskan sebagai berikut:

1. **step**: Mewakili satuan waktu dalam real world. Dalam hal ini, 1 langkah setara dengan 1 jam waktu. Total langkah adalah 744 (simulasi selama 30 hari).

2. **type**: Jenis transaksi, [CASH-IN, CASH-OUT, DEBIT, PAYMENT, dan TRANSFER].

3. **amount**: Jumlah transaksi dalam mata uang lokal.

4. **nameOrig**: Pelanggan yang memulai transaksi.

5. **oldbalanceOrg**: Saldo awal sebelum transaksi dilakukan.

6. **newbalanceOrig**: Saldo baru pelanggan pemulai setelah transaksi.

7. **nameDest**: Pelanggan yang menjadi penerima transaksi.

8. **oldbalanceDest**: Saldo awal penerima sebelum transaksi dilakukan.

9. **newbalanceDest**: Saldo baru penerima setelah transaksi.

10. **isFraud**: Ini adalah transaksi yang dilakukan oleh agen penipu di dalam simulasi. Dalam kumpulan data khusus ini, perilaku penipuan agen bertujuan untuk mendapatkan keuntungan dengan mengambil kendali atau rekening pelanggan dan mencoba mengosongkan dana dengan mentransfer ke rekening lain dan kemudian menguangkannya dari sistem.

11. **isFlaggedFraud**: Model bisnis ini bertujuan untuk mengontrol transfer besar-besaran dari satu akun ke akun lainnya dan menandai upaya ilegal. Upaya ilegal dalam kumpulan data ini adalah upaya mentransfer lebih dari 200.000 dalam satu transaksi.

Sebelum melanjutkan dengan algoritma, beberapa langkah pembersihan data perlu dilakukan. Pertama, kita perlu mengubah jenis variabel yang salah. Di sini, variabel "type" perlu diubah menjadi faktor. Kita juga perlu menghapus variabel "nameOrig" dan "nameDest" karena mengandung banyak nilai unik.

---

## Exploratory Data Analysis

1. Silahkan lakukan tahapan EDA dataset
2. Lakukan analisis dari dataset tersebut

## Data Preprocessing

**1.  Check Missing Values**

**2. Cek Duplikat Data**

**3. Feature Selection**

**4. Data wrangling**

**5. Ambil variabel dataset numerik**

![Number of Transaction Based on Type](newplot.png)

Plot diatas hanya menampilkan jumlah transaksi berdasarkan tipe nya dari dataset diatas. Mayoritas transaksi berasal dari Cash out, dengan lebih dari dua juta transaksi. Transaksi berikut adalah Pembayaran, Tunai dan Debit. 

Kita juga bisa memvisualisasikan sebaran transaksi penipuan berdasarkan jenis.

Untuk melakukan explor lebih jauh, coba lakukan pengecekan jenis transaksi apa saja yang banyak transaksi fraud nya.

In [None]:
## Contoh kode

# # Menghitung total transaksi penipuan berdasarkan jenis transaksi 
# total_fraud = df[df['isFraud'] == 1].groupby('type').size().reset_index(name='count').sort_values(by='count', ascending=False)

Setelah mengatahui, untuk alur selanjutnya silahkan gunakan dataset yang sudah terfilter tersebut (berdasarkan 2 jenis transaksi terbesar)

In [None]:
# code here



**6. Data Scaling**

**Visualisasi Plot Skewness:**

Sebelum melakukan scaling data, kita pertama-tama mengevaluasi skewness dari kolom-kolom numerik dalam dataset.

In [None]:
# code here



**Melakukan scaling data**

Setelah memahami skewness data, kita dapat melanjutkan dengan tahap kedua, yaitu melakukan scaling data menggunakan z-score normalization. Hal ini dilakukan untuk menghilangkan penyimpangan skewness dan memastikan distribusi data mendekati distribusi normal standar. Rangkuman kalimat untuk tahap kedua dapat mencakup proses scaling data menggunakan z-score normalization untuk memastikan konsistensi dalam rentang nilai dan meningkatkan keterbacaan model.

In [38]:
# code here


### Aplikasi PCA: Reduksi Dimensi pada Data credit

Pertama, mari kita lihat matriks kovariansi dari dataset yang sudah di scaled:

**7. Cek korelasi data**

In [None]:
# code here


### Principal Component Analysis menggunakan library [sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)

Setelah melakukan scaling, kita dapat menerapkan PCA pada data yang telah diubah skala, seperti yang ditunjukkan dalam kode berikut: 

In [None]:
# membuat model PCA



## Visualisasi PCA

1. Silahkan buat visualisasi
2. cek variable important

In [2]:
# code here



# Studi Kasus Local Outlier Factor (LOF): Deteksi Anomali dengan Menggunakan Library PyOD

# Local Outlier Factor

PyOD LOF Documentation. https://pyod.readthedocs.io/en/latest/pyod.models.html#module-pyod.models.lof

## Membuat Model LOF


In [3]:
# Menggunakan LOF dari PyOD (Python Outlier Detection)



**Cek jumlah antara LOF 0 (normal) dan LOF 1 (anomali)**

In [85]:
# code here



Label Counts: {0: 45000, 1: 5000}


In [4]:
# Menghitung nilai LOF

lof_scores = ...

# Menampilkan distribusi nilai LOF




## Cek Index Anomali

In [None]:
# cek index yang dideteksi merupakan anomali


## Visualisasi Plot LOF

In [5]:
# menampilkan plot anomali




### Cek Index Anomali

**Interpretasi hasilnya dapat dilakukan sebagai berikut:**

...

..

.
