# Penambangan Data

<img src="image-20240320-202223.png" width="" align="" />

## Pengertian Penambangan Data

data mining adalah proses yang digunakan oleh perusahaan untuk mengubah data mentah menjadi informasi yang bermanfaat berdasarkan simpulan Kami yang bersumber dari Situs Investopedia.

Dengan menggunakan software atau perangkat lunak untuk mencari pola dalam kumpulan data yang besar seperti big data (baca pengertian big data di sini), bisnis dapat belajar lebih banyak tentang pelanggan mereka untuk mengembangkan strategi pemasaran yang lebih efektif, meningkatkan penjualan dan mengurangi biaya.

Penambangan data tergantung pada pengumpulan data yang efektif, pergudangan, dan pemrosesan komputer.

penambangan data biasanya digunakan untuk :

- Prediksi trend dan sifat-sifat bisnis

 Dimana data mining di sini mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar.

- Penemuan pola-pola

Disini data mining menyapu basis data, lalu mengidentifikasi pola-pola yang sebelumnya tersembunyi di dalam sapuan tersebut.

- Membuat keputusan penting

Data mining berguna untuk membuat sebuah keputusan yang penting atau kritis, terutama didalam strategi.

## Memahami Data

### Definisi bunga iris

Bunga iris merupakan salah satu bunga yang memiliki kecantikan elegan, warna yang menakjubkan, dan bentuk yang unik. Dikenal sebagai simbol kebijaksanaan dan keberanian dalam mitologi Yunani kuno, bunga iris menghadirkan pesona yang tak terbantahkan di kebun-kebun di seluruh dunia.

Mengutip dari Almanac, Iris adalah genus yang sangat beragam dengan lebih dari 200 spesies yang ditemukan di berbagai belahan dunia. Salah satu keunikan yang paling mudah dikenali adalah iris berdaun tinggi, yang dikenal sebagai Iris germanica, yang bisa tumbuh setinggi 2 hingga 3 kaki. Bunga ikonik ini memiliki struktur yang khas, dengan enam kelopak, tiga kelopak luar yang menjuntai anggun dan tiga kelopak dalam yang berdiri tegak. Iris ada dalam dua jenis utama, yaitu berdaun bulu dan berdaun tak berbulu.

### Pertemuan ini membahas:

- deskripsi fitur bunga iris

- mengamati missing value

- inputasi missing value dengan metode knn dan mean lalu dibandingkan

- menghitung akurasi dan perbandingan setiap metode

### tools yang digunakan untuk melakukan inisialisasi

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np

# menampilkan data

## memanggil data dari SQL

In [None]:
df_7 = _deepnote_execute_sql('SELECT * FROM defaultdb . irisNew', 'SQL_81D49DF3_AAFE_402E_A234_70E7434C4161', audit_sql_comment='', sql_cache_mode='cache_disabled')
df_7

Unnamed: 0,Id,PetalLengthCm,PetalWidthCm,Species
0,1,1.4,0.2,Iris-setosa
1,2,1.4,0.2,Iris-setosa
2,3,1.3,0.2,Iris-setosa
3,4,1.5,0.2,Iris-setosa
4,5,1.4,0.2,Iris-setosa
...,...,...,...,...
145,146,5.2,2.3,Iris-virginica
146,147,5.0,1.9,Iris-virginica
147,148,5.2,2.0,Iris-virginica
148,149,5.4,2.3,Iris-virginica


## memanggil data dari postgresql

In [None]:
df_8 = _deepnote_execute_sql('SELECT * FROM public.tablename', 'SQL_86A43BF9_B66B_48AB_AAD4_34CACD8EC06D', audit_sql_comment='', sql_cache_mode='cache_disabled')
df_8

Unnamed: 0,id,petallengthcm,petalwidthcm,species
0,1,1.4,0.2,Iris-setosa
1,2,1.4,0.2,Iris-setosa
2,3,1.3,0.2,Iris-setosa
3,4,1.5,0.2,Iris-setosa
4,5,1.4,0.2,Iris-setosa
...,...,...,...,...
145,146,5.2,2.3,Iris-virginica
146,147,5.0,1.9,Iris-virginica
147,148,5.2,2.0,Iris-virginica
148,149,5.4,2.3,Iris-virginica


## menggabungkan 2 data dari sumber berbeda menjadi 1 data

In [None]:
import pandas as pd
df = pd.concat([df_7.drop(['Species'], axis=1), df_8.drop(['id'], axis=1)], axis=1, join='inner')

df

Unnamed: 0,Id,PetalLengthCm,PetalWidthCm,petallengthcm,petalwidthcm,species
0,1,1.4,0.2,1.4,0.2,Iris-setosa
1,2,1.4,0.2,1.4,0.2,Iris-setosa
2,3,1.3,0.2,1.3,0.2,Iris-setosa
3,4,1.5,0.2,1.5,0.2,Iris-setosa
4,5,1.4,0.2,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,5.2,2.3,5.2,2.3,Iris-virginica
146,147,5.0,1.9,5.0,1.9,Iris-virginica
147,148,5.2,2.0,5.2,2.0,Iris-virginica
148,149,5.4,2.3,5.4,2.3,Iris-virginica


## deskripsi data

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   PetalLengthCm  150 non-null    float64
 2   PetalWidthCm   150 non-null    float64
 3   petallengthcm  150 non-null    float64
 4   petalwidthcm   150 non-null    float64
 5   species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


Perintah df.info() merupakah perintah yang digunakan untuk mengetahui informasi yang terdapat dalam dataset. Informasi yang ditampilkan dari perintah tersebut antara lain :

- RangeIndex berisi indec data frame dari 0 hingga 149, sehingga dapat disimpulkan bahwa dataframe ini terdiri dari 150 baris

- Data Columns merupakan daftar kolom yang terdapat dalam dataframe tersebut yang disertai dengan informasi mengenai jumlah nilai non-null dan tipe data masing-masing kolom yang tersedia

- Column berisi data apa saja yang ada di dalam dataframe seperti Id, SepalLengthcm,SepalWidthCm,PetalLengthCm,PetalWidthCm,dan Species.

- Dtype merupakan tipe data dari masing-masing kolom yang tersedia dri dataframe tersebut

## deskripsi class

In [None]:
df.value_counts('species')

species
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: count, dtype: int64

# missing value

In [None]:
df

Unnamed: 0,Id,PetalLengthCm,PetalWidthCm,petallengthcm,petalwidthcm,species
0,1,1.4,0.2,1.4,0.2,Iris-setosa
1,2,1.4,0.2,1.4,0.2,Iris-setosa
2,3,1.3,0.2,1.3,0.2,Iris-setosa
3,4,1.5,0.2,1.5,0.2,Iris-setosa
4,5,1.4,0.2,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,5.2,2.3,5.2,2.3,Iris-virginica
146,147,5.0,1.9,5.0,1.9,Iris-virginica
147,148,5.2,2.0,5.2,2.0,Iris-virginica
148,149,5.4,2.3,5.4,2.3,Iris-virginica


## menampilkan data dengan query sql

deskripsi fitur :

- sepalWidthCm merupakan fitur yang menyimpan sebuah nilai berupa data numeric dari lebar dari kelopak sepal

- sepalLengthCm merupakan fitur yang menyimpan sebuah nilai berupa data numeric dari panjang kelopak sepal

Dalam analisis data, mengelola nilai yang hilang adalah langkah penting untuk memastikan hasil yang akurat dan konsisten

Data preprocessing dalam data mining memainkan peran yang sangat penting. Pada tahapan ini, data mentah (raw data) diolah sehingga dapat diubah menjadi data yang dapat dianalisis lebih lanjut.

In [None]:
df_2 = _deepnote_execute_sql('SELECT *\nFROM \'Iris-20240229-030259.csv\'\n', 'SQL_DEEPNOTE_DATAFRAME_SQL', audit_sql_comment='', sql_cache_mode='cache_disabled')
df_2

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


## menampilkan data

In [None]:
df_2 = _deepnote_execute_sql('SELECT * FROM `defaultdb`.`iris`', 'SQL_81D49DF3_AAFE_402E_A234_70E7434C4161', audit_sql_comment='', sql_cache_mode='cache_disabled')
df_2

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


## menampilkan data yang hilang

In [None]:
df_3 = _deepnote_execute_sql('SELECT * FROM iris WHERE SepalLengthCm is Null OR SepalWidthCm is Null OR PetalWidthCm is Null OR PetalLengthCm is Null', 'SQL_81D49DF3_AAFE_402E_A234_70E7434C4161', audit_sql_comment='', sql_cache_mode='cache_disabled')
df_3

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,,3.5,1.4,0.2,Iris-setosa
1,25,,3.4,1.9,0.2,Iris-setosa
2,30,,3.2,1.6,0.2,Iris-setosa
3,40,,3.4,1.5,0.2,Iris-setosa
4,50,,3.3,1.4,0.2,Iris-setosa


## pra-pemrosesan data (data Processing)

<img src="image-20240320-203921.png" width="" align="" />

Data preprocessing merupakan teknik yang diterapkan pada database untuk menghapus noise, missing value, error, data yang tidak penting dan data yang tidak konsisten. Tujuan dari data preprocessing yaitu untuk mentranformasikan data mentah untuk dianalisis agar dapat menghasilkan data yang berkualitas dan akurat. Biasanya dalam data realtime database seringkali tidak lengkap dan tidak konsisten sehingga hasil data mining tidak berkualitas dan kurang akurat. Oleh karena itu, untuk meningkatkan kualitas data yang akan dianalisis perlu dilakukan langkah-langkah preprocessing data. Langkah-langkah tersebut tidak harus semuanya dilakukan.

Berikut langkah-langkah utama dari data preprocessing :

- Data Cleaning

Data Cleaning berfungsi untuk mengganti missing value, menormalkan data yang bermasalah (Noisy), mengindentifikasi dan menghilangkan data yang tidak konsisten dan data yang berulang (Redundancy) yang didapat dari integrasi data, dan menyelesaikan masalah inconsistensi data. 

- Data Integration

Data Integration berfungsi untuk mengabungkan beberapa database dan file menjadi 1 sehingga menghasilkan sumber data yang besar.

- Data Transformation

Data Tranformation Berfungsi untuk menormalisasikan data dan aggresi data. Data transformation biasanya digunakan untuk mengubah data dalam bentuk yang sesuai dalam proses data mining.

- Data Reduction

Data Reduction berfungsi untuk mengurangi volume data yang berlebihan tetapi tetap mempertahankan kualitas dari hasil analisis data. Oleh karena itu, perlu adanya teknik data reduction dengan tujuan untuk meningkatkan efisiensi penyimpanan serta mengurangi biaya penyimpanan dan analisis data.

- Data Discretization

Data Discretization berfungsi sebagai bagian dari data reduction dengan memperhitungkan data yang signifikan (Data Numeric).

### data cleaning

In [None]:
df = df_2.drop(['Id'], axis=1)

df

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


### merubah nama kolom

In [None]:
df = df.rename(columns={'SepalLengthCm' : 'Sepal Length', 'SepalWidthCm' : 'Sepal Width', 'PetalLengthCm' : 'Petal Length', 'PetalWidthCm' : 'Petal Width'})

df.head(5)

Unnamed: 0,Sepal Length,Sepal Width,Petal Length,Petal Width,Species
0,,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


### menghapus baris duplikat

lakukan pengecekan jumlah baris dan kolom didalam database

In [None]:
df.shape

(150, 5)

lakukan pengecekan jumlah baris dan kolom yang terdapat data duplikatnya

In [None]:
duplicate_rows_df = df[df.duplicated()]

print('number of duplicate rows : ', duplicate_rows_df.shape)

number of duplicate rows :  (3, 5)


lakkukan penghapusan data yang terindikasi duplikat

In [None]:
df = df.drop_duplicates()

print('number of rows after drop duplicated rows', df.shape)

number of rows after drop duplicated rows (147, 5)


## penanganan missing value

- dengan rata rata

- dengan knn (modelling)

- rumus ditulis dengan knn

### penanganan missing value

Missing values terjadi ketika tidak ada data yang terdeteksi untuk suatu fitur atau variabel pada sampel pengamatan tertentu di dataset. Missing values biasanya muncul sebagai “NaN”, “?”, atau tidak ada nilainya sama sekali alias blank cell. Ada banyak cara yang dapat digunakan untuk menangani missing values. Namun tentunya penanganan missing values ini harus disesuaikan dengan kondisi datanya atau fitur apa yang memiliki missing values.

menampilkan kolom yang memiliki missing value

In [None]:
print(df.columns)

Index(['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width',
       'Species'],
      dtype='object')


In [None]:
#menampilkan baris dengan missing value
df.loc[df['Sepal Length'].isnull() | df['Sepal Width'].isnull() | df['Petal Length'].isnull() | df['Petal Width'].isnull()]

Unnamed: 0,Sepal Length,Sepal Width,Petal Length,Petal Width,Species
0,,3.5,1.4,0.2,Iris-setosa
24,,3.4,1.9,0.2,Iris-setosa
29,,3.2,1.6,0.2,Iris-setosa
39,,3.4,1.5,0.2,Iris-setosa
49,,3.3,1.4,0.2,Iris-setosa


In [None]:
# menghapus baris baris dengan missing value pada kolom 'Petal Width'
df.dropna(subset=['Petal Width'], inplace=True)
df

Unnamed: 0,Sepal Length,Sepal Width,Petal Length,Petal Width,Species
0,,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


### penanganan missing value menggunakan metode mean

<img src="image-20240320-204456.png" width="" align="" />

In [None]:
# membuat copy dataframe pada variabel lain
df_mean = df.copy(deep=True)

# mencari nilai mean
mean = round(df_mean['Sepal Length'].mean(), 1)

print('nilai mean adalah = ', mean)

# imputasi missing value dengan mean
df_mean['Sepal Length'].fillna(mean, inplace=True)

df_mean

nilai mean adalah =  5.9


Unnamed: 0,Sepal Length,Sepal Width,Petal Length,Petal Width,Species
0,5.9,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


$$
\overline{x} =\frac{\sum xi}{\sum n}
$$

### penanganan missing value menggunakan metode knn

A. initial data

K-nearest neighbors atau knn adalah algoritma yang berfungsi untuk melakukan klasifikasi suatu data berdasarkan data pembelajaran (train data sets), yang diambil dari k tetangga terdekatnya (nearest neighbors). Dengan k merupakan banyaknya tetangga terdekat. K-nearest neighbors melakukan klasifikasi dengan proyeksi data pembelajaran pada ruang berdimensi banyak. Ruang ini dibagi menjadi bagian-bagian yang merepresentasikan kriteria data pembelajaran. Setiap data pembelajaran direpresentasikan menjadi titik-titik c pada ruang dimensi banyak.

B. calculate distance

<img src="image-20240320-164035.png" width="" align="" />

metode yang digunakan sebagai berikut

A. Euclidean distance

RUMUS

<img src="image-20240320-205307.png" width="" align="" />

B. Manhattan

<img src="image-20240320-205426.png" width="" align="" />

$$
d(P,Q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2}
$$

$$
d(P,Q) = \sqrt{(p_1 - q_1)^2 + (p_2 - q_2)^2 + \cdots + (p_n - q_n)^2}
$$

Find Neighbour (mencari tetangga)

terdekat hingga yang terjauh. Proses ini melibatkan pengurutan hasil perhitungan jarak sehingga kita dapat mengetahui titik atau node yang paling dekat dengan referensi yang diberikan.

Berikut adalah langkah-langkah umum untuk melakukan perankingan jarak:

Perhitungan Jarak: Lakukan perhitungan jarak antara titik atau node referensi dengan semua titik atau node yang ada dalam dataset atau ruang fitur. Untuk setiap pasangan titik, hitunglah jaraknya menggunakan metode yang sesuai, misalnya, jarak Euclidean atau jarak Manhattan.

Pengurutan: Setelah semua jarak telah dihitung, langkah berikutnya adalah mengurutkan hasil perhitungan jarak dari yang terkecil hingga yang terbesar. Ini dapat dilakukan dengan mengurutkan daftar pasangan titik berdasarkan nilai jarak yang dihitung sebelumnya.

Perankingan: Setelah hasil diurutkan, Anda akan memiliki daftar pasangan titik atau node yang diurutkan berdasarkan jarak mereka dari titik atau node referensi. Titik atau node yang memiliki jarak terdekat dengan referensi akan menduduki peringkat teratas dalam daftar, sementara yang memiliki jarak terjauh akan menduduki peringkat terakhir.

Penyajian Hasil: Terakhir, hasil perankingan jarak dapat disajikan dalam bentuk yang sesuai dengan kebutuhan aplikasi atau analisis yang sedang dilakukan. Misalnya, Anda dapat memvisualisasikan hasil perankingan dalam bentuk grafik atau tabel untuk memudahkan interpretasi dan pengambilan keputusan.

voting for labels

Setelah melakukan perhitungan jarak dan melakukan perankingan hasil, langkah selanjutnya adalah menentukan fitur terdekat atau nilai K dalam algoritma KNN. Dalam KNN, nilai K dapat ditentukan secara bebas, misalnya K=5, yang berarti kita akan mengambil 5 fitur atau node yang terdekat sebagai tetangga terdekat dari titik atau node baru yang akan diklasifikasikan.

Setelah menentukan nilai K, langkah selanjutnya adalah menentukan kelas untuk node baru. Misalnya, jika K=5, kita akan mengambil 5 fitur terdekat, kemudian untuk menentukan kelas node baru, kita melihat nilai kelas yang paling sering muncul dari kelima data yang diambil. Contohnya, jika dalam kelima data ini kelas yang paling sering muncul adalah kelas "anggrek bulan", maka nilai kelas dari data baru juga akan ditetapkan sebagai "anggrek bulan".

### imputasi missing value menggunakan KNN Imputer

In [None]:
from sklearn.impute import KNNImputer

# duplikasi dataframe
df_knn = df.copy(deep=True)

# simpan class species
df_species = df_knn[['Species']]

list_species = df_species.values.tolist()

#hapus kolom yang tidak diperlukan
df_knn = df_knn.drop(['Species'], axis=1)

# old_value = df_knn.drop(['species'], axis=1).to_numpy()

# inisialisasi KNNImputer
imputer = KNNImputer(n_neighbors=3)

# simpan kalkulasi
result = imputer.fit_transform(df_knn)

result = result.tolist()

# gabung hasil dengan class
for index in range(len(result)):
    result[index].append(list_species[index][0])

# buat dataframe
df_knn = pd.DataFrame(result, columns=['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width', 'Species'])

df_knn

Unnamed: 0,Sepal Length,Sepal Width,Petal Length,Petal Width,Species
0,5.3,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
142,6.7,3.0,5.2,2.3,Iris-virginica
143,6.3,2.5,5.0,1.9,Iris-virginica
144,6.5,3.0,5.2,2.0,Iris-virginica
145,6.2,3.4,5.4,2.3,Iris-virginica


# deteksi outlier (local outlier factor)

### Konsep local outlier 

Local Outlier Factor (LOF) adalah sebuah metode dalam analisis anomali yang digunakan untuk mendeteksi pencilan atau anomali dalam data. Konsep utamanya adalah untuk menghitung seberapa "terisolasi" atau "aneh" suatu titik data jika dibandingkan dengan tetangga-tetangganya.

Berikut adalah inti dari konsep LOF:

- Local Density Estimation: LOF memulai dengan menghitung kepadatan lokal untuk setiap titik data dalam dataset. Ini bisa dilakukan dengan menghitung jarak antara titik tersebut dengan titik-titik tetangganya.

- Local Reachability Distance: Setelah kepadatan lokal dihitung, LOF menghitung jarak jangkauan lokal (local reachability distance) untuk setiap titik data. Ini adalah ukuran seberapa dekat titik tersebut dengan tetangga-tetangganya dalam hal kepadatan.

- LOF Score Calculation: LOF menghitung nilai LOF untuk setiap titik data dengan membandingkan local reachability distance-nya dengan tetangga-tetangganya. Titik-titik dengan nilai LOF tinggi cenderung menjadi titik-titik yang dianggap sebagai anomali.

- Thresholding: Setelah nilai LOF dihitung, pengguna dapat menentukan ambang batas (threshold) untuk mengidentifikasi titik-titik yang dianggap sebagai anomali. Titik-titik dengan nilai LOF di atas ambang batas akan dianggap sebagai anomali.

LOF berguna dalam berbagai aplikasi seperti deteksi kecurangan, deteksi gangguan jaringan, deteksi anomali medis, dan lainnya. Ini adalah metode yang cukup fleksibel dan efektif untuk mengidentifikasi pencilan dalam data.

### Menghitung manual local outlier factor

menghitung local outlier factor menggunakan python

In [None]:
import numpy as np

def euclidean_distance(x1, x2):
    return np.linalg.norm(x1 - x2)

def k_distance(k, x, data):
    distances = [euclidean_distance(x, d) for d in data]
    distances.sort()
    return distances[k]

def k_nearest_neighbors(k, x, data):
    distances = [(i, euclidean_distance(x, d)) for i, d in enumerate(data)]
    distances.sort(key=lambda x: x[1])
    return [i for i, _ in distances[:k]]

def local_reachability_density(k, x, data):
    neighbors = k_nearest_neighbors(k, x, data)
    reachability_distances = [max(k_distance(k, data[i], data), euclidean_distance(x, data[i])) for i in neighbors]
    return len(neighbors) / sum(reachability_distances)

def local_outlier_factor(k, x, data):
    lrd_x = local_reachability_density(k, x, data)
    lrd_neighs = [local_reachability_density(k, data[i], data) for i in k_nearest_neighbors(k, x, data)]
    return sum(lrd_neighs) / (len(k_nearest_neighbors(k, x, data)) * lrd_x)

# Contoh penggunaan
# Buat data contoh
data = np.array([
    [1, 2],
    [1.5, 1.8],
    [5, 8],
    [8, 8],
    [1, 0.6],
    [9, 11],
    [8, 2],
    [10, 2],
    [9, 3]])

# Hitung LOF untuk setiap titik data
k = 3  # jumlah tetangga terdekat yang akan digunakan
lof_scores = [local_outlier_factor(k, point, data) for point in data]
print("LOF Scores:", lof_scores)


LOF Scores: [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]


Kesimpulan dari implementasi fungsi-fungsi untuk menghitung Local Outlier Factor (LOF) adalah sebagai berikut:

1. Euclidean Distance: Fungsi 'euclidean_distance(x1, x2) menghitung jarak Euclidean antara dua titik data dalam ruang dimensi yang sama. Penggunaan 'np.linalg.norm(x1-x2) memungkinkan kita untuk menghitung norma dari perbedaan antara dua vektor.

2. K-Distance: Fungsi 'k_distance(k, x, data) menghitung jarak k-terdekat dari sebuah titik data 'x' ke dataset 'data'. Ini berguna dalam menentukan tetangga terdekat dari suatu titik.

3. K-Nearest Neighbors: Fungsi 'k_nearest_neighbors(k, x, data) mengembalikan indeks dari k tetangga terdekat dari sebuah titik data 'x' dalam dataset 'data'. Ini membantu dalam menghitung kerapatan lokal.

4. Local Reachability Density (LRD): Fungsi 'local_reachability_density(k, x, data) menghitung kerapatan lokal dari sebuah titik data 'x' dalam dataset 'data' berdasarkan pada pendekatan k-nearest neighbors. Ini membantu dalam mengukur seberapa padat atau jarang sebuah titik data dibandingkan dengan tetangga-tetangganya.

5. Local Outlier Factor (LOF): Fungsi 'local_outlier_factor(k, x, data) menghitung Local Outlier Factor (LOF) dari sebuah titik data 'x dalam dataset 'data'. LOF adalah rasio antara LRD titik data dan rata-rata LRD dari k tetangga terdekatnya. Ini membantu dalam mendeteksi anomali atau outlier dalam dataset.

Implementasi ini dapat digunakan untuk mendeteksi outlier dalam dataset dengan menggunakan metode LOF. Dengan menyediakan dataset dan menentukan jumlah tetangga terdekat (k), kita dapat menghitung nilai LOF untuk setiap titik data dalam dataset tersebut. Hasilnya akan memberikan kita informasi tentang seberapa anomali atau langka setiap titik data dalam dataset tersebut

### menghitung menggunakan python (scikit learn)

In [None]:
from sklearn.neighbors import LocalOutlierFactor

# Contoh dataset
X = [
    [1, 2],
    [1.5, 1.8],
    [5, 8],
    [8, 8],
    [1, 0.6],
    [9, 11],
    [8, 2],
    [10, 2],
    [9, 3]
]

# Membuat objek LOF
lof = LocalOutlierFactor(n_neighbors=3)  # Tentukan jumlah tetangga terdekat (k)

# Fit model LOF ke data
lof.fit_predict(X)

# Mengakses nilai LOF untuk setiap titik data
lof_scores = -lof.negative_outlier_factor_

print("LOF Scores:", lof_scores)


LOF Scores: [1.06156656 1.06156656 1.03976545 1.03976545 1.06156656 1.03976545
 0.96447281 0.96447281 0.96447281]


### Implementasi local outlier factor pada data iris

In [None]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.neighbors import LocalOutlierFactor

# Muat dataset iris
iris = load_iris()
X = iris.data
y = iris.target

# Konversi ke dataframe
df_iris = pd.DataFrame(data=X, columns=iris.feature_names)

# Inisialisasi dan fit model LOF
lof = LocalOutlierFactor(n_neighbors=20, contamination=0.1)  # Set parameter LOF
outlier_labels = lof.fit_predict(X)

# Tambahkan label outlier ke dataframe
df_iris['Outlier'] = outlier_labels

# Tampilkan dataframe
print(df_iris)


     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                  5.1               3.5                1.4               0.2   
1                  4.9               3.0                1.4               0.2   
2                  4.7               3.2                1.3               0.2   
3                  4.6               3.1                1.5               0.2   
4                  5.0               3.6                1.4               0.2   
..                 ...               ...                ...               ...   
145                6.7               3.0                5.2               2.3   
146                6.3               2.5                5.0               1.9   
147                6.5               3.0                5.2               2.0   
148                6.2               3.4                5.4               2.3   
149                5.9               3.0                5.1               1.8   

     Outlier  
0          1

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=b5b753c0-d20f-47b0-83d8-f944f2a8d374' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>