# Mengenal Data Iris

<img src="image-20240320-223055.png" width="" align="" />

Kumpulan data Iris digunakan dalam makalah klasik RA Fisher tahun 1936, The Use of Multiple Measurements in Taxonomic Problems , dan juga dapat ditemukan di Repositori Pembelajaran Mesin UCI . Ini mencakup tiga spesies iris dengan masing-masing 50 sampel serta beberapa properti tentang setiap bunga. Satu spesies bunga dapat dipisahkan secara linier dari dua spesies lainnya, namun dua spesies lainnya tidak dapat dipisahkan secara linier satu sama lain. 

Kolom dalam kumpulan data ini adalah:

a. Id
b. SepalLengthCm
c. SepalWidthCm
d. PetalLengthCm
e. PetalWidthCm
f. Species

## Inisialisasi

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np

## Menampilkan Data

### Ambil Data dari dalam Database SQL

In [None]:
df_sql = _deepnote_execute_sql('SELECT * FROM `defaultdb`.`datamining` ', 'SQL_43A6D0C7_EA70_4621_BB95_175FDCAB26B5', audit_sql_comment='', sql_cache_mode='cache_disabled')
df_sql

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,Species
0,1,5.1,3.5,Iris-setosa
1,2,4.9,3.0,Iris-setosa
2,3,4.7,3.2,Iris-setosa
3,4,4.6,3.1,Iris-setosa
4,5,5.0,3.6,Iris-setosa
...,...,...,...,...
145,146,6.7,3.0,Iris-virginica
146,147,6.3,2.5,Iris-virginica
147,148,6.5,3.0,Iris-virginica
148,149,6.2,3.4,Iris-virginica


### Ambil Data dari dalam Database PostgreeSQL

In [None]:
df_psg = _deepnote_execute_sql('SELECT * FROM iris\n', 'SQL_B4E4646F_78E7_41D9_81C7_D0C60FEBEA49', audit_sql_comment='', sql_cache_mode='cache_disabled')
df_psg

Unnamed: 0,Id,petallengthcm,petalwidthcm,species
0,1,1.4,0.2,Iris-setosa
1,2,1.4,0.2,Iris-setosa
2,3,1.3,0.2,Iris-setosa
3,4,1.5,0.2,Iris-setosa
4,5,1.4,0.2,Iris-setosa
...,...,...,...,...
145,147,5.0,1.9,Iris-virginica
146,148,5.2,2.0,Iris-virginica
147,149,5.4,2.3,Iris-virginica
148,150,5.1,1.8,Iris-virginica


### Penggabungan data dari kedua sumber

In [None]:
df = pd.concat([df_sql.drop(['Species'], axis=1), df_psg.drop(['Id'], axis=1)], axis=1, join='inner')
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,petallengthcm,petalwidthcm,species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.0,1.9,Iris-virginica
146,147,6.3,2.5,5.2,2.0,Iris-virginica
147,148,6.5,3.0,5.4,2.3,Iris-virginica
148,149,6.2,3.4,5.1,1.8,Iris-virginica


### Penjelasan Data

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  145 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   petallengthcm  150 non-null    float64
 4   petalwidthcm   148 non-null    float64
 5   species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


PENJELASAN

1.RangeIndex (Indeks Rentang): 

     Indeks ini menunjukkan jumlah baris dalam DataFrame. Pada kasus ini, terdapat 150 entri, mulai dari indeks 0 hingga 149.

2.Data Columns (Kolom Data):

      DataFrame ini tampaknya berisi data tentang bunga iris. Data ini dapat digunakan untuk analisis atau pemodelan lebih lanjut

### Penjelasan Class

In [None]:
df.value_counts('species')

species
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: count, dtype: int64

## Data Missing Value

In [None]:
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,petallengthcm,petalwidthcm,species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.0,1.9,Iris-virginica
146,147,6.3,2.5,5.2,2.0,Iris-virginica
147,148,6.5,3.0,5.4,2.3,Iris-virginica
148,149,6.2,3.4,5.1,1.8,Iris-virginica


### Menampilkan Data yang Memiliki Missing Value

In [None]:
df.isnull().sum()

Id               0
SepalLengthCm    5
SepalWidthCm     0
petallengthcm    0
petalwidthcm     2
species          0
dtype: int64

Dari kode di atas, kita dapat melihat bahwa terdapat nilai yang hilang (missing value) pada dua fitur:

1. SepalLengthCm: Terdapat lima baris yang memiliki nilai yang hilang pada fitur ini.
2. PetalWidthCm: Terdapat dua baris yang memiliki nilai yang hilang pada fitur ini.

Dalam analisis data, mengelola nilai yang hilang adalah langkah penting untuk memastikan hasil yang akurat dan konsisten

Data preprocessing dalam data mining memainkan peran yang sangat penting. Pada tahapan ini, data mentah (raw data) diolah sehingga dapat diubah menjadi data yang dapat dianalisis lebih lanjut.

# Pra-pemrosesan Data (Data Processing)

<img src="image-20240320-195326.png" width="" align="" />

Data preprocessing merupakan komponen dalam persiapan data, yang mendeskripsikan semua jenis pemrosesan yang dilakukan pada data mentah agar siap dilakukan pemrosesan data lanjutan, seperti visualisasi data dan pembentukan model.

Preprocessing data berfungsi untuk mengubah data menjadi format yang lebih mudah dan efektif. Proses ini menjadi langkah awal yang penting dalam upaya data mining. Selain itu, teknik data preprocessing juga telah diadaptasi untuk melatih model machine learning. Berikut adalah empat tahap pra-pemrosesan data:

1. Pembersihan Data (Data Cleaning):
    Data cleaning atau pembersihan data terutama dilakukan sebagai bagian dari data preprocessing untuk membersihkan data dengan mengisi nilai yang hilang, menghaluskan data yang noise, menyelesaikan data yang tidak konsisten, dan menghapus outlier.

2. Penggabungan Data (Data Integration):
    Integrasi data adalah salah satu langkah data preprocessing yang digunakan untuk menggabungkan data yang ada di berbagai sumber menjadi satu penyimpanan data yang lebih besar seperti gudang data atau data warehouse.

3. Transformasi Data (Data Transformation):
    Setelah pembersihan data dilakukan, kita perlu mengkonsolidasikan data berkualitas ke dalam bentuk alternatif dengan mengubah nilai, struktur, atau format data meggunakan strategi transformasi data berikut ini.

4. Pengurangan Data (Data Reduction):
    Tahap terakhir adalah mengurangi jumlah data. Meskipun kita mengurangi sampel data, hal ini tidak boleh mengubah hasil analisis. Ada tiga cara yang umum digunakan:
        - Mengurangi Dimensi: Mengurangi jumlah fitur atau variabel yang digunakan.
        - Pengurangan Jumlah Data: Mengambil sampel data yang lebih kecil.
        - Kompresi Data: Mengurangi ukuran data tanpa menghilangkan informasi penting.

## 1. Pembersihan Data (Data Cleaning)

### seleksi fitur

In [None]:
df = df.drop(['Id'], axis=1)

df

Unnamed: 0,SepalLengthCm,SepalWidthCm,petallengthcm,petalwidthcm,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.0,1.9,Iris-virginica
146,6.3,2.5,5.2,2.0,Iris-virginica
147,6.5,3.0,5.4,2.3,Iris-virginica
148,6.2,3.4,5.1,1.8,Iris-virginica


### Merubah nama kolom

Berikut adalah beberapa langkah yang dapat diambil untuk mengubah nama kolom

Renaming Kolom:
Anda dapat menggunakan metode atau fungsi yang disediakan oleh pustaka analisis data (seperti Pandas di Python) untuk mengganti nama kolom. Misalnya, dalam Pandas, Anda dapat menggunakan metode .rename() untuk mengganti nama kolom.

Menggunakan Nama yang Lebih Deskriptif:
Berikan nama yang lebih jelas dan deskriptif untuk setiap kolom. Misalnya, jika kita memiliki kolom dengan nama “X1”, kita dapat menggantinya dengan “Usia” atau “Pendapatan”.

Hindari Spasi dan Karakter Khusus:
Gunakan format yang konsisten dan hindari spasi atau karakter khusus dalam nama kolom. Jika perlu, gantilah spasi dengan garis bawah atau huruf kapital.

Singkat dan Jelas:
Pastikan nama kolom singkat dan mudah dipahami. Hindari penggunaan kata-kata yang terlalu panjang atau ambigu.

In [None]:
df = df.rename(columns={'SepalLengthCm' : 'Sepal Length', 'SepalWidthCm' : 'Sepal Width', 'PetalLengthCm' : 'Petal Length', 'PetalWidthCm' : 'Petal Width'})

df.head(5)

Unnamed: 0,Sepal Length,Sepal Width,petallengthcm,petalwidthcm,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


### menghapus baris duplikat

In [None]:
# cek jumlah baris dan kolom
df.shape

(150, 5)

In [None]:
# cek jumlah baris dan kolom yang memiliki data duplikat
duplicate_rows_df = df[df.duplicated()]

print('number of duplicate rows : ', duplicate_rows_df.shape)

number of duplicate rows :  (1, 5)


Dari kode program diatas, dapat diketahui bahwa terdapat tiga baris yang memilki data yang sama

In [None]:
# menghapus duplikasi data
df = df.drop_duplicates()

print('number of rows after drop duplicated rows', df.shape)

number of rows after drop duplicated rows (149, 5)


Berdasarkan output kode proram diatas, jumlah baris yang awalnya 150 baris menjadi 147 baris. hal ini membuktikan bahwa kita sudah berhasil menghapus baris yang memiliki data yang sama.

## Penanganan missing value

Pentingnya menangani data yang hilang atau kosong tidak boleh diabaikan. Ketidakhadiran data ini dapat mengganggu proses pemodelan dataset, menghasilkan hasil yang tidak akurat atau tidak dapat diandalkan. Sumber data yang tidak berfungsi dengan baik, entah itu dari mesin atau manusia, dapat menjadi penyebab kehilangan data. Kesalahan dalam proses pengolahan atau kesalahan manusia dalam pengumpulan data juga dapat menjadi penyebabnya.

Ada beberapa pendekatan yang dapat dilakukan dalam penanganan nilai yang hilang. Salah satunya adalah dengan menghapus data yang hilang, tetapi juga dapat diisi kembali menggunakan berbagai metode. Dua metode umum yang akan dicoba dalam kasus ini adalah pengisian dengan nilai rata-rata (mean) dan menggunakan metode K Nearest Neighbor (KNN).

In [None]:
print(df.columns)

Index(['Sepal Length', 'Sepal Width', 'petallengthcm', 'petalwidthcm',
       'species'],
      dtype='object')


In [None]:
#menampilkan baris dengan missing value
df.loc[df['Sepal Length'].isnull() | df['Sepal Width'].isnull() | df['petallengthcm'].isnull() | df['petalwidthcm'].isnull()]

Unnamed: 0,Sepal Length,Sepal Width,petallengthcm,petalwidthcm,species
6,,3.4,1.4,0.3,Iris-setosa
10,,3.7,1.6,0.2,Iris-setosa
16,,3.9,1.4,0.3,Iris-setosa
22,,3.6,1.7,0.5,Iris-setosa
28,,3.4,1.6,0.2,Iris-setosa
95,5.7,3.0,4.5,,Iris-versicolor
149,5.9,3.0,1.4,,Iris-setosa


In [None]:
# menghapus baris baris dengan missing value pada kolom 'Petal Width'
df.dropna(subset=['petalwidthcm'], inplace=True)
df

Unnamed: 0,Sepal Length,Sepal Width,petallengthcm,petalwidthcm,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
144,6.7,3.3,5.2,2.3,Iris-virginica
145,6.7,3.0,5.0,1.9,Iris-virginica
146,6.3,2.5,5.2,2.0,Iris-virginica
147,6.5,3.0,5.4,2.3,Iris-virginica


### Penanganan pada data yang memiliki missing value menggunakan rata-rata

Pada langkah sebelumnya kita sudah berhasil menghapus baris, pada langkah kali ini akan dilakukan imputasi missing value dengan metode nilai rata-rata (Mean). yaitu dengan menjumlahkan seluruh baris nilai fitur dan dilakukan operasi pembagian dengan jumlah baris. maka akan ditemukan hasil rata-rata nilai fitur. adapun rumusnya sebagai berikut.

$$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$$

In [None]:
# membuat copy dataframe pada variabel lain
df_mean = df.copy(deep=True)

# mencari nilai mean
mean = round(df_mean['Sepal Length'].mean(), 1)

print('nilai mean adalah = ', mean)

# imputasi missing value dengan mean
df_mean['Sepal Length'].fillna(mean, inplace=True)

df_mean

nilai mean adalah =  5.9


Unnamed: 0,Sepal Length,Sepal Width,petallengthcm,petalwidthcm,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
144,6.7,3.3,5.2,2.3,Iris-virginica
145,6.7,3.0,5.0,1.9,Iris-virginica
146,6.3,2.5,5.2,2.0,Iris-virginica
147,6.5,3.0,5.4,2.3,Iris-virginica


Berdasarkan kode program diatas. kita membuat duplikasi dataframe yang nantinya untuk menyipan dataframe yang menggunakan metode mean. kemudian mencari nilai mean dan timpa atau gantikan baris yang memiliki missing value dengan nilai mean.

### Penanganan missing value dengan metode K Nearest Neightbour (KNN)

Jika kita merujuk pada ide "K Nearest Neightbour" atau "Tetangga Terdekat K", itu adalah sebuah metode di mana kita mencari sejumlah tetangga terdekat dari data yang ingin diprediksi, dan kemudian membandingkan kelas dari tetangga tersebut untuk memprediksi kelas dari data yang baru. Jadi, kita dapat menggambarkan KNN sebagai teknik yang menggunakan jumlah tetangga terdekat untuk memprediksi kelasifikasi data baru. Penjelasan lebih rinci tentang cara kerjanya dapat ditemukan di bawah ini.

### 1.INITIAL DATA

Algoritma KNN melakukan klasifikasi dengan memproyeksikan data pembelajaran ke dalam ruang berdimensi banyak.
Ruang ini dibagi menjadi bagian-bagian yang merepresentasikan kriteria data .
Setiap data pembelajaran direpresentasikan sebagai titik-titik dalam ruang berdimensi banyak.
Proses klasifikasi dilakukan dengan mencari titik terdekat dari data baru menggunakan formula jarak, seperti jarak Euclidean, jarak Hamming, Manhattan Distance, atau Minkowski Distance.
Teknik pencarian tetangga terdekat disesuaikan dengan dimensi data, proyeksi, dan kemudahan implementasi oleh pengguna.

### 2.CALCULATE DISTANCE

Euclidean distance (jarak Euclidean) adalah metrik yang digunakan untuk mengukur jarak antara dua titik dalam ruang Euclidean. Dalam konteks analisis data dan pembelajaran mesin, jarak Euclidean sering digunakan untuk mengukur kedekatan atau kesamaan antara dua vektor atau titik dalam ruang fitur.

metode yang di pakai untuk mencari jarak sebagai berikut

a. Euclidean Distance

RUMUS

$$d_{\text{Euclidean}}(p, q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2}$$

B.MANHATTAN 

Manhattan distance (jarak Manhattan), juga dikenal sebagai jarak City block, jarak L1, atau jarak taxicab, adalah metrik yang digunakan untuk mengukur jarak antara dua titik dalam ruang Euclidean \( n \)-dimensi. Perbedaan utama antara jarak Manhattan dan jarak Euclidean adalah cara pengukurannya.

RUMUS

$$d_{\text{Manhattan}}(p, q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2}$$


$$d_{\text{Manhattan}}(p, q) = \sqrt{ (p_1 - q_1)^2+(p_2 - q_2)^2+.....+(p_n - q_n)^2)}$$


Sepertinya ada kesalahan penulisan lagi. Mungkin maksud Anda adalah "Manhattan method" atau "Manhattan distance". Jika begitu, berikut penjelasannya:

Manhattan distance (jarak Manhattan), juga dikenal sebagai jarak City block, jarak L1, atau jarak taxicab, adalah metrik yang digunakan untuk mengukur jarak antara dua titik dalam ruang Euclidean \( n \)-dimensi. Perbedaan utama antara jarak Manhattan dan jarak Euclidean adalah cara pengukurannya.

RUMUS

### 3.Find neightbour (Mencari tetangga)

Setelah melakukan perhitungan jarak terhadap fitur atau node, langkah berikutnya adalah melakukan perankingan jarak dari yang terdekat hingga yang terjauh. Proses ini melibatkan pengurutan hasil perhitungan jarak sehingga kita dapat mengetahui titik atau node yang paling dekat dengan referensi yang diberikan.

Berikut adalah langkah-langkah umum untuk melakukan perankingan jarak:

Perhitungan Jarak: Lakukan perhitungan jarak antara titik atau node referensi dengan semua titik atau node yang ada dalam dataset atau ruang fitur. Untuk setiap pasangan titik, hitunglah jaraknya menggunakan metode yang sesuai, misalnya, jarak Euclidean atau jarak Manhattan.

Pengurutan: Setelah semua jarak telah dihitung, langkah berikutnya adalah mengurutkan hasil perhitungan jarak dari yang terkecil hingga yang terbesar. Ini dapat dilakukan dengan mengurutkan daftar pasangan titik berdasarkan nilai jarak yang dihitung sebelumnya.

Perankingan: Setelah hasil diurutkan, Anda akan memiliki daftar pasangan titik atau node yang diurutkan berdasarkan jarak mereka dari titik atau node referensi. Titik atau node yang memiliki jarak terdekat dengan referensi akan menduduki peringkat teratas dalam daftar, sementara yang memiliki jarak terjauh akan menduduki peringkat terakhir.

Penyajian Hasil: Terakhir, hasil perankingan jarak dapat disajikan dalam bentuk yang sesuai dengan kebutuhan aplikasi atau analisis yang sedang dilakukan. Misalnya, Anda dapat memvisualisasikan hasil perankingan dalam bentuk grafik atau tabel untuk memudahkan interpretasi dan pengambilan keputusan.

### 4.voting for labels

Setelah melakukan perhitungan jarak dan melakukan perankingan hasil, langkah selanjutnya adalah menentukan fitur terdekat atau nilai K dalam algoritma KNN. Dalam KNN, nilai K dapat ditentukan secara bebas, misalnya K=5, yang berarti kita akan mengambil 5 fitur atau node yang terdekat sebagai tetangga terdekat dari titik atau node baru yang akan diklasifikasikan.

Setelah menentukan nilai K, langkah selanjutnya adalah menentukan kelas untuk node baru. Misalnya, jika K=5, kita akan mengambil 5 fitur terdekat, kemudian untuk menentukan kelas node baru, kita melihat nilai kelas yang paling sering muncul dari kelima data yang diambil. Contohnya, jika dalam kelima data ini kelas yang paling sering muncul adalah kelas "anggrek bulan", maka nilai kelas dari data baru juga akan ditetapkan sebagai "anggrek bulan".

### Imputasi missing value dengan KNN Imputer

In [None]:
from sklearn.impute import KNNImputer

# duplikasi dataframe
df_knn = df.copy(deep=True)

# simpan class species
df_species = df_knn[['species']]

list_species = df_species.values.tolist()

#hapus kolom yang tidak diperlukan
df_knn = df_knn.drop(['species'], axis=1)

# old_value = df_knn.drop(['species'], axis=1).to_numpy()

# inisialisasi KNNImputer
imputer = KNNImputer(n_neighbors=3)

# simpan kalkulasi
result = imputer.fit_transform(df_knn)

result = result.tolist()

# gabung hasil dengan class
for index in range(len(result)):
    result[index].append(list_species[index][0])

# buat dataframe
df_knn = pd.DataFrame(result, columns=['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width', 'Species'])

df_knn

Unnamed: 0,Sepal Length,Sepal Width,Petal Length,Petal Width,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
142,6.7,3.3,5.2,2.3,Iris-virginica
143,6.7,3.0,5.0,1.9,Iris-virginica
144,6.3,2.5,5.2,2.0,Iris-virginica
145,6.5,3.0,5.4,2.3,Iris-virginica


## Deteksi Outlier (Local Outlier Factor)

### A.Teori konsep local outlier factor

Local Outlier Factor (LOF) adalah sebuah metode dalam data mining yang digunakan untuk mendeteksi anomali dalam data. Metode ini dikembangkan oleh Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng, dan Jörg Sander pada tahun 2000.

Konsep utama dari LOF adalah mengukur "ketidakbiasan lokal" dari sebuah titik data terhadap tetangga-tetangganya. LOF membandingkan kerapatan titik data pada lokasi tersebut dengan kerapatan tetangga-tetangganya. Jika titik data tersebut memiliki kerapatan yang jauh lebih rendah dibandingkan dengan tetangga-tetangganya, maka dapat disimpulkan bahwa titik tersebut merupakan outlier.

Berikut adalah langkah-langkah utama dalam menghitung LOF:

Menghitung Jarak: Jarak antara setiap titik data dengan titik lainnya dalam dataset harus dihitung. Jarak ini bisa dihitung menggunakan metrik jarak seperti Euclidean distance, Manhattan distance, atau metrik jarak lainnya tergantung pada jenis data dan kasus penggunaan.

Menghitung Kerapatan: Kerapatan dari setiap titik data juga perlu dihitung. Kerapatan biasanya dihitung menggunakan metode seperti k-nearest neighbors (kNN) di sekitar titik data.

Menghitung Local Reachability Density (LRD): LRD adalah ukuran invers dari kerapatan lokal. Untuk setiap titik data, LRD dihitung sebagai rata-rata invers dari jarak antara titik data dan tetangga-tetangganya.

Menghitung Local Outlier Factor (LOF): LOF dari sebuah titik data dihitung dengan membandingkan LRD dari titik data tersebut dengan LRD dari tetangga-tetangganya. LOF didefinisikan sebagai rasio antara LRD titik data dan rata-rata LRD dari tetangga-tetangganya.

### B.Menghitung manual local outlier factor

contoh sederhana dengan  coding python menghitung local outlier factor

In [None]:
import numpy as np

def euclidean_distance(x1, x2):
    return np.linalg.norm(x1 - x2)

def k_distance(k, x, data):
    distances = [euclidean_distance(x, d) for d in data]
    distances.sort()
    return distances[k]

def k_nearest_neighbors(k, x, data):
    distances = [(i, euclidean_distance(x, d)) for i, d in enumerate(data)]
    distances.sort(key=lambda x: x[1])
    return [i for i, _ in distances[:k]]

def local_reachability_density(k, x, data):
    neighbors = k_nearest_neighbors(k, x, data)
    reachability_distances = [max(k_distance(k, data[i], data), euclidean_distance(x, data[i])) for i in neighbors]
    return len(neighbors) / sum(reachability_distances)

def local_outlier_factor(k, x, data):
    lrd_x = local_reachability_density(k, x, data)
    lrd_neighs = [local_reachability_density(k, data[i], data) for i in k_nearest_neighbors(k, x, data)]
    return sum(lrd_neighs) / (len(k_nearest_neighbors(k, x, data)) * lrd_x)

# Contoh penggunaan
# Buat data contoh
data = np.array([
    [1, 2],
    [1.5, 1.8],
    [5, 8],
    [8, 8],
    [1, 0.6],
    [9, 11],
    [8, 2],
    [10, 2],
    [9, 3]])

# Hitung LOF untuk setiap titik data
k = 3  # jumlah tetangga terdekat yang akan digunakan
lof_scores = [local_outlier_factor(k, point, data) for point in data]
print("LOF Scores:", lof_scores)


LOF Scores: [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]


Kesimpulan dari implementasi fungsi-fungsi untuk menghitung Local Outlier Factor (LOF) adalah sebagai berikut:

1. Euclidean Distance: Fungsi `euclidean_distance(x1, x2)` menghitung jarak Euclidean antara dua titik data dalam ruang dimensi yang sama. Penggunaan `np.linalg.norm(x1 - x2)` memungkinkan kita untuk menghitung norma dari perbedaan antara dua vektor.

2. K-Distance: Fungsi `k_distance(k, x, data)` menghitung jarak k-terdekat dari sebuah titik data `x` ke dataset `data`. Ini berguna dalam menentukan tetangga terdekat dari suatu titik.

3. K-Nearest Neighbors: Fungsi `k_nearest_neighbors(k, x, data)` mengembalikan indeks dari k tetangga terdekat dari sebuah titik data `x` dalam dataset `data`. Ini membantu dalam menghitung kerapatan lokal.

4. Local Reachability Density (LRD): Fungsi `local_reachability_density(k, x, data)` menghitung kerapatan lokal dari sebuah titik data `x` dalam dataset `data` berdasarkan pada pendekatan k-nearest neighbors. Ini membantu dalam mengukur seberapa padat atau jarang sebuah titik data dibandingkan dengan tetangga-tetangganya.

5. Local Outlier Factor (LOF): Fungsi `local_outlier_factor(k, x, data)` menghitung Local Outlier Factor (LOF) dari sebuah titik data `x` dalam dataset `data`. LOF adalah rasio antara LRD titik data dan rata-rata LRD dari k tetangga terdekatnya. Ini membantu dalam mendeteksi anomali atau outlier dalam dataset.

Implementasi ini dapat digunakan untuk mendeteksi outlier dalam dataset dengan menggunakan metode LOF. Dengan menyediakan dataset dan menentukan jumlah tetangga terdekat (`k`), kita dapat menghitung nilai LOF untuk setiap titik data dalam dataset tersebut. Hasilnya akan memberikan kita informasi tentang seberapa anomali atau langka setiap titik data dalam dataset tersebut.

### C.Menghitung menggunakan python (Scikit Learn)

In [None]:
from sklearn.neighbors import LocalOutlierFactor

# Contoh dataset
X = [
    [1, 2],
    [1.5, 1.8],
    [5, 8],
    [8, 8],
    [1, 0.6],
    [9, 11],
    [8, 2],
    [10, 2],
    [9, 3]
]

# Membuat objek LOF
lof = LocalOutlierFactor(n_neighbors=3)  # Tentukan jumlah tetangga terdekat (k)

# Fit model LOF ke data
lof.fit_predict(X)

# Mengakses nilai LOF untuk setiap titik data
lof_scores = -lof.negative_outlier_factor_

print("LOF Scores:", lof_scores)


LOF Scores: [1.06156656 1.06156656 1.03976545 1.03976545 1.06156656 1.03976545
 0.96447281 0.96447281 0.96447281]


Dengan cara ini, kita dapat dengan mudah mendeteksi dan mengidentifikasi outlier dalam dataset menggunakan algoritma LOF yang telah diimplementasikan dalam scikit-learn.

### Implementasi Local Outlier Factor pada data iris

In [None]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.neighbors import LocalOutlierFactor

# Muat dataset iris
iris = load_iris()
X = iris.data
y = iris.target

# Konversi ke dataframe
df_iris = pd.DataFrame(data=X, columns=iris.feature_names)

# Inisialisasi dan fit model LOF
lof = LocalOutlierFactor(n_neighbors=20, contamination=0.1)  # Set parameter LOF
outlier_labels = lof.fit_predict(X)

# Tambahkan label outlier ke dataframe
df_iris['Outlier'] = outlier_labels

# Tampilkan dataframe
print(df_iris)


     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                  5.1               3.5                1.4               0.2   
1                  4.9               3.0                1.4               0.2   
2                  4.7               3.2                1.3               0.2   
3                  4.6               3.1                1.5               0.2   
4                  5.0               3.6                1.4               0.2   
..                 ...               ...                ...               ...   
145                6.7               3.0                5.2               2.3   
146                6.3               2.5                5.0               1.9   
147                6.5               3.0                5.2               2.0   
148                6.2               3.4                5.4               2.3   
149                5.9               3.0                5.1               1.8   

     Outlier  
0          1

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=f43291c6-8a46-44f4-b529-bc3689664d83' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>