Tek değişkenlilerde en çok kullanılan yöntem, boxplot yöntemiydi. Çok değişkenlilerde ise LOF denilen yöntem kullanılmaktadır.

 ### Local Outlier Factor
Gözlemleri bulundukları konumda yoğunluk tabanlı skorlayarak buna göre aykırı değer olabilecek değerleri tanımlayabilmemize imkan sağlıyor.

Bir noktanın local yoğunluğu bu noktanın komşuları ile karşılaştırılıyor. Eğer bir nokta komşularının yoğunluğundan anlamlı şekilde düşük ise bu nokta komşularından daha seyrek bir bölgede bulunuyordur yorumu yapılabiliyor. Dolayısıyla burada bir komşuluk yapısı söz konusu. Bir değerin çevresi yoğun değilse demek ki bu değer aykırı değerdir şeklinde değerlendiriliyor.

![image.png](attachment:image.png)

Örneğin Yaş sütununda bir aykırı durum yok. Keza evlilik sayısı da normal karşılanabilecek düzeyde. Fakat 2 sütunu aynı anda düşündüğümüzde 17 yaşında birinin 3 kere evlenmesi imkansız olmasa da absürt bir durum. Bundan sebeple bu satırı aykırı gözlem olarak almalıyız.

![image.png](attachment:image.png)

LOF algoritması her bir gözlem birimi için bir yoğunluk skoru veriyor. Bu skorlara uygun eşik değer belirliyoruz.

In [171]:
import seaborn as sns
diamonds = sns.load_dataset("diamonds")
diamonds = diamonds.select_dtypes(include=["float64", "int64"])
df = diamonds.copy()
df = df.dropna()
df.head()

Unnamed: 0,carat,depth,table,price,x,y,z
0,0.23,61.5,55.0,326.0,3.95,3.98,2.43
1,0.21,59.8,61.0,326.0,3.89,3.84,2.31
2,0.23,56.9,65.0,327.0,4.05,4.07,2.31
3,0.29,62.4,58.0,334.0,4.2,4.23,2.63
4,0.31,63.3,58.0,335.0,4.34,4.35,2.75


In [172]:
import numpy as np
from sklearn.neighbors import LocalOutlierFactor

In [173]:
clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1) # contamination = kirlenme, bulastirma

In [174]:
clf.fit_predict(df)

array([-1, -1, -1, ..., -1, -1, -1])

In [175]:
df_scores = clf.negative_outlier_factor_

In [176]:
df_scores[0:10] # Bunlarin her biri local outlier factor skoru

array([-1.25828131, -1.26933664, -1.29331959, -1.05525469, -1.03691404,
       -1.01846075, -1.01861874, -1.00440223, -1.01857701, -1.01391585])

In [177]:
np.sort(df_scores)[0:20] # Kucukten buyuge LOF skorlarini siraladi. 

array([-4.37081214, -4.29842288, -3.45066056, -3.40044967, -3.35007989,
       -3.29322345, -3.18715386, -2.86404215, -2.74570485, -2.74088344,
       -2.6924846 , -2.68516533, -2.62781429, -2.45795161, -2.45606488,
       -2.42224821, -2.39355139, -2.3903664 , -2.37564628, -2.36766184])

In [178]:
esik_deger = np.sort(df_scores)[13] 
esik_deger   # Bu degeri esik deger secmis olduk. Bundan kucuk olan degerler aykiri degerlerdir

-2.4579516078789654

In [179]:
# Silme yontemi
new_df = df[df_scores > esik_deger]
new_df
# Bu dataframe ustten ve alttan temiz bir df dir. Cunku LOF algoritması skor hesapladigi icin belli bir noktadan uzak olan skorları dusuruyor.

Unnamed: 0,carat,depth,table,price,x,y,z
0,0.23,61.5,55.0,326.0,3.95,3.98,2.43
1,0.21,59.8,61.0,326.0,3.89,3.84,2.31
2,0.23,56.9,65.0,327.0,4.05,4.07,2.31
3,0.29,62.4,58.0,334.0,4.20,4.23,2.63
4,0.31,63.3,58.0,335.0,4.34,4.35,2.75
...,...,...,...,...,...,...,...
21675,1.21,61.3,56.0,9779.0,6.88,6.85,4.21
21676,1.52,63.4,55.0,9780.0,7.25,7.30,4.61
21677,2.01,61.4,63.0,9781.0,8.19,7.96,4.96
21678,1.52,59.1,58.0,9781.0,7.45,7.48,4.41


In [180]:
df[df_scores < esik_deger].count()

carat    13
depth    13
table    13
price    13
x        13
y        13
z        13
dtype: int64

In [181]:
# Cok degiskenli aykiri gozlem analizi yaptigimizda, tek degiskenliye gore cok daha az sayida aykiri gozlem elde etmis olduk.

### Baskilama yontemi (Suppression Method)

Çok değişkenli yöntemde en mantıklı doldurma yöntemi, baskılama yöntemidir.

In [182]:
baski_deger = df[df_scores == esik_deger] # esik degeri aldik (baski gozlemi)
baski_deger

Unnamed: 0,carat,depth,table,price,x,y,z
1275,0.99,58.0,67.0,2949.0,6.57,6.5,3.79


In [183]:
aykirilar = df[~(df_scores > esik_deger)] # aykiri degerleri aldik
aykirilar

Unnamed: 0,carat,depth,table,price,x,y,z
91,0.86,55.1,69.0,2757.0,6.45,6.33,3.52
314,0.76,59.0,70.0,2800.0,5.89,5.8,3.46
1275,0.99,58.0,67.0,2949.0,6.57,6.5,3.79
4518,1.0,43.0,59.0,3634.0,6.32,6.27,3.97
6341,1.0,44.0,53.0,4032.0,6.31,6.24,4.12
8014,1.5,70.1,58.0,4328.0,6.96,6.85,4.84
8186,1.5,71.3,58.0,4368.0,6.85,6.81,4.87
8392,0.5,69.8,55.0,584.0,4.89,4.8,3.38
8672,1.02,71.8,56.0,4455.0,6.04,5.97,4.31
10377,1.09,43.0,54.0,4778.0,6.53,6.55,4.12


In [184]:
# once aykirilar dataframe ini indexsiz diziye ceviricez. Sonra baski gozlemini de arraylestirip atama islemini gerceklestirecegiz.

In [185]:
res = aykirilar.to_records(index=False)
res

rec.array([(0.86, 55.1, 69., 2757., 6.45, 6.33, 3.52),
           (0.76, 59. , 70., 2800., 5.89, 5.8 , 3.46),
           (0.99, 58. , 67., 2949., 6.57, 6.5 , 3.79),
           (1.  , 43. , 59., 3634., 6.32, 6.27, 3.97),
           (1.  , 44. , 53., 4032., 6.31, 6.24, 4.12),
           (1.5 , 70.1, 58., 4328., 6.96, 6.85, 4.84),
           (1.5 , 71.3, 58., 4368., 6.85, 6.81, 4.87),
           (0.5 , 69.8, 55.,  584., 4.89, 4.8 , 3.38),
           (1.02, 71.8, 56., 4455., 6.04, 5.97, 4.31),
           (1.09, 43. , 54., 4778., 6.53, 6.55, 4.12),
           (1.04, 62.9, 43., 4997., 6.45, 6.41, 4.04),
           (1.  , 63.3, 53., 5139., 0.  , 0.  , 0.  ),
           (0.5 , 71. , 57.,  613., 4.87, 4.79, 3.43),
           (0.5 , 68.4, 54.,  613., 4.94, 4.82, 3.35)],
          dtype=[('carat', '<f8'), ('depth', '<f8'), ('table', '<f8'), ('price', '<f8'), ('x', '<f8'), ('y', '<f8'), ('z', '<f8')])

In [186]:
res[:] = baski_deger.to_records(index=False)
res

rec.array([(0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79),
           (0.99, 58., 67., 2949., 6.57, 6.5, 3.79)],
          dtype=[('carat', '<f8'), ('depth', '<f8'), ('table', '<f8'), ('price', '<f8'), ('x', '<f8'), ('y', '<f8'), ('z', '<f8')])

Aykiri degerleri esik degerler(baski degeri) ile doldurmus olduk

In [187]:
df[~(df_scores > esik_deger)] # atama yaptik ama df de degisen bi sey yok. atamaya devam etmeliyiz.

Unnamed: 0,carat,depth,table,price,x,y,z
91,0.86,55.1,69.0,2757.0,6.45,6.33,3.52
314,0.76,59.0,70.0,2800.0,5.89,5.8,3.46
1275,0.99,58.0,67.0,2949.0,6.57,6.5,3.79
4518,1.0,43.0,59.0,3634.0,6.32,6.27,3.97
6341,1.0,44.0,53.0,4032.0,6.31,6.24,4.12
8014,1.5,70.1,58.0,4328.0,6.96,6.85,4.84
8186,1.5,71.3,58.0,4368.0,6.85,6.81,4.87
8392,0.5,69.8,55.0,584.0,4.89,4.8,3.38
8672,1.02,71.8,56.0,4455.0,6.04,5.97,4.31
10377,1.09,43.0,54.0,4778.0,6.53,6.55,4.12


In [188]:
import pandas as pd 
df[~(df_scores > esik_deger)] = pd.DataFrame(res, index=df[~(df_scores > esik_deger)].index)

In [189]:
df[~(df_scores > esik_deger)]

Unnamed: 0,carat,depth,table,price,x,y,z
91,0.99,58.0,67.0,2949.0,6.57,6.5,3.79
314,0.99,58.0,67.0,2949.0,6.57,6.5,3.79
1275,0.99,58.0,67.0,2949.0,6.57,6.5,3.79
4518,0.99,58.0,67.0,2949.0,6.57,6.5,3.79
6341,0.99,58.0,67.0,2949.0,6.57,6.5,3.79
8014,0.99,58.0,67.0,2949.0,6.57,6.5,3.79
8186,0.99,58.0,67.0,2949.0,6.57,6.5,3.79
8392,0.99,58.0,67.0,2949.0,6.57,6.5,3.79
8672,0.99,58.0,67.0,2949.0,6.57,6.5,3.79
10377,0.99,58.0,67.0,2949.0,6.57,6.5,3.79


Sonuc olarak LOF skorunun bize vermis oldugu degerlerden bir esik gozlem sectik ve bu gozlemi aykiri degerlere doldurduk