## Çok Değişkenli Aykırı Gözlem Analizi

### Local Outlier Factor

Gözlemleri bulundukları konumda yoğunluk tabanlı skorlayarak buna göre aykırı değer olabilecek değerleri tanımlayabilmemize imkan sağlıyor.

Bir noktanın local yoğunluğu bu noktanın komşuları ile karşılaştırılıyor. Eğer bir nokta komşularınının yoğunluğundan anlamlı şekilde düşük ise bu nokta komşularından daha seyrek bir bölgede bulunuyordur yorumu yapılabiliyor. Dolayısıyla burada bir komşuluk yapısı söz konusu. Bir değerin çevresi yoğun değilse demek ki bu değer aykırı değerdir şeklinde değerlendiriliyor.

değişkenler tek başınayken aykırı değer şeklinde algılanamayacak olan durumlarda değişkenler çok değişkenli olarak eş zamanlıca göz önünde bulundurulduğunda ortaya hesapta olmayan aykırı gözlemler ortaya çıkabilmektedir.

bundan dolayı çok değişkenli bir şekilde aykırı gözlemleri göz önünde bulundurmalıyız.

bunlardan birisi LOF yöntemidir.

In [1]:
import seaborn as sns

In [2]:
diamonds = sns.load_dataset("diamonds")

In [3]:
diamonds = diamonds.select_dtypes(include=["float64","int64"])

In [4]:
df=diamonds.copy()

In [5]:
df=df.dropna()

In [6]:
df.head()

Unnamed: 0,carat,depth,table,price,x,y,z
0,0.23,61.5,55.0,326,3.95,3.98,2.43
1,0.21,59.8,61.0,326,3.89,3.84,2.31
2,0.23,56.9,65.0,327,4.05,4.07,2.31
3,0.29,62.4,58.0,334,4.2,4.23,2.63
4,0.31,63.3,58.0,335,4.34,4.35,2.75


Neden veri setine çok değişkenli olarak bakmamız lazım?

Elimizde iki tane değişken olsun. Birisi yaş değişkeni diğeri evlilik sayısı değişkeni  olsun.

yaş değişkenine tek başına bakarsak,
- yaş: 17, 18, 70, 80
yaş değişkeninin değerlerine baktığımızda aykırı bir değer yoktur. yaş söz konusu olduğunda gözlemlenebilecek olan değerlerdir.

evlilik sayısı isimli bir değişken,
- evlilik sayısı: 3, 2, 3, 1
evlilik sayısı göz önünde bulunduğunda aykırı değerler değillerdir.

iki değişkeni ayrı ayrı göz önünde bulundurduğumuzda iki değişken için aykırı bir durum söz konusu değildir.

iki değişkeni aynı anda göz önünde bulundurursak
- yaş: 17, 18, 70, 80
- evlilik sayısı: 3, 2, 3, 1
yaşı 17 olup evlilik sayısı 3 olan bir gözlem biriminde bu uygun bir durum değildir. bir kişi 17 yaşında ve 3 defa evlenmiş olamaz. bu bir aykırı durumdur.

![500px-LOF-idea.svg_.png](attachment:555ba807-f405-4c6b-9fe5-88d2157ec889.png)

- her noktanın belirli uzaklıklarında noktalar var. A için en yakın 3 tane komşuya gittiğimizde aradaki mesafe diğer noktalara göre çok fazla dolayısıyla A'nın yoğunluğu diğer noktalara göre çok düşük
- bu yaklaşımla LOF yönteminin çalışma prensibinin gösterimidir.
- LOF, bu şekilde her bir gözlem birimi için bir yoğunluk skoru veriyor. bu skorları daha sonra eşik değer skoru olarak kullanarak bu skorun üzerinde veya aşağısında kalan değerlere göre bir aykırı gözlem inceleme işlemi gerçekleştirilir.

In [7]:
import numpy as np
from sklearn.neighbors import LocalOutlierFactor

In [8]:
# LOF ile bir skorlama işlemi gerçekleştireceğiz
# komşuluk sayısı 20, yoğunluk 0.1
clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1)

In [9]:
# clf, LOF'un biçimsel özelliklerini barındırır.
# bunları kullanarak fit etme işlemini, algoritmayı çalıştırma işlemini gerçekleştirelim.
clf.fit_predict(df) # veri setimiz df, artık çok değişkenli çalışıyoruz.

array([-1, -1, -1, ...,  1,  1,  1])

In [10]:
# şu anda elimizde her bir gözlem birimi için elde edilmiş skorlar olacak
df_scores = clf.negative_outlier_factor_ # numpy array
df_scores[0:10] # head(), pandas dataframe

array([-1.58352526, -1.59732899, -1.62278873, -1.33002541, -1.30712521,
       -1.28408436, -1.28428162, -1.26458706, -1.28422952, -1.27351342])

Elimizde şu anda bütün gözlem değerleri için bir skor değerleri var, eşik değerleri var. buradaki bu skorlar ifade edildiği üzere elimizdeki her bir gözlem değerinin skoru, yani yoğunluk skoru, LOF skoru.

In [11]:
# sort, sıralar
np.sort(df_scores)[0:20]

array([-8.60430658, -8.20889984, -5.86084355, -4.98415175, -4.81502092,
       -4.81502092, -4.61522833, -4.37081214, -4.29842288, -4.10492387,
       -4.0566648 , -4.01831733, -3.94882806, -3.82378797, -3.80135297,
       -3.75680919, -3.65947378, -3.59249261, -3.55564138, -3.47157375])

burada - yönlü en büyük olan, mutlak değeri en yüksek olan, skoru en yüksek olan demektir. incelendiğinde değerlerin birbirine yakın olduğu görülür. burada belirleyecek olduğumuz bir eşik değere göre bu işlemi sürdürmemiz gerekiyor.

örneğin burada 13. değer skorunu, eşik değer skoru olsun. bu skordan daha farklı olan bu skorun aşağısında kalan değerleri aykırı değer olarak tanımlayacağız. 

In [12]:
# 13. indeksdeki değeri, eşik değer olarak kabul edelim.
esik_deger = np.sort(df_scores)[13]
esik_deger

-3.823787967755565

In [13]:
# bu skorun aşağısında kalan değerleri aykırı değer olarak tanımlayacağız.
# mutlak değerleri küçük olanlar
aykiri_tf = df_scores > esik_deger
aykiri_tf

array([ True,  True,  True, ...,  True,  True,  True])

## Çok Değişenli: Silme Yöntemi

In [14]:
# eşik değerin üzerinde olan bütün değerleri aldık.
# aykırı olmayan değerlere eriştik
# aykırı değerleri sildik
yeni_df = df[df_scores < esik_deger]
yeni_df.head() # aykırı olmayan değerler

Unnamed: 0,carat,depth,table,price,x,y,z
6341,1.0,44.0,53.0,4032,6.31,6.24,4.12
10377,1.09,43.0,54.0,4778,6.53,6.55,4.12
24067,2.0,58.9,57.0,12210,8.09,58.9,8.06
35633,0.29,62.8,44.0,474,4.2,4.24,2.65
36503,0.3,51.0,67.0,945,4.67,4.62,2.37


In [15]:
# aykırı değerlere erişmek istersek
df[df_scores > esik_deger]

Unnamed: 0,carat,depth,table,price,x,y,z
0,0.23,61.5,55.0,326,3.95,3.98,2.43
1,0.21,59.8,61.0,326,3.89,3.84,2.31
2,0.23,56.9,65.0,327,4.05,4.07,2.31
3,0.29,62.4,58.0,334,4.20,4.23,2.63
4,0.31,63.3,58.0,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...
53935,0.72,60.8,57.0,2757,5.75,5.76,3.50
53936,0.72,63.1,55.0,2757,5.69,5.75,3.61
53937,0.70,62.8,60.0,2757,5.66,5.68,3.56
53938,0.86,61.0,58.0,2757,6.15,6.12,3.74


boxplot yönteminde örneğin table değişkenine göre tüm aykırılığı incelediğimizde yukarı ve aşağı yönlü olacak şekilde aykırı koşulunu çalıştırdığımızda çok daha fazla gözlem birimi gelmişti. çok değişkenli bir şekilde aykırı değerleri incelediğimizde burada çok daha az sayıda gözlemin geldiği görülür. 

## Baskılama

ortalamaları atamak istersek burada yakalamış olduğumuz bu df'in değerlerine ortalama değerlerini atayabiliriz. ya da belirlemiş olduğumuz eşik değerine göre atama işlemini gerçekleştirebiliriz.

ortalama için her bir değişken için aykırılıklara gidip ortalamayı atamak gerekir. fakat baskılamada eşik değerin indeksinde olan değerin değerini atamak çok değişkenlide en mantıklı yaklaşımdır.

In [16]:
df_scores == esik_deger

array([False, False, False, ..., False, False, False])

In [17]:
df[df_scores == esik_deger] # belirlemiş olduğumuz eşik değer

Unnamed: 0,carat,depth,table,price,x,y,z
31230,0.45,68.6,57.0,756,4.73,4.5,3.19


eşik değeri, LOF skoru dediğimiz yoğunluk tabanlı bir skor oluşturmuştuk. bu skorların içerisinden 13. indeksteki değeri eşik değer olarak belirlemiştik. bu eşik değerin yani belirlemiş olduğumuz skorun karşılığı olan numerik gözlem birimi : 31230	0.45	68.6	57.0	756	4.73	4.5	3.19

**Belirlemiş olduğumuz bu gözlem biriminin değerlerini, aykırı gözlemlerin yerine atıyabiliriz.**

In [18]:
# Belirlemiş olduğumuz bu gözlem biriminin değerlerini, aykırı gözlemlerin yerine atıyabiliriz.
baski_degeri=df[df_scores == esik_deger]
baski_degeri

Unnamed: 0,carat,depth,table,price,x,y,z
31230,0.45,68.6,57.0,756,4.73,4.5,3.19


In [19]:
# Aykırı değerler
aykirilar = df[aykiri_tf]
aykirilar

Unnamed: 0,carat,depth,table,price,x,y,z
0,0.23,61.5,55.0,326,3.95,3.98,2.43
1,0.21,59.8,61.0,326,3.89,3.84,2.31
2,0.23,56.9,65.0,327,4.05,4.07,2.31
3,0.29,62.4,58.0,334,4.20,4.23,2.63
4,0.31,63.3,58.0,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...
53935,0.72,60.8,57.0,2757,5.75,5.76,3.50
53936,0.72,63.1,55.0,2757,5.69,5.75,3.61
53937,0.70,62.8,60.0,2757,5.66,5.68,3.56
53938,0.86,61.0,58.0,2757,6.15,6.12,3.74


#### Bu aykırılar yerine baskı değerini yerleştireceğiz.

bu işlemi yaparken indeks problemi ortaya çıkabilir. bu indeks problemlerini gidermek için peş peşe birkaç işlem yapacağız.
- aykirilar df'ini, indekssiz bir array'e çevireceğiz.
- baski_degeri'ni array yapacağız. atama işlemi 
- aykırılar yerine baskı değerini yerleştireceğiz.

to_records fonksiyonu, dateframe'i array'e dönüştürür.

In [20]:
# dataframe'i numpy array'ine dönüştürür ve indekslerinden kurtulduk.
res = aykirilar.to_records(index=False)
res

rec.array([(0.23, 61.5, 55.,  326, 3.95, 3.98, 2.43),
           (0.21, 59.8, 61.,  326, 3.89, 3.84, 2.31),
           (0.23, 56.9, 65.,  327, 4.05, 4.07, 2.31), ...,
           (0.7 , 62.8, 60., 2757, 5.66, 5.68, 3.56),
           (0.86, 61. , 58., 2757, 6.15, 6.12, 3.74),
           (0.75, 62.2, 55., 2757, 5.83, 5.87, 3.64)],
          dtype=[('carat', '<f8'), ('depth', '<f8'), ('table', '<f8'), ('price', '<i8'), ('x', '<f8'), ('y', '<f8'), ('z', '<f8')])

In [21]:
# aykırı değerleri, baskı değeri yapmış olduk.
res[:]=baski_degeri.to_records(index=False)
res

rec.array([(0.45, 68.6, 57., 756, 4.73, 4.5, 3.19),
           (0.45, 68.6, 57., 756, 4.73, 4.5, 3.19),
           (0.45, 68.6, 57., 756, 4.73, 4.5, 3.19), ...,
           (0.45, 68.6, 57., 756, 4.73, 4.5, 3.19),
           (0.45, 68.6, 57., 756, 4.73, 4.5, 3.19),
           (0.45, 68.6, 57., 756, 4.73, 4.5, 3.19)],
          dtype=[('carat', '<f8'), ('depth', '<f8'), ('table', '<f8'), ('price', '<i8'), ('x', '<f8'), ('y', '<f8'), ('z', '<f8')])

In [22]:
# gerçek veri setinde herhangi bir değişiklik olmaz.
# res'i, gerçek veri setine yerleştirmeliyiz.
df[aykiri_tf].head()

Unnamed: 0,carat,depth,table,price,x,y,z
0,0.23,61.5,55.0,326,3.95,3.98,2.43
1,0.21,59.8,61.0,326,3.89,3.84,2.31
2,0.23,56.9,65.0,327,4.05,4.07,2.31
3,0.29,62.4,58.0,334,4.2,4.23,2.63
4,0.31,63.3,58.0,335,4.34,4.35,2.75


In [23]:
import pandas as pd

In [24]:
# res'i DataFrame'e çevirmeliyiz ve indeks değerlerini atamalıyız.
df[aykiri_tf] = pd.DataFrame(res, index = df[aykiri_tf].index)
df[aykiri_tf].head() # orijinal veri setimizin içerisindeki aykırı değerleri, baskı değeri ile değiştirdirk.

Unnamed: 0,carat,depth,table,price,x,y,z
0,0.45,68.6,57.0,756,4.73,4.5,3.19
1,0.45,68.6,57.0,756,4.73,4.5,3.19
2,0.45,68.6,57.0,756,4.73,4.5,3.19
3,0.45,68.6,57.0,756,4.73,4.5,3.19
4,0.45,68.6,57.0,756,4.73,4.5,3.19


bütün aykırı değerlere, LOF yardımıyla eşik değer olarak belirlediğimiz değerleri atadık.

özetle,
- çok değişkenli bir şekilde aykırı gözlem analizi yaptık
- bunun üzerinden her bir gözlem birimi için bir skor oluşturduk
- belirlemiş olduğumuz bir skora karşılık gelen gözlem birimini eşik değer olarak seçtik
- önce silme yaklaşımıyla bu değerleri elde etmiş olduk
- baskılama

- çok değişkenli yöntemce aykırıları tespit ettik
- tespit ettiğimiz bu değerlere seçmiş olduğumuz skora karşılık gelen gözlem birimini atadık.

clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1)

Bu değerleri biz kendimiz veri setine ya da talebimize göre belirliyoruz.
LOF'ta hayati değer taşıyan bu 2 parametrenin en en iyi halini bulmamız için literatürde henüz bir çalışma yok.(Bunları tune eden bir yöntemden bahsediyorum.) Ama genel olarak,

- K max değeri için; potansiyel outlier sayımızdan küçük olmalı..
Örneğin veri setimizde muhtemel 30 outlier varsa,15 yukarıdan 15 aşağıdan örneğin,  k değerini bu potansiyel outlier sayısından küçük seçmeliyiz ki, bu değerler birbirine komşu olarak görünmesin..
Ancak bunları pratikte saptamak kolay olmayacağı için, sckit-learn genel olarak k'ya 20 değeri verildiğinde iyi çalıştığını belirtiyor.

- Contamination ise data seti içindeki outlier oranını belirtiyor. 0.1 çok kullanılan değer olmakla birlikte az önce de belirttiğim gibi, kesin bir değer verilmiyor. Contamination için bir kaç değer deneyerek sonuçları kıyaslayabilirsiniz..(0.1,0.01,0.05 vs)

en sık kullanılan parametrelerle işlem yapıyor.