yorum

In [54]:
import pandas as pd
import numpy as np

# Örnek Dataframe'in yaratılması
ev = pd.DataFrame({"evID":[2,4,6,8,10,12,14,16,17],
                   "odaSayisi":[3,5,6,4,2,3,None,6,None],
                   "evMetreKare":[130,140,None,150,None,125,None,135,None],
                   "semt":["kadikoy","kadikoy",np.nan,"levent","levent","pendik","maltepe","maltepe",np.nan]})
print(ev)

   evID  odaSayisi  evMetreKare     semt
0     2        3.0        130.0  kadikoy
1     4        5.0        140.0  kadikoy
2     6        6.0          NaN      NaN
3     8        4.0        150.0   levent
4    10        2.0          NaN   levent
5    12        3.0        125.0   pendik
6    14        NaN          NaN  maltepe
7    16        6.0        135.0  maltepe
8    17        NaN          NaN      NaN


In [55]:
# eksik verinin kolon bazında saydırılması
print(ev.isnull().sum())

evID           0
odaSayisi      2
evMetreKare    4
semt           2
dtype: int64


Satır Bazlı Silme (listwise): 
Bir veya daha fazla eksik değere sahip bir gözlem için o satıra ait tüm verileri kaldırır. Özellikle eksik veriler az sayıda gözlemle bulunuyorsa datadan çıkarmayı tercih edebiliriz. Bununla birlikte, satır silme işleminin kullanılması çoğu durumda dezavantajlıdır. Bunun nedeni satıra göre silme yöntemleri yanlı parametreler ve tahminler üretebilir.

In [56]:
ev1 = ev.dropna() # Silme fonksiyonu
print(ev1)

   evID  odaSayisi  evMetreKare     semt
0     2        3.0        130.0  kadikoy
1     4        5.0        140.0  kadikoy
3     8        4.0        150.0   levent
5    12        3.0        125.0   pendik
7    16        6.0        135.0  maltepe


Kolon Bazlı Silme:
Aslında datada yer alan bir özelliği yani değişkeni silme işlemi. Bu genel olarak tercih edilen bir yöntem olmamakla birlikte eğer aynı değişken içerisinde eksik veri adedi ""2/3'den fazla"" ise bu değişken veri setinden çıkarabiliriz. Ev tablosunda yer alan “evMetreKare” değişkeni oldukça fazla kayıp veri olduğundan tamamen aşağıdaki şekilde çıkarabiliriz.

In [57]:
# kolonu veri setinden çıkarıyoruz
ev2 = ev.drop(columns="evMetreKare")
print(ev2)

   evID  odaSayisi     semt
0     2        3.0  kadikoy
1     4        5.0  kadikoy
2     6        6.0      NaN
3     8        4.0   levent
4    10        2.0   levent
5    12        3.0   pendik
6    14        NaN  maltepe
7    16        6.0  maltepe
8    17        NaN      NaN


Eşlerin (Pairwise) Silinmesi: Bu yöntemde sadece ihtiyaç duyulan değişkenler seçilir ve bu değişkenler içindeki eksik veriler silinerek analize devam edilir.

In [58]:
# Eşlerin silinmesi (Pairwise)
# Yeni bir kolon ekliyoruz
ev["evFiyat"] =  [100000,125000,133000,138000,121000,105000,109000,108000,101000]
print(ev)

   evID  odaSayisi  evMetreKare     semt  evFiyat
0     2        3.0        130.0  kadikoy   100000
1     4        5.0        140.0  kadikoy   125000
2     6        6.0          NaN      NaN   133000
3     8        4.0        150.0   levent   138000
4    10        2.0          NaN   levent   121000
5    12        3.0        125.0   pendik   105000
6    14        NaN          NaN  maltepe   109000
7    16        6.0        135.0  maltepe   108000
8    17        NaN          NaN      NaN   101000


In [59]:
# Sadece iki değişken seçip aralarındaki korelasyonu inceleme
ev[["odaSayisi","evFiyat"]].dropna().corr()

Unnamed: 0,odaSayisi,evFiyat
odaSayisi,1.0,0.301159
evFiyat,0.301159,1.0


In [60]:
ev[["evMetreKare","evFiyat"]].dropna().corr()

Unnamed: 0,evMetreKare,evFiyat
evMetreKare,1.0,0.934123
evFiyat,0.934123,1.0


Yukarıdaki kodda görüldüğü üzere ev tablosuna tertemiz bir fiyat bilgisi ekledik. Ardından datadaki tüm eksik verileri silmek yerine sadece analiz için seçilen kolonlardaki eksik verileri sildik. Böylece daha az veri kaybı yaratarak iki kolon arasındaki korelasyonu bulmuş oluyoruz.

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Eksik Verilerin Doldurulması

Alt, Üst veya Sabit Değer ile Doldurma: Kolonda eksik verinin bulunduğu alanın altında ya da üstünde yer alan değeri ile doldurma işlemi yapılabilir. Sabit değer ise tamamen datanın nasıl yorumlandığına bağlı olarak eksik değerlere sizin belirleyeceğiniz bir sayı atanır.

In [61]:
# üst değer ile doldurma
ev.odaSayisi.fillna(method="ffill")

  ev.odaSayisi.fillna(method="ffill")


0    3.0
1    5.0
2    6.0
3    4.0
4    2.0
5    3.0
6    3.0
7    6.0
8    6.0
Name: odaSayisi, dtype: float64

5  -  3.0

6  -  3.0 üst değer

7  -  6.0

8  -  6.0 üst değer

In [62]:
# Alt değer ile doldurma
ev.odaSayisi.fillna(method="bfill")

  ev.odaSayisi.fillna(method="bfill")


0    3.0
1    5.0
2    6.0
3    4.0
4    2.0
5    3.0
6    6.0
7    6.0
8    NaN
Name: odaSayisi, dtype: float64

6  -  6.0 alt değer

7  - 6.0

8  - NaN alt değer yok

In [63]:
# Sabit değer atama
ev.odaSayisi.fillna(value= "15")

0    3.0
1    5.0
2    6.0
3    4.0
4    2.0
5    3.0
6     15
7    6.0
8     15
Name: odaSayisi, dtype: object

Ortalama, Medyan, Tepe Değer(Mode): Değişkenin genel gidişatına bakarak bu yöntemlerden birisi kullanarak eksik veri doldurulabilir. Çoğunlukla veri bilimi alanında bu yöntemler tercih edilmektedir. Tek dezavantajı ise değişkenin varyans değerini düşürdüğü söylenebilir.

Değişkenin varyansı, verilerin bir değişken etrafında ne kadar dağıldığını ölçen bir istatistiksel ölçüdür. Varyans, veri noktalarının değişkenin merkez etrafında nasıl dağıldığını ve ne kadar değişkenlik içerdiğini gösterir. Daha düşük bir varyans, verilerin değişkenlik açısından daha homojen veya yoğun olduğunu gösterirken, daha yüksek bir varyans, verilerin değişkenlik açısından daha dağınık olduğunu gösterir.

In [68]:
# Ortalama
ev2 = ev.drop(columns="semt")
ev2.mean()

evID                9.888889
odaSayisi           4.142857
evMetreKare       136.000000
evFiyat        115555.555556
dtype: float64

In [69]:
ev_mean = ev.fillna(ev2.mean())
print(ev_mean.evMetreKare)

0    130.0
1    140.0
2    136.0
3    150.0
4    136.0
5    125.0
6    136.0
7    135.0
8    136.0
Name: evMetreKare, dtype: float64


4-    136.0 ortalama değer

5-    125.0

6-    136.0 ortalama değer

7-    135.0

8-    136.0 ortalama değer

In [70]:
# Medyan
print(ev.odaSayisi.fillna(ev1.odaSayisi.median()))

0    3.0
1    5.0
2    6.0
3    4.0
4    2.0
5    3.0
6    4.0
7    6.0
8    4.0
Name: odaSayisi, dtype: float64


6-    4.0 medyan

7-    6.0

8-    4.0 medyan

In [71]:
print(ev.odaSayisi.fillna(ev2.odaSayisi.mode()[1]))

0    3.0
1    5.0
2    6.0
3    4.0
4    2.0
5    3.0
6    6.0
7    6.0
8    6.0
Name: odaSayisi, dtype: float64


6-    6.0 mode

7-    6.0

8-    6.0 mode

Lineer (Doğrusal) Regresyon: Aslında bu yöntem tamamen regresyon modelinin eksik verilere uygulanmış halidir. Eksik değerlerin yer aldığı kolon bağımlı değişken olarak ve diğer kolonlar bağımsız değişken olarak tanımlanarak kayıp veriler tahmin edilmeye çalışılır. Bu yöntemin dezavantajlarından birisi, eksik verilerin regresyon ile diğer değişkenlere göre doldurulacak olmasından dolayı asıl tahmin edilecek değişken üzerinde veri setinde aşırı öğrenme (overfitting) söz konusu olabilir.

In [72]:
# Lineer regresyon yöntemi
print(ev.evMetreKare.interpolate(method="linear"))

0    130.0
1    140.0
2    145.0
3    150.0
4    137.5
5    125.0
6    130.0
7    135.0
8    135.0
Name: evMetreKare, dtype: float64


2-    145.0 lineer

3-    150.0

4-    137.5 lineer

5-    125.0

6-    130.0 lineer

7-    135.0

8-    135.0 lineer

Eksik verileri doldurmak için kullanılan interpolate fonksiyonunun method parametresi, eksik verilerin nasıl doldurulacağını belirlemek için kullanılır. "linear" dışında birçok farklı yöntemi destekler. İşte bazı yaygın kullanılan yöntemler:


nearest: Eksik veriyi en yakın komşu veri noktasının değeri ile doldurur.


zero: Eksik verileri sıfır değeri ile doldurur.


slinear (spline linear): Eksik verileri doğrusal olmayan bir spline (eğri) kullanarak doldurur.


quadratic: Eksik verileri ikinci dereceden bir polinom kullanarak doldurur.


cubic: Eksik verileri üçüncü dereceden bir polinom kullanarak doldurur.


polynomial: Kullanıcı belirlediği bir polinom kullanarak eksik verileri doldurur.


spline: Doğrusal olmayan bir spline kullanarak eksik verileri doldurur.


piecewise_polynomial: Parçalı polinomlar kullanarak eksik verileri doldurur.


from_derivatives: Türevlerden yararlanarak eksik verileri doldurur.


pchip (Piecewise Cubic Hermite Interpolating Polynomial): Parçalı bir kübik Hermite interpolasyonu kullanarak eksik verileri doldurur.


akima: Akima spline interpolasyonunu kullanarak eksik verileri doldurur

-------------------------------------------------------------------------

Kategorik Verilerde Doldurma: Genel olarak üç yöntemden söz edilebilir.

Tepe değer(mode) kullanılarak en fazla frekansa sahip olan değer ile eksik veriler doldurulabilir.
Eksik/kayıp veriler etiketlenerek model ya da analiz için değerlendirilebilir.
Lojistik regresyon ya da ANOVA gibi yöntemler ile eksik değerler tahmin edilebilir.

ANOVA, "Analysis of Variance" (Varyans Analizi) kısaltmasıdır ve istatistiksel bir analiz yöntemidir. ANOVA, gruplar arasındaki istatistiksel farkları belirlemek için kullanılır ve genellikle gruplar arasındaki ortalamaların eşit olup olmadığını test etmek için kullanılır. ANOVA, farklı gruplar arasındaki varyansın kaynaklarını incelemek ve gruplar arasındaki farkların istatistiksel olarak anlamlı olup olmadığını değerlendirmek amacıyla kullanılır.

ANOVA, genellikle kategorik bir bağımsız değişken (gruplar) ve bir sürekli bağımlı değişken arasındaki ilişkiyi incelemek için kullanılır. Örnekler şu olabilir:

Farklı ilaçların tedaviye etkisi üzerine çalışmalar: İlaç türü (kategorik değişken) ve tedavi sonuçları (sürekli değişken) arasındaki farkları incelemek için ANOVA kullanılabilir.