# Silme Yöntemleri

In [64]:
import pandas as pd
import numpy as np

V1 = np.array([1,3,6, np.NaN, 7, 1, np.NaN, 3, 15])
V2 = np.array([7, np.NaN, 5, 8, 12, np.NaN, np.NaN, 2, 3])
V3 = np.array([np.NaN, 12, 5, 6, 14, 7, np.NaN, 2, 31])

df = pd.DataFrame(
    {
        "V1" : V1,
        "V2" : V2,
        "V3" : V3
    }
)


df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,,12.0
2,6.0,5.0,5.0
3,,8.0,6.0
4,7.0,12.0,14.0
5,1.0,,7.0
6,,,
7,3.0,2.0,2.0
8,15.0,3.0,31.0


In [65]:
# En az bir eksikliğe sahip gözlemlerin silinmesi

df.dropna()  

Unnamed: 0,V1,V2,V3
2,6.0,5.0,5.0
4,7.0,12.0,14.0
7,3.0,2.0,2.0
8,15.0,3.0,31.0


In [66]:
# Sadece Tüm gözlem değerleri eksik olan gözlemlerin silinmesi
# Nasıl? Tümü eksik olanlar

df.dropna(how = "all")

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,,12.0
2,6.0,5.0,5.0
3,,8.0,6.0
4,7.0,12.0,14.0
5,1.0,,7.0
7,3.0,2.0,2.0
8,15.0,3.0,31.0


In [67]:
# Tüm gözlem değerleri eksik olan DEĞİŞKENLERİN silinmesi
#Nasıl? Tümü eksik olanlar

df.dropna(axis = 1, how = "all")

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,,12.0
2,6.0,5.0,5.0
3,,8.0,6.0
4,7.0,12.0,14.0
5,1.0,,7.0
6,,,
7,3.0,2.0,2.0
8,15.0,3.0,31.0


# Değer Atama Yöntemleri

In [6]:
import pandas as pd
import numpy as np

V1 = np.array([1,3,6, np.NaN, 7, 1, np.NaN, 3, 15])
V2 = np.array([7, np.NaN, 5, 8, 12, np.NaN, np.NaN, 2, 3])
V3 = np.array([np.NaN, 12, 5, 6, 14, 7, np.NaN, 2, 31])

df = pd.DataFrame(
    {
        "V1" : V1,
        "V2" : V2,
        "V3" : V3
    }
)


df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,,12.0
2,6.0,5.0,5.0
3,,8.0,6.0
4,7.0,12.0,14.0
5,1.0,,7.0
6,,,
7,3.0,2.0,2.0
8,15.0,3.0,31.0


### Sayısal Değişkenlerde Atama İşlemi

In [7]:
df["V1"].fillna(df["V1"].mean())

0     1.000000
1     3.000000
2     6.000000
3     5.142857
4     7.000000
5     1.000000
6     5.142857
7     3.000000
8    15.000000
Name: V1, dtype: float64

In [8]:
df["V1"].fillna(0)

0     1.0
1     3.0
2     6.0
3     0.0
4     7.0
5     1.0
6     0.0
7     3.0
8    15.0
Name: V1, dtype: float64

In [9]:
# 1. Yol
# Tüm Değişkenlere Değer Atama 

df.apply(lambda x : x.fillna( x.median()), axis = 0)

Unnamed: 0,V1,V2,V3
0,1.0,7.0,7.0
1,3.0,6.0,12.0
2,6.0,5.0,5.0
3,3.0,8.0,6.0
4,7.0,12.0,14.0
5,1.0,6.0,7.0
6,3.0,6.0,7.0
7,3.0,2.0,2.0
8,15.0,3.0,31.0


In [10]:
# 2. Yol
# Tüm Değişkenlere Değer Atama

df.fillna(df.median() [:] )


Unnamed: 0,V1,V2,V3
0,1.0,7.0,7.0
1,3.0,6.0,12.0
2,6.0,5.0,5.0
3,3.0,8.0,6.0
4,7.0,12.0,14.0
5,1.0,6.0,7.0
6,3.0,6.0,7.0
7,3.0,2.0,2.0
8,15.0,3.0,31.0


In [11]:
# Belirli değişkenlere belirli değerlerin atanması

df.fillna(df.mean() ["V1" : "V2"] )

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,6.166667,12.0
2,6.0,5.0,5.0
3,5.142857,8.0,6.0
4,7.0,12.0,14.0
5,1.0,6.166667,7.0
6,5.142857,6.166667,
7,3.0,2.0,2.0
8,15.0,3.0,31.0


In [12]:
# Belirli değişkenlere belirli değerlerin atanması

df["V3"].fillna(df["V3"].median())

0     7.0
1    12.0
2     5.0
3     6.0
4    14.0
5     7.0
6     7.0
7     2.0
8    31.0
Name: V3, dtype: float64

In [13]:
# 3. Yol

df.where(pd.notna, df.mean(), axis= "columns")

Unnamed: 0,V1,V2,V3
0,1.0,7.0,11.0
1,3.0,6.166667,12.0
2,6.0,5.0,5.0
3,5.142857,8.0,6.0
4,7.0,12.0,14.0
5,1.0,6.166667,7.0
6,5.142857,6.166667,11.0
7,3.0,2.0,2.0
8,15.0,3.0,31.0


# Kategorik Değişken Kırılımında Değer Atama 

Bir çalışan veri setinde çalışanın departmanına bakmadan, tüm çalışanların maaş ortalamasına göre atama yapmak çok mantıklı bir seçim değildir.  
Bu kişi üst düzey yönetici olabilir veya ortalamanın çok altında bir çalışan olabilir.

Eğer veri setimizi var olan bazı kategorik değişkenlere indirgersek  
Örn. Pazarlama departmanının maaş ortalamasına göre atama yapmak çok daha mantıklı olacaktır.

In [69]:
V1 = np.array([1, 3, 6, np.NaN, 7, 1, np.NaN, 9, 15])
V2 = np.array([7, np.NaN, 5, 8, 12, np.NaN, np.NaN, 2, 3])
V3 = np.array([np.NaN, 12, 5, 6, 14, 7, np.NaN, 2, 31])
V4 = np.array(["IT", "IT", "IK", "IK", "IK", "IK", "IK", "IT", "IT"])

df = pd.DataFrame({
    "maas" : V1,
    "V2" : V2,
    "V3" : V3,
    "Departman" : V4
})

df

Unnamed: 0,maas,V2,V3,Departman
0,1.0,7.0,,IT
1,3.0,,12.0,IT
2,6.0,5.0,5.0,IK
3,,8.0,6.0,IK
4,7.0,12.0,14.0,IK
5,1.0,,7.0,IK
6,,,,IK
7,9.0,2.0,2.0,IT
8,15.0,3.0,31.0,IT


In [70]:
# Departmanları, maaslara göre grupla
# Bu grupların ortalamasını getir

df.groupby("Departman")["maas"].mean()

Departman
IK    4.666667
IT    7.000000
Name: maas, dtype: float64

In [71]:
# Gruplara göre hesaplanan maaş ortalamaları transform ederek atayacak

df["maas"].fillna(df.groupby("Departman")["maas"].transform("mean"))


0     1.000000
1     3.000000
2     6.000000
3     4.666667
4     7.000000
5     1.000000
6     4.666667
7     9.000000
8    15.000000
Name: maas, dtype: float64

# Kategorik Değişkenlerde Değer Atama

Kategorik Değişkenlerde en sık kullanılan Eksik Değer Doldurma işlemi MOD kullanılarak yapılandır.  
Veri setindeki en çok tekrar eden değer ile doldurma işlemi gerçekleştirilir.

In [17]:
V1 = np.array([1, 3, 6, np.nan, 7, 1, np.nan, 9, 15])
V4 = np.array(["IT", np.nan, "IK", "IK", "IK", "IK", "IK", "IT", "IT"], dtype=object)

df = pd.DataFrame({
    "maas" : V1,
    "Departman" : V4
})

df

Unnamed: 0,maas,Departman
0,1.0,IT
1,3.0,
2,6.0,IK
3,,IK
4,7.0,IK
5,1.0,IK
6,,IK
7,9.0,IT
8,15.0,IT


In [18]:
# [0] argümanı olmadan girilirse, indexle beraber alacağı için 
# ilk değeri getir demek istiyoruz

df["Departman"].fillna(df["Departman"].mode() [0])

0    IT
1    IK
2    IK
3    IK
4    IK
5    IK
6    IK
7    IT
8    IT
Name: Departman, dtype: object

Bazı değişkenleri bir önceki değer veya bir sonraki değer ile doldurmak isteyebiliriz.  
Bu durumlarda method kullanılmaktadır.

In [19]:
# Bir sonraki değer ile doldurmak istiyorsak
# bfill

df["Departman"].fillna(method = "bfill")

0    IT
1    IK
2    IK
3    IK
4    IK
5    IK
6    IK
7    IT
8    IT
Name: Departman, dtype: object

In [20]:
# Bir onceki değer ile doldurmak istiyorsak
# ffill

df["Departman"].fillna(method = "ffill")

0    IT
1    IT
2    IK
3    IK
4    IK
5    IK
6    IK
7    IT
8    IT
Name: Departman, dtype: object

# Tahmine Dayalı Değer Atama Yöntemleri

Makine Öğrenmesi Yöntemleriyle eksik değerlerin doldurulması
* KNN Algoritması
* Random Forest Algoritması
* EM Algoritması

### KNN Algoritması ile Eksik Veri Doldurmak

In [21]:
import seaborn as sns
import missingno as missno

df = sns.load_dataset("titanic")
df = df.select_dtypes(include= ["float64", "int64"])

df.head()


Unnamed: 0,survived,pclass,age,sibsp,parch,fare
0,0,3,22.0,1,0,7.25
1,1,1,38.0,1,0,71.2833
2,1,3,26.0,0,0,7.925
3,1,1,35.0,1,0,53.1
4,0,3,35.0,0,0,8.05


In [29]:
df.isnull().sum()

survived      0
pclass        0
age         177
sibsp         0
parch         0
fare          0
dtype: int64

In [33]:
# kütüphaneyi import ediyoruz

!pip install ycimpute

^C




In [35]:
# KNN, en yakın komşu algoritmasıyla eksik değerlerin doldurulması
from ycimpute.imputer import knnimput

OSError: [WinError 126] Belirtilen modül bulunamadı. Error loading "c:\Users\onurc\anaconda3\Lib\site-packages\torch\lib\fbgemm.dll" or one of its dependencies.

In [74]:
# KNN imput ve diğer makine öğrenmesi algoritmaları değişkenleri numpy array olarak tutmaktadır
# o Yüzden değişken isimlerini daha sonra kullanmak üzere bir değişkene atadık

var_names = list(df)

In [75]:
# Pandas DataFrame'i olarak tuttuğumuz DF'i bir numpy array'e çeviriyoruz
numpy_df = np.array(df)

In [38]:
numpy_df[:]

array([[ 0.    ,  3.    , 22.    ,  1.    ,  0.    ,  7.25  ],
       [ 1.    ,  1.    , 38.    ,  1.    ,  0.    , 71.2833],
       [ 1.    ,  3.    , 26.    ,  0.    ,  0.    ,  7.925 ],
       ...,
       [ 0.    ,  3.    ,     nan,  1.    ,  2.    , 23.45  ],
       [ 1.    ,  1.    , 26.    ,  0.    ,  0.    , 30.    ],
       [ 0.    ,  3.    , 32.    ,  0.    ,  0.    ,  7.75  ]])

In [40]:
numpy_df.shape

(891, 6)

In [76]:
# K parametresi, komşu sayısını ifade etmektedir
# Complete, tamamlamak

# Eksik değerlerden temizlenen NumPy array'i tutması için bir df_gecici tamamladık


df_gecici = knnimput.KNN(k = 4).complete(numpy_df)

NameError: name 'knnimput' is not defined

In [46]:
# NumPy arraylarinin olduğu geçici DFF'i pandas dataframe'e çeviriyoruz

df_gecici = pd.DataFrame(df_gecici, columns = var_names)

NameError: name 'df_gecici' is not defined

In [48]:
# Değerler dolmuş olarak gelecektir.

df_gecici.isnull().sum()


NameError: name 'df_gecici' is not defined

## Random Forest ile Eksik Veri Doldurmak

In [49]:
import seaborn as sns
import missingno as missno

df = sns.load_dataset("titanic")
df = df.select_dtypes(include= ["float64", "int64"])

df.head()


Unnamed: 0,survived,pclass,age,sibsp,parch,fare
0,0,3,22.0,1,0,7.25
1,1,1,38.0,1,0,71.2833
2,1,3,26.0,0,0,7.925
3,1,1,35.0,1,0,53.1
4,0,3,35.0,0,0,8.05


In [50]:
df.isnull().sum()

survived      0
pclass        0
age         177
sibsp         0
parch         0
fare          0
dtype: int64

In [51]:
var_names = list(df)

In [52]:
numpy_df = np.array(df)

In [53]:
numpy_df[:]

array([[ 0.    ,  3.    , 22.    ,  1.    ,  0.    ,  7.25  ],
       [ 1.    ,  1.    , 38.    ,  1.    ,  0.    , 71.2833],
       [ 1.    ,  3.    , 26.    ,  0.    ,  0.    ,  7.925 ],
       ...,
       [ 0.    ,  3.    ,     nan,  1.    ,  2.    , 23.45  ],
       [ 1.    ,  1.    , 26.    ,  0.    ,  0.    , 30.    ],
       [ 0.    ,  3.    , 32.    ,  0.    ,  0.    ,  7.75  ]])

In [54]:
from ycimpute.imputer import iterforest

OSError: [WinError 126] Belirtilen modül bulunamadı. Error loading "c:\Users\onurc\anaconda3\Lib\site-packages\torch\lib\fbgemm.dll" or one of its dependencies.

In [55]:
dff.iterforest.IterImput().complete(numpy_df)

NameError: name 'dff' is not defined

In [56]:
dff = pd.DataFrame(dff, columns = var_names)

NameError: name 'dff' is not defined

In [57]:
df.isnull().sum()

survived      0
pclass        0
age         177
sibsp         0
parch         0
fare          0
dtype: int64

### EM Algoritması

In [58]:
import seaborn as sns
import missingno as missno

df = sns.load_dataset("titanic")
df = df.select_dtypes(include= ["float64", "int64"])

df.head()


Unnamed: 0,survived,pclass,age,sibsp,parch,fare
0,0,3,22.0,1,0,7.25
1,1,1,38.0,1,0,71.2833
2,1,3,26.0,0,0,7.925
3,1,1,35.0,1,0,53.1
4,0,3,35.0,0,0,8.05


In [59]:
from ycimpute.imputer import EM

OSError: [WinError 126] Belirtilen modül bulunamadı. Error loading "c:\Users\onurc\anaconda3\Lib\site-packages\torch\lib\fbgemm.dll" or one of its dependencies.

In [60]:
var_names = list(df)

In [61]:
numpy_df = np.array(df)

In [62]:
numpy_df[:]

array([[ 0.    ,  3.    , 22.    ,  1.    ,  0.    ,  7.25  ],
       [ 1.    ,  1.    , 38.    ,  1.    ,  0.    , 71.2833],
       [ 1.    ,  3.    , 26.    ,  0.    ,  0.    ,  7.925 ],
       ...,
       [ 0.    ,  3.    ,     nan,  1.    ,  2.    , 23.45  ],
       [ 1.    ,  1.    , 26.    ,  0.    ,  0.    , 30.    ],
       [ 0.    ,  3.    , 32.    ,  0.    ,  0.    ,  7.75  ]])

In [None]:
dff = EM().complete(numpy_df)

In [None]:
dff = pd.DataFrame(dff, columns = var_names)

In [72]:
df.isnull().sum()

maas         2
V2           3
V3           2
Departman    0
dtype: int64

# TAHMİN MODELLERİ İLE EKSİK VERİ ANALİZİ
# OZET

In [None]:
###############################
#  Gerekli İmport İşlemleri  #
##############################

# KNN, en yakın komşu algoritmasıyla eksik değerlerin doldurulması
from ycimpute.imputer import knnimput

# Random Forest algoritmasıyla eksik değerlerin doldurulması
from ycimpute.imputer import iterforest

# EM algoritmasıyla eksik değerlerin doldurulması
from ycimpute.imputer import EM


# veri setini yükle
df = sns.load_dataset("titanic")
df = df.select_dtypes(include= ["float64", "int64"])
df.head()

# değişken isimlerini tut
var_names = list(df)

# DataFrame'i NumPy'a çevir
numpy_df = np.array(df)

#Array'i incele
numpy_df[:]


########################
# Algoritmayı çalıştır.
#######################

# KNN Algoritması
df_gecici = knnimput.KNN(k = 4).complete(numpy_df)

# Random Forest Algoritması
dff.iterforest.IterImput().complete(numpy_df)

# EM Algoritması
dff = EM().complete(numpy_df)


# Geçici DF'i tekrar dataframe'e Çevir
dff = pd.DataFrame(dff, columns = var_names)