## Kategorik Değişkenler için Eksik Değer Atama

bu bölüme kadar sayısal değişkenlerde ortaya çıkabilecek eksiklikler için atama yöntemlerini ele aldık bu bölümde ise bir kategorik değişkende eksiklik gördüğümüzde bunu nasıl giderebileceğimizi ele alacağız.

In [1]:
import numpy as np
import pandas as pd

In [2]:
V1 = np.array([1,3,6,np.NaN,7,1,np.NaN,9,15])
# V4 isimli kategorik değişkenin tipini object olarak belirttim.
V4 = np.array(["IT",np.nan,"IK","IK","IK","IK","IK","IT","IT"], dtype=object)

In [3]:
df = pd.DataFrame(
        {"maas" : V1,
        "departman" : V4}        
)

In [4]:
df

Unnamed: 0,maas,departman
0,1.0,IT
1,3.0,
2,6.0,IK
3,,IK
4,7.0,IK
5,1.0,IK
6,,IK
7,9.0,IT
8,15.0,IT


kategorik değişkenlerdeki eksiklikleri gidermedeki en pratik, en kolay ve verimli de olabilen yol mod işlemidir. yani ilgili kategorik değişkende en sık gözlenen değer, terim neyse o değeri atamaktır.

- departmanın modunu alacağız. mod neyse onu eksiklikleri doldurmak için kullanacağız.

In [8]:
df["departman"].mode()

0    IK
dtype: object

In [9]:
df["departman"].mode()[0]

'IK'

In [10]:
df["departman"].fillna(df["departman"].mode()[0])

0    IT
1    IK
2    IK
3    IK
4    IK
5    IK
6    IK
7    IT
8    IT
Name: departman, dtype: object

In [11]:
# bu işlem kalıcı değildir. inplace argümanını kullanmalıyız
df

Unnamed: 0,maas,departman
0,1.0,IT
1,3.0,
2,6.0,IK
3,,IK
4,7.0,IK
5,1.0,IK
6,,IK
7,9.0,IT
8,15.0,IT


bazı durumlarda kategorik değişkende olsa elimizde belki öncesi veya sonrası değeriyle eksiklik doldurulmak isteniyor olabilir.

- 2. gözlemdeki eksiklik öncesinde "IT", sonrasında "IK" değeri vardır. mod ile doldurmak yerine öncesindeki ya da sonrasındaki değer ile doldurulabilir.

In [12]:
# sonrasındaki değerle doldurmak istediğimizi ifade eden "bfill" parametresini kullanıyoruz. 
df["departman"].fillna(method = "bfill")
# 2. gözlem kendisinden sonra gelen değer ile doldurdu. IK

0    IT
1    IK
2    IK
3    IK
4    IK
5    IK
6    IK
7    IT
8    IT
Name: departman, dtype: object

In [13]:
# önceki değerle doldurma işlemi
df["departman"].fillna(method="ffill")
# 2. gözlem kendisinden önce gelen değer ile doldurdu. IT

0    IT
1    IT
2    IK
3    IK
4    IK
5    IK
6    IK
7    IT
8    IT
Name: departman, dtype: object