## Değer Atama Yöntemleri

In [1]:
import numpy as np
import pandas as pd

In [2]:
V1 = np.array([1,3,6,np.NaN,7,1,np.NaN,9,15])

In [3]:
V2 = np.array([7,np.NaN,5,8,12,np.NaN,np.NaN,2,3])

In [4]:
V3 = np.array([np.NaN,12,5,6,14,7,np.NaN,2,31])

In [5]:
df = pd.DataFrame(
    
        {"V1" : V1,
         "V2" : V2,
         "V3" : V3}        
)

In [6]:
df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,,12.0
2,6.0,5.0,5.0
3,,8.0,6.0
4,7.0,12.0,14.0
5,1.0,,7.0
6,,,
7,9.0,2.0,2.0
8,15.0,3.0,31.0


## Sayısal Değişkenlerde Atama

In [7]:
df["V1"]

0     1.0
1     3.0
2     6.0
3     NaN
4     7.0
5     1.0
6     NaN
7     9.0
8    15.0
Name: V1, dtype: float64

In [8]:
# V1 değişkenindeki boşlukları 0 ile dolduralım.
df["V1"].fillna(0)

0     1.0
1     3.0
2     6.0
3     0.0
4     7.0
5     1.0
6     0.0
7     9.0
8    15.0
Name: V1, dtype: float64

In [9]:
df # verinin orijinal yapısında bir değişiklik yoktur.

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,,12.0
2,6.0,5.0,5.0
3,,8.0,6.0
4,7.0,12.0,14.0
5,1.0,,7.0
6,,,
7,9.0,2.0,2.0
8,15.0,3.0,31.0


In [10]:
# V1 değişkenindeki boşlukları ortalamasıyla ile dolduralım.
df["V1"].fillna(df["V1"].mean())

0     1.0
1     3.0
2     6.0
3     6.0
4     7.0
5     1.0
6     6.0
7     9.0
8    15.0
Name: V1, dtype: float64

## Tüm değişkenler için birinci yol

In [15]:
# tüm değişkenleri kendi ortalamasıyla dolduralım.
# x, sütunları ifade eder.
# x.fillna(x.mean()): x değişkeni eksik değerlerini kendi ortalamasıyla doldursun.
df.apply(lambda x: x.fillna(x.mean()), axis=0)
# bütün değişkenler kendi eksikliklerini kendi ortalamalarıyla doldurmuş oldu.

Unnamed: 0,V1,V2,V3
0,1.0,7.0,11.0
1,3.0,6.166667,12.0
2,6.0,5.0,5.0
3,6.0,8.0,6.0
4,7.0,12.0,14.0
5,1.0,6.166667,7.0
6,6.0,6.166667,11.0
7,9.0,2.0,2.0
8,15.0,3.0,31.0


`df.apply(lambda x: x.fillna(x.mean()), axis=0)` satırı, pandas DataFrame'inizi sütun sütun işleyen bir işlemi ifade eder. Kodun işleyişini adım adım açıklayalım:

1. `df.apply()`: Bu, DataFrame'in her sütunu üzerinde belirli bir işlem yapmamıza olanak tanır.

2. `lambda x: x.fillna(x.mean())`: Bu bir lambda fonksiyonu (anonim fonksiyon) tanımlar. Bu lambda fonksiyonu, bir sütun serisi (`x`) alır ve bu sütundaki eksik değerleri (`NaN` değerleri) sütunun ortalamasıyla doldurur. Yani her sütunun eksik değerleri sütunun ortalamasıyla doldurulur.

3. `axis=0`: Bu, `apply` işleminin sütunlara (yatay eksende) uygulandığını belirtir. Eğer `axis=1` olsaydı, işlem satırlara (dikey eksende) uygulanırdı.

**Axis Parametresi Açıklaması:**

Axis parametresi, pandas DataFrame veya numpy array'lerde işlemler yaparken hangi eksende (yani satır veya sütunlarda) işlemin uygulanacağını belirlemek için kullanılır.

- `axis=0` (veya `'index'`): Bu, sütunları temsil eder. Bir işlemi sütunlar üzerinde uygulamak istediğinizde kullanılır.

- `axis=1` (veya `'columns'`): Bu, satırları temsil eder. Bir işlemi satırlar üzerinde uygulamak istediğinizde kullanılır.

**Örneklerle Axis Parametresi:**

Örneğin, aşağıdaki DataFrame'i düşünelim:

```python
import pandas as pd

data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}

df = pd.DataFrame(data)
```

- `df.sum(axis=0)` veya `df.sum()` sütun toplamlarını hesaplar: `A` sütunu toplamı: 1 + 2 + 3 = 6, `B` sütunu toplamı: 4 + 5 + 6 = 15.

- `df.sum(axis=1)` satır toplamlarını hesaplar: 1 + 4 = 5, 2 + 5 = 7, 3 + 6 = 9.

Bu örneklerde, `axis` parametresini kullanarak işlemin hangi eksende yapılacağını belirledik.

Elbette, aşağıda daha ayrıntılı örneklerle açıklamaya çalışayım:

Öncelikle, bir DataFrame düşünelim:

```python
import pandas as pd

data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}

df = pd.DataFrame(data)
```

Bu DataFrame:

```
   A  B
0  1  4
1  2  5
2  3  6
```

Şimdi, `apply` fonksiyonunu ve `axis` parametresini kullanarak farklı işlemleri inceleyelim:

**Örnek 1: `axis=0` (Sütunlar üzerinde işlem)**

```python
result = df.apply(lambda x: x.sum(), axis=0)
```

Bu kod, her sütunun toplamını hesaplar. Sonuç:

```
A     6
B    15
dtype: int64
```

**Örnek 2: `axis=1` (Satırlar üzerinde işlem)**

```python
result = df.apply(lambda x: x.sum(), axis=1)
```

Bu kod, her satırın içindeki değerlerin toplamını hesaplar. Sonuç:

```
0     5
1     7
2     9
dtype: int64
```

**Örnek 3: İşlemi Sütunlar ve Satırlar Üzerinde Kullanmak**

```python
result_columns = df.apply(lambda x: x.sum(), axis=0)
result_rows = df.apply(lambda x: x.sum(), axis=1)
```

Bu kod, hem sütunlar hem de satırlar üzerinde aynı işlemi gerçekleştirir. `result_columns` sütunların toplamlarını içerirken, `result_rows` satırların toplamlarını içerir.

İşte bu örnekler, `axis` parametresini daha iyi anlamanıza yardımcı olabilir. `axis=0` sütunlar üzerinde işlem yaparken, `axis=1` satırlar üzerinde işlem yapar. Hangi eksende işlem yapmanız gerektiğini belirlemek, hangi sonuçları elde etmek istediğinize bağlıdır.

## Tüm değişkenler için ikinci yol

In [19]:
# df.fillna(): bütün değişkenlerde bir doldurma işlemi yapacağını bilir. 
# çünkü vektörel bir fonksiyondur.
# neye göre dolduracağını ise
# df üzerinden bir mean() fonksiyonu kullanarak
# yani her bir değişkenin ortalamasını hesaplama işlemine sokarak gerçekleştirir.
df.fillna(df.mean())

Unnamed: 0,V1,V2,V3
0,1.0,7.0,11.0
1,3.0,6.166667,12.0
2,6.0,5.0,5.0
3,6.0,8.0,6.0
4,7.0,12.0,14.0
5,1.0,6.166667,7.0
6,6.0,6.166667,11.0
7,9.0,2.0,2.0
8,15.0,3.0,31.0


- Değişkenlerin dağılımına baktığımızda gözlemlediğimiz şey, V1 ve V2 değişkenlerinin dağılımlarının düzgün, simetrik ve normal standart dağılım eğiliminde olduğudur. Bu durumda bu değişkenleri ortalamayla doldurmak mantıklıdır. Eğer dağılımlar simetrikse,
- Sağa çarpık veya sola çarpık bir yapısal bozukluk varsa, bu sayısal değişkenlerin yapısında. Bu durumda, bu değişkenleri ortalamayla doldurmak mantıklı değildir.

Bu durumda bu fillna fonksiyonu çalıştırıldığında hepsine ortalama değeri atandı. peki bazılarına ortalama, bazılarına medyan değeri atamak istiyorsam.

In [20]:
# 1 ve 2. değişkene ortalamaya göre atama yapalım, 3. değişkene atama yapmayalım
df.fillna(df.mean()["V1":"V2"])

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,6.166667,12.0
2,6.0,5.0,5.0
3,6.0,8.0,6.0
4,7.0,12.0,14.0
5,1.0,6.166667,7.0
6,6.0,6.166667,
7,9.0,2.0,2.0
8,15.0,3.0,31.0


In [21]:
# 3. değişkene medyana göre atama yapalım
df["V3"].fillna(df["V3"].median())

0     7.0
1    12.0
2     5.0
3     6.0
4    14.0
5     7.0
6     7.0
7     2.0
8    31.0
Name: V3, dtype: float64

## Tüm değişkenler için üçüncü yol

In [22]:
df.where(pd.notna(df), df.mean(), axis="columns")

Unnamed: 0,V1,V2,V3
0,1.0,7.0,11.0
1,3.0,6.166667,12.0
2,6.0,5.0,5.0
3,6.0,8.0,6.0
4,7.0,12.0,14.0
5,1.0,6.166667,7.0
6,6.0,6.166667,11.0
7,9.0,2.0,2.0
8,15.0,3.0,31.0


pd.notna(df): yakalamış olduğu DataFrame'in içerisindeki eksik değerlerin yerine o değişkenlerin ortalamasını yerleştirmiş oluyor. df.mean()

Bu kod, Pandas kütüphanesini kullanarak veri çerçevesinde (DataFrame) eksik değerleri doldurmak veya değiştirmek için kullanılır. Özellikle, bu kod satırda eksik (NaN) değerleri veri çerçevesinin sütun ortalamaları ile doldurur.

İşlevin adım adım açıklaması:

1. `df`: Bu değişken, işlem yapılacak olan veri çerçevesini (DataFrame) temsil eder.

2. `pd.notna(df)`: Bu ifade, veri çerçevesindeki her bir hücrenin boş olup olmadığını kontrol eder ve sonuç olarak boolean (True/False) bir DataFrame üretir. Eksik olmayan hücreler True olarak işaretlenirken, eksik hücreler False olarak işaretlenir.

3. `df.mean()`: Bu ifade, her sütunun ortalama değerini hesaplar. Bu, eksik olmayan hücrelerin ortalamasını alırken, eksik hücreler (NaN) hesaplamalarda dikkate alınmaz.

4. `df.where(...)`: Bu yöntem, bir koşulu sağlayan hücreleri korurken, koşulu sağlamayan hücreleri belirli bir değerle değiştirir. Bu durumda, koşul eksik olmayan hücrelerdir (True). Eksik olmayan hücreler aynen bırakılırken, koşulu sağlamayan yüksekliğe (False) sahip hücreler ise ortalama değerle değiştirilir.

5. `axis="columns"`: Bu parametre, işlemin sütunlar boyunca yapılacağını belirtir. Yani her sütunun ortalama değeri ile doldurulur.

Sonuç olarak, kod satırı, veri çerçevesindeki eksik değerleri her sütunun ortalama değeri ile doldururken, eksik olmayan değerleri dokunmadan bırakır.