# Eksik Veri İşlemleri


**Eksik Veri Türleri:**

- NaN (Not a Number): Sayısal olmayan verilerdeki eksik değerleri ifade eder.
- None: Python'da genel eksik değer ifadesidir. Özellikle liste veya sözlük gibi veri yapılarında kullanılır.

## Eksik Veri Kontrolü

**"isnull()" ve "notnull()" Metotları:**

Bu metotlar, DataFrame veya Series içindeki her bir hücre için eksik veri kontrolü yapmanızı sağlar. isnull() bir hücrede eksik veri varsa True, yoksa False döner. notnull() ise eksik veri varsa False, yoksa True döner.

In [1]:
import pandas as pd

data = {'Column1': [1, 2, None, 4, 5],
        'Column2': [None, 'A', 'B', 'C', 'D']}

df = pd.DataFrame(data)
df

Unnamed: 0,Column1,Column2
0,1.0,
1,2.0,A
2,,B
3,4.0,C
4,5.0,D


In [2]:
df.isnull()   # Eksik veri varsa True, yoksa False

Unnamed: 0,Column1,Column2
0,False,True
1,False,False
2,True,False
3,False,False
4,False,False


In [3]:
df.notnull()  # Eksik veri varsa False, yoksa True

Unnamed: 0,Column1,Column2
0,True,False
1,True,True
2,False,True
3,True,True
4,True,True


**"any()" Metodu:**

Bu metot, DataFrame'in herhangi bir sütununda eksik veri olup olmadığını kontrol eder. Herhangi bir sütunda en az bir eksik veri varsa sonuç True olur, aksi halde False olur.

In [4]:
df.any()  # Herhangi bir sütunda eksik veri varsa True

Column1    True
Column2    True
dtype: bool

**"sum()" Metodu:**

Bu metot, her bir sütundaki eksik veri sayısını hesaplar. Sütun bazında toplam eksik veri sayısını verir.

In [5]:
df.isnull().sum()  # Her sütundaki eksik veri sayısını gösterir

Column1    1
Column2    1
dtype: int64

Toplam eksik veri sayısını öğrenmek için, **sum()** metoduyla her sütundaki eksik veri sayısını toplayabilirsiniz.

In [6]:
df.isnull().sum().sum()

2

## Eksik Veri İşlemleri

**Eksik Veri Silme:**

Eğer eksik veri sayısı çok azsa veya veri setinizdeki eksik verilerin analiz sonuçlarını ciddi şekilde etkilemeyeceğini düşünüyorsanız, eksik verilere sahip satırları veya sütunları silmeyi tercih edebilirsiniz. **dropna()** fonksiyonunu kullanarak bu işlemi gerçekleştirebilirsiniz.

In [7]:
df.dropna()  # Eksik verilere sahip satırları siler

Unnamed: 0,Column1,Column2
1,2.0,A
3,4.0,C
4,5.0,D


**Eksik Veri Doldurma:**

Eksik verileri silmek yerine, bu verileri bazı değerlerle doldurarak analizinize dahil edebilirsiniz. **fillna()** fonksiyonu bu amaçla kullanılır. Örneğin, ortalama değer, medyan veya belirli bir sabit değerle doldurma yapabilirsiniz.

In [8]:
df.fillna('Unknown')  # Eksik verileri 'Unknown' ile doldurur

Unnamed: 0,Column1,Column2
0,1.0,Unknown
1,2.0,A
2,Unknown,B
3,4.0,C
4,5.0,D


**Eksik Veri İnterpolasyon:**

Eksik verileri yakındaki değerleri kullanarak tahmin ederek doldurmak isterseniz, **interpolate()** fonksiyonunu kullanabilirsiniz. Bu özellikle zaman serisi verilerinde yaygın olarak kullanılır.

In [11]:
df.interpolate()  # Eksik verileri yakındaki değerlerle tahmin ederek doldurur

Unnamed: 0,Column1,Column2
0,1.0,
1,2.0,A
2,3.0,B
3,4.0,C
4,5.0,D


**Eksik Verileri Gruplama ve İstatistiksel İşlemlerle Ele Alma:**

Eksik verileri gruplayarak veya istatistiksel hesaplamalar yaparken, bu hesaplamaları eksik verileri dikkate almadan yapabilirsiniz.

In [15]:
import pandas as pd

data = {'Product': ['A', 'B', 'A', 'C', 'B', 'C'],
        'Category': ['Electronics', 'Clothing', 'Electronics', 'Home', 'Clothing', 'Home'],
        'Sales': [100, 200, None, 150, 180, None]}

df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)

# Eksik verileri sütun ortalamasıyla dolduruyoruz
mean_sales = df['Sales'].mean()
df['Sales'].fillna(mean_sales, inplace=True)

print("\nDataFrame with Missing Values Filled:")
print(df)

# Kategoriye göre ortalama satışları hesaplıyoruz
mean_by_category = df.groupby('Category')['Sales'].mean()
print("\nMean Sales by Category:")
print(mean_by_category)


Original DataFrame:
  Product     Category  Sales
0       A  Electronics  100.0
1       B     Clothing  200.0
2       A  Electronics    NaN
3       C         Home  150.0
4       B     Clothing  180.0
5       C         Home    NaN

DataFrame with Missing Values Filled:
  Product     Category  Sales
0       A  Electronics  100.0
1       B     Clothing  200.0
2       A  Electronics  157.5
3       C         Home  150.0
4       B     Clothing  180.0
5       C         Home  157.5

Mean Sales by Category:
Category
Clothing       190.00
Electronics    128.75
Home           153.75
Name: Sales, dtype: float64
