In [2]:
import pandas as pd
import numpy as np

In [3]:
s = pd.Series(["ege",np.nan,"ali","eda"])
s

# Series veri tipi oluşturduk.
# NaN ifadesi eksik veriyi ifade ediyor.

0    ege
1    NaN
2    ali
3    eda
dtype: object

In [4]:
s.isnull()

# eksik veri sorgulamayı isnull() methoduyla yapıyoruz.
# True ifadesi eksik veri olan yeri gösterir.

0    False
1     True
2    False
3    False
dtype: bool

In [5]:
s.notnull()

# Bu da tam tersi eksik veri olmayan yerlerde True değeri verir.

0     True
1    False
2     True
3     True
dtype: bool

In [6]:
s[3] = None
s.isnull()

# 3. indekse sahip veriyi NaN değeriyle değiştirdik.

0    False
1     True
2    False
3     True
dtype: bool

In [7]:
s.dropna()

# eksik veriye sahip değerler silindi ve o şekilde yazdırıldı.

0    ege
2    ali
dtype: object

In [8]:
s[s.notnull()]

# şeklinde de aynı işlemi yaparak eksik verileri kaldırabiliriz.

0    ege
2    ali
dtype: object

In [10]:
from numpy import nan as NA

In [11]:
df = pd.DataFrame([[1, 2, 3], [4, NA,5], [NA, NA, NA]])
df

# Dataframe veri setimizi oluşturduk.

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,,5.0
2,,,


In [12]:
df.dropna()

# eksik veri olan satırları dropna() methoduyla sildik.

Unnamed: 0,0,1,2
0,1.0,2.0,3.0


In [13]:
df.dropna(how= "all")

# how= parametresine all değerini atarsak
# sadece bütün verileri NaN olan satır kaldırılır.

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,,5.0


In [14]:
df

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,,5.0
2,,,


In [15]:
df[1] = NA
df

Unnamed: 0,0,1,2
0,1.0,,3.0
1,4.0,,5.0
2,,,


In [16]:
df.dropna(axis= 1, how= "all")

# axis= parametresine 1 değerini vererek
# sütunlarda tarama yapmasını istedik.
# how= parametresine de all değerini atayarak
# sadece sütundaki bütün verilerin NaN olduğunda yazdırılmamasını istedik.

Unnamed: 0,0,2
0,1.0,3.0
1,4.0,5.0
2,,


In [17]:
df

Unnamed: 0,0,1,2
0,1.0,,3.0
1,4.0,,5.0
2,,,


In [18]:
df.dropna(thresh= 1)

# thresh= parametresiyle satırda en az kaç veri bulunduğunda
# ekrana yazdırılması gerektiğini belirledik.
# burada 1 değeriyle satırda 1 veri bulunması durumunda yazdırılmasını istedik.

Unnamed: 0,0,1,2
0,1.0,,3.0
1,4.0,,5.0


In [19]:
df.dropna(thresh= 3)

# 3 değeri de olan bir satır olmadığı için boş yazdırıldı.

Unnamed: 0,0,1,2


In [20]:
df

Unnamed: 0,0,1,2
0,1.0,,3.0
1,4.0,,5.0
2,,,


In [21]:
df.fillna(0)

# fillna() methoduyla eksik verileri doldurabiliyoruz.
# burada NaN değerlerine 0 değerini atadık.

Unnamed: 0,0,1,2
0,1.0,0.0,3.0
1,4.0,0.0,5.0
2,0.0,0.0,0.0


In [22]:
df.fillna({0: 15, 1: 25, 2: 35})

# fillna() methodunda sözlük yapısı kullanarak
# sütunlara göre NaN verisi doldurma işlemi yapabiliriz.
# 0. sütundaki NaN değerine 15,
# 1. sütundaki NaN değerine 25,
# 2. sütundaki NaN değerine 35 atadık.

Unnamed: 0,0,1,2
0,1.0,25.0,3.0
1,4.0,25.0,5.0
2,15.0,25.0,35.0


In [23]:
df

Unnamed: 0,0,1,2
0,1.0,,3.0
1,4.0,,5.0
2,,,


In [24]:
df.fillna({0: 15, 1: 25, 2: 35}, inplace= True)

# inplace= parametresine True değeri atayarak
# yaptığımız değişikliklerin kalıcı olmasını sağlayabiliriz.

In [25]:
df

Unnamed: 0,0,1,2
0,1.0,25.0,3.0
1,4.0,25.0,5.0
2,15.0,25.0,35.0


In [26]:
df = pd.DataFrame([[1, 2, 3], [4, NA,5], [NA, NA, NA]])
df

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,,5.0
2,,,


In [27]:
df.fillna(method= "ffill")

# method= parametresine ffill değeri atarsak
# eksik verilerin doldurulmasını bir üstündeki satıra göre yapılır.

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,2.0,5.0
2,4.0,2.0,5.0


In [28]:
df.fillna(method= "ffill", limit= 1)

# limit= parametresine 1 atarsak
# Doldurma işlemi yaparken sadece 1 üst satırına bakmasını sağlayabiliriz.

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,2.0,5.0
2,4.0,,5.0


In [29]:
veri = pd.Series([1,0,NA,5])
veri

0    1.0
1    0.0
2    NaN
3    5.0
dtype: float64

In [30]:
veri.fillna(veri.mean())

# fillna methodunun içinde mean methodunu kullanarak
# eksik verileri diğer verilerin ortalamasıyla doldurabiliriz.

0    1.0
1    0.0
2    2.0
3    5.0
dtype: float64

In [31]:
df

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,,5.0
2,,,


In [32]:
df.fillna(df.mean())

# dataframe veri tiplerinde de kullanılabillir.
# her sütundaki ortalamaya göre eksik veriler doldurulur.

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,4.0,2.0,5.0
2,2.5,2.0,4.0
