In [1]:
import pandas as pd
import numpy as np

In [2]:
data = np.random.randint(10,100,15).reshape(5,3)
data

array([[74, 89, 44],
       [60, 62, 66],
       [45, 29, 94],
       [61, 66, 97],
       [93, 72, 32]])

In [3]:
df = pd.DataFrame(data,index=["a","c","e","f","h"],columns=["Col1","Col2","Col3"])
df

Unnamed: 0,Col1,Col2,Col3
a,74,89,44
c,60,62,66
e,45,29,94
f,61,66,97
h,93,72,32


In [4]:
df = df.reindex(["a","b","c","d","e","f","g","h"])
df

Unnamed: 0,Col1,Col2,Col3
a,74.0,89.0,44.0
b,,,
c,60.0,62.0,66.0
d,,,
e,45.0,29.0,94.0
f,61.0,66.0,97.0
g,,,
h,93.0,72.0,32.0


In [5]:
df["Col4"] = [np.nan,30,np.nan,50,np.nan,20,np.nan,10]
df

Unnamed: 0,Col1,Col2,Col3,Col4
a,74.0,89.0,44.0,
b,,,,30.0
c,60.0,62.0,66.0,
d,,,,50.0
e,45.0,29.0,94.0,
f,61.0,66.0,97.0,20.0
g,,,,
h,93.0,72.0,32.0,10.0


In [7]:
null_check = df.isnull() # null olanarı(nan,NaN) True olmayanları False yaparak gösterir.
null_check

Unnamed: 0,Col1,Col2,Col3,Col4
a,False,False,False,True
b,True,True,True,False
c,False,False,False,True
d,True,True,True,False
e,False,False,False,True
f,False,False,False,False
g,True,True,True,True
h,False,False,False,False


In [8]:
null_check = df.notnull() # null olanarı(nan,NaN) False olmayanları True yaparak gösterir.
null_check

Unnamed: 0,Col1,Col2,Col3,Col4
a,True,True,True,False
b,False,False,False,True
c,True,True,True,False
d,False,False,False,True
e,True,True,True,False
f,True,True,True,True
g,False,False,False,False
h,True,True,True,True


In [9]:
# eksik veri olmayan satırları listele satıra göre
result = df.dropna()
result

Unnamed: 0,Col1,Col2,Col3,Col4
f,61.0,66.0,97.0,20.0
h,93.0,72.0,32.0,10.0


In [12]:
# eksik veri olmayan satırları listele kolona göre
result = df.dropna(axis=1)
result

a
b
c
d
e
f
g
h


In [13]:
result = df.dropna(how="all") # tamamı NaN olan satırları sil
result

Unnamed: 0,Col1,Col2,Col3,Col4
a,74.0,89.0,44.0,
b,,,,30.0
c,60.0,62.0,66.0,
d,,,,50.0
e,45.0,29.0,94.0,
f,61.0,66.0,97.0,20.0
h,93.0,72.0,32.0,10.0


In [16]:
# Col1 ve COl2 kolonlarının 2 sinde de eksik olanları sil.
result = df.dropna(subset=["Col1","Col2"],how="all")
result

Unnamed: 0,Col1,Col2,Col3,Col4
a,74.0,89.0,44.0,
c,60.0,62.0,66.0,
e,45.0,29.0,94.0,
f,61.0,66.0,97.0,20.0
h,93.0,72.0,32.0,10.0


In [17]:
df

Unnamed: 0,Col1,Col2,Col3,Col4
a,74.0,89.0,44.0,
b,,,,30.0
c,60.0,62.0,66.0,
d,,,,50.0
e,45.0,29.0,94.0,
f,61.0,66.0,97.0,20.0
g,,,,
h,93.0,72.0,32.0,10.0


In [18]:
# Col1 ve COl2 kolonlarınında ikisi de NaN olanları sil.
result = df.dropna(subset=["Col1","Col2"],how="any")
result

Unnamed: 0,Col1,Col2,Col3,Col4
a,74.0,89.0,44.0,
c,60.0,62.0,66.0,
e,45.0,29.0,94.0,
f,61.0,66.0,97.0,20.0
h,93.0,72.0,32.0,10.0


In [19]:
df

Unnamed: 0,Col1,Col2,Col3,Col4
a,74.0,89.0,44.0,
b,,,,30.0
c,60.0,62.0,66.0,
d,,,,50.0
e,45.0,29.0,94.0,
f,61.0,66.0,97.0,20.0
g,,,,
h,93.0,72.0,32.0,10.0


In [20]:
# satırda en az 2 adet veri olmalı yoksa sil.
result = df.dropna(thresh=2)
result

Unnamed: 0,Col1,Col2,Col3,Col4
a,74.0,89.0,44.0,
c,60.0,62.0,66.0,
e,45.0,29.0,94.0,
f,61.0,66.0,97.0,20.0
h,93.0,72.0,32.0,10.0


In [22]:
result = df.fillna(value="NO_DATA") # NaN olanları NO_DATA olarak değiştir.
result

Unnamed: 0,Col1,Col2,Col3,Col4
a,74.0,89.0,44.0,NO_DATA
b,NO_DATA,NO_DATA,NO_DATA,30.0
c,60.0,62.0,66.0,NO_DATA
d,NO_DATA,NO_DATA,NO_DATA,50.0
e,45.0,29.0,94.0,NO_DATA
f,61.0,66.0,97.0,20.0
g,NO_DATA,NO_DATA,NO_DATA,NO_DATA
h,93.0,72.0,32.0,10.0


In [23]:
def ortlama(df):
    toplam = df.sum().sum()
    adet = df.size - df.isnull().sum().sum()
    return toplam/adet

In [24]:
# Tablodaki hücrelerin oralama değerlerini gir.
result = df.fillna(value=ortlama(df))
result

Unnamed: 0,Col1,Col2,Col3,Col4
a,74.0,89.0,44.0,57.578947
b,57.578947,57.578947,57.578947,30.0
c,60.0,62.0,66.0,57.578947
d,57.578947,57.578947,57.578947,50.0
e,45.0,29.0,94.0,57.578947
f,61.0,66.0,97.0,20.0
g,57.578947,57.578947,57.578947,57.578947
h,93.0,72.0,32.0,10.0
