In [1]:
import numpy as np
import pandas as pd
pd.set_option('display.notebook_repr_html',False)
pd.set_option('display.max_columns',10)
pd.set_option('display.max_rows',10)


In [3]:
df = pd.DataFrame(np.arange(0,15).reshape(5,3),index=['a','b','c','d','e'],columns=['c1','c2','c3'])
df

   c1  c2  c3
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14

In [5]:
df['c4']=np.nan
df.loc['f']=np.arange(15,19)
df.loc['g']=np.nan
df['c5']=np.nan
df['c4']['a']=20
df

   c1  c2  c3  c4  c5
a   0   1   2  20 NaN
b   3   4   5 NaN NaN
c   6   7   8 NaN NaN
d   9  10  11 NaN NaN
e  12  13  14 NaN NaN
f  15  16  17  18 NaN
g NaN NaN NaN NaN NaN

In [6]:
df.isnull()

      c1     c2     c3     c4    c5
a  False  False  False  False  True
b  False  False  False   True  True
c  False  False  False   True  True
d  False  False  False   True  True
e  False  False  False   True  True
f  False  False  False  False  True
g   True   True   True   True  True

In [7]:
df.isnull().sum()

c1    1
c2    1
c3    1
c4    5
c5    7
dtype: int64

In [8]:
df.isnull().sum().sum()

15

In [9]:
#non-nan value
df.count()

c1    6
c2    6
c3    6
c4    2
c5    0
dtype: int64

In [10]:
(len(df)-df.count()).sum()

15

In [11]:
df.notnull()

      c1     c2     c3     c4     c5
a   True   True   True   True  False
b   True   True   True  False  False
c   True   True   True  False  False
d   True   True   True  False  False
e   True   True   True  False  False
f   True   True   True   True  False
g  False  False  False  False  False

In [12]:
#select non-nan items in column c4
df.c4[df.c4.notnull()]

a    20
f    18
Name: c4, dtype: float64

In [13]:
df.c4.dropna()

a    20
f    18
Name: c4, dtype: float64

In [15]:
df.c4

a    20
b   NaN
c   NaN
d   NaN
e   NaN
f    18
g   NaN
Name: c4, dtype: float64

In [16]:
#this will drop all row with at least one na.
df.dropna()

Empty DataFrame
Columns: [c1, c2, c3, c4, c5]
Index: []

In [17]:
#drop only all elem are nan. here we drop row g.
df.dropna(how='all')

   c1  c2  c3  c4  c5
a   0   1   2  20 NaN
b   3   4   5 NaN NaN
c   6   7   8 NaN NaN
d   9  10  11 NaN NaN
e  12  13  14 NaN NaN
f  15  16  17  18 NaN

In [18]:
df.dropna(how='all',axis=1)

   c1  c2  c3  c4
a   0   1   2  20
b   3   4   5 NaN
c   6   7   8 NaN
d   9  10  11 NaN
e  12  13  14 NaN
f  15  16  17  18
g NaN NaN NaN NaN

In [19]:
df2=df.copy()
df2.ix['g'].c1=0
df2

   c1  c2  c3  c4  c5
a   0   1   2  20 NaN
b   3   4   5 NaN NaN
c   6   7   8 NaN NaN
d   9  10  11 NaN NaN
e  12  13  14 NaN NaN
f  15  16  17  18 NaN
g   0 NaN NaN NaN NaN

In [21]:
df2.dropna(how='any',axis=1)

   c1
a   0
b   3
c   6
d   9
e  12
f  15
g   0

In [22]:
#threshoold value. How any nans at least.  you can change it in-place using inplace=True
df2.dropna(thresh=5,axis=1)

   c1  c2  c3
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14
f  15  16  17
g   0 NaN NaN

In [23]:
#pandas series ignore nan values.
a=np.array([1,2,np.nan,3])
s=pd.Series(a)
a.mean(),s.mean()

(nan, 2.0)

In [24]:
filled = df.fillna(0)
filled

   c1  c2  c3  c4  c5
a   0   1   2  20   0
b   3   4   5   0   0
c   6   7   8   0   0
d   9  10  11   0   0
e  12  13  14   0   0
f  15  16  17  18   0
g   0   0   0   0   0

In [25]:
filled.mean()

c1    6.428571
c2    7.285714
c3    8.142857
c4    5.428571
c5    0.000000
dtype: float64

In [26]:
#limit the number to fill na
df.fillna(0,limit=2)

   c1  c2  c3  c4  c5
a   0   1   2  20   0
b   3   4   5   0   0
c   6   7   8   0 NaN
d   9  10  11 NaN NaN
e  12  13  14 NaN NaN
f  15  16  17  18 NaN
g   0   0   0 NaN NaN

In [27]:
df

   c1  c2  c3  c4  c5
a   0   1   2  20 NaN
b   3   4   5 NaN NaN
c   6   7   8 NaN NaN
d   9  10  11 NaN NaN
e  12  13  14 NaN NaN
f  15  16  17  18 NaN
g NaN NaN NaN NaN NaN

In [28]:
df.c4.fillna(method='ffill')

a    20
b    20
c    20
d    20
e    20
f    18
g    18
Name: c4, dtype: float64

In [29]:
df.c4.fillna(method='bfill')

a    20
b    18
c    18
d    18
e    18
f    18
g   NaN
Name: c4, dtype: float64

In [30]:
#create a new series, and put in df
fill_val = pd.Series([100,101],index=['a','e'])
df.c4.fillna(fill_val)


a     20
b    NaN
c    NaN
d    NaN
e    101
f     18
g    NaN
Name: c4, dtype: float64

In [31]:
df

   c1  c2  c3  c4  c5
a   0   1   2  20 NaN
b   3   4   5 NaN NaN
c   6   7   8 NaN NaN
d   9  10  11 NaN NaN
e  12  13  14 NaN NaN
f  15  16  17  18 NaN
g NaN NaN NaN NaN NaN

In [32]:
df.mean()

c1     7.5
c2     8.5
c3     9.5
c4    19.0
c5     NaN
dtype: float64

In [33]:
df.fillna(df.mean())

     c1    c2    c3  c4  c5
a   0.0   1.0   2.0  20 NaN
b   3.0   4.0   5.0  19 NaN
c   6.0   7.0   8.0  19 NaN
d   9.0  10.0  11.0  19 NaN
e  12.0  13.0  14.0  19 NaN
f  15.0  16.0  17.0  18 NaN
g   7.5   8.5   9.5  19 NaN

In [34]:
#interpolation
s=pd.Series([1,np.nan,np.nan,np.nan,2])
s.interpolate()

0    1.00
1    1.25
2    1.50
3    1.75
4    2.00
dtype: float64

In [35]:
#handling duplicate data
data = pd.DataFrame({'a':['x']*3+['y']*4,'b':[1,2,3,4,4,4,4]})
data

   a  b
0  x  1
1  x  2
2  x  3
3  y  4
4  y  4
5  y  4
6  y  4

In [36]:
data.duplicated()

0    False
1    False
2    False
3    False
4     True
5     True
6     True
dtype: bool

In [37]:
data.drop_duplicates()

   a  b
0  x  1
1  x  2
2  x  3
3  y  4

In [38]:
data.drop_duplicates(take_last=True)

   a  b
0  x  1
1  x  2
2  x  3
6  y  4

In [39]:
data['c']=range(7)
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
dtype: bool

In [40]:
data.drop_duplicates(['a','b'])
#if a and b are identical drop it

   a  b  c
0  x  1  0
1  x  2  1
2  x  3  2
3  y  4  3