In [2]:
import pandas as pd
import numpy as np

## 널값 처리하는 경우 어는 값을 처리할 것인지를 결정한다.

   일단 첫번째로 처리하고 첫번째가 널이면 두번째 값이 들어간다

In [16]:
help(pd.DataFrame.combine_first)

Help on function combine_first in module pandas.core.frame:

combine_first(self, other)
    Combine two DataFrame objects and default to non-null values in frame
    calling the method. Result index columns will be the union of the
    respective indexes and columns
    
    Parameters
    ----------
    other : DataFrame
    
    Examples
    --------
    a's values prioritized, use values from b to fill holes:
    
    >>> a.combine_first(b)
    
    
    Returns
    -------
    combined : DataFrame



## 두 데이터 셋의 색인이 일부 겹치거나 전체가 겹치는 경우 처리 방식

In [5]:
a = pd.Series([np.nan, 2.5, np.nan, 3.5, 4.5, np.nan], index=['f','e','d','c','b','a'])

In [6]:
a

f    NaN
e    2.5
d    NaN
c    3.5
b    4.5
a    NaN
dtype: float64

In [7]:
b = pd.Series(np.arange(len(a)), dtype=np.float64 , index=['f','e','d','c','b','a'])

In [8]:
b

f    0.0
e    1.0
d    2.0
c    3.0
b    4.0
a    5.0
dtype: float64

In [9]:
b[-1] = np.nan

In [10]:
b

f    0.0
e    1.0
d    2.0
c    3.0
b    4.0
a    NaN
dtype: float64

In [14]:
pd.isnull(a)

f     True
e    False
d     True
c    False
b    False
a     True
dtype: bool

## np.where를 이용해서 컨디션을 체크 

    if else 인 3항 연산자를 처리

In [15]:
np.where(pd.isnull(a),b,a)

array([ 0. ,  2.5,  2. ,  3.5,  4.5,  nan])

In [17]:
b[:-2]

f    0.0
e    1.0
d    2.0
c    3.0
dtype: float64

### combine_first 메소드를 가지고 처리

In [18]:
b[:-2].combine_first(a[2:])

a    NaN
b    4.5
c    3.0
d    2.0
e    1.0
f    0.0
dtype: float64

## 동일한 인덱스와 칼럼에 대해 처리하기

    동일한 인덱스와 칼럼이 동일하게 매칭되므로 값을 구성하도록만 한다.
    

In [21]:
df1 = pd.DataFrame({'a' : [1, np.nan, 5, np.nan],
                    'b': [np.nan, 2, np.nan, 6],
                    'c' : range(2,18,4)})

In [22]:
df1

Unnamed: 0,a,b,c
0,1.0,,2
1,,2.0,6
2,5.0,,10
3,,6.0,14


In [23]:
df2 = pd.DataFrame({'a' : [5,4, np.nan, 3, 7],
                    'b': [np.nan, 3,4, 6,8]})

In [24]:
df2

Unnamed: 0,a,b
0,5.0,
1,4.0,3.0
2,,4.0
3,3.0,6.0
4,7.0,8.0


In [25]:
df1.combine_first(df2)

Unnamed: 0,a,b,c
0,1.0,,2.0
1,4.0,2.0,6.0
2,5.0,4.0,10.0
3,3.0,6.0,14.0
4,7.0,8.0,


### concat 함수는 두개를 축으로만 연결한다.


In [26]:
pd.concat([df1,df2])

Unnamed: 0,a,b,c
0,1.0,,2.0
1,,2.0,6.0
2,5.0,,10.0
3,,6.0,14.0
0,5.0,,
1,4.0,3.0,
2,,4.0,
3,3.0,6.0,
4,7.0,8.0,


### concat함수를  조인을 해도 정체 인덱스 처리

In [28]:
pd.concat([df1,df2],join='inner')

Unnamed: 0,a,b
0,1.0,
1,,2.0
2,5.0,
3,,6.0
0,5.0,
1,4.0,3.0
2,,4.0
3,3.0,6.0
4,7.0,8.0
