누락된 데이터를 정리할 때면 어떤 경우에는 dropna를 사용해서 데이터를 살벼보고 걸러내기도 한다.<br/>
하지만 다른 경우에는 누락된 값을 고정된 값이나 혹은 데이터로부터 도출된 어떤 값으로 채우고 싶을 때도 있다.<br/>
이런 경우에 `fillna` 메서드를 사용하는데, 다음은 누락된 값을 평균 값으로 대체하는 예제다.

In [1]:
s = pd.Series(np.random.randn(6))

In [3]:
s[::2] = np.NAN

In [4]:
s

0         NaN
1   -0.046758
2         NaN
3   -2.278192
4         NaN
5    0.568012
dtype: float64

In [5]:
s.fillna(s.mean())

0   -0.585646
1   -0.046758
2   -0.585646
3   -2.278192
4   -0.585646
5    0.568012
dtype: float64

그룹별로 채워 넣고 싶은 값이 다르다고 하자.<br/>
짐작할 수 있듯이 데이터를 그룹으로 나누고 apply 함수를 사용해서 각 그룹에 대해 `fillna`를 적용하면 된다.<br/>
여기서 사용된 데이터는 동부와 서부로 나눈 미국의 주에 대한 데이터다.

In [6]:
states = ['Ohio','New York','Vermont','Florida',
         'Oregno','Nevada','California','Idaho']

In [7]:
group_key = ['East']*4+['West']*4

In [8]:
data = pd.Series(np.random.randn(8), index=states)

In [19]:
data[['Vermont','Nevada','Idaho']]=np.NAN

In [20]:
data

Ohio          0.741382
New York      1.618000
Vermont            NaN
Florida       0.227586
Oregno       -0.271508
Nevada             NaN
California   -2.324001
Idaho              NaN
dtype: float64

In [14]:
data.groupby(group_key).mean()

East    0.862323
West   -1.297754
dtype: float64

In [16]:
fill_mean = lambda g : g.fillna(g.mean())

In [17]:
data.groupby(group_key).apply(fill_mean)

Ohio          0.741382
New York      1.618000
Vermont       0.862323
Florida       0.227586
Oregno       -0.271508
Nevada       -1.297754
California   -2.324001
Idaho        -1.297754
dtype: float64

In [21]:
data

Ohio          0.741382
New York      1.618000
Vermont            NaN
Florida       0.227586
Oregno       -0.271508
Nevada             NaN
California   -2.324001
Idaho              NaN
dtype: float64

In [22]:
data.groupby(group_key).apply(lambda g : g.fillna(g.mean()))

Ohio          0.741382
New York      1.618000
Vermont       0.862323
Florida       0.227586
Oregno       -0.271508
Nevada       -1.297754
California   -2.324001
Idaho        -1.297754
dtype: float64

아니면 그룹에 따라 미리 정의된 다른 값을 채워 넣어야 할 경우도 있다. 각 그룹은 내부적으로 `name` 이라는 속성을 갖고 있으므로 이를 이용하자.

In [23]:
fill_values = {'East':0.5,'West':-1}

In [24]:
fill_func = lambda g : g.fillna(fill_values[g.name])

In [26]:
data

Ohio          0.741382
New York      1.618000
Vermont            NaN
Florida       0.227586
Oregno       -0.271508
Nevada             NaN
California   -2.324001
Idaho              NaN
dtype: float64

In [27]:
data.groupby(group_key).apply(fill_func)

Ohio          0.741382
New York      1.618000
Vermont       0.500000
Florida       0.227586
Oregno       -0.271508
Nevada       -1.000000
California   -2.324001
Idaho        -1.000000
dtype: float64

In [28]:
city = ['seoul','jeju','dokdo','daejeon',
       'new york','las vegas','los angeles','boston']

In [29]:
grouping_key = ['korea']*4+['USA']*4

In [31]:
data = pd.Series(np.random.randn(8), index=city)

In [32]:
data

seoul         -1.856407
jeju           0.153164
dokdo          1.037231
daejeon       -0.779294
new york      -0.400006
las vegas     -0.799853
los angeles    0.688605
boston        -0.108650
dtype: float64

In [35]:
data[['seoul','dokdo','las vegas','boston']]=np.NAN

In [36]:
data.groupby(grouping_key).count()

USA      2
korea    2
dtype: int64

In [37]:
data

seoul               NaN
jeju           0.153164
dokdo               NaN
daejeon       -0.779294
new york      -0.400006
las vegas           NaN
los angeles    0.688605
boston              NaN
dtype: float64

In [39]:
data.groupby(grouping_key).apply(lambda c : c.fillna(c.mean()))

seoul         -0.313065
jeju           0.153164
dokdo         -0.313065
daejeon       -0.779294
new york      -0.400006
las vegas      0.144299
los angeles    0.688605
boston         0.144299
dtype: float64

In [40]:
city_fill_values = {'korea':0.2,'USA':0.8}

In [43]:
city_fill_values['korea']

0.2

In [44]:
data.groupby(grouping_key).apply(lambda c : c.fillna(city_fill_values[c.name]))

seoul          0.200000
jeju           0.153164
dokdo          0.200000
daejeon       -0.779294
new york      -0.400006
las vegas      0.800000
los angeles    0.688605
boston         0.800000
dtype: float64