## Pandas 다루기 - 2
지난 시간에 판다스의 시리즈, 데이터 프레임의 개념과 기본 사용 방법을 알아보았다.  
이번 시간에는 판다스의 더 심화된 고급 기능 사용 방법들에 대해서 알아보겠다.  

## Multilevel Indexing

먼저 지난 시간에는 2009년 알콜 소비량만 담고 있는 데이터를 사용하였는데,  
여기서 확장하여 연도별 알콜 소비량을 csv 파일을 읽어와 데이터 프레임을 만든다.  
그리고 인덱스로 State와 Year 두 가지 컬럼을 지정해준다.  

In [19]:
import pandas as pd

df = pd.read_csv('niaaa-report.csv', index_col=['State', 'Year'])
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Beer,Wine,Spirits
State,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,1977,0.99,0.13,0.84
Alabama,1978,0.98,0.12,0.88
Alabama,1979,0.98,0.12,0.84
Alabama,1980,0.96,0.16,0.74
Alabama,1981,1.0,0.19,0.73


두 컬럼으로 인덱싱이 걸려있으므로, 이 둘을 활용하여 데이터 접근이 가능하다.

In [9]:
df.loc['Alabama'].head()

Unnamed: 0_level_0,Beer,Wine,Spirits
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1977,0.99,0.13,0.84
1978,0.98,0.12,0.88
1979,0.98,0.12,0.84
1980,0.96,0.16,0.74
1981,1.0,0.19,0.73


In [10]:
df.loc[('Alabama', 1999)]

Beer       1.18
Wine       0.17
Spirits    0.51
Name: (Alabama, 1999), dtype: float64

In [18]:
df.loc[('Alabama', 2008):('Alaska', 1978)]

Unnamed: 0_level_0,Unnamed: 1_level_0,Beer,Wine,Spirits
State,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,2008,1.24,0.22,0.58
Alabama,2009,1.2,0.22,0.58
Alaska,1977,1.19,0.42,1.7
Alaska,1978,1.39,0.45,1.68


## 결측치 다루기
머신러닝 프로젝트를 진행할 때 가장 먼저 확인하는 것은  
데이터의 결측치가 있는지 여부이다.  
판다스의 다양한 함수들을 통해 결측치를 확인하고, 이를 적절히 처리할 수 있다.  
이를 위해서 먼저 nan 값을 포함한 데이터 프레임을 생성한다.  

In [44]:
alco2009 = pd.read_csv('niaaa-report2009.csv', index_col='State')
s_states = [state for state in alco2009.index if state[0]=='S'] + ['Samoa']
drinks = list(alco2009.columns) + ['Water']
nan_df = alco2009.reindex(s_states, columns=drinks)
nan_df

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,
Samoa,,,,


In [45]:
nan_df.isnull().sum()

Beer       1
Wine       1
Spirits    1
Water      3
dtype: int64

결측치가 포함된 열과 행을 그대로 날려버릴 수 있다.

In [49]:
# Nan 값이 하나라도 포함되어 있으면 해당 열, 행을 모두 날려버림
nan_df.dropna(how='any')

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


In [50]:
# 모든 행 값, 혹은 열 값이 Nan 이어야 날려버림
nan_df.dropna(how='all')

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,


In [51]:
nan_df.dropna(how='all', axis=1)

Unnamed: 0_level_0,Beer,Wine,Spirits
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
South Carolina,1.36,0.24,0.77
South Dakota,1.53,0.22,0.88
Samoa,,,


결측값이 있는 자리에 새로운 값을 채워 넣을 수도 있다.

In [52]:
nan_df.fillna(0)

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,0.0
South Dakota,1.53,0.22,0.88,0.0
Samoa,0.0,0.0,0.0,0.0


In [59]:
# 이전 행 값으로 채워 넣는 기법
nan_df.fillna(method='ffill')

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,
Samoa,1.53,0.22,0.88,


In [60]:
# 이전 열 값으로 채워 넣는 기법
nan_df.fillna(method='ffill', axis=1)

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,0.77
South Dakota,1.53,0.22,0.88,0.88
Samoa,,,,


## 마치며

이번 시간에는 머신 러닝 프로젝트 진행 시에 필요한 
판다스의 고급 기능들에 대해서 알아보았다.  
다음 시간에는 마지막으로 판다스를 활용하여 데이터의 다양한 통계 지표들을  
추출하는 방법을 알아보도록 하겠다.