# 데이터 모양 바꾸기

### 인덱싱 (Indexing)

Pandas에서 시리즈와 프레임을 정의할 때, 우리는 계속 레이블된 행과 열 (또는 인덱스를 포함한) 이라는 표현을 해왔다.

그렇다! Pandas가 테이블형 데이터를 처리하며 우리에게 제공하는 주된 기능이 바로 데이터 레이블링이다.

즉, 열과 행을 숫자나 문자로 된 레이블 (각 열과 행을 나타내는 이름)과 연결짓는 것이다.

데이터 프레임을 구성하는 numpy 배열의 모양을 바꿔 다른 데이터 프레임의 그조에 맞출 때, 일부 행은 열이 되고 열이 행이 될 수 있다.
(이해가 어렵다면, 그냥 데이터 구조를 조합해가며 바뀔 때 행과 열 이라는 단어보다는 결국 각 부분이 나타내는 데이터의 의미가 무엇인지가 중요하며,
서로 다른 방식으로 구성되어 있는 데이블을 조합하다보면 기존 테이블과 모양이 달라질 수 있다. 정도로 이해.)

기타 설명 필요 없이, 아래 예시들을 보자~~

In [5]:
import pandas as pd
alco2009 = pd.read_csv("niaaa-report2009.csv", index_col='State')
alco2009['Total'] = 0
alco2009

Unnamed: 0_level_0,Beer,Wine,Spirits,Total
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,1.2,0.22,0.58,0
Alaska,1.31,0.54,1.16,0
Arizona,1.19,0.38,0.74,0
Arkansas,1.07,0.17,0.6,0
California,1.05,0.55,0.73,0
Colorado,1.22,0.46,1.0,0
Connecticut,0.89,0.59,0.86,0
Delaware,1.31,0.57,1.25,0
District of Columbia,1.26,1.0,1.64,0
Florida,1.21,0.48,0.92,0


In [8]:
print alco2009.index.values
print alco2009.columns.values

['Alabama' 'Alaska' 'Arizona' 'Arkansas' 'California' 'Colorado'
 'Connecticut' 'Delaware' 'District of Columbia' 'Florida' 'Georgia'
 'Hawaii' 'Idaho' 'Illinois' 'Indiana' 'Iowa' 'Kansas' 'Kentucky'
 'Louisiana' 'Maine' 'Maryland' 'Massachusetts' 'Michigan' 'Minnesota'
 'Mississippi' 'Missouri' 'Montana' 'Nebraska' 'Nevada' 'New Hampshire'
 'New Jersey' 'New Mexico' 'New York' 'North Carolina' 'North Dakota'
 'Ohio' 'Oklahoma' 'Oregon' 'Pennsylvania' 'Rhode Island' 'South Carolina'
 'South Dakota' 'Tennessee' 'Texas' 'Utah' 'Vermont' 'Virginia'
 'Washington' 'West Virginia' 'Wisconsin' 'Wyoming']
['Beer' 'Wine' 'Spirits' 'Total']


데이터 프레임의 인덱스(index)는 행에 할당된 레이블의 묶음이다. 인덱스는 옵셔널 파라미터 index를 데이터 프레임을 선언할 때, DataFrame() 생성자에 전달해 생성할 수 있다.

예시:  alco2009 = pd.DataFrame([데이터...], index=("Alabama",...))

.



위 처럼 index.values , columns.values를 통해 각각의 행과 열 이름에 접근할 수 있다.

우리가 설정하는 것에 따라 (어떤 열이라도) 데이터 프레임의 인덱스가 될 수 있다.

reset_index()와 set_index(column) 함수는 기존 인덱스를 떼어 내거나 새로운 인덱스를 만든다.

*중요*
두 함수는 모두 새로운 데이터 프레임을 반환한다!
기존 프레임 자체를 수정하고 싶으면, 옵셔널 파라미터 inplace=True 로 설정해야한다. (앞으로 대부분의 예시가 그렇다)

In [9]:
alco2009.reset_index().set_index("Beer").head()

Unnamed: 0_level_0,State,Wine,Spirits,Total
Beer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1.2,Alabama,0.22,0.58,0
1.31,Alaska,0.54,1.16,0
1.19,Arizona,0.38,0.74,0
1.07,Arkansas,0.17,0.6,0
1.05,California,0.55,0.73,0


In [11]:
alco2009.head()

Unnamed: 0_level_0,Beer,Wine,Spirits,Total
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,1.2,0.22,0.58,0
Alaska,1.31,0.54,1.16,0
Arizona,1.19,0.38,0.74,0
Arkansas,1.07,0.17,0.6,0
California,1.05,0.55,0.73,0


이처럼 inplace=True 설정을 하지 않으면, 새로운 데이터 프레임을 리턴하며, 기존 데이터 프레임을 변경하지 않는다.

인덱스를 설정할 때 주의할 점은 맥락에 맞는 열을 인덱스로 설정해야한다!

예를 들어, Beer 열을 인덱스로 설정할 경우, 각각의 행을 해석할 때의 맥락이 사라진다. 

(1.20 자체가 어떤 의미를 가지는 것이 아닌, 주의 이름 Alabama가 맥락적 의미를 가진다.)

.

인덱스 속상값 ix를 사용하면, 개별 행에 접근할 수 있다.

이는 인덱스 레이블을 키로 가진 행으로 구성된 딕셔너리와 개념적으로 유사하다.
(Warning을 보니 주로 사용되는 기능은 아닌듯 ㅎ...)

In [13]:
alco2009.ix["Nebraska"]

Beer       1.46
Wine       0.20
Spirits    0.68
Total      0.00
Name: Nebraska, dtype: float64

파이썬 연산자 in을 사용하면 데이터 프레임 내에 해당 이름을 인덱스로한 행이 있는지 확인 가능하다.

In [15]:
print "Samoa" in alco2009.index
print "Alabama" in alco2009.index

False
True


Drop() 함수는 특정 행이 삭제된 데이터 프레임 복사본을 반환한다. (기존 데이터 프레임 변경 시 inplace=True)

In [17]:
alco2009.drop("Alabama").head()

Unnamed: 0_level_0,Beer,Wine,Spirits,Total
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alaska,1.31,0.54,1.16,0
Arizona,1.19,0.38,0.74,0
Arkansas,1.07,0.17,0.6,0
California,1.05,0.55,0.73,0
Colorado,1.22,0.46,1.0,0


### 재인덱싱 (Reindexing)

재인덱싱은 기존 데이터 프레임과 시르젱서 행이나 열, 행과 열을 추려서 새 데이터 프레임이나 시리즈를 생성한다.

본질적으로 numpy의 '스마트 인덱싱' 기능과 같으며, 차이점은 행과 열이 원래 데이터에 없을 경우 nan으로 채운 행과 열을 생성한다는 점이다.

다음 예제에서는 "S"로 시작하는 주의 리스트를 만들 것이다.

또한 Total 대신 Water라는 새로운 이름의 열을 추가할 것이다.

이 때, 기존에 없던 행이나 열을 추가할 경우 NaN으로 채워진 새로운 행과 열을 볼 수 있다.


In [20]:
alco2009 = pd.read_csv("niaaa-report2009.csv", index_col='State')
"Samoa" in alco2009.index

False

In [21]:
"Water" in alco2009.columns

False

In [22]:
s_states = [state for state in alco2009.index if state[0] == 'S'] + ['Samoa']
drinks = list(alco2009.columns)+['Water']
nan_alco = alco2009.reindex(s_states, columns=drinks)
nan_alco

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,
Samoa,,,,


위의 reindex 함수를 보면, s_states에 포함된 주를 인덱스로하고 drinks를 열로 하는 새로운 데이터 프레임을 리턴하는 것을 확인할 수 있다.

이 때, Samoa 주와 Water 음료는 기존에 없던 데이터이기 때문에 모두 NaN으로 처리되었다.

(결측치 처리는 추후 다룰 예정이니 조금만 기달려주세요!)


### 계층적 인덱싱 (Hierachical Indexing)

Pandas는 계층적 인덱스와 계층적 열 이름을 지원한다.

"계층적"이라는 말이 사실 어렵게 다가오기도 하고, 비직관적일텐데 다른 말로 다층 인덱스와 다층 열 이름을 지원한다고 생각하면 쉽다.

즉 다층적으로 인덱스를 구성, 여러 이름의 레이블로 행을 구성하거나 열을 구성할 수 있다.

예를 들어, 행을 구성하는 이름으로 '주 이름'과 '연도'를 동시에 설정하면 (다층 인덱스, 계층적 인덱스)

(주 이름, 연도) 에 따른 음료 소비량을 표기한다.

niaaa-report는 모든 연도에 대한 주별 음주 소비량을 나타내는 데이터 이다.

원본 데이터는

State Year Beer Wine Sprits
Alabama 1977 0.99 0.13 0.84
Alabama 1978 0.98 0.12 0.88
... 

형식으로 저장되어 있다.

연도는 각 주별로 1977년~2009년까지 총 33년의 데이터가 축적되어 있다.

이 때, 우리가 관심있는 것은 어쨌든 (무엇)인가의 Beer, Wine Sprits 소비량이다.

해당 데이터에서 Beer, Wine, Sprits 소비량을 결정짓기 위해서는 (State, Year) 두 이름이 모두 필요하다.

이 경우, 우리는 State와 Year를 계층적 인덱스로 선정하여 테이블을 지정하면 된다.

In [23]:
alco = pd.read_csv('niaaa-report.csv', index_col=['State', 'Year'])

In [24]:
alco

Unnamed: 0_level_0,Unnamed: 1_level_0,Beer,Wine,Spirits
State,Year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,1977,0.99,0.13,0.84
Alabama,1978,0.98,0.12,0.88
Alabama,1979,0.98,0.12,0.84
Alabama,1980,0.96,0.16,0.74
Alabama,1981,1.00,0.19,0.73
Alabama,1982,1.00,0.18,0.72
Alabama,1983,1.01,0.17,0.71
Alabama,1984,1.02,0.19,0.69
Alabama,1985,1.06,0.17,0.67
Alabama,1986,1.09,0.18,0.64


데이터 변환 작업을 하다 보면, 가끔 계층적 인덱스를 만들고 하는데 (주로 저장되어 있는 데이터의 구조가 이를 필요로 하게 한다....ㅎ)

이를 의도적으로 만들 수도 있다.

MultiIndex.from_tuples() 함수는 레이블로 된 튜플 묶음과 옵셔널 파라미터인 레벨 리스트 names를 전달받아 멀티 인덱스를 만든다.

만든 멀티 인덱스를 기존 데이터 프레임이나 시리즈에 붙이거나 DataFrame() 생성자에 전달할 수 있다.



In [25]:
multi = pd.MultiIndex.from_tuples((
("Alabama", 1977),
("Alabama", 1978), 
("Alabama", 1979), 
("Alabama", 1980), 
("Alabama", 1981), 
("Alabama", 1982), 
("Alabama", 1983), 
("Alabama", 1984), 
("Alabama", 1985), 
("Alabama", 1986), 
("Alabama", 1987), 
("Alabama", 1988), 
("Alabama", 1989), 
("Alabama", 1990), 
("Alabama", 1991), 
("Alabama", 1992), 
("Alabama", 1993), 
("Alabama", 1994), 
("Alabama", 1995), 
("Alabama", 1996), 
("Alabama", 1997), 
("Alabama", 1998), 
("Alabama", 1999), 
("Alabama", 2000), 
("Alabama", 2001), 
("Alabama", 2002), 
("Alabama", 2003), 
("Alabama", 2004), 
("Alabama", 2005), 
("Alabama", 2006), 
("Alabama", 2007), 
("Alabama", 2008), 
("Alabama", 2009), 
("Alaska", 1977), 
("Alaska", 1978), 
("Alaska", 1979), 
("Alaska", 1980), 
("Alaska", 1981), 
("Alaska", 1982), 
("Alaska", 1983), 
("Alaska", 1984), 
("Alaska", 1985), 
("Alaska", 1986), 
("Alaska", 1987), 
("Alaska", 1988), 
("Alaska", 1989), 
("Alaska", 1990), 
("Alaska", 1991), 
("Alaska", 1992), 
("Alaska", 1993), 
("Alaska", 1994), 
("Alaska", 1995), 
("Alaska", 1996), 
("Alaska", 1997), 
("Alaska", 1998), 
("Alaska", 1999), 
("Alaska", 2000), 
("Alaska", 2001), 
("Alaska", 2002), 
("Alaska", 2003), 
("Alaska", 2004), 
("Alaska", 2005), 
("Alaska", 2006), 
("Alaska", 2007), 
("Alaska", 2008), 
("Alaska", 2009), 
("Arizona", 1977),
("Arizona", 1978), 
("Arizona", 1979), 
("Arizona", 1980), 
("Arizona", 1981), 
("Arizona", 1982), 
("Arizona", 1983), 
("Arizona", 1984), 
("Arizona", 1985), 
("Arizona", 1986), 
("Arizona", 1987), 
("Arizona", 1988), 
("Arizona", 1989), 
("Arizona", 1990), 
("Arizona", 1991), 
("Arizona", 1992), 
("Arizona", 1993), 
("Arizona", 1994), 
("Arizona", 1995), 
("Arizona", 1996), 
("Arizona", 1997), 
("Arizona", 1998), 
("Arizona", 1999), 
("Arizona", 2000), 
("Arizona", 2001), 
("Arizona", 2002), 
("Arizona", 2003), 
("Arizona", 2004), 
("Arizona", 2005), 
("Arizona", 2006), 
("Arizona", 2007), 
("Arizona", 2008), 
("Arizona", 2009), 
("Arkansas", 1977), 
("Arkansas", 1978), 
("Arkansas", 1979), 
("Arkansas", 1980), 
("Arkansas", 1981), 
("Arkansas", 1982), 
("Arkansas", 1983), 
("Arkansas", 1984), 
("Arkansas", 1985), 
("Arkansas", 1986), 
("Arkansas", 1987), 
("Arkansas", 1988), 
("Arkansas", 1989), 
("Arkansas", 1990), 
("Arkansas", 1991), 
("Arkansas", 1992), 
("Arkansas", 1993), 
("Arkansas", 1994), 
("Arkansas", 1995), 
("Arkansas", 1996), 
("Arkansas", 1997), 
("Arkansas", 1998), 
("Arkansas", 1999), 
("Arkansas", 2000), 
("Arkansas", 2001), 
("Arkansas", 2002), 
("Arkansas", 2003), 
("Arkansas", 2004), 
("Arkansas", 2005), 
("Arkansas", 2006), 
("Arkansas", 2007), 
("Arkansas", 2008), 
("Arkansas", 2009), 
("California", 1977),
("California", 1978), 
("California", 1979), 
("California", 1980), 
("California", 1981), 
("California", 1982), 
("California", 1983), 
("California", 1984), 
("California", 1985), 
("California", 1986), 
("California", 1987), 
("California", 1988), 
("California", 1989), 
("California", 1990), 
("California", 1991), 
("California", 1992), 
("California", 1993), 
("California", 1994), 
("California", 1995), 
("California", 1996), 
("California", 1997), 
("California", 1998), 
("California", 1999), 
("California", 2000), 
("California", 2001), 
("California", 2002), 
("California", 2003), 
("California", 2004), 
("California", 2005), 
("California", 2006), 
("California", 2007), 
("California", 2008), 
("California", 2009), 
("Colorado", 1977), 
("Colorado", 1978), 
("Colorado", 1979), 
("Colorado", 1980), 
("Colorado", 1981), 
("Colorado", 1982), 
("Colorado", 1983), 
("Colorado", 1984), 
("Colorado", 1985), 
("Colorado", 1986), 
("Colorado", 1987), 
("Colorado", 1988), 
("Colorado", 1989), 
("Colorado", 1990), 
("Colorado", 1991), 
("Colorado", 1992), 
("Colorado", 1993), 
("Colorado", 1994), 
("Colorado", 1995), 
("Colorado", 1996), 
("Colorado", 1997), 
("Colorado", 1998), 
("Colorado", 1999), 
("Colorado", 2000), 
("Colorado", 2001), 
("Colorado", 2002), 
("Colorado", 2003), 
("Colorado", 2004), 
("Colorado", 2005), 
("Colorado", 2006), 
("Colorado", 2007), 
("Colorado", 2008), 
("Colorado", 2009), 
("Connecticut", 1977),
("Connecticut", 1978), 
("Connecticut", 1979), 
("Connecticut", 1980), 
("Connecticut", 1981), 
("Connecticut", 1982), 
("Connecticut", 1983), 
("Connecticut", 1984), 
("Connecticut", 1985), 
("Connecticut", 1986), 
("Connecticut", 1987), 
("Connecticut", 1988), 
("Connecticut", 1989), 
("Connecticut", 1990), 
("Connecticut", 1991), 
("Connecticut", 1992), 
("Connecticut", 1993), 
("Connecticut", 1994), 
("Connecticut", 1995), 
("Connecticut", 1996), 
("Connecticut", 1997), 
("Connecticut", 1998), 
("Connecticut", 1999), 
("Connecticut", 2000), 
("Connecticut", 2001), 
("Connecticut", 2002), 
("Connecticut", 2003), 
("Connecticut", 2004), 
("Connecticut", 2005), 
("Connecticut", 2006), 
("Connecticut", 2007), 
("Connecticut", 2008), 
("Connecticut", 2009), 
("Delaware", 1977), 
("Delaware", 1978), 
("Delaware", 1979), 
("Delaware", 1980), 
("Delaware", 1981), 
("Delaware", 1982), 
("Delaware", 1983), 
("Delaware", 1984), 
("Delaware", 1985), 
("Delaware", 1986), 
("Delaware", 1987), 
("Delaware", 1988), 
("Delaware", 1989), 
("Delaware", 1990), 
("Delaware", 1991), 
("Delaware", 1992), 
("Delaware", 1993), 
("Delaware", 1994), 
("Delaware", 1995), 
("Delaware", 1996), 
("Delaware", 1997), 
("Delaware", 1998), 
("Delaware", 1999), 
("Delaware", 2000), 
("Delaware", 2001), 
("Delaware", 2002), 
("Delaware", 2003), 
("Delaware", 2004), 
("Delaware", 2005), 
("Delaware", 2006), 
("Delaware", 2007), 
("Delaware", 2008), 
("Delaware", 2009), 
("District of Columbia", 1977),
("District of Columbia", 1978), 
("District of Columbia", 1979), 
("District of Columbia", 1980), 
("District of Columbia", 1981), 
("District of Columbia", 1982), 
("District of Columbia", 1983), 
("District of Columbia", 1984), 
("District of Columbia", 1985), 
("District of Columbia", 1986), 
("District of Columbia", 1987), 
("District of Columbia", 1988), 
("District of Columbia", 1989), 
("District of Columbia", 1990), 
("District of Columbia", 1991), 
("District of Columbia", 1992), 
("District of Columbia", 1993), 
("District of Columbia", 1994), 
("District of Columbia", 1995), 
("District of Columbia", 1996), 
("District of Columbia", 1997), 
("District of Columbia", 1998), 
("District of Columbia", 1999), 
("District of Columbia", 2000), 
("District of Columbia", 2001), 
("District of Columbia", 2002), 
("District of Columbia", 2003), 
("District of Columbia", 2004), 
("District of Columbia", 2005), 
("District of Columbia", 2006), 
("District of Columbia", 2007), 
("District of Columbia", 2008), 
("District of Columbia", 2009), 
("Florida", 1977), 
("Florida", 1978), 
("Florida", 1979), 
("Florida", 1980), 
("Florida", 1981), 
("Florida", 1982), 
("Florida", 1983), 
("Florida", 1984), 
("Florida", 1985), 
("Florida", 1986), 
("Florida", 1987), 
("Florida", 1988), 
("Florida", 1989), 
("Florida", 1990), 
("Florida", 1991), 
("Florida", 1992), 
("Florida", 1993), 
("Florida", 1994), 
("Florida", 1995), 
("Florida", 1996), 
("Florida", 1997), 
("Florida", 1998), 
("Florida", 1999), 
("Florida", 2000), 
("Florida", 2001), 
("Florida", 2002), 
("Florida", 2003), 
("Florida", 2004), 
("Florida", 2005), 
("Florida", 2006), 
("Florida", 2007), 
("Florida", 2008), 
("Florida", 2009), 
("Georgia", 1977),
("Georgia", 1978), 
("Georgia", 1979), 
("Georgia", 1980), 
("Georgia", 1981), 
("Georgia", 1982), 
("Georgia", 1983), 
("Georgia", 1984), 
("Georgia", 1985), 
("Georgia", 1986), 
("Georgia", 1987), 
("Georgia", 1988), 
("Georgia", 1989), 
("Georgia", 1990), 
("Georgia", 1991), 
("Georgia", 1992), 
("Georgia", 1993), 
("Georgia", 1994), 
("Georgia", 1995), 
("Georgia", 1996), 
("Georgia", 1997), 
("Georgia", 1998), 
("Georgia", 1999), 
("Georgia", 2000), 
("Georgia", 2001), 
("Georgia", 2002), 
("Georgia", 2003), 
("Georgia", 2004), 
("Georgia", 2005), 
("Georgia", 2006), 
("Georgia", 2007), 
("Georgia", 2008), 
("Georgia", 2009), 
("Hawaii", 1977), 
("Hawaii", 1978), 
("Hawaii", 1979), 
("Hawaii", 1980), 
("Hawaii", 1981), 
("Hawaii", 1982), 
("Hawaii", 1983), 
("Hawaii", 1984), 
("Hawaii", 1985), 
("Hawaii", 1986), 
("Hawaii", 1987), 
("Hawaii", 1988), 
("Hawaii", 1989), 
("Hawaii", 1990), 
("Hawaii", 1991), 
("Hawaii", 1992), 
("Hawaii", 1993), 
("Hawaii", 1994), 
("Hawaii", 1995), 
("Hawaii", 1996), 
("Hawaii", 1997), 
("Hawaii", 1998), 
("Hawaii", 1999), 
("Hawaii", 2000), 
("Hawaii", 2001), 
("Hawaii", 2002), 
("Hawaii", 2003), 
("Hawaii", 2004), 
("Hawaii", 2005), 
("Hawaii", 2006), 
("Hawaii", 2007), 
("Hawaii", 2008), 
("Hawaii", 2009), 
("Idaho", 1977),
("Idaho", 1978), 
("Idaho", 1979), 
("Idaho", 1980), 
("Idaho", 1981), 
("Idaho", 1982), 
("Idaho", 1983), 
("Idaho", 1984), 
("Idaho", 1985), 
("Idaho", 1986), 
("Idaho", 1987), 
("Idaho", 1988), 
("Idaho", 1989), 
("Idaho", 1990), 
("Idaho", 1991), 
("Idaho", 1992), 
("Idaho", 1993), 
("Idaho", 1994), 
("Idaho", 1995), 
("Idaho", 1996), 
("Idaho", 1997), 
("Idaho", 1998), 
("Idaho", 1999), 
("Idaho", 2000), 
("Idaho", 2001), 
("Idaho", 2002), 
("Idaho", 2003), 
("Idaho", 2004), 
("Idaho", 2005), 
("Idaho", 2006), 
("Idaho", 2007), 
("Idaho", 2008), 
("Idaho", 2009), 
("Illinois", 1977), 
("Illinois", 1978), 
("Illinois", 1979), 
("Illinois", 1980), 
("Illinois", 1981), 
("Illinois", 1982), 
("Illinois", 1983), 
("Illinois", 1984), 
("Illinois", 1985), 
("Illinois", 1986), 
("Illinois", 1987), 
("Illinois", 1988), 
("Illinois", 1989), 
("Illinois", 1990), 
("Illinois", 1991), 
("Illinois", 1992), 
("Illinois", 1993), 
("Illinois", 1994), 
("Illinois", 1995), 
("Illinois", 1996), 
("Illinois", 1997), 
("Illinois", 1998), 
("Illinois", 1999), 
("Illinois", 2000), 
("Illinois", 2001), 
("Illinois", 2002), 
("Illinois", 2003), 
("Illinois", 2004), 
("Illinois", 2005), 
("Illinois", 2006), 
("Illinois", 2007), 
("Illinois", 2008), 
("Illinois", 2009), 
("Indiana", 1977),
("Indiana", 1978), 
("Indiana", 1979), 
("Indiana", 1980), 
("Indiana", 1981), 
("Indiana", 1982), 
("Indiana", 1983), 
("Indiana", 1984), 
("Indiana", 1985), 
("Indiana", 1986), 
("Indiana", 1987), 
("Indiana", 1988), 
("Indiana", 1989), 
("Indiana", 1990), 
("Indiana", 1991), 
("Indiana", 1992), 
("Indiana", 1993), 
("Indiana", 1994), 
("Indiana", 1995), 
("Indiana", 1996), 
("Indiana", 1997), 
("Indiana", 1998), 
("Indiana", 1999), 
("Indiana", 2000), 
("Indiana", 2001), 
("Indiana", 2002), 
("Indiana", 2003), 
("Indiana", 2004), 
("Indiana", 2005), 
("Indiana", 2006), 
("Indiana", 2007), 
("Indiana", 2008), 
("Indiana", 2009), 
("Iowa", 1977), 
("Iowa", 1978), 
("Iowa", 1979), 
("Iowa", 1980), 
("Iowa", 1981), 
("Iowa", 1982), 
("Iowa", 1983), 
("Iowa", 1984), 
("Iowa", 1985), 
("Iowa", 1986), 
("Iowa", 1987), 
("Iowa", 1988), 
("Iowa", 1989), 
("Iowa", 1990), 
("Iowa", 1991), 
("Iowa", 1992), 
("Iowa", 1993), 
("Iowa", 1994), 
("Iowa", 1995), 
("Iowa", 1996), 
("Iowa", 1997), 
("Iowa", 1998), 
("Iowa", 1999), 
("Iowa", 2000), 
("Iowa", 2001), 
("Iowa", 2002), 
("Iowa", 2003), 
("Iowa", 2004), 
("Iowa", 2005), 
("Iowa", 2006), 
("Iowa", 2007), 
("Iowa", 2008), 
("Iowa", 2009), 
("Kansas", 1977),
("Kansas", 1978), 
("Kansas", 1979), 
("Kansas", 1980), 
("Kansas", 1981), 
("Kansas", 1982), 
("Kansas", 1983), 
("Kansas", 1984), 
("Kansas", 1985), 
("Kansas", 1986), 
("Kansas", 1987), 
("Kansas", 1988), 
("Kansas", 1989), 
("Kansas", 1990), 
("Kansas", 1991), 
("Kansas", 1992), 
("Kansas", 1993), 
("Kansas", 1994), 
("Kansas", 1995), 
("Kansas", 1996), 
("Kansas", 1997), 
("Kansas", 1998), 
("Kansas", 1999), 
("Kansas", 2000), 
("Kansas", 2001), 
("Kansas", 2002), 
("Kansas", 2003), 
("Kansas", 2004), 
("Kansas", 2005), 
("Kansas", 2006), 
("Kansas", 2007), 
("Kansas", 2008), 
("Kansas", 2009), 
("Kentucky", 1977), 
("Kentucky", 1978), 
("Kentucky", 1979), 
("Kentucky", 1980), 
("Kentucky", 1981), 
("Kentucky", 1982), 
("Kentucky", 1983), 
("Kentucky", 1984), 
("Kentucky", 1985), 
("Kentucky", 1986), 
("Kentucky", 1987), 
("Kentucky", 1988), 
("Kentucky", 1989), 
("Kentucky", 1990), 
("Kentucky", 1991), 
("Kentucky", 1992), 
("Kentucky", 1993), 
("Kentucky", 1994), 
("Kentucky", 1995), 
("Kentucky", 1996), 
("Kentucky", 1997), 
("Kentucky", 1998), 
("Kentucky", 1999), 
("Kentucky", 2000), 
("Kentucky", 2001), 
("Kentucky", 2002), 
("Kentucky", 2003), 
("Kentucky", 2004), 
("Kentucky", 2005), 
("Kentucky", 2006), 
("Kentucky", 2007), 
("Kentucky", 2008), 
("Kentucky", 2009), 
("Louisiana", 1977),
("Louisiana", 1978), 
("Louisiana", 1979), 
("Louisiana", 1980), 
("Louisiana", 1981), 
("Louisiana", 1982), 
("Louisiana", 1983), 
("Louisiana", 1984), 
("Louisiana", 1985), 
("Louisiana", 1986), 
("Louisiana", 1987), 
("Louisiana", 1988), 
("Louisiana", 1989), 
("Louisiana", 1990), 
("Louisiana", 1991), 
("Louisiana", 1992), 
("Louisiana", 1993), 
("Louisiana", 1994), 
("Louisiana", 1995), 
("Louisiana", 1996), 
("Louisiana", 1997), 
("Louisiana", 1998), 
("Louisiana", 1999), 
("Louisiana", 2000), 
("Louisiana", 2001), 
("Louisiana", 2002), 
("Louisiana", 2003), 
("Louisiana", 2004), 
("Louisiana", 2005), 
("Louisiana", 2006), 
("Louisiana", 2007), 
("Louisiana", 2008), 
("Louisiana", 2009), 
("Maine", 1977), 
("Maine", 1978), 
("Maine", 1979), 
("Maine", 1980), 
("Maine", 1981), 
("Maine", 1982), 
("Maine", 1983), 
("Maine", 1984), 
("Maine", 1985), 
("Maine", 1986), 
("Maine", 1987), 
("Maine", 1988), 
("Maine", 1989), 
("Maine", 1990), 
("Maine", 1991), 
("Maine", 1992), 
("Maine", 1993), 
("Maine", 1994), 
("Maine", 1995), 
("Maine", 1996), 
("Maine", 1997), 
("Maine", 1998), 
("Maine", 1999), 
("Maine", 2000), 
("Maine", 2001), 
("Maine", 2002), 
("Maine", 2003), 
("Maine", 2004), 
("Maine", 2005), 
("Maine", 2006), 
("Maine", 2007), 
("Maine", 2008), 
("Maine", 2009), 
("Maryland", 1977),
("Maryland", 1978), 
("Maryland", 1979), 
("Maryland", 1980), 
("Maryland", 1981), 
("Maryland", 1982), 
("Maryland", 1983), 
("Maryland", 1984), 
("Maryland", 1985), 
("Maryland", 1986), 
("Maryland", 1987), 
("Maryland", 1988), 
("Maryland", 1989), 
("Maryland", 1990), 
("Maryland", 1991), 
("Maryland", 1992), 
("Maryland", 1993), 
("Maryland", 1994), 
("Maryland", 1995), 
("Maryland", 1996), 
("Maryland", 1997), 
("Maryland", 1998), 
("Maryland", 1999), 
("Maryland", 2000), 
("Maryland", 2001), 
("Maryland", 2002), 
("Maryland", 2003), 
("Maryland", 2004), 
("Maryland", 2005), 
("Maryland", 2006), 
("Maryland", 2007), 
("Maryland", 2008), 
("Maryland", 2009), 
("Massachusetts", 1977), 
("Massachusetts", 1978), 
("Massachusetts", 1979), 
("Massachusetts", 1980), 
("Massachusetts", 1981), 
("Massachusetts", 1982), 
("Massachusetts", 1983), 
("Massachusetts", 1984), 
("Massachusetts", 1985), 
("Massachusetts", 1986), 
("Massachusetts", 1987), 
("Massachusetts", 1988), 
("Massachusetts", 1989), 
("Massachusetts", 1990), 
("Massachusetts", 1991), 
("Massachusetts", 1992), 
("Massachusetts", 1993), 
("Massachusetts", 1994), 
("Massachusetts", 1995), 
("Massachusetts", 1996), 
("Massachusetts", 1997), 
("Massachusetts", 1998), 
("Massachusetts", 1999), 
("Massachusetts", 2000), 
("Massachusetts", 2001), 
("Massachusetts", 2002), 
("Massachusetts", 2003), 
("Massachusetts", 2004), 
("Massachusetts", 2005), 
("Massachusetts", 2006), 
("Massachusetts", 2007), 
("Massachusetts", 2008), 
("Massachusetts", 2009), 
("Michigan", 1977),
("Michigan", 1978), 
("Michigan", 1979), 
("Michigan", 1980), 
("Michigan", 1981), 
("Michigan", 1982), 
("Michigan", 1983), 
("Michigan", 1984), 
("Michigan", 1985), 
("Michigan", 1986), 
("Michigan", 1987), 
("Michigan", 1988), 
("Michigan", 1989), 
("Michigan", 1990), 
("Michigan", 1991), 
("Michigan", 1992), 
("Michigan", 1993), 
("Michigan", 1994), 
("Michigan", 1995), 
("Michigan", 1996), 
("Michigan", 1997), 
("Michigan", 1998), 
("Michigan", 1999), 
("Michigan", 2000), 
("Michigan", 2001), 
("Michigan", 2002), 
("Michigan", 2003), 
("Michigan", 2004), 
("Michigan", 2005), 
("Michigan", 2006), 
("Michigan", 2007), 
("Michigan", 2008), 
("Michigan", 2009), 
("Minnesota", 1977), 
("Minnesota", 1978), 
("Minnesota", 1979), 
("Minnesota", 1980), 
("Minnesota", 1981), 
("Minnesota", 1982), 
("Minnesota", 1983), 
("Minnesota", 1984), 
("Minnesota", 1985), 
("Minnesota", 1986), 
("Minnesota", 1987), 
("Minnesota", 1988), 
("Minnesota", 1989), 
("Minnesota", 1990), 
("Minnesota", 1991), 
("Minnesota", 1992), 
("Minnesota", 1993), 
("Minnesota", 1994), 
("Minnesota", 1995), 
("Minnesota", 1996), 
("Minnesota", 1997), 
("Minnesota", 1998), 
("Minnesota", 1999), 
("Minnesota", 2000), 
("Minnesota", 2001), 
("Minnesota", 2002), 
("Minnesota", 2003), 
("Minnesota", 2004), 
("Minnesota", 2005), 
("Minnesota", 2006), 
("Minnesota", 2007), 
("Minnesota", 2008), 
("Minnesota", 2009), 
("Mississippi", 1977),
("Mississippi", 1978), 
("Mississippi", 1979), 
("Mississippi", 1980), 
("Mississippi", 1981), 
("Mississippi", 1982), 
("Mississippi", 1983), 
("Mississippi", 1984), 
("Mississippi", 1985), 
("Mississippi", 1986), 
("Mississippi", 1987), 
("Mississippi", 1988), 
("Mississippi", 1989), 
("Mississippi", 1990), 
("Mississippi", 1991), 
("Mississippi", 1992), 
("Mississippi", 1993), 
("Mississippi", 1994), 
("Mississippi", 1995), 
("Mississippi", 1996), 
("Mississippi", 1997), 
("Mississippi", 1998), 
("Mississippi", 1999), 
("Mississippi", 2000), 
("Mississippi", 2001), 
("Mississippi", 2002), 
("Mississippi", 2003), 
("Mississippi", 2004), 
("Mississippi", 2005), 
("Mississippi", 2006), 
("Mississippi", 2007), 
("Mississippi", 2008), 
("Mississippi", 2009), 
("Missouri", 1977), 
("Missouri", 1978), 
("Missouri", 1979), 
("Missouri", 1980), 
("Missouri", 1981), 
("Missouri", 1982), 
("Missouri", 1983), 
("Missouri", 1984), 
("Missouri", 1985), 
("Missouri", 1986), 
("Missouri", 1987), 
("Missouri", 1988), 
("Missouri", 1989), 
("Missouri", 1990), 
("Missouri", 1991), 
("Missouri", 1992), 
("Missouri", 1993), 
("Missouri", 1994), 
("Missouri", 1995), 
("Missouri", 1996), 
("Missouri", 1997), 
("Missouri", 1998), 
("Missouri", 1999), 
("Missouri", 2000), 
("Missouri", 2001), 
("Missouri", 2002), 
("Missouri", 2003), 
("Missouri", 2004), 
("Missouri", 2005), 
("Missouri", 2006), 
("Missouri", 2007), 
("Missouri", 2008), 
("Missouri", 2009), 
("Montana", 1977),
("Montana", 1978), 
("Montana", 1979), 
("Montana", 1980), 
("Montana", 1981), 
("Montana", 1982), 
("Montana", 1983), 
("Montana", 1984), 
("Montana", 1985), 
("Montana", 1986), 
("Montana", 1987), 
("Montana", 1988), 
("Montana", 1989), 
("Montana", 1990), 
("Montana", 1991), 
("Montana", 1992), 
("Montana", 1993), 
("Montana", 1994), 
("Montana", 1995), 
("Montana", 1996), 
("Montana", 1997), 
("Montana", 1998), 
("Montana", 1999), 
("Montana", 2000), 
("Montana", 2001), 
("Montana", 2002), 
("Montana", 2003), 
("Montana", 2004), 
("Montana", 2005), 
("Montana", 2006), 
("Montana", 2007), 
("Montana", 2008), 
("Montana", 2009), 
("Nebraska", 1977), 
("Nebraska", 1978), 
("Nebraska", 1979), 
("Nebraska", 1980), 
("Nebraska", 1981), 
("Nebraska", 1982), 
("Nebraska", 1983), 
("Nebraska", 1984), 
("Nebraska", 1985), 
("Nebraska", 1986), 
("Nebraska", 1987), 
("Nebraska", 1988), 
("Nebraska", 1989), 
("Nebraska", 1990), 
("Nebraska", 1991), 
("Nebraska", 1992), 
("Nebraska", 1993), 
("Nebraska", 1994), 
("Nebraska", 1995), 
("Nebraska", 1996), 
("Nebraska", 1997), 
("Nebraska", 1998), 
("Nebraska", 1999), 
("Nebraska", 2000), 
("Nebraska", 2001), 
("Nebraska", 2002), 
("Nebraska", 2003), 
("Nebraska", 2004), 
("Nebraska", 2005), 
("Nebraska", 2006), 
("Nebraska", 2007), 
("Nebraska", 2008), 
("Nebraska", 2009), 
("Nevada", 1977),
("Nevada", 1978), 
("Nevada", 1979), 
("Nevada", 1980), 
("Nevada", 1981), 
("Nevada", 1982), 
("Nevada", 1983), 
("Nevada", 1984), 
("Nevada", 1985), 
("Nevada", 1986), 
("Nevada", 1987), 
("Nevada", 1988), 
("Nevada", 1989), 
("Nevada", 1990), 
("Nevada", 1991), 
("Nevada", 1992), 
("Nevada", 1993), 
("Nevada", 1994), 
("Nevada", 1995), 
("Nevada", 1996), 
("Nevada", 1997), 
("Nevada", 1998), 
("Nevada", 1999), 
("Nevada", 2000), 
("Nevada", 2001), 
("Nevada", 2002), 
("Nevada", 2003), 
("Nevada", 2004), 
("Nevada", 2005), 
("Nevada", 2006), 
("Nevada", 2007), 
("Nevada", 2008), 
("Nevada", 2009), 
("New Hampshire", 1977), 
("New Hampshire", 1978), 
("New Hampshire", 1979), 
("New Hampshire", 1980), 
("New Hampshire", 1981), 
("New Hampshire", 1982), 
("New Hampshire", 1983), 
("New Hampshire", 1984), 
("New Hampshire", 1985), 
("New Hampshire", 1986), 
("New Hampshire", 1987), 
("New Hampshire", 1988), 
("New Hampshire", 1989), 
("New Hampshire", 1990), 
("New Hampshire", 1991), 
("New Hampshire", 1992), 
("New Hampshire", 1993), 
("New Hampshire", 1994), 
("New Hampshire", 1995), 
("New Hampshire", 1996), 
("New Hampshire", 1997), 
("New Hampshire", 1998), 
("New Hampshire", 1999), 
("New Hampshire", 2000), 
("New Hampshire", 2001), 
("New Hampshire", 2002), 
("New Hampshire", 2003), 
("New Hampshire", 2004), 
("New Hampshire", 2005), 
("New Hampshire", 2006), 
("New Hampshire", 2007), 
("New Hampshire", 2008), 
("New Hampshire", 2009), 
("New Jersey", 1977),
("New Jersey", 1978), 
("New Jersey", 1979), 
("New Jersey", 1980), 
("New Jersey", 1981), 
("New Jersey", 1982), 
("New Jersey", 1983), 
("New Jersey", 1984), 
("New Jersey", 1985), 
("New Jersey", 1986), 
("New Jersey", 1987), 
("New Jersey", 1988), 
("New Jersey", 1989), 
("New Jersey", 1990), 
("New Jersey", 1991), 
("New Jersey", 1992), 
("New Jersey", 1993), 
("New Jersey", 1994), 
("New Jersey", 1995), 
("New Jersey", 1996), 
("New Jersey", 1997), 
("New Jersey", 1998), 
("New Jersey", 1999), 
("New Jersey", 2000), 
("New Jersey", 2001), 
("New Jersey", 2002), 
("New Jersey", 2003), 
("New Jersey", 2004), 
("New Jersey", 2005), 
("New Jersey", 2006), 
("New Jersey", 2007), 
("New Jersey", 2008), 
("New Jersey", 2009), 
("New Mexico", 1977), 
("New Mexico", 1978), 
("New Mexico", 1979), 
("New Mexico", 1980), 
("New Mexico", 1981), 
("New Mexico", 1982), 
("New Mexico", 1983), 
("New Mexico", 1984), 
("New Mexico", 1985), 
("New Mexico", 1986), 
("New Mexico", 1987), 
("New Mexico", 1988), 
("New Mexico", 1989), 
("New Mexico", 1990), 
("New Mexico", 1991), 
("New Mexico", 1992), 
("New Mexico", 1993), 
("New Mexico", 1994), 
("New Mexico", 1995), 
("New Mexico", 1996), 
("New Mexico", 1997), 
("New Mexico", 1998), 
("New Mexico", 1999), 
("New Mexico", 2000), 
("New Mexico", 2001), 
("New Mexico", 2002), 
("New Mexico", 2003), 
("New Mexico", 2004), 
("New Mexico", 2005), 
("New Mexico", 2006), 
("New Mexico", 2007), 
("New Mexico", 2008), 
("New Mexico", 2009), 
("New York", 1977),
("New York", 1978), 
("New York", 1979), 
("New York", 1980), 
("New York", 1981), 
("New York", 1982), 
("New York", 1983), 
("New York", 1984), 
("New York", 1985), 
("New York", 1986), 
("New York", 1987), 
("New York", 1988), 
("New York", 1989), 
("New York", 1990), 
("New York", 1991), 
("New York", 1992), 
("New York", 1993), 
("New York", 1994), 
("New York", 1995), 
("New York", 1996), 
("New York", 1997), 
("New York", 1998), 
("New York", 1999), 
("New York", 2000), 
("New York", 2001), 
("New York", 2002), 
("New York", 2003), 
("New York", 2004), 
("New York", 2005), 
("New York", 2006), 
("New York", 2007), 
("New York", 2008), 
("New York", 2009), 
("North Carolina", 1977), 
("North Carolina", 1978), 
("North Carolina", 1979), 
("North Carolina", 1980), 
("North Carolina", 1981), 
("North Carolina", 1982), 
("North Carolina", 1983), 
("North Carolina", 1984), 
("North Carolina", 1985), 
("North Carolina", 1986), 
("North Carolina", 1987), 
("North Carolina", 1988), 
("North Carolina", 1989), 
("North Carolina", 1990), 
("North Carolina", 1991), 
("North Carolina", 1992), 
("North Carolina", 1993), 
("North Carolina", 1994), 
("North Carolina", 1995), 
("North Carolina", 1996), 
("North Carolina", 1997), 
("North Carolina", 1998), 
("North Carolina", 1999), 
("North Carolina", 2000), 
("North Carolina", 2001), 
("North Carolina", 2002), 
("North Carolina", 2003), 
("North Carolina", 2004), 
("North Carolina", 2005), 
("North Carolina", 2006), 
("North Carolina", 2007), 
("North Carolina", 2008), 
("North Carolina", 2009), 
("North Dakota", 1977),
("North Dakota", 1978), 
("North Dakota", 1979), 
("North Dakota", 1980), 
("North Dakota", 1981), 
("North Dakota", 1982), 
("North Dakota", 1983), 
("North Dakota", 1984), 
("North Dakota", 1985), 
("North Dakota", 1986), 
("North Dakota", 1987), 
("North Dakota", 1988), 
("North Dakota", 1989), 
("North Dakota", 1990), 
("North Dakota", 1991), 
("North Dakota", 1992), 
("North Dakota", 1993), 
("North Dakota", 1994), 
("North Dakota", 1995), 
("North Dakota", 1996), 
("North Dakota", 1997), 
("North Dakota", 1998), 
("North Dakota", 1999), 
("North Dakota", 2000), 
("North Dakota", 2001), 
("North Dakota", 2002), 
("North Dakota", 2003), 
("North Dakota", 2004), 
("North Dakota", 2005), 
("North Dakota", 2006), 
("North Dakota", 2007), 
("North Dakota", 2008), 
("North Dakota", 2009), 
("Ohio", 1977), 
("Ohio", 1978), 
("Ohio", 1979), 
("Ohio", 1980), 
("Ohio", 1981), 
("Ohio", 1982), 
("Ohio", 1983), 
("Ohio", 1984), 
("Ohio", 1985), 
("Ohio", 1986), 
("Ohio", 1987), 
("Ohio", 1988), 
("Ohio", 1989), 
("Ohio", 1990), 
("Ohio", 1991), 
("Ohio", 1992), 
("Ohio", 1993), 
("Ohio", 1994), 
("Ohio", 1995), 
("Ohio", 1996), 
("Ohio", 1997), 
("Ohio", 1998), 
("Ohio", 1999), 
("Ohio", 2000), 
("Ohio", 2001), 
("Ohio", 2002), 
("Ohio", 2003), 
("Ohio", 2004), 
("Ohio", 2005), 
("Ohio", 2006), 
("Ohio", 2007), 
("Ohio", 2008), 
("Ohio", 2009), 
("Oklahoma", 1977),
("Oklahoma", 1978), 
("Oklahoma", 1979), 
("Oklahoma", 1980), 
("Oklahoma", 1981), 
("Oklahoma", 1982), 
("Oklahoma", 1983), 
("Oklahoma", 1984), 
("Oklahoma", 1985), 
("Oklahoma", 1986), 
("Oklahoma", 1987), 
("Oklahoma", 1988), 
("Oklahoma", 1989), 
("Oklahoma", 1990), 
("Oklahoma", 1991), 
("Oklahoma", 1992), 
("Oklahoma", 1993), 
("Oklahoma", 1994), 
("Oklahoma", 1995), 
("Oklahoma", 1996), 
("Oklahoma", 1997), 
("Oklahoma", 1998), 
("Oklahoma", 1999), 
("Oklahoma", 2000), 
("Oklahoma", 2001), 
("Oklahoma", 2002), 
("Oklahoma", 2003), 
("Oklahoma", 2004), 
("Oklahoma", 2005), 
("Oklahoma", 2006), 
("Oklahoma", 2007), 
("Oklahoma", 2008), 
("Oklahoma", 2009), 
("Oregon", 1977), 
("Oregon", 1978), 
("Oregon", 1979), 
("Oregon", 1980), 
("Oregon", 1981), 
("Oregon", 1982), 
("Oregon", 1983), 
("Oregon", 1984), 
("Oregon", 1985), 
("Oregon", 1986), 
("Oregon", 1987), 
("Oregon", 1988), 
("Oregon", 1989), 
("Oregon", 1990), 
("Oregon", 1991), 
("Oregon", 1992), 
("Oregon", 1993), 
("Oregon", 1994), 
("Oregon", 1995), 
("Oregon", 1996), 
("Oregon", 1997), 
("Oregon", 1998), 
("Oregon", 1999), 
("Oregon", 2000), 
("Oregon", 2001), 
("Oregon", 2002), 
("Oregon", 2003), 
("Oregon", 2004), 
("Oregon", 2005), 
("Oregon", 2006), 
("Oregon", 2007), 
("Oregon", 2008), 
("Oregon", 2009), 
("Pennsylvania", 1977),
("Pennsylvania", 1978), 
("Pennsylvania", 1979), 
("Pennsylvania", 1980), 
("Pennsylvania", 1981), 
("Pennsylvania", 1982), 
("Pennsylvania", 1983), 
("Pennsylvania", 1984), 
("Pennsylvania", 1985), 
("Pennsylvania", 1986), 
("Pennsylvania", 1987), 
("Pennsylvania", 1988), 
("Pennsylvania", 1989), 
("Pennsylvania", 1990), 
("Pennsylvania", 1991), 
("Pennsylvania", 1992), 
("Pennsylvania", 1993), 
("Pennsylvania", 1994), 
("Pennsylvania", 1995), 
("Pennsylvania", 1996), 
("Pennsylvania", 1997), 
("Pennsylvania", 1998), 
("Pennsylvania", 1999), 
("Pennsylvania", 2000), 
("Pennsylvania", 2001), 
("Pennsylvania", 2002), 
("Pennsylvania", 2003), 
("Pennsylvania", 2004), 
("Pennsylvania", 2005), 
("Pennsylvania", 2006), 
("Pennsylvania", 2007), 
("Pennsylvania", 2008), 
("Pennsylvania", 2009), 
("Rhode Island", 1977), 
("Rhode Island", 1978), 
("Rhode Island", 1979), 
("Rhode Island", 1980), 
("Rhode Island", 1981), 
("Rhode Island", 1982), 
("Rhode Island", 1983), 
("Rhode Island", 1984), 
("Rhode Island", 1985), 
("Rhode Island", 1986), 
("Rhode Island", 1987), 
("Rhode Island", 1988), 
("Rhode Island", 1989), 
("Rhode Island", 1990), 
("Rhode Island", 1991), 
("Rhode Island", 1992), 
("Rhode Island", 1993), 
("Rhode Island", 1994), 
("Rhode Island", 1995), 
("Rhode Island", 1996), 
("Rhode Island", 1997), 
("Rhode Island", 1998), 
("Rhode Island", 1999), 
("Rhode Island", 2000), 
("Rhode Island", 2001), 
("Rhode Island", 2002), 
("Rhode Island", 2003), 
("Rhode Island", 2004), 
("Rhode Island", 2005), 
("Rhode Island", 2006), 
("Rhode Island", 2007), 
("Rhode Island", 2008), 
("Rhode Island", 2009), 
("South Carolina", 1977),
("South Carolina", 1978), 
("South Carolina", 1979), 
("South Carolina", 1980), 
("South Carolina", 1981), 
("South Carolina", 1982), 
("South Carolina", 1983), 
("South Carolina", 1984), 
("South Carolina", 1985), 
("South Carolina", 1986), 
("South Carolina", 1987), 
("South Carolina", 1988), 
("South Carolina", 1989), 
("South Carolina", 1990), 
("South Carolina", 1991), 
("South Carolina", 1992), 
("South Carolina", 1993), 
("South Carolina", 1994), 
("South Carolina", 1995), 
("South Carolina", 1996), 
("South Carolina", 1997), 
("South Carolina", 1998), 
("South Carolina", 1999), 
("South Carolina", 2000), 
("South Carolina", 2001), 
("South Carolina", 2002), 
("South Carolina", 2003), 
("South Carolina", 2004), 
("South Carolina", 2005), 
("South Carolina", 2006), 
("South Carolina", 2007), 
("South Carolina", 2008), 
("South Carolina", 2009), 
("South Dakota", 1977), 
("South Dakota", 1978), 
("South Dakota", 1979), 
("South Dakota", 1980), 
("South Dakota", 1981), 
("South Dakota", 1982), 
("South Dakota", 1983), 
("South Dakota", 1984), 
("South Dakota", 1985), 
("South Dakota", 1986), 
("South Dakota", 1987), 
("South Dakota", 1988), 
("South Dakota", 1989), 
("South Dakota", 1990), 
("South Dakota", 1991), 
("South Dakota", 1992), 
("South Dakota", 1993), 
("South Dakota", 1994), 
("South Dakota", 1995), 
("South Dakota", 1996), 
("South Dakota", 1997), 
("South Dakota", 1998), 
("South Dakota", 1999), 
("South Dakota", 2000), 
("South Dakota", 2001), 
("South Dakota", 2002), 
("South Dakota", 2003), 
("South Dakota", 2004), 
("South Dakota", 2005), 
("South Dakota", 2006), 
("South Dakota", 2007), 
("South Dakota", 2008), 
("South Dakota", 2009), 
("Tennessee", 1977),
("Tennessee", 1978), 
("Tennessee", 1979), 
("Tennessee", 1980), 
("Tennessee", 1981), 
("Tennessee", 1982), 
("Tennessee", 1983), 
("Tennessee", 1984), 
("Tennessee", 1985), 
("Tennessee", 1986), 
("Tennessee", 1987), 
("Tennessee", 1988), 
("Tennessee", 1989), 
("Tennessee", 1990), 
("Tennessee", 1991), 
("Tennessee", 1992), 
("Tennessee", 1993), 
("Tennessee", 1994), 
("Tennessee", 1995), 
("Tennessee", 1996), 
("Tennessee", 1997), 
("Tennessee", 1998), 
("Tennessee", 1999), 
("Tennessee", 2000), 
("Tennessee", 2001), 
("Tennessee", 2002), 
("Tennessee", 2003), 
("Tennessee", 2004), 
("Tennessee", 2005), 
("Tennessee", 2006), 
("Tennessee", 2007), 
("Tennessee", 2008), 
("Tennessee", 2009), 
("Texas", 1977), 
("Texas", 1978), 
("Texas", 1979), 
("Texas", 1980), 
("Texas", 1981), 
("Texas", 1982), 
("Texas", 1983), 
("Texas", 1984), 
("Texas", 1985), 
("Texas", 1986), 
("Texas", 1987), 
("Texas", 1988), 
("Texas", 1989), 
("Texas", 1990), 
("Texas", 1991), 
("Texas", 1992), 
("Texas", 1993), 
("Texas", 1994), 
("Texas", 1995), 
("Texas", 1996), 
("Texas", 1997), 
("Texas", 1998), 
("Texas", 1999), 
("Texas", 2000), 
("Texas", 2001), 
("Texas", 2002), 
("Texas", 2003), 
("Texas", 2004), 
("Texas", 2005), 
("Texas", 2006), 
("Texas", 2007), 
("Texas", 2008), 
("Texas", 2009), 
("Utah", 1977),
("Utah", 1978), 
("Utah", 1979), 
("Utah", 1980), 
("Utah", 1981), 
("Utah", 1982), 
("Utah", 1983), 
("Utah", 1984), 
("Utah", 1985), 
("Utah", 1986), 
("Utah", 1987), 
("Utah", 1988), 
("Utah", 1989), 
("Utah", 1990), 
("Utah", 1991), 
("Utah", 1992), 
("Utah", 1993), 
("Utah", 1994), 
("Utah", 1995), 
("Utah", 1996), 
("Utah", 1997), 
("Utah", 1998), 
("Utah", 1999), 
("Utah", 2000), 
("Utah", 2001), 
("Utah", 2002), 
("Utah", 2003), 
("Utah", 2004), 
("Utah", 2005), 
("Utah", 2006), 
("Utah", 2007), 
("Utah", 2008), 
("Utah", 2009), 
("Vermont", 1977), 
("Vermont", 1978), 
("Vermont", 1979), 
("Vermont", 1980), 
("Vermont", 1981), 
("Vermont", 1982), 
("Vermont", 1983), 
("Vermont", 1984), 
("Vermont", 1985), 
("Vermont", 1986), 
("Vermont", 1987), 
("Vermont", 1988), 
("Vermont", 1989), 
("Vermont", 1990), 
("Vermont", 1991), 
("Vermont", 1992), 
("Vermont", 1993), 
("Vermont", 1994), 
("Vermont", 1995), 
("Vermont", 1996), 
("Vermont", 1997), 
("Vermont", 1998), 
("Vermont", 1999), 
("Vermont", 2000), 
("Vermont", 2001), 
("Vermont", 2002), 
("Vermont", 2003), 
("Vermont", 2004), 
("Vermont", 2005), 
("Vermont", 2006), 
("Vermont", 2007), 
("Vermont", 2008), 
("Vermont", 2009), 
("Virginia", 1977),
("Virginia", 1978), 
("Virginia", 1979), 
("Virginia", 1980), 
("Virginia", 1981), 
("Virginia", 1982), 
("Virginia", 1983), 
("Virginia", 1984), 
("Virginia", 1985), 
("Virginia", 1986), 
("Virginia", 1987), 
("Virginia", 1988), 
("Virginia", 1989), 
("Virginia", 1990), 
("Virginia", 1991), 
("Virginia", 1992), 
("Virginia", 1993), 
("Virginia", 1994), 
("Virginia", 1995), 
("Virginia", 1996), 
("Virginia", 1997), 
("Virginia", 1998), 
("Virginia", 1999), 
("Virginia", 2000), 
("Virginia", 2001), 
("Virginia", 2002), 
("Virginia", 2003), 
("Virginia", 2004), 
("Virginia", 2005), 
("Virginia", 2006), 
("Virginia", 2007), 
("Virginia", 2008), 
("Virginia", 2009), 
("Washington", 1977), 
("Washington", 1978), 
("Washington", 1979), 
("Washington", 1980), 
("Washington", 1981), 
("Washington", 1982), 
("Washington", 1983), 
("Washington", 1984), 
("Washington", 1985), 
("Washington", 1986), 
("Washington", 1987), 
("Washington", 1988), 
("Washington", 1989), 
("Washington", 1990), 
("Washington", 1991), 
("Washington", 1992), 
("Washington", 1993), 
("Washington", 1994), 
("Washington", 1995), 
("Washington", 1996), 
("Washington", 1997), 
("Washington", 1998), 
("Washington", 1999), 
("Washington", 2000), 
("Washington", 2001), 
("Washington", 2002), 
("Washington", 2003), 
("Washington", 2004), 
("Washington", 2005), 
("Washington", 2006), 
("Washington", 2007), 
("Washington", 2008), 
("Washington", 2009), 
("West Virginia", 1977),
("West Virginia", 1978), 
("West Virginia", 1979), 
("West Virginia", 1980), 
("West Virginia", 1981), 
("West Virginia", 1982), 
("West Virginia", 1983), 
("West Virginia", 1984), 
("West Virginia", 1985), 
("West Virginia", 1986), 
("West Virginia", 1987), 
("West Virginia", 1988), 
("West Virginia", 1989), 
("West Virginia", 1990), 
("West Virginia", 1991), 
("West Virginia", 1992), 
("West Virginia", 1993), 
("West Virginia", 1994), 
("West Virginia", 1995), 
("West Virginia", 1996), 
("West Virginia", 1997), 
("West Virginia", 1998), 
("West Virginia", 1999), 
("West Virginia", 2000), 
("West Virginia", 2001), 
("West Virginia", 2002), 
("West Virginia", 2003), 
("West Virginia", 2004), 
("West Virginia", 2005), 
("West Virginia", 2006), 
("West Virginia", 2007), 
("West Virginia", 2008), 
("West Virginia", 2009), 
("Wisconsin", 1977), 
("Wisconsin", 1978), 
("Wisconsin", 1979), 
("Wisconsin", 1980), 
("Wisconsin", 1981), 
("Wisconsin", 1982), 
("Wisconsin", 1983), 
("Wisconsin", 1984), 
("Wisconsin", 1985), 
("Wisconsin", 1986), 
("Wisconsin", 1987), 
("Wisconsin", 1988), 
("Wisconsin", 1989), 
("Wisconsin", 1990), 
("Wisconsin", 1991), 
("Wisconsin", 1992), 
("Wisconsin", 1993), 
("Wisconsin", 1994), 
("Wisconsin", 1995), 
("Wisconsin", 1996), 
("Wisconsin", 1997), 
("Wisconsin", 1998), 
("Wisconsin", 1999), 
("Wisconsin", 2000), 
("Wisconsin", 2001), 
("Wisconsin", 2002), 
("Wisconsin", 2003), 
("Wisconsin", 2004), 
("Wisconsin", 2005), 
("Wisconsin", 2006), 
("Wisconsin", 2007), 
("Wisconsin", 2008), 
("Wisconsin", 2009), 
("Wyoming", 1977),
("Wyoming", 1978), 
("Wyoming", 1979), 
("Wyoming", 1980), 
("Wyoming", 1981), 
("Wyoming", 1982), 
("Wyoming", 1983), 
("Wyoming", 1984), 
("Wyoming", 1985), 
("Wyoming", 1986), 
("Wyoming", 1987), 
("Wyoming", 1988), 
("Wyoming", 1989), 
("Wyoming", 1990), 
("Wyoming", 1991), 
("Wyoming", 1992), 
("Wyoming", 1993), 
("Wyoming", 1994), 
("Wyoming", 1995), 
("Wyoming", 1996), 
("Wyoming", 1997), 
("Wyoming", 1998), 
("Wyoming", 1999), 
("Wyoming", 2000), 
("Wyoming", 2001), 
("Wyoming", 2002), 
("Wyoming", 2003), 
("Wyoming", 2004), 
("Wyoming", 2005), 
("Wyoming", 2006), 
("Wyoming", 2007), 
("Wyoming", 2008), 
("Wyoming", 2009)), 
names = ["State", "Year"])


In [27]:
multi

MultiIndex(levels=[[u'Alabama', u'Alaska', u'Arizona', u'Arkansas', u'California', u'Colorado', u'Connecticut', u'Delaware', u'District of Columbia', u'Florida', u'Georgia', u'Hawaii', u'Idaho', u'Illinois', u'Indiana', u'Iowa', u'Kansas', u'Kentucky', u'Louisiana', u'Maine', u'Maryland', u'Massachusetts', u'Michigan', u'Minnesota', u'Mississippi', u'Missouri', u'Montana', u'Nebraska', u'Nevada', u'New Hampshire', u'New Jersey', u'New Mexico', u'New York', u'North Carolina', u'North Dakota', u'Ohio', u'Oklahoma', u'Oregon', u'Pennsylvania', u'Rhode Island', u'South Carolina', u'South Dakota', u'Tennessee', u'Texas', u'Utah', u'Vermont', u'Virginia', u'Washington', u'West Virginia', u'Wisconsin', u'Wyoming'], [1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009]],
           labels=[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0

In [28]:
alco.index=multi

위와 같이 직접 pd.MultiIndex.from_tuples()를 활용하여 index 자료형을 리턴 받고 (index 표현은 pandas 자료 구조 중 하나 였음을 잊지 말자)

데이터 프레임이나 시리즈의 인덱스에 직접 지정해줄 수 있다.

인덱스 레벨 중 일부를 선택해 데이터를 추출하면 이에 해당하는 "새로운 데이터 프레임"을 만든다.

그리고 모든 레벨의 레이블을 선택하면, 이에 해당하는 시리즈를 만든다.

In [29]:
alco.ix['Wyoming'].head()

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Beer,Wine,Spirits
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1977,1.79,0.21,1.32
1978,1.82,0.22,1.36
1979,1.86,0.22,1.3
1980,1.85,0.24,1.32
1981,1.91,0.24,1.27


In [30]:
alco.ix['Wyoming',1999]

Beer       1.41
Wine       0.18
Spirits    0.84
Name: (Wyoming, 1999), dtype: float64

pandas는 멀티 인덱스와 열을 같은 방식으로 취급하므로, 인덱스가 열이 될 수도 있고 그 반대도 성립하는 것을 추가적으로 알아 놓자.

### 스택킹과 피보팅 (Stacking and Pivoting)

우리는 열 이름을 계층화하는 대신 멀티인덱스의 전체 혹은 일부를 평평하게 할 수도 있다.

반대로 인덱스를 계층화하는 대신, 다층으로 구성된 열 이름의 전체나 일부를 평평하게 할 수도 있다.

Stack() 함수는 인덱스의 레벨 개수를 증가시키는 동시에 열 이름의 레벨 개수를 감소시킨다.

즉, 테이블을 가로로 넓게 쌓는 것이 아닌, 세로로 길게 쌓는 것을 Stack() 함수가 지원한다.

반대로 unstack() 함수는 그 반대로, 세로로 길게 쌓여있는 테이블을 가로로 넓게 쌓도록 지원한다.

In [32]:
tall_alco = alco.stack()
tall_alco.index.names=["State","Year","Drink"]
tall_alco.head()

State    Year  Drink  
Alabama  1977  Beer       0.99
               Wine       0.13
               Spirits    0.84
         1978  Beer       0.98
               Wine       0.12
dtype: float64

In [33]:
#index name 선언 안하면?

In [34]:
temp_alco = alco.stack()
temp_alco.head()

State    Year         
Alabama  1977  Beer       0.99
               Wine       0.13
               Spirits    0.84
         1978  Beer       0.98
               Wine       0.12
dtype: float64

위와 같이 Stack이 되는 column들은 인덱스화될 때 이름이 지정되지 않는다.
따라서 처음 예시에서 직접 index 이름을 재 지정해주었던 것!

In [35]:
wide_alco = alco.unstack()
wide_alco.head()

Unnamed: 0_level_0,Beer,Beer,Beer,Beer,Beer,Beer,Beer,Beer,Beer,Beer,...,Spirits,Spirits,Spirits,Spirits,Spirits,Spirits,Spirits,Spirits,Spirits,Spirits
Year,1977,1978,1979,1980,1981,1982,1983,1984,1985,1986,...,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009
State,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Alabama,0.99,0.98,0.98,0.96,1.0,1.0,1.01,1.02,1.06,1.09,...,0.51,0.53,0.53,0.52,0.52,0.53,0.55,0.56,0.58,0.58
Alaska,1.19,1.39,1.5,1.55,1.71,1.75,1.76,1.73,1.68,1.68,...,0.92,0.97,1.08,0.79,0.96,0.99,1.02,1.07,1.09,1.16
Arizona,1.7,1.77,1.86,1.69,1.78,1.74,1.62,1.57,1.67,1.77,...,0.71,0.7,0.69,0.71,0.7,0.74,0.78,0.76,0.75,0.74
Arkansas,0.92,0.97,0.93,1.0,1.06,1.03,1.03,1.02,1.03,1.06,...,0.53,0.53,0.53,0.56,0.58,0.58,0.59,0.6,0.6,0.6
California,1.31,1.36,1.42,1.42,1.43,1.37,1.37,1.38,1.32,1.36,...,0.64,0.64,0.63,0.65,0.67,0.68,0.7,0.72,0.72,0.73


Stacking과 Unstacking을 더 일반화한 연산이 피보팅(Pivoting)이다.

pivot(index, cloumns, values) 함수는 기존 데이터 프레임을 새로운 데이터 프레임으로 변환한다.

1) index로 넘기는 열을 새로운 인덱스로 사용하고

2) columns를 새로운 열 이름 리스트로 사용하며

3) values에 해당하는 열은 데이터 프레임을 채우는 데이터로 사용한다.

아래 예를 보자

In [36]:
alco = pd.read_csv("niaaa-report.csv")
alco.pivot("Year", "State", "Wine")
#Year를 Index(행) 이름으로, State를 열 이름으로하고, 각각의 값은 Wine 소비량이 들어가게~~

State,Alabama,Alaska,Arizona,Arkansas,California,Colorado,Connecticut,Delaware,District of Columbia,Florida,...,South Dakota,Tennessee,Texas,Utah,Vermont,Virginia,Washington,West Virginia,Wisconsin,Wyoming
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1977,0.13,0.42,0.34,0.1,0.67,0.36,0.35,0.24,0.89,0.33,...,0.17,0.1,0.14,0.14,0.44,0.21,0.45,0.09,0.27,0.21
1978,0.12,0.45,0.37,0.11,0.68,0.47,0.38,0.25,0.94,0.34,...,0.17,0.11,0.14,0.15,0.47,0.21,0.48,0.09,0.28,0.22
1979,0.12,0.47,0.39,0.1,0.7,0.47,0.4,0.27,0.99,0.37,...,0.17,0.11,0.14,0.16,0.47,0.25,0.48,0.09,0.28,0.22
1980,0.16,0.5,0.36,0.12,0.71,0.47,0.43,0.29,0.99,0.37,...,0.18,0.12,0.22,0.14,0.48,0.25,0.52,0.09,0.31,0.24
1981,0.19,0.57,0.42,0.12,0.72,0.44,0.44,0.32,1.06,0.39,...,0.19,0.13,0.24,0.15,0.5,0.27,0.54,0.14,0.31,0.24
1982,0.18,0.56,0.4,0.12,0.72,0.46,0.49,0.34,1.0,0.4,...,0.18,0.14,0.18,0.15,0.5,0.27,0.53,0.14,0.3,0.24
1983,0.17,0.61,0.44,0.13,0.75,0.46,0.49,0.35,1.08,0.4,...,0.17,0.14,0.27,0.14,0.5,0.27,0.54,0.13,0.33,0.22
1984,0.19,0.58,0.45,0.12,0.74,0.46,0.5,0.38,1.11,0.4,...,0.17,0.15,0.28,0.14,0.49,0.29,0.57,0.12,0.3,0.22
1985,0.17,0.58,0.46,0.13,0.78,0.5,0.5,0.41,1.03,0.41,...,0.18,0.16,0.3,0.15,0.55,0.3,0.59,0.13,0.32,0.25
1986,0.18,0.56,0.46,0.09,0.79,0.46,0.51,0.44,1.04,0.41,...,0.19,0.16,0.31,0.17,0.59,0.27,0.61,0.13,0.34,0.26


인덱스가 None이라면 pandas는 기존 데이터 프레임의 인덱스를 재사용한다.

# 데이터 누락 다루기

pandas는 결측치를 numpy.nan을 사용해 표기하는데, 이는 숫자와 달라 혼동을 피할 수 있고 R 언어의 NA ("Not Available")과 유사하다.

우리가 실제 데이터를 다룰 때, 결측치는 다양한 현실적인 문제로 포함될 수 밖에 없다.

pandas에서는 결측치를 탐지하고 보정하는 기본적인 함수를 제공한다.

결측치가 포함되어 있는 이유는 여러가지가 있는데,

수집자에 의해 데이터가 수집되지 않았을 수도 있고, 수집되었지만 적절하지 않아서 버려졌을 수도 있다.

또한 개별적으로는 완전한 데이터셋들이지만 합쳤을 때 완전하지 않아 누락된 부분이 생길 수도 있다.

결측치를 포함한 상황에서는 데이터 분석을 진행할 수 없으니, 어떤 프로젝트를 시작하기 전에 데이터 결측치 확인은 필수적으로 진행해야 한다!!

### 결측치 삭제
결측치를 다루는 가장 간단한 방법은 결측치를 포함하고 있는 행이나 열을 없애버리는 것이다 ㅎ...

dropna() 함수는 데이터 가공 시에 제거의 기준을 결측치를 가진 열 (aixs=0, 기본값)이나 행 (axis=1)으로 설정할 수 있다. 

또한 행이나 열의 일부 (how='any', 기본값)가 결측치를 가질 때 삭제할 것인지, 또는 전체 (how='all)가 결측치를 가질 때 삭제할 것인지를 설정할 수 있다.

'정제된' 데이터 프레임 복사본을 반환한다. (inplace=True 사용 시 원래 데이터 프레임 수정)

In [39]:
nan_alco

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,
Samoa,,,,


In [41]:
nan_alco.dropna(how='all') #axis=0, how='all'

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,


In [42]:
nan_alco.dropna(how='all', axis=1)

Unnamed: 0_level_0,Beer,Wine,Spirits
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
South Carolina,1.36,0.24,0.77
South Dakota,1.53,0.22,0.88
Samoa,,,


In [43]:
nan_alco.dropna(how='any', axis=1)

South Carolina
South Dakota
Samoa


In [44]:
nan_alco.dropna(how='any', axis=0)

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


In [45]:
nan_alco.dropna()

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


### 결측치 보정

결측치를 제거하지 않고 다루는 또 다른 방법은 해당 값을 보정하는 것이다.

즉, 맥락에 맞는 깨끗한 값으로 결측치를 교체하는 것을 의미한다.

가장 흔한 보정 방법 두가지는 상수로 보정하는 방법 또는 주의의 깨끗한 값들의 평균으로 교체하는 것이다.

이를 선택하기 전에 어떤 값들이 비어 있는지 확인해야 한다.

isnull()과 notnull() 함수는 상호 보완적이며, 이들 함수는 해당 값이 nan이거나 nan이 아니면 True를 반환한다.

(참조: np.nan==np.nan 은 False를 반환해 직접비교가 불가능하다. IEEE 754 부동소수점 기준)

In [46]:
nan_alco.isnull()

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,False,False,False,True
South Dakota,False,False,False,True
Samoa,True,True,True,True


In [47]:
nan_alco.notnull()

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,True,True,True,False
South Dakota,True,True,True,False
Samoa,False,False,False,False


In [48]:
sp = nan_alco['Spirits'] # 결측 값이 있는 열 선택
clean = sp.notnull() # 결측 값이 없는 행
sp[-clean] = sp[clean].mean() # 결측 값 = 깨끗한 값의 평균
nan_alco

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,
Samoa,,,0.825,


직접 평균치 보정을 할 수 있지만, 상수 값으로 메꾸는 작업도 가능하다.

fillna(val) 함수는 val 값으로 결측치를 메꾸는 가장 단순한 방법이다.

또한 해당 방법의 열 (axis=0 ,기본) 이나 행(axis=1)을 따라 method='ffill', 'bfill' 설정으로 마지막 정상 관측치를 앞이나 뒤로 메울 수 있다.

(사실 axis를 더 직관적으로 이해하려면, axis=0은 행 단위로 결측치를 채우고, axis=1은 열 단위로 결측치를 채우는 것으로 이해해야 맞다.

행 단위로 결측치를 채우기 위해서는 열을 따라 채워야하기 때문에 위와 같은 표현이 있다.)

이 경우 또한 원래 데이터 프레임을 수정하려면 inplace=True 설정을 해야한다


In [49]:
nan_alco.fillna(0)

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,0.0
South Dakota,1.53,0.22,0.88,0.0
Samoa,0.0,0.0,0.825,0.0


In [50]:
nan_alco.fillna(method='ffill') #Samoa 앞쪽 행의 마지막 정상 값으로 채운다.

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,
Samoa,1.53,0.22,0.825,


In [51]:
nan_alco.fillna(method='bfill') #Samoa 뒤쪽 행에 정상 값이 없으므로 채워지지 않는다.

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,
Samoa,,,0.825,


In [52]:
nan_alco.fillna(method='ffill', axis=1) #Water 앞쪽 열의 마지막 정상 열의 데이터를 받아와 채운다

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,0.77
South Dakota,1.53,0.22,0.88,0.88
Samoa,,,0.825,0.825


In [53]:
nan_alco.fillna(method='bfill', axis=1) #Water 뒤쪽 열의 마지막 정상 데이터를 받아와 채운다. 없으니 못채움. Beer와 Wine 결측치는 채울 수 있음

Unnamed: 0_level_0,Beer,Wine,Spirits,Water
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
South Carolina,1.36,0.24,0.77,
South Dakota,1.53,0.22,0.88,
Samoa,0.825,0.825,0.825,


### 값 교체 (Replacing)

특정 더러운 값을 다루는 또 다른 방법은 맥락에 맞게 적절한 깨끗한 값으로 교체(replacing) 하는 것이다.

replace(val_or_list, new_val) 함수는 특정 값이나 값 리스트를 다른 값이나 값 리스트로 교체한다.

*중요 리스트를 사용할 때는 두 리스트 길이가 같아야 한다.

역시 원래 데이터 수정시에는 inplace=True 설정이 필수이다.

combine_first(pegs) 함수는 두 데이터 프레임이나 두 시리즈를 결합한다.

이 함수는 데이터 프레임, 시리즈에 있는 결측치를 인자로 받는 데이터 프레임, 시리즈의 값으로 보정한다. 

즉, 인자로 전달되는 데이터 프레임, 시리즈는 데이터 기본 값의 소스로 기능한다. (예제 추가 필요)