# UNIT 32 데이터 모양 바꾸기

In [29]:
import pandas as pd
import numpy as np

alco2009 = pd.read_csv("niaaa-report2009.csv", index_col="State")
alco2009.head(5)

Unnamed: 0_level_0,Beer,Wine,Spirits
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,1.2,0.22,0.58
Alaska,1.31,0.54,1.16
Arizona,1.19,0.38,0.74
Arkansas,1.07,0.17,0.6
California,1.05,0.55,0.73


### 1. 인덱싱

In [3]:
alco2009.columns

Index(['Beer', 'Wine', 'Spirits'], dtype='object')

In [4]:
alco2009.columns.values

array(['Beer', 'Wine', 'Spirits'], dtype=object)

In [5]:
alco2009.index

Index(['Alabama', 'Alaska', 'Arizona', 'Arkansas', 'California', 'Colorado',
       'Connecticut', 'Delaware', 'District of Columbia', 'Florida', 'Georgia',
       'Hawaii', 'Idaho', 'Illinois', 'Indiana', 'Iowa', 'Kansas', 'Kentucky',
       'Louisiana', 'Maine', 'Maryland', 'Massachusetts', 'Michigan',
       'Minnesota', 'Mississippi', 'Missouri', 'Montana', 'Nebraska', 'Nevada',
       'New Hampshire', 'New Jersey', 'New Mexico', 'New York',
       'North Carolina', 'North Dakota', 'Ohio', 'Oklahoma', 'Oregon',
       'Pennsylvania', 'Rhode Island', 'South Carolina', 'South Dakota',
       'Tennessee', 'Texas', 'Utah', 'Vermont', 'Virginia', 'Washington',
       'West Virginia', 'Wisconsin', 'Wyoming'],
      dtype='object', name='State')

In [6]:
alco2009.index.values

array(['Alabama', 'Alaska', 'Arizona', 'Arkansas', 'California',
       'Colorado', 'Connecticut', 'Delaware', 'District of Columbia',
       'Florida', 'Georgia', 'Hawaii', 'Idaho', 'Illinois', 'Indiana',
       'Iowa', 'Kansas', 'Kentucky', 'Louisiana', 'Maine', 'Maryland',
       'Massachusetts', 'Michigan', 'Minnesota', 'Mississippi',
       'Missouri', 'Montana', 'Nebraska', 'Nevada', 'New Hampshire',
       'New Jersey', 'New Mexico', 'New York', 'North Carolina',
       'North Dakota', 'Ohio', 'Oklahoma', 'Oregon', 'Pennsylvania',
       'Rhode Island', 'South Carolina', 'South Dakota', 'Tennessee',
       'Texas', 'Utah', 'Vermont', 'Virginia', 'Washington',
       'West Virginia', 'Wisconsin', 'Wyoming'], dtype=object)

### 새로운 인덱싱 방법
- reset_index() : 기존 인덱스 삭제하고 초기화
- set_index(column) : column 인자로 새로운 인덱스 생성
- 옵션 파라미터 inplace = True 이면 기존 데이터 프레임 자체를 수정

In [8]:
# 행 인덱스 자동 생성
# State 열 속성 값이 원상 복귀

alco2009.reset_index().head()

Unnamed: 0,State,Beer,Wine,Spirits
0,Alabama,1.2,0.22,0.58
1,Alaska,1.31,0.54,1.16
2,Arizona,1.19,0.38,0.74
3,Arkansas,1.07,0.17,0.6
4,California,1.05,0.55,0.73


In [10]:
# 인덱스 값이 "Beer"로 대체

alco2009.reset_index().set_index("Beer").head()

Unnamed: 0_level_0,State,Wine,Spirits
Beer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1.2,Alabama,0.22,0.58
1.31,Alaska,0.54,1.16
1.19,Arizona,0.38,0.74
1.07,Arkansas,0.17,0.6
1.05,California,0.55,0.73


In [12]:
# reset_index()사용하지 않고 바로 set_index("Beer")사용할 경우
# 기존 인덱스 "State"가 삭제

alco2009.set_index("Beer").head()

Unnamed: 0_level_0,Wine,Spirits
Beer,Unnamed: 1_level_1,Unnamed: 2_level_1
1.2,0.22,0.58
1.31,0.54,1.16
1.19,0.38,0.74
1.07,0.17,0.6
1.05,0.55,0.73


 - 주의점 : 열을 인덱스로 지정 시 반드시 맥락에 맞춰서 지정
  - 앞의 예에서 맥주 소비량("Beer")은 그 주("State")의 값이지, 식별자로 적합X
 - 행 인덱스 속성 값 loc를 이용 개별 행에 접근 가능
  - 인덱스 레이블을 키(key)로 가진 행으로 구성된 딕셔너리와 유사한 형태

In [14]:
alco2009.loc["Nebraska"]

Beer       1.46
Wine       0.20
Spirits    0.68
Name: Nebraska, dtype: float64

In [15]:
alco2009.ix["Nebraska"]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Beer       1.46
Wine       0.20
Spirits    0.68
Name: Nebraska, dtype: float64

### 데이터 프레임에 특정 레이블을 가진 행 검색
- in 연산자 사용

In [16]:
"Samoa" in alco2009.index

False

In [17]:
"Alaska" in alco2009.index

True

### 데이터 프레임에 행 삭제
- drop 연산자 사용

In [18]:
alco2009.drop(["Alabama", "Alaska"]).head()

Unnamed: 0_level_0,Beer,Wine,Spirits
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Arizona,1.19,0.38,0.74
Arkansas,1.07,0.17,0.6
California,1.05,0.55,0.73
Colorado,1.22,0.46,1.0
Connecticut,0.89,0.59,0.86


### 원래 데이터프레임에서 반영하고자 할 경우
- inplace = True 사용

In [26]:
alco2009.reset_index(inplace = True)

In [25]:
alco2009.reset_index(inplace = True)
alco2009.set_index("Beer", inplace = True)

In [27]:
alco2009.set_index("Beer", inplace = True)

In [30]:
alco2009.drop(["Alabama", "Alaska"], inplace = True)