## [ DataFrame 인덱스 다루기 ]

- (1) 새로운 인덱스 설정 컬럼 ==> 인덱스 설정

(1) 모듈 로딩

In [4]:
import pandas as pd

(2) 데이터 준비

In [5]:
exam = { '이름': ['마징가', '베트맨', '홍길동', '임꺽정'],
         '국어': [98, 79, 99, 100],
         '미술': [70, 99, 87, 80],
         '수학': [80, 87, 99, 72],
         '체육': [80, 83, 90, 88]}

(3) 데이터 저장

In [6]:
examDF = pd.DataFrame(exam)


(4) 데이터 확인

In [7]:
examDF

Unnamed: 0,이름,국어,미술,수학,체육
0,마징가,98,70,80,80
1,베트맨,79,99,87,83
2,홍길동,99,87,99,90
3,임꺽정,100,80,72,88


- 행 데이터 추가

In [18]:
# 마징가 98 50 60 77
examDF.loc[4] = ['마징가', 98, 50, 60, 80]

In [21]:
# 마징가 98 87 77 91
examDF.loc[5] = ['마징가', 98, 87, 87, 91]

In [22]:
examDF

Unnamed: 0,이름,국어,미술,수학,체육
0,마징가,98,70,80,80
1,베트맨,79,99,87,83
2,홍길동,99,87,99,90
3,임꺽정,100,80,72,88
4,마징가,98,50,60,80
5,마징가,98,87,87,91


(5) 새로운 인덱스 설정 - 방법 1 : 인덱스 일부 변경 DF.rename()

In [46]:
# 행 인덱스 일부 변경 => {기존인덱스:새로운인덱스}
# inplace 매개변수/파라미터 => 원본 DataFrame에 변경 여부 결정, 기본은 원본 변경 안함 False!!
examDF.rename(index={0:'zero'}, inplace=True)
examDF

Unnamed: 0,이름,국어,미술,수학,체육
zero,마징가,98,70,80,72
1,베트맨,79,99,87,83
2,홍길동,99,87,99,90
3,임꺽정,100,80,72,88


In [47]:
# 열 이름 인덱스 일부 변경 => column = {기존인덱스:새로운인덱스}
examDF.rename(columns = {'체육':'음악'}, inplace=True)

In [48]:
examDF

Unnamed: 0,이름,국어,미술,수학,음악
zero,마징가,98,70,80,72
1,베트맨,79,99,87,83
2,홍길동,99,87,99,90
3,임꺽정,100,80,72,88


- (5) 새로운 인덱스 설정 - 방법 2 : 특정 컬럼 => 인덱스 : DF.set_index()

In [49]:
# 현재 기본 0 ~ ==> 이름 컬럼 인덱스로 설정
examDF.index

Index(['zero', 1, 2, 3], dtype='object')

In [50]:
# 1개 컬럼을 인덱스로 설정 단, inplace 파라미터가 False로 원본 적용 안됨!
examDF2 = examDF.set_index('이름')
print(examDF2)

      국어  미술  수학  음악
이름                  
마징가   98  70  80  72
베트맨   79  99  87  83
홍길동   99  87  99  90
임꺽정  100  80  72  88


In [51]:
examDF2.index

Index(['마징가', '베트맨', '홍길동', '임꺽정'], dtype='object', name='이름')

In [52]:
examDF

Unnamed: 0,이름,국어,미술,수학,음악
zero,마징가,98,70,80,72
1,베트맨,79,99,87,83
2,홍길동,99,87,99,90
3,임꺽정,100,80,72,88


In [53]:
# 2개의 컬름을 행 인덱스 설정 단, inplace 파라미터가 False로 원본 적용 안됨!
examDF.set_index(['이름', '국어'])
examDF3 = examDF.set_index(['이름', '국어', '수학'])
print(examDF3)

            미술  음악
이름  국어  수학        
마징가 98  80  70  72
베트맨 79  87  99  83
홍길동 99  99  87  90
임꺽정 100 72  80  88


In [54]:
examDF3.loc[('마징가', 98, 80)]

미술    70
음악    72
Name: (마징가, 98, 80), dtype: int64

In [55]:
examDF3.loc['마징가']

Unnamed: 0_level_0,Unnamed: 1_level_0,미술,음악
국어,수학,Unnamed: 2_level_1,Unnamed: 3_level_1
98,80,70,72


In [56]:
# KeyError => '마징가,' 98, 98 형식에서 98로 시작하는 key 없음
# examDF3.loc[(98, n98)]

- (5) 새로운 인덱스 설정 - 방법 3 : 멀티인덱스 제어 DataFrame.set_index([컬럼1, 컬럼2, ..., 컬럼n])

In [25]:
# 이름, 국어, 수학을 인덱스 설정
examDF1 = examDF.set_index(['이름', '국어', '수학'])
examDF.set_index(['이름', '국어', '수학'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,미술,체육
이름,국어,수학,Unnamed: 3_level_1,Unnamed: 4_level_1
마징가,98,80,70,80
베트맨,79,87,99,83
홍길동,99,99,87,90
임꺽정,100,72,80,88
마징가,98,60,50,80
마징가,98,87,87,91


In [26]:
# 인덱스 속성 확인
examDF1.index

MultiIndex([('마징가',  98, 80),
            ('베트맨',  79, 87),
            ('홍길동',  99, 99),
            ('임꺽정', 100, 72),
            ('마징가',  98, 60),
            ('마징가',  98, 87)],
           names=['이름', '국어', '수학'])

- 행 데이터 선택 : DF객체변수명.loc[행레이블] / DF객체변수명.iloc[위치인덱스]

In [28]:
examDF1.loc[('마징가', 98, 80)]

미술    70
체육    80
Name: (마징가, 98, 80), dtype: int64

In [30]:
examDF1.loc[('마징가', 98, 60)]

미술    50
체육    80
Name: (마징가, 98, 60), dtype: int64

In [31]:
examDF1.loc[('마징가', 98, 87)]

미술    87
체육    91
Name: (마징가, 98, 87), dtype: int64

In [33]:
# KeyError 발생
# examDF1.loc[(98)]

- 멀티인덱스의 인덱스의 일부분을 기준으로 행 선택 : xs()
      * 예) '마징가' 98 77 => level 0, 1, 2

In [35]:
examDF1.xs('마징가', level=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,미술,체육
국어,수학,Unnamed: 2_level_1,Unnamed: 3_level_1
98,80,70,80
98,60,50,80
98,87,87,91


In [36]:
examDF1.xs(98, level=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,미술,체육
이름,수학,Unnamed: 2_level_1,Unnamed: 3_level_1
마징가,80,70,80
마징가,60,50,80
마징가,87,87,91


In [37]:
examDF1.xs(80, level=2)

Unnamed: 0_level_0,Unnamed: 1_level_0,미술,체육
이름,국어,Unnamed: 2_level_1,Unnamed: 3_level_1
마징가,98,70,80


- ('마징가', 98, 80), ('임꺽정', 100, 72) 2개 행을 한꺼번에 가져오기

In [42]:
examDF1.loc[(['마징가','임꺽정'], [98, 100], [80, 72])]
# ?

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,미술,체육
이름,국어,수학,Unnamed: 3_level_1,Unnamed: 4_level_1
마징가,98,80,70,80
임꺽정,100,72,80,88


In [40]:
examDF1.loc[ [('마징가', 98, 80), ('임꺽정', 100, 72)] ]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,미술,체육
이름,국어,수학,Unnamed: 3_level_1,Unnamed: 4_level_1
마징가,98,80,70,80
임꺽정,100,72,80,88


- (5) 인덱스 재배치 : 행/열 인덱스를 원하는 순서대로 재배치 + 존재하지 않는 행/열 추가
    * DF.reindex()

In [43]:
print( examDF.index, examDF.columns, sep='\n\n' )

Int64Index([0, 1, 2, 3, 4, 5], dtype='int64')

Index(['이름', '국어', '미술', '수학', '체육'], dtype='object')


- 컬럼명 순서 변경 ==> '체육', '미술', '국어', '수학'

In [49]:
examDF.reindex(['체육', '미술', '국어', '수학', '총합'], axis='columns', fill_value=0)

Unnamed: 0,체육,미술,국어,수학,총합
0,80,70,98,80,0
1,83,99,79,87,0
2,90,87,99,99,0
3,88,80,100,72,0
4,80,50,98,60,0
5,91,87,98,87,0


In [48]:
examDF

Unnamed: 0,이름,국어,미술,수학,체육
0,마징가,98,70,80,80
1,베트맨,79,99,87,83
2,홍길동,99,87,99,90
3,임꺽정,100,80,72,88
4,마징가,98,50,60,80
5,마징가,98,87,87,91


In [51]:
examDF.reindex([0,2,1,4,5,1,10], axis='index', fill_value=0)

Unnamed: 0,이름,국어,미술,수학,체육
0,마징가,98,70,80,80
2,홍길동,99,87,99,90
1,베트맨,79,99,87,83
4,마징가,98,50,60,80
5,마징가,98,87,87,91
1,베트맨,79,99,87,83
10,0,0,0,0,0


- 컬럼명 순서 변경 ==> '체육','미술','국어','수학','총합' + 행인덱스 => 0,2,4,1,3,5 재배치

In [52]:
examDF.reindex(index=[0,2,4,1,3,5], columns=['체육', '미술', '국어', '수학', '총합'], fill_value=0)

Unnamed: 0,체육,미술,국어,수학,총합
0,80,70,98,80,0
2,90,87,99,99,0
4,80,50,98,60,0
1,83,99,79,87,0
3,88,80,100,72,0
5,91,87,98,87,0
