## [DataFrame 인덱스 다루기]


(1) 모듈 로딩 <hr>

In [1]:
import pandas as pd


(2) 데이터 준비 <hr>

In [2]:
# dict 타입의 데이터 생성
exam = {'이름': ['마징가', '배트맨', '홍길동', '임꺽정'],
        '국어': [98, 79, 99, 100],
        '미술': [70, 99, 87, 80],
        '수학': [77, 70, 100, 72],
        '체육': [77, 93, 69, 91]}


(3) 데이터 저장 <hr>

In [3]:
examDF = pd.DataFrame(exam)


In [4]:
examDF


Unnamed: 0,이름,국어,미술,수학,체육
0,마징가,98,70,77,77
1,배트맨,79,99,70,93
2,홍길동,99,87,100,69
3,임꺽정,100,80,72,91


- 행 데이터 추가

In [5]:
# 마징가 98 50 60 77
examDF.loc[4] = ['마징가', 98, 50, 60, 77]


In [6]:
# 마징가 98 87 77 91
examDF.loc[5] = ['마징가', 98, 87, 70, 91]


In [7]:
examDF


Unnamed: 0,이름,국어,미술,수학,체육
0,마징가,98,70,77,77
1,배트맨,79,99,70,93
2,홍길동,99,87,100,69
3,임꺽정,100,80,72,91
4,마징가,98,50,60,77
5,마징가,98,87,70,91


(5) 새로운 인덱스 설정 - 방법 3 : 멀티인덱스 제어 DF.set_index([컬럼1, 컬럼2, ..., 컬럼n])


In [8]:
# 이름, 국어, 수학을 인덱스 설정
examDF1 = examDF.set_index(['이름', '국어', '수학'])
examDF1


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,미술,체육
이름,국어,수학,Unnamed: 3_level_1,Unnamed: 4_level_1
마징가,98,77,70,77
배트맨,79,70,99,93
홍길동,99,100,87,69
임꺽정,100,72,80,91
마징가,98,60,50,77
마징가,98,70,87,91


In [9]:
# 인덱스 속성 확인
examDF1.index


MultiIndex([('마징가',  98,  77),
            ('배트맨',  79,  70),
            ('홍길동',  99, 100),
            ('임꺽정', 100,  72),
            ('마징가',  98,  60),
            ('마징가',  98,  70)],
           names=['이름', '국어', '수학'])

- 행 데이터 선택 : DF객체변수명.loc[행레이블] / DF객체변수명.iloc[위치인덱스]

In [11]:
examDF1.loc[('마징가', 98, 77)]


미술    70
체육    77
Name: (마징가, 98, 77), dtype: int64

In [12]:
examDF1.loc[('마징가', 98, 70)]


미술    87
체육    91
Name: (마징가, 98, 70), dtype: int64

In [13]:
examDF1.loc[('마징가', 98, 60)]


미술    50
체육    77
Name: (마징가, 98, 60), dtype: int64

In [14]:
# KeyError 발생 ==> ('마징가', 98, 77)
# examDF1.loc[98]


- 멀티인덱스의 인덱스의 일부분을 기준으로 행 선택 : xs

In [16]:
examDF1.xs('마징가', level=0)  # level=0은 디폴트값/생략 가능


Unnamed: 0_level_0,Unnamed: 1_level_0,미술,체육
국어,수학,Unnamed: 2_level_1,Unnamed: 3_level_1
98,77,70,77
98,60,50,77
98,70,87,91


In [17]:
examDF1.xs(98, level=1)


Unnamed: 0_level_0,Unnamed: 1_level_0,미술,체육
이름,수학,Unnamed: 2_level_1,Unnamed: 3_level_1
마징가,77,70,77
마징가,60,50,77
마징가,70,87,91


In [19]:
examDF1.xs(70, level=2)


Unnamed: 0_level_0,Unnamed: 1_level_0,미술,체육
이름,국어,Unnamed: 2_level_1,Unnamed: 3_level_1
배트맨,79,99,93
마징가,98,87,91


- ('마징가', 98, 77), ('임꺽정', 100, 72) 2개 행을 한꺼번에 가져오기

In [25]:
examDF1.loc[[('마징가', 98, 77), ('임꺽정', 100, 72)]]


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,미술,체육
이름,국어,수학,Unnamed: 3_level_1,Unnamed: 4_level_1
마징가,98,77,70,77
임꺽정,100,72,80,91


In [26]:
examDF1.loc[('마징가', 98, 77)]


미술    70
체육    77
Name: (마징가, 98, 77), dtype: int64

In [27]:
examDF1.loc[('임꺽정', 100, 72)]


미술    80
체육    91
Name: (임꺽정, 100, 72), dtype: int64

(5) 인덱스 재배치 : 행/열 인덱스를 원하는 순서대로 재배치 + 존재하지 않는 행/열 추가 <hr>
- DF.reindex()

In [29]:
print(examDF.index, examDF.columns, sep='\n')


Index([0, 1, 2, 3, 4, 5], dtype='int64')
Index(['이름', '국어', '미술', '수학', '체육'], dtype='object')


- 컬럼명 순서 변경 ==> '체육', '미술', '국어', '수학', '총합'

In [33]:
examDF.reindex(['체육', '미술', '국어', '수학', '총합'], axis='columns', fill_value=0)


Unnamed: 0,체육,미술,국어,수학,총합
0,77,70,98,77,0
1,93,99,79,70,0
2,69,87,99,100,0
3,91,80,100,72,0
4,77,50,98,60,0
5,91,87,98,70,0


In [34]:
examDF.reindex([0 ,2, 4, 1, 3, 5], axis='index', fill_value=0)


Unnamed: 0,이름,국어,미술,수학,체육
0,마징가,98,70,77,77
2,홍길동,99,87,100,69
4,마징가,98,50,60,77
1,배트맨,79,99,70,93
3,임꺽정,100,80,72,91
5,마징가,98,87,70,91


- 컬럼명 순서 변경 ==> '체육', '미술', '국어', '수학', '총합' + 행인덱스 => 0, 2, 4, 1, 3, 5

In [36]:
examDF.reindex(index=[0,2,4,1,3,5], columns=['체육','미술','국어','수학','총합'], fill_value=0)


Unnamed: 0,체육,미술,국어,수학,총합
0,77,70,98,77,0
2,69,87,99,100,0
4,77,50,98,60,0
1,93,99,79,70,0
3,91,80,100,72,0
5,91,87,98,70,0


In [35]:
examDF


Unnamed: 0,이름,국어,미술,수학,체육
0,마징가,98,70,77,77
1,배트맨,79,99,70,93
2,홍길동,99,87,100,69
3,임꺽정,100,80,72,91
4,마징가,98,50,60,77
5,마징가,98,87,70,91
