## [ DataFrame 인덱스 다루기 ]

- (1) 새로운 인덱스 설정 컬럼 ==> 인덱스 설정

<hr> (1) 모듈 로딩 <hr>

In [1]:
import pandas as pd

<hr> (2) 데이터 준비 <hr>

In [2]:
exam = {'이름':['마징가', '배트맨', '홍길동', '임꺽정'],
       '국어':[98, 79, 99, 100],
       '수학':[90, 100, 70, 30],
       '미술':[50, 75, 92, 40],
       '체육':[100, 100, 100, 80]}

<hr> (3) 데이터 저장 <hr>

In [3]:
examDF = pd.DataFrame(exam)

<hr> (4) 데이터 확인 <hr>

In [4]:
examDF

Unnamed: 0,이름,국어,수학,미술,체육
0,마징가,98,90,50,100
1,배트맨,79,100,75,100
2,홍길동,99,70,92,100
3,임꺽정,100,30,40,80


In [5]:
# 행 인덱스 일부 변경 => {기존인덱스:새로운인덱스}
# inplace 매개변수/파라미터 => 원본 DataFrame에 변경여부 결정, 기본은 원본 변경 안함 - False!
examDF.rename(index={0:'zero'}, inplace=True)

In [6]:
examDF

Unnamed: 0,이름,국어,수학,미술,체육
zero,마징가,98,90,50,100
1,배트맨,79,100,75,100
2,홍길동,99,70,92,100
3,임꺽정,100,30,40,80


In [7]:
# 열 이름 일부 변경 => columns={기존인덱스:새로운인덱스}
examDF.rename(columns={'체육':'음악'})

Unnamed: 0,이름,국어,수학,미술,음악
zero,마징가,98,90,50,100
1,배트맨,79,100,75,100
2,홍길동,99,70,92,100
3,임꺽정,100,30,40,80


In [8]:
examDF.columns

Index(['이름', '국어', '수학', '미술', '체육'], dtype='object')

<hr> 새로운 인덱스 설정 - 방법2: 특정 컬럼 => 인덱스 : DF.set_index() <hr>

In [9]:
# 현재 기본 0 ~ => 이름 컬럼 인덱스로 설정
examDF.index

Index(['zero', 1, 2, 3], dtype='object')

In [10]:
# 1개 컬럼을 인덱스로 설정 (inplace=False라 원본에 적용 안 됨!)
examDF.set_index('이름')

Unnamed: 0_level_0,국어,수학,미술,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
마징가,98,90,50,100
배트맨,79,100,75,100
홍길동,99,70,92,100
임꺽정,100,30,40,80


In [11]:
examDF

Unnamed: 0,이름,국어,수학,미술,체육
zero,마징가,98,90,50,100
1,배트맨,79,100,75,100
2,홍길동,99,70,92,100
3,임꺽정,100,30,40,80


In [12]:
# 2개의 컬럼을 행 인덱스로 설정 (inplace=False)
examDF.set_index(['이름', '국어', '수학'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,미술,체육
이름,국어,수학,Unnamed: 3_level_1,Unnamed: 4_level_1
마징가,98,90,50,100
배트맨,79,100,75,100
홍길동,99,70,92,100
임꺽정,100,30,40,80


In [13]:
examDF2 = examDF.set_index('이름')
examDF2.index

Index(['마징가', '배트맨', '홍길동', '임꺽정'], dtype='object', name='이름')

In [14]:
examDF2.loc['마징가']

국어     98
수학     90
미술     50
체육    100
Name: 마징가, dtype: int64

In [15]:
examDF3 = examDF.set_index(['이름', '국어', '수학'])
examDF3.index

MultiIndex([('마징가',  98,  90),
            ('배트맨',  79, 100),
            ('홍길동',  99,  70),
            ('임꺽정', 100,  30)],
           names=['이름', '국어', '수학'])

In [16]:
examDF3.loc['마징가']

Unnamed: 0_level_0,Unnamed: 1_level_0,미술,체육
국어,수학,Unnamed: 2_level_1,Unnamed: 3_level_1
98,90,50,100


In [17]:
examDF3.loc[('마징가', 98, 90)]

미술     50
체육    100
Name: (마징가, 98, 90), dtype: int64

In [18]:
# 멀티인덱스는 인덱스를 탐색할 때 가장 첫 요소부터 보기 때문에 '이름'부터 넣어야 한다.
# KeyError
# examDF3.loc[98]

<hr> (5) 새로운 인덱스 설정 방법 3: <hr>

In [19]:
examDF.set_index('이름', inplace=True)

In [20]:
examDF

Unnamed: 0_level_0,국어,수학,미술,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
마징가,98,90,50,100
배트맨,79,100,75,100
홍길동,99,70,92,100
임꺽정,100,30,40,80


In [21]:
# 리셋. 현재 행 인덱스 -> 컬럼으로 추가
df1 = examDF.reset_index()
df1

Unnamed: 0,이름,국어,수학,미술,체육
0,마징가,98,90,50,100
1,배트맨,79,100,75,100
2,홍길동,99,70,92,100
3,임꺽정,100,30,40,80


In [22]:
# reset_index()는 기존 인덱스를 컬럼에 추가하기 때문에 
# 계속 할 수록 인덱스 컬럼이 중복으로 추가된다.
df1.reset_index()

Unnamed: 0,index,이름,국어,수학,미술,체육
0,0,마징가,98,90,50,100
1,1,배트맨,79,100,75,100
2,2,홍길동,99,70,92,100
3,3,임꺽정,100,30,40,80


In [23]:
# 현재 행 인덱스를 컬럼에 추가하지 않고 삭제 => drop 파라미터를 True로 설정
df2 = examDF.reset_index(drop=True)
df2

Unnamed: 0,국어,수학,미술,체육
0,98,90,50,100
1,79,100,75,100
2,99,70,92,100
3,100,30,40,80
