### [인덱스 다루기]
- 기본 인덱스
    * .set_index() <- 컬럼을 인덱스로 설정
    * .reindex() <- 인덱스 재구성(일부 변경, 결측치 발생 가능)
    * .reset_index() <- 위치 인덱스(RangeIndex)로 변경. 기존 인덱스는 컬럼 추가

[1] 모듈 로딩 및 데이터 준비 <hr>

In [114]:
## 모듈 로딩
import pandas as pd

In [115]:
## 데이터 준비
DATA_FILE = '../Data/학생관리부.xlsx'

## EXCEL => DataFrame 로딩
## parameter skiprows = n : 데이터 파일에서 n개 버리기
##           index_col = 위치인덱스 또는 컬럼 이름
# dataDF = pd.read_excel(DATA_FILE, skiprows=2, index_col=0)
# dataDF = pd.read_excel(DATA_FILE, skiprows=2, index_col='이름')
dataDF = pd.read_excel(DATA_FILE, skiprows=2)

In [116]:
## 확인
display(dataDF.head())

Unnamed: 0,이름,학년,반,석차
0,홍길동,1,1,8
1,고길동,1,3,1
2,이길동,1,7,12
3,박길동,3,1,9
4,최길동,2,1,43


[2] DF에서 인덱스 관련 메서드 다루기 <hr>

In [117]:
## =========================================================
## [2-1] 컬럼을 인덱스 설정하기: .set_index()
## =========================================================
dataDF2 = dataDF.set_index(['이름']).sort_index().copy()
dataDF2

Unnamed: 0_level_0,학년,반,석차
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
고길동,1,3,1
박길동,3,1,9
이길동,1,7,12
최길동,2,1,43
홍길동,1,1,8


In [118]:
## -> [실습] 석차 컬럼을 행 인덱스로 설정, 내림차순 정렬해서 저장하기
dataDF3 = dataDF.set_index([' 석차'])
dataDF3.sort_index(ascending=True, inplace=True)
dataDF3

Unnamed: 0_level_0,이름,학년,반
석차,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,고길동,1,3
8,홍길동,1,1
9,박길동,3,1
12,이길동,1,7
43,최길동,2,1


In [119]:
## -> [매개변수 활용] 특정 컬럼이 행인덱스 가능한 지 검사 진행
##                  대량의 데이터일 경우 행 중복값 검사 어려움
##                  verify_integrity=True ===> 중복값 존재 ValueError 발생
# dataDF3 = dataDF.set_index(['학년'], verify_integrity=True)

In [120]:
## [문제] 2개 이상의 컬럼을 조합해서 행인덱스 설정된 DataFrame 만들기
# dataDF4 = dataDF.set_index(['이름', ' 석차'], verify_integrity=True)
dataDF4 = dataDF.set_index(['학년', '반'], verify_integrity=True)
dataDF4

## ----------------------------------------------
# dataDF4 = dataDF.reset_index(drop=True)
# dataDF4

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,석차
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,홍길동,8
1,3,고길동,1
1,7,이길동,12
3,1,박길동,9
2,1,최길동,43


In [121]:
## ==============================================================
## [2-2] 인덱스 재구성/재배치: .reindex(index=[], columns=[])
##                          .reindex(labels=[], axis=0 또는 1)
## ==============================================================
display(dataDF)

Unnamed: 0,이름,학년,반,석차
0,홍길동,1,1,8
1,고길동,1,3,1
2,이길동,1,7,12
3,박길동,3,1,9
4,최길동,2,1,43


In [122]:
## 이름, 학년, 반, 석차 ===> 학년, 반, 이름, 석차로 열인덱스를 재배치
# dataDF.reindex(labels=['학년', '반', '이름', ' 석차'], axis=1)
dataDF.reindex(columns=['학년', '반', '이름', ' 석차'])

Unnamed: 0,학년,반,이름,석차
0,1,1,홍길동,8
1,1,3,고길동,1
2,1,7,이길동,12
3,3,1,박길동,9
4,2,1,최길동,43


In [123]:
## 이름, 학년, 반, 석차 ===> 학교, 이름, 학년, 반, 번호로 열인덱스를 재배치
## -> 기존 없던 것 추가: 학년, 번호
## -> 기존 있던 것 제거: 석차

# dataDF.reindex(labels=['학교', '이름', '학년', '반', '번호'], axis='columns')
dataDF.reindex(columns=['학교', '이름', '학년', '반', '번호'], fill_value='unknown')

Unnamed: 0,학교,이름,학년,반,번호
0,unknown,홍길동,1,1,unknown
1,unknown,고길동,1,3,unknown
2,unknown,이길동,1,7,unknown
3,unknown,박길동,3,1,unknown
4,unknown,최길동,2,1,unknown


In [124]:
## ==============================================================
## [2-3] 인덱스 초기화: .reset_index()
##                    기존 행/열 인덱스는 컬럼/행으로 추가됨
## ==============================================================
display(dataDF)

Unnamed: 0,이름,학년,반,석차
0,홍길동,1,1,8
1,고길동,1,3,1
2,이길동,1,7,12
3,박길동,3,1,9
4,최길동,2,1,43


In [129]:
## ------------------------------------------------------
## 행 인덱스 초기화: [기] 행인덱스 => 컬럼 추가
## ------------------------------------------------------
dataDF2 = dataDF.reset_index()
dataDF2

Unnamed: 0,index,이름,학년,반,석차
0,0,홍길동,1,1,8
1,1,고길동,1,3,1
2,2,이길동,1,7,12
3,3,박길동,3,1,9
4,4,최길동,2,1,43


In [131]:
## ------------------------------------------------------
## 행 인덱스 초기화: [설정] 행인덱스 => 컬럼 추가 X drop=True
## ------------------------------------------------------
dataDF2 = dataDF2.reset_index(drop=True)
display(dataDF2)

Unnamed: 0,index,이름,학년,반,석차
0,0,홍길동,1,1,8
1,1,고길동,1,3,1
2,2,이길동,1,7,12
3,3,박길동,3,1,9
4,4,최길동,2,1,43


In [133]:
## -----------------------------------------------------
## [실습] 행 인덱스 초기화
## -----------------------------------------------------
dataDF = pd.DataFrame([ ('bird', 389.0),
                        ('bird', 24.0),
                        ('mammal', 80.5),
                        ('mammal', pd.NA)],
                        index=['falcon', 'parrot', 'lion', 'monkey'],
                        columns=('class', 'max_speed'))
display(dataDF)

Unnamed: 0,class,max_speed
falcon,bird,389.0
parrot,bird,24.0
lion,mammal,80.5
monkey,mammal,


In [138]:
## => 현재 행 인덱스를 초기화: 컬럼으로 전달되는 행인덱스 삭제 여부 결정
#                           필요 없는 데이터 drop=True, 필요하다면 drop=False
#           class	max_speed
# falcon	bird	389.0
# parrot	bird	24.0
# lion	    mammal	80.5
# monkey	mammal	<NA>
## => 컬럼 추가된 경우 컬럼명 지정 매개변수: names
dataDF.reset_index(names='kind')

Unnamed: 0,kind,class,max_speed
0,falcon,bird,389.0
1,parrot,bird,24.0
2,lion,mammal,80.5
3,monkey,mammal,
