### 【 인덱스 다루기 】
- 기본 인덱스 
    * .set_index() <- 컬럼을 인덱스로 설정 
    * .reindex() <- 인덱스 재구성(일부 변경. 결측치 발생 가능)
    * .reset_index() <- 위치인덱스(RangeIndex)로 변경. 기존 인덱스는 컬럼 추가

[1] 모듈 로딩 및 데이터 준비<hr>

In [21]:
## 모듈 로딩 
import pandas as pd 

In [22]:
## 데이터 준비
DATA_FILE = '../Data/학생관리부.xlsx'

## EXCEL => DataFrame 로딩
## 파라미터 skiprows = n : 데이터 파일에서 n개 버리기
##         index_col = 위치인덱스 또는 컬럼이름
#dataDF = pd.read_excel(DATA_FILE, skiprows=2, index_col=0)
#dataDF = pd.read_excel(DATA_FILE, skiprows=2, index_col='이름')

dataDF  = pd.read_excel(DATA_FILE, skiprows=2)

In [23]:
## 확인
display( dataDF.head())

Unnamed: 0,이름,학년,반,석차
0,홍길동,1,1,8
1,고길동,1,3,1
2,이길동,1,7,12
3,박길동,3,1,9
4,최길동,2,1,43


[2] DF에서 인덱스관련 메서드 다루기<hr>

In [24]:
## ======================================================
## [2-1] 컬럼을 인덱스 설정하기 : .set_index()
## ======================================================
dataDF2 = dataDF.set_index(['이름']).sort_index().copy()
dataDF2

Unnamed: 0_level_0,학년,반,석차
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
고길동,1,3,1
박길동,3,1,9
이길동,1,7,12
최길동,2,1,43
홍길동,1,1,8


In [30]:
## ->[실습] 석차 컬럼을 행 인덱스로 설정, 내림차순 정렬해서 저장하기 
dataDF3 = dataDF.set_index([' 석차'])
dataDF3.sort_index(ascending=False, inplace=True)   ## ascending = True 오름차순
dataDF3

Unnamed: 0_level_0,이름,학년,반
석차,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
43,최길동,2,1
12,이길동,1,7
9,박길동,3,1
8,홍길동,1,1
1,고길동,1,3


In [35]:
## ->[매개변수 활용] 특정 컬럼이 행인덱스 가능하지 검사 진행 
##                 대량의 데이터 경우 행 중복값 검사 눈으로 하기 어려움
##                 verify_integrity=True ===>  중복값 존재 ValueError 발생
##dataDF3 = dataDF.set_index(['학년'], verify_integrity=True)


In [39]:
## [문제] 2개 이상의 컬럼을 조합해서 행인덱스 설정된 DataFrame 생성
# 	이름  학년	반	석차
# 0	홍길동	1	1	8
# 1	고길동	1	3	1
# 2	이길동	1	7	12
# 3	박길동	3	1	9
# 4	최길동	2	1	43
#dataDF4 = dataDF.set_index(['이름',' 석차'],  verify_integrity=True)
dataDF4 = dataDF.set_index(['학년','반'],  verify_integrity=True)
dataDF4

Unnamed: 0_level_0,Unnamed: 1_level_0,이름,석차
학년,반,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,홍길동,8
1,3,고길동,1
1,7,이길동,12
3,1,박길동,9
2,1,최길동,43


In [None]:
## ===========================================================
## [2-2] 인덱스 재구성/재배치 : .reindex(index=[],  columns=[])
##                           .reindex(labels=[], axis=0 또는 1)
## ===========================================================
display( dataDF )

Unnamed: 0,이름,학년,반,석차
0,홍길동,1,1,8
1,고길동,1,3,1
2,이길동,1,7,12
3,박길동,3,1,9
4,최길동,2,1,43


In [44]:
## 이름, 학년, 반, 석차 ===>  학년 반 이름 석차로 열이름/열인덱스를 재배치/재구성
#dataDF.reindex(labels=['학년','반','이름',' 석차'], axis=1)
dataDF.reindex(columns=['학년','반','이름',' 석차'] )

Unnamed: 0,학년,반,이름,석차
0,1,1,홍길동,8
1,1,3,고길동,1
2,1,7,이길동,12
3,3,1,박길동,9
4,2,1,최길동,43


In [48]:
## 이름, 학년, 반, 석차 ===>  학교, 이름, 학년, 반, 번호  열이름/열인덱스를 재배치/재구성
## -> 기존 없던것 추가 : 학년, 번호
## -> 기존 있던것 제거 : 석차 

#dataDF.reindex(labels=['학교','이름','학년','반','번호'], axis='columns')
dataDF.reindex(columns=['학교','이름','학년','반','번호'], fill_value='unknown')

Unnamed: 0,학교,이름,학년,반,번호
0,unknown,홍길동,1,1,unknown
1,unknown,고길동,1,3,unknown
2,unknown,이길동,1,7,unknown
3,unknown,박길동,3,1,unknown
4,unknown,최길동,2,1,unknown


In [49]:
## ===========================================================
## [2-3] 인덱스 초기화 : .reset_index()
##                     기존 행인덱스는 컬럼으로 추가됨
## ===========================================================
display(dataDF)

Unnamed: 0,이름,학년,반,석차
0,홍길동,1,1,8
1,고길동,1,3,1
2,이길동,1,7,12
3,박길동,3,1,9
4,최길동,2,1,43


In [None]:
## ------------------------------------------------------
## 행인덱스 초기화 : [기] 행인덱스 => 컬럼 추가
## ------------------------------------------------------
dataDF2 = dataDF.reset_index()
dataDF2

Unnamed: 0,index,이름,학년,반,석차
0,0,홍길동,1,1,8
1,1,고길동,1,3,1
2,2,이길동,1,7,12
3,3,박길동,3,1,9
4,4,최길동,2,1,43


In [61]:
## ------------------------------------------------------
## 행인덱스 초기화 : [설정] 행인덱스 => 컬럼 추가 X drop=True
## ------------------------------------------------------
dataDF2 = dataDF.reset_index(drop=True)
dataDF2

Unnamed: 0,이름,학년,반,석차
0,홍길동,1,1,8
1,고길동,1,3,1
2,이길동,1,7,12
3,박길동,3,1,9
4,최길동,2,1,43


In [64]:
## ----------------------------------------------------- 
## [실습] 행인덱스 초기화 
## ----------------------------------------------------- 
## => 4행 2열
dataDF = pd.DataFrame([ ('bird', 389.0),
                        ('bird', 24.0),
                        ('mammal', 80.5),
                        ('mammal', pd.NA)],
                        index=['falcon', 'parrot', 'lion', 'monkey'], 
                        columns=('class', 'max_speed'))
display(dataDF)


Unnamed: 0,class,max_speed
falcon,bird,389.0
parrot,bird,24.0
lion,mammal,80.5
monkey,mammal,


In [None]:
## => [실습] 현재 행인덱스를 초기화 : 컬럼으로 전달되는 행인덱스 삭제 여부 결정 
#                                 필요 없는 데이터 drop=True
#                                 필요 있는 데이터 drop=False  <---- 기
#           class	max_speed
# falcon	bird	389.0
# parrot	bird	24.0
# lion	    mammal	80.5
# monkey	mammal	<NA>
## => 컬럼 추가된 경우 컬럼명 지정 매개변수 : names
dataDF.reset_index(names='kind')

Unnamed: 0,kind,class,max_speed
0,falcon,bird,389.0
1,parrot,bird,24.0
2,lion,mammal,80.5
3,monkey,mammal,
