**출처 : 파이썬 머신러닝 판다스 데이터 분석, 오승환 지음, 정보문화사**

### [인덱스 활용]

- [**인덱스 활용**](#인덱스-활용)
    - [특정 열을 행 인덱스로 설정](#특정-열을-행-인덱스로-설정)
    - [행 인덱스 재배열](#행-인덱스-재배열)
    - [행 인덱스 초기화](#행-인덱스-초기화)
    - [행 인덱스를 기준으로 데이터프레임 정렬](#행-인덱스를-기준으로-데이터프레임-정렬)
    - [특정 열의 데이터 값을 기준으로 데이터프레임 정렬하기](#특정-열의-데이터-값을-기준으로-데이터프레임-정렬하기)


-----

# 인덱스 활용

### 특정 열을 행 인덱스로 설정

* 데이터프레임객체.set_index( ['열이름'] 또는 '열이름')

In [1]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환, 변수 df에 저장
exam_data = {'이름' : ['서준', '우현', '인아'],
             '수학' : [90, 80, 70],
             '영어' : [98, 89, 95],
             '음악' : [85, 95, 100],
             '체육' : [100, 90, 90]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,98,85,100
1,우현,80,89,95,90
2,인아,70,95,100,90


In [2]:
# 특정 열(column)을 데이터프레임의 행 인덱스(index)로 설정
ndf = df.set_index(['이름'])
ndf

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [5]:
ndf2 = ndf.set_index('음악')
ndf2

Unnamed: 0_level_0,수학,영어,체육
음악,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
85,90,98,100
95,80,89,90
100,70,95,90


In [4]:
ndf3 = ndf.set_index(['수학', '음악'])
ndf3

Unnamed: 0_level_0,Unnamed: 1_level_0,영어,체육
수학,음악,Unnamed: 2_level_1,Unnamed: 3_level_1
90,85,98,100
80,95,89,90
70,100,95,90


### 행 인덱스 재배열

* 새로운 배열로 행 인덱스를 재지정 : 데이터프레임객체.reindex(새로운 인덱스 배열)
* 기존 데이터프레임에 존재하지 않는 행 인덱스가 새롭게 추가되는 경우 그 행의 데이터 값은 NaN(Not a Number) 값이 입력

In [6]:
import pandas as pd

# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환, 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [7]:
# 인덱스를[r0, r1, r2, r3, r4]로 재지정
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf = df.reindex(new_index)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1.0,4.0,7.0,10.0,13.0
r1,2.0,5.0,8.0,11.0,14.0
r2,3.0,6.0,9.0,12.0,15.0
r3,,,,,
r4,,,,,


In [16]:
# reindex로 발생한 NaN값을 숫자 0으로 채우기
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf2 = df.reindex(new_index, fill_value=0)
ndf2

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15
r3,0,0,0,0,0
r4,0,0,0,0,0


### 행 인덱스 초기화

* 정수형 위치 인덱스로 초기화 : 데이터프레임객체.reset_index()

In [9]:
import pandas as pd

# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환, 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [10]:
# 행 인덱스를 정수형으로 초기화
ndf = df.reset_index()
ndf

Unnamed: 0,index,c0,c1,c2,c3,c4
0,r0,1,4,7,10,13
1,r1,2,5,8,11,14
2,r2,3,6,9,12,15


### 행 인덱스를 기준으로 데이터프레임 정렬

* 행 인덱스 기준 정렬 : 데이터프레임.sort_index()
* ascending 옵션 : 오름차순(True) 또는 내림차순(False) 설정

In [11]:
import pandas as pd

# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환, 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [12]:
# 내림차순으로 행 인덱스 정렬
ndf = df.sort_index(ascending=False)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13


In [13]:
# 오름차순으로 행 인덱스 정렬
ndf = ndf.sort_index(ascending=True)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


### 특정 열의 데이터 값을 기준으로 데이터프레임 정렬하기

* 열 기준 정렬 : 데이터프레임객체.sort_values()

In [15]:
import pandas as pd

# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환, 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
df

Unnamed: 0,c0,c1,c2,c3,c4
r0,1,4,7,10,13
r1,2,5,8,11,14
r2,3,6,9,12,15


In [14]:
# c1 열을 기준으로 내림차순 정렬
ndf = df.sort_values(by='c1', ascending=False)
ndf

Unnamed: 0,c0,c1,c2,c3,c4
r2,3,6,9,12,15
r1,2,5,8,11,14
r0,1,4,7,10,13
