<a href="https://colab.research.google.com/github/SWeat-python-weekend-study/Yeongbeom_Song/blob/main/210227-2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 3.5 데이터프레임 인덱스 조작

## 데이터프레임 인덱스 설정 및 제거

때로는 데이터프레임에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 열에 들어가 있거나 반대로 일반 데이터 열이어야 할 것이 인덱스로 되어 있을 수 있다. 이 때는 `set_index` 명령이나 `reset_index` 명령으로 인덱스와 일반 데이터 열을 교환할 수 있다.

* `set_index` : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
* `reset_index` : 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가

In [None]:
import pandas as pd
import numpy as np

In [None]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'),
                              np.round(np.random.rand(3, 5), 2)]).T,
                   columns=["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


```{margin}
`set_index`
```

`set_index` 메서드로 특정한 열을 인덱스로 설정할 수 있다. 이 때 기존의 인덱스는 없어진다.

In [None]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


마찬가지로 C2열을 인덱스로 지정하면 기존의 인덱스는 사라진다.

In [None]:
df2.set_index("C2")

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


```{margin}
`reset_index`
```

반대로 `reset_index` 메서드를 쓰면 인덱스를 보통의 자료열로 바꿀 수도 있다. 이 때 인덱스 열은 자료열의 가장 선두로 삽입된다. 데이터프레임의 인덱스는 정수로 된 디폴트 인덱스로 바뀐다.

In [None]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


`reset_index` 메서드를 호출할 때 인수 `drop=True` 로 설정하면 인덱스 열을 보통의 자료열로 올리는 것이 아니라 그냥 버리게 된다.

In [None]:
df2.reset_index(drop=True)

Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


**<스스로> 연습문제**
````{admonition} 연습 문제 4.5.1

5명의 학생의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

1. 학생 이름을 나타내는 열을 포함시키지 않고 데이터프레임 `df_score1` 을 생성한 후, `df_score1.index` 속성에 학생 이름을 나타내는 열을 지정하여 인덱스를 지정한다. `reset_index` 명령으로 이 인덱스 열을 명령으로 일반 데이터열로 바꾸여 데이터프레임 `df_score2`을 만든다.
2. 학생 이름을 나타내는 열이 일반 데이터 열을 포함하는 데이터프레임 `df_score2`에 `set_index` 명령을 적용하여 다시 학생 이름을 나타내는 열을 인덱스로 변경한다.
````

In [4]:
import pandas as pd
import numpy as np

score1 = pd.DataFrame((np.random.rand(5, 3)), columns=["국어", "영어", "수학"])
score1.index = ['학생1', '학생2', '학생3', '학생4', '학생5']

print(score1)
print('-' * 100)

score2 = score1.reset_index()
print(score2)
print('-' * 100)

score2 = score2.set_index('index')
print(score2)

           국어        영어        수학
학생1  0.825010  0.629778  0.989215
학생2  0.618115  0.377419  0.687517
학생3  0.516455  0.519855  0.919954
학생4  0.630432  0.966906  0.135645
학생5  0.522106  0.459793  0.787410
----------------------------------------------------------------------------------------------------
  index        국어        영어        수학
0   학생1  0.825010  0.629778  0.989215
1   학생2  0.618115  0.377419  0.687517
2   학생3  0.516455  0.519855  0.919954
3   학생4  0.630432  0.966906  0.135645
4   학생5  0.522106  0.459793  0.787410
----------------------------------------------------------------------------------------------------
             국어        영어        수학
index                              
학생1    0.825010  0.629778  0.989215
학생2    0.618115  0.377419  0.687517
학생3    0.516455  0.519855  0.919954
학생4    0.630432  0.966906  0.135645
학생5    0.522106  0.459793  0.787410


## 행 인덱스와 열 인덱스 교환

```{margin}
`stack`
```

```{margin}
`unstack`
```

`stack` 메서드나 `unstack` 메서드를 쓰면 열 인덱스를 행 인덱스로 바꾸거나 반대로 행 인덱스를 열 인덱스로 바꿀 수 있다.

* `stack`
 * 열 인덱스 -> 행 인덱스로 변환
 * stack 상단 헤더 컬럼들을 index 기준으로 각각 재그룹화 (기존 인덱스의 하위 레벨로 그룹핑)

* `unstack`
 * 행 인덱스 -> 열 인덱스로 변환
 * unstack 멀티 인덱스를 컬럼 기준으로 재그룹화 시키는 방법 (기존 헤더의 하위 레벨로 그룹핑)

`stack` 메서드를 실행하면 열 인덱스가 반시계 방향으로 90도 회전한 것과 비슷한 모양이 된다. 마찬가지로 `unstack` 메서드를 실행하면 행 인덱스가 시계 방향으로 90도 회전한 것과 비슷하다. 인덱스를 지정할 때는 문자열 이름과 순서를 표시하는 숫자 인덱스를 모두 사용할 수 있다.

In [None]:
_f = pd.DataFrame([[1,'A'], [2,'B']], columns=['C1','C2'], index=['I1','I2'])
_f

Unnamed: 0,C1,C2
I1,1,A
I2,2,B


In [None]:
_f.stack()

I1  C1    1
    C2    A
I2  C1    2
    C2    B
dtype: object

In [None]:
_f.stack().unstack()

Unnamed: 0,C1,C2
I1,1,A
I2,2,B
