In [1]:
# 라이브러리 가져오기
import pandas as pd
import numpy as np

### 계층 색인

- 행, 열의 각 축에 대해 다중 단계(계층)를 지정하여 데이터에 차원을 설정
- 인덱스에 다차원 리스트를 전달하면 계층 색인을 지정할 수 있음
- 데이터 구조를 재배열하거나 pivot 테이블과 같은 그룹 기반 작업에 유용
- 재배열 메서드
    - stack() : 컬럼을 로우로 피벗
    - unstack() : 로우를 컬럼으로 피벗

In [4]:
# Series
# 인덱스에 다차원 리스트(아이템 2개)를 전달
# 다차원리스트[0] : 상위계층
# 상위계층 작성시 주의점 : 각 계층별로 속하는 하위계층 값의 개수만큼 계층명 작성
# 상위계층 리스트 개수 = 하위계층 리스트 개수
# 다차원리스트[1] : 하위계층
# 실습)
# 로우 인덱스 - 상위계층 : a, b, c, d
# 하위계층 : a(1, 2, 3), b(1, 2), c(1, 2, 3, 4), d(1)
s1 = pd.Series(np.arange(10),
              index=[['a','a','a','b','b','c','c','c','c','d'],
                    [1,2,3,1,2,1,2,3,4,1]])
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [5]:
# 상위 계층에 접근
# 계층 색인이 적용된 객체에 상위 인덱스에 접근 : 일반적인 Series 인덱싱으로 부분집합
s1['c']

1    5
2    6
3    7
4    8
dtype: int32

In [6]:
# 계층색인에 대한 슬라이싱 : 마지막 라벨인덱스도 포함('b':'d'로 입력시 b, c, d 조회)
s1['b':'d']

b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [8]:
# 하위 계층에 접근
# a, b, c, d에서 하위 계층 인덱스가 2인 요소 조회
s1[:,2]

a    1
b    4
c    6
dtype: int32

In [10]:
# 하위 계층에 슬라이싱 : loc 메서드를 이용하여 슬라이싱
# 상위 계층이 c이고 하위 계층을 2~4까지 슬라이싱(마지막 포함)
s1['c'].loc[2:4]

2    6
3    7
4    8
dtype: int32

In [11]:
# unstack() 메서드 : 최하위(기본동작)에 있는 로우 계층을 컬럼으로 적용하여 위로 올림
# Series 객체를 DataFrame 객체로 재배열 할 수 있음
# NaN: 기존에 없던 로우 계층에 대한 값
s1.unstack

<bound method Series.unstack of a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32>

In [12]:
# 재배열 적용시 레벨 지정 가능
# 상위 계층을 컬럼으로 적용하여 위로 올리기
s1.unstack(0)

Unnamed: 0,a,b,c,d
1,0.0,3.0,5.0,9.0
2,1.0,4.0,6.0,
3,2.0,,7.0,
4,,,8.0,


In [15]:
# stack() 메서드 : 컬럼에 있던 값을 인덱스의 하위로 내려서 재배열
# DataFrame을 Series로 만들때 사용
s1.unstack().stack();
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [52]:
# DataFrame 생성
# 구조 4*5
# 로우인덱스 : 상위(2017, 2018) / 하위(모든 상위 인덱스에 대해 동일하게 'a', 'b')
# 컬럼인덱스 : 상위(서울, 경기) / 하위(서울-강남, 잠실/ 경기-분당, 수원, 판교)
# 값 : 1씩 증가하는 20개
df = pd.DataFrame(np.arange(20).reshape(4,5),
                 index = [[2017,2017,2018,2018],
                         ['a','b','a','b']],
                       columns = [['서울','서울',
                                   '경기','경기','경기'],
                                  ['강남','잠실','분당','수원','판교']])

In [39]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,분당,수원,판교
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


In [40]:
df['경기'].loc[:,'분당':'수원']

Unnamed: 0,Unnamed: 1,분당,수원
2017,a,2,3
2017,b,7,8
2018,a,12,13
2018,b,17,18


In [41]:
# 컬럼 최하위를 로우의 하위계층으로 재배열 : stack()
df.unstack().stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,경기,경기,경기,서울,서울
Unnamed: 0_level_1,Unnamed: 1_level_1,분당,수원,판교,강남,잠실
2017,a,2,3,4,0,1
2017,b,7,8,9,5,6
2018,a,12,13,14,10,11
2018,b,17,18,19,15,16


In [50]:
# 계층으 ㅣ인덱스번호 또는 라벨을 사용하여 상 하위간 교환
# swaplevel(key1, key, axis=0(기본값))
# axis가 0인 경우는 row간의 상하위 개념을 바꿔준다.
df.swaplevel(1,0)

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,분당,수원,판교
a,2017,0,1,2,3,4
b,2017,5,6,7,8,9
a,2018,10,11,12,13,14
b,2018,15,16,17,18,19


In [51]:
# axis=1은 로우 계층변동이 아닌 컬럼 계층변동
df.swaplevel(1,0,axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,강남,잠실,분당,수원,판교
Unnamed: 0_level_1,Unnamed: 1_level_1,서울,서울,경기,경기,경기
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


### 객체 복사

- 할당기호(=) / 슬라이싱 : 원본과 상호 종속적인 복사본 객체 생성(얕은복사)
- obj.copy() : 원본과 독립적인 복사본 객체 생성(깊은복사)

In [58]:
# 모든 값이 1인 5*1 구조의 Series생성
s1 = pd.Series(np.ones(5))
s1

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [59]:
# 할당기호(=)로 복사 : 얕은복사
s2 = s1

In [60]:
s2[0] = 10
s2

0    10.0
1     1.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [62]:
# 원본객체 변동여부 확인
s1

0    10.0
1     1.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [63]:
# 원본 객체의 아이템 수정
s1[1] = 3

In [64]:
# 복사본 s2객체 확인
s2

0    10.0
1     3.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [66]:
# 슬라이싱으로 복사(일반 파이썬 -> 깊은복사, Pandas-> 얕은복사로 취급)
s3 = s1[:]
s3

0    10.0
1     3.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [69]:
s3[2] = -9
s3

0    10.0
1     3.0
2    -9.0
3     1.0
4     1.0
dtype: float64

In [70]:
# 원본과 s2 확인
print(s1)
print(s2)

0    10.0
1     3.0
2    -9.0
3     1.0
4     1.0
dtype: float64
0    10.0
1     3.0
2    -9.0
3     1.0
4     1.0
dtype: float64


In [71]:
# 원본변경
s1[3]=33
s1

0    10.0
1     3.0
2    -9.0
3    33.0
4     1.0
dtype: float64

In [73]:
# 복사본 객체 확인
print(s2)
print(s3)

0    10.0
1     3.0
2    -9.0
3    33.0
4     1.0
dtype: float64
0    10.0
1     3.0
2    -9.0
3    33.0
4     1.0
dtype: float64


In [74]:
# copy()를 이용한 복사(깊은복사)
s4 = s1.copy()
# s4 수정(s1 영향x)
s4[4] = 44
s4

0    10.0
1     3.0
2    -9.0
3    33.0
4    44.0
dtype: float64

In [75]:
# 원본 확인
s1

0    10.0
1     3.0
2    -9.0
3    33.0
4     1.0
dtype: float64

### 정렬

- obj.sort_index() : 인덱스를 기준으로 정렬 (기본값은 ascending=True, 오름차순 정렬)
    - DataFrame 
        - axis = 0 : 기본값, 로우 인덱스 기준으로 정렬
        - axis = 1 : 컬럼 인덱스 기준으로 정렬
- obj.sort_values() : 값을 기준으로 정렬
    - DataFrame 
        - by : 정렬의 기준이 되는 인덱스 값 전달
        - axis = 0 : 기본값, 컬럼을 기준으로 로우 인덱스를 정렬하며 기준값으로 by에 인덱스 컬럼 레벨 또는 컬럼명 전달
        - axis = 1 : 로우 인덱스를 기준으로 컬럼 라벨을 정렬하며 기준값으로 by에 레벨 또는 라벨명 전달

In [76]:
# Series 생성
# 값과 인덱스라벨이 순서대로 들어가지 않은 Series
s1 = pd.Series([2,3,1,7,0], index=list('gacfd'))
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [88]:
s1.sort_index()

a    3
c    1
d    0
f    7
g    2
dtype: int64

In [89]:
# DataFrame 생성
# 4 x 5, 무작위 정수
# 로우/컬럼 인덱스도 순서가 없는 값 지정
df1 = pd.DataFrame(np.random.randint(20, size=(4,5)),
                  index=list('hcae'), columns=list('EAFCD'))

In [90]:
df1

Unnamed: 0,E,A,F,C,D
h,6,13,2,8,4
c,16,8,10,4,2
a,4,10,17,14,12
e,10,2,19,12,14


In [94]:
# row 인덱스 기준으로 오름차순 정렬(axis=0)
df1.sort_index()

Unnamed: 0,E,A,F,C,D
a,4,10,17,14,12
c,16,8,10,4,2
e,10,2,19,12,14
h,6,13,2,8,4


In [96]:
# row 인덱스 기준으로 내림차순 정렬
df1.sort_index(ascending=False)

Unnamed: 0,E,A,F,C,D
h,6,13,2,8,4
e,10,2,19,12,14
c,16,8,10,4,2
a,4,10,17,14,12


In [99]:
df1.sort_index(axis=1).sort_index()

Unnamed: 0,A,C,D,E,F
a,10,14,12,4,17
c,8,4,2,16,10
e,2,12,14,10,19
h,13,8,4,6,2


In [103]:
# 컬럼 기준으로 내림차순 정렬 후, 로우 기준으로 오름차순 정렬
df1.sort_index(axis=0).sort_index(axis=1, ascending=False)

Unnamed: 0,F,E,D,C,A
a,17,4,12,14,10
c,10,16,2,4,8
e,19,10,14,12,2
h,2,6,4,8,13


In [112]:
# 값 기준으로 정렬
# 컬럼 D의 값을 오름차순으로 정렬
# sor_values(axis=0) : 기본동작(정렬 결과 행에 반영/정렬 기준은 D컬럼)
df1.sort_values(axis=0, by='D')

Unnamed: 0,E,A,F,C,D
c,16,8,10,4,2
h,6,13,2,8,4
a,4,10,17,14,12
e,10,2,19,12,14


In [114]:
df1.sort_values(by='A', ascending=False)

Unnamed: 0,E,A,F,C,D
h,6,13,2,8,4
a,4,10,17,14,12
c,16,8,10,4,2
e,10,2,19,12,14


In [None]:
# 인덱스라벨 c의 값을 오름차순으로 정렬
# 결과적으로 정렬되는 대상 : 컬럼
# 정렬의 기준 : 로우 레이블