In [1]:
# 라이브러리 가져오기

import pandas as pd # Series, DataFrame 사용
import numpy as np  # 값을 생성하는데 사용

# ⬛ 계층 색인

- 행, 열의 각 축에 대해 다중 단계(계층)을 지정하여 데이터에 차원을 설정
- 인덱스에 다차원 리스트를 전달하면 계층 색인을 지정할 수 있음
- 데이터 구조를 재배열하거나 pivot 테이블과 같은 그룹 기반 작업에 유용

- 재배열 메서드
    - stack() : 컬럼을 로우로 피벗
    - unstack() : 로우를 컬럼으로 피벗

In [2]:
# 🔴 Series (이중 라벨링)

## 🔸 인덱스에 다차원 리스트(아이템 2개)를 전달
## 🔸 다차원리스트[0] 상위계층
## 🔸 상위 계층 작성시 주의점 : 각 계층별로 속하는 하위계층 값의 개수만큼 계층명 작성
## 🔸 상위 계층 리스트의 개수 = 하위 계층 리스트 개수
## 🔸 다차원리스트[1] : 하위계층

## 🔸 실습 ---->
### 로우 인덱스 - 상위 계층 : a, b, c, d
### 하위 계층 - a(1, 2, 3), b(1, 2), c(1, 2, 3, 4), d(1)

s1 = pd.Series(np.arange(10), index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'c', 'c', 'd'],
                                     [1, 2, 3, 1, 2, 1, 2, 3, 4, 1]])

# 💛 인덱스를 이중 리스트로 주면 같은 값끼리 묶여서 그룹핑이 된다.

In [3]:
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [4]:
## 🔸 인덱스 확인 => multi index (다중 인덱스)

s1.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2),
            ('c', 3),
            ('c', 4),
            ('d', 1)],
           )

In [5]:
# 🔴 상위 계층에 접근

## 🔸 계층 색인이 적용된 객체의 상위 인덱스에 접근 : 일반적인 Series 인덱싱으로 접근

s1['c']

1    5
2    6
3    7
4    8
dtype: int32

In [7]:
# 🔴 계층 색인데 대한 슬라이싱 : 마지막 인덱스도 포함('b' : 'd' 입력시 b, c, d를 조회)

s1['b':'d']

b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [8]:
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [9]:
# 🔴 하위 계층에 접근

## 🔸 a, b, c, d에서 하위계층 라벨번호 2인 데이터만 조회
## 🔸 데이터[상위계층명,하위계층번호]

s1[:, 2]

## 상위계층 : 범위 전체
## 하위계층 : 2번째 번호만
## 결과값 : a의 2번째, b의 2번째, c의 두 번째

a    1
b    4
c    6
dtype: int32

In [10]:
# 🔴 하위 계층에 슬라이싱 : loc 메서드를 이용해서 슬라이싱

## 🔸 상위 계층이 c이고 하위계층을 2 ~ 4 까지 슬라이싱(.loc는 마지막 번호도 포함)

s1['c'].loc[2:4]

2    6
3    7
4    8
dtype: int32

In [11]:
# 🔴 unstack() : 최하위(기본동작)에 있는 로우 계층을 컬럼으로 적용하여 위로 올림

## 🔸 Series 객체를 DataFrame화 할 수 있음
## 🔸 NaN : 기존에 없던 로우 계층에 대한 값

s1.unstack()

## 🔸 일차원 데이터를 2차원 데이터로 바꾸어버림

Unnamed: 0,1,2,3,4
a,0.0,1.0,2.0,
b,3.0,4.0,,
c,5.0,6.0,7.0,8.0
d,9.0,,,


In [13]:
# 🔴 stack() 메서드 : 컬럼에 있던 값을 가장 하위 인덱스로 내려서 재배열

## 🔸 DataFrame을 다시 Series화 할 때 사용

s1.unstack().stack()

a  1    0.0
   2    1.0
   3    2.0
b  1    3.0
   2    4.0
c  1    5.0
   2    6.0
   3    7.0
   4    8.0
d  1    9.0
dtype: float64

In [77]:
# 🔴 DataFrame 생성

## 구조 : 4,5
## row : 상위(2017, 2018), 하위(모든 상위 인덱스에 대해 동일하게 a, b)
## col : 상위(서울, 경기), 하위(서울- 강남,잠실 / 경기-안양,수원,판교)
## 값 : 1씩 증가하는 20개

df = pd.DataFrame(np.arange(20).reshape(4,5), 
                  index=[[2017, 2017, 2018, 2018],['a', 'b', 'a', 'b']], 
                  columns = [['서울', '서울', '경기', '경기', '경기'], ['강남', '잠실', '안양', '수원', '판교']])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,안양,수원,판교
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


In [79]:
# 🔴 컬럼의 상위 계층 접근 : 일반적인 df 컬럼 인덱싱 방식

## '서울' 데이터 조회

df['서울']

Unnamed: 0,Unnamed: 1,강남,잠실
2017,a,0,1
2017,b,5,6
2018,a,10,11
2018,b,15,16


In [90]:
# 🔴 컬럼이 이중 구조로 되어 있으므로, 인덱싱도 이중으로 해야 하나의 요소를 조회할 수 있음

print(df['서울']['강남'])
print("--------------------")
print(df['서울', '강남'])
print("--------------------")

## 🔸 튜플로 전달시 하나의 리스트로 2개 이상의 계층 처리 가능
print(df[('서울', '강남')])

2017  a     0
      b     5
2018  a    10
      b    15
Name: 강남, dtype: int32
--------------------
2017  a     0
      b     5
2018  a    10
      b    15
Name: (서울, 강남), dtype: int32
--------------------
2017  a     0
      b     5
2018  a    10
      b    15
Name: (서울, 강남), dtype: int32


In [95]:
# 🔴 row의 상위 계층 접근

## 🔸 2017년 데이터를 조회해주세요
df.loc[2017]

Unnamed: 0_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,강남,잠실,안양,수원,판교
a,0,1,2,3,4
b,5,6,7,8,9


In [96]:
## 🔸 2017년의 전반기a 데이터를 조회해주세요

### ◾ 방법1)

df.loc[2017, 'a']
df.loc[(2017, 'a')]

서울  강남    0
    잠실    1
경기  안양    2
    수원    3
    판교    4
Name: (2017, a), dtype: int32

In [100]:
### ◾ 방법2)

df.loc[2017].loc['a']

서울  강남    0
    잠실    1
경기  안양    2
    수원    3
    판교    4
Name: a, dtype: int32

In [119]:
# 🔴 분당 ~ 수원까지 데이터 조회

## 🔸 주의점 : 데이터프레임 컬럼은 row 슬라이싱 결과에 대해서만 슬라이싱 적용
df['경기'].loc[:, "안양":"수원"]

Unnamed: 0,Unnamed: 1,안양,수원
2017,a,2,3
2017,b,7,8
2018,a,12,13
2018,b,17,18


In [120]:
# 🔴 로우의 최하위계층(a, b)를 컬럼으로 올리기 : unstack()

df.unstack()

Unnamed: 0_level_0,서울,서울,서울,서울,경기,경기,경기,경기,경기,경기
Unnamed: 0_level_1,강남,강남,잠실,잠실,안양,안양,수원,수원,판교,판교
Unnamed: 0_level_2,a,b,a,b,a,b,a,b,a,b
2017,0,5,1,6,2,7,3,8,4,9
2018,10,15,11,16,12,17,13,18,14,19


In [122]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,안양,수원,판교
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


In [121]:
# 🔴 컬럼의 최하위계층을 로우의 하위계층으로 재배열 : stack()

df.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,경기,서울
2017,a,강남,,0.0
2017,a,수원,3.0,
2017,a,안양,2.0,
2017,a,잠실,,1.0
2017,a,판교,4.0,
2017,b,강남,,5.0
2017,b,수원,8.0,
2017,b,안양,7.0,
2017,b,잠실,,6.0
2017,b,판교,9.0,


In [123]:
# 🔴 계층의 인덱스 번호 또는 라벨을 사용하여 상, 하위간 교환

## 🔸 swaplevel(key1, key2, axis=0(기본값))
## 🔸 axis가 0인 경우는 row의 상하위 개념이 뒤집힌다.

df.swaplevel(1, 0)

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,안양,수원,판교
a,2017,0,1,2,3,4
b,2017,5,6,7,8,9
a,2018,10,11,12,13,14
b,2018,15,16,17,18,19


In [124]:
## 🔸 swaplevel에 axis=1을 주면 계층이 아닌 컬럼에 변동이 생깁니다.

df.swaplevel(1, 0, axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,강남,잠실,안양,수원,판교
Unnamed: 0_level_1,Unnamed: 1_level_1,서울,서울,경기,경기,경기
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


### ⬛ 객체 복사

- 할당기호(=) / 슬라이싱 : 원본과 상호 종속적인 복사본 객체 생성 (얕은 복사)
- obj.copy() : 원본과 독립적인 복사본 객체 생성(깊은 복사)

In [129]:
# 🔴 모든 값이 1인 5*1 구조의 Series 생성

s1 = pd.Series(np.ones(5))
s1

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [130]:
# 🔴 할당기호 = 로 복사 : 얕은 복사

s2 = s1
s2

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [131]:
# 🔴 할당 기호로 복사한 객체의 아이템 수정

s2[0] = 10
s2

0    10.0
1     1.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [132]:
## 🔸 =을 이용한 대입은 원본 객체도 변경됨
s1

0    10.0
1     1.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [133]:
# 🔴 원본 객체의 아이템 수정

## 🔸 원본도 복사본에게 영향을 줌

s1[1] = 30
print(s1)
print(s2)

0    10.0
1    30.0
2     1.0
3     1.0
4     1.0
dtype: float64
0    10.0
1    30.0
2     1.0
3     1.0
4     1.0
dtype: float64


In [134]:
# 🔴 슬라이싱으로 복사

## 🔸 일반 파이썬에서는 깊은 복사로 간주되지만
## 🔸 팬더스에서는 얕은 복사로 취급된다. 💛

s3 = s1[:]
s3

0    10.0
1    30.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [138]:
## 🔸 복사본 객체 아이템 수정 => s1, s2에 영향

s3[2] = -9

print("------< s3 >----")
print(s3)
print("------< s1 >----")
print(s1)
print("------< s2 >----")
print(s2)

------< s3 >----
0    10.0
1    30.0
2    -9.0
3     1.0
4     1.0
dtype: float64
------< s1 >----
0    10.0
1    30.0
2    -9.0
3     1.0
4     1.0
dtype: float64
------< s2 >----
0    10.0
1    30.0
2    -9.0
3     1.0
4     1.0
dtype: float64


In [139]:
# 🔴 원본 변경 => s2, s3에 영향

s1[3] = 33

print("------< s1 >----")
print(s1)
print("------< s2 >----")
print(s2)
print("------< s3 >----")
print(s3)

------< s1 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64
------< s2 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64
------< s3 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64


In [140]:
# 🔴 깊은 복사를 하고싶으면 ? => .copy()를 이용

s4 = s1.copy()
s4

0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64

In [141]:
## 🔸 s4를 바꿔도 s1, s2, s3은 영향을 받지 않음.

s4[4] = 200

print("------< s1 >----")
print(s1)
print("------< s2 >----")
print(s2)
print("------< s3 >----")
print(s3)
print("------< s4 >----")
print(s4)

------< s1 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64
------< s2 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64
------< s3 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64
------< s4 >----
0     10.0
1     30.0
2     -9.0
3     33.0
4    200.0
dtype: float64


In [142]:
## 🔸 마찬가지로 s1을 변경해도 s4에는 영향을 주지 않음

s1[0] = 2929229

print("------< s1 >----")
print(s1)
print("------< s2 >----")
print(s2)
print("------< s3 >----")
print(s3)
print("------< s4 >----")
print(s4)

------< s1 >----
0    2929229.0
1         30.0
2         -9.0
3         33.0
4          1.0
dtype: float64
------< s2 >----
0    2929229.0
1         30.0
2         -9.0
3         33.0
4          1.0
dtype: float64
------< s3 >----
0    2929229.0
1         30.0
2         -9.0
3         33.0
4          1.0
dtype: float64
------< s4 >----
0     10.0
1     30.0
2     -9.0
3     33.0
4    200.0
dtype: float64


### ⬛ 정렬 (💛x5)

- obj.sort_index() : 인덱스를 기준으로 정렬 (기본값은 ascending=True, 오름차순 정렬)
    - DataFrame, Series
        - axis = 0 : 기본값, 로우 인덱스 기준으로 정렬
        - axis = 1 : 컬럼 인덱스 기준으로 정렬
        
        
- obj.sort_values() : 값을 기준으로 정렬
    - DataFrame, Series
        - by : 정렬의 기준이 되는 인덱스 값 전달
        - axis = 0 : 기본값, 컬럼을 기준으로 로우 인덱스를 정렬하며 기준값으로 by에 인덱스 컬럼 레벨 또는 컬럼명 전달
        - axis = 1 : 로우 인덱스를 기준으로 컬럼 라벨을 정렬하며 기준값으로 by에 레벨 또는 라벨명 전달

In [143]:
# 🔴 시리즈 생성

## 값과 인덱스라벨이 순서대로 들어가지 않은 시리즈

s1 = pd.Series([2, 3, 1, 7, 0], index=list('gacfd'))
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [144]:
# 🔴 인덱스 기준 오름차순 정렬

## 🔸 기본 동작 : 오름차순 & 로우 인덱스

s1.sort_index()

a    3
c    1
d    0
f    7
g    2
dtype: int64

In [145]:
# 🔴 인덱스 기준 내림차순으로 정렬

s1.sort_index(ascending=False)

g    2
f    7
d    0
c    1
a    3
dtype: int64

In [146]:
## 🔸 일시적 변경이므로 s1에는 영향을 주지 않음

s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [147]:
# 🔴 값 기준 오름차순 정렬

s1.sort_values()

d    0
c    1
g    2
a    3
f    7
dtype: int64

In [148]:
# 🔴 값 기준 내림차순 정렬

s1.sort_values(ascending=False)

f    7
a    3
g    2
c    1
d    0
dtype: int64

In [149]:
## 🔸 원본에 바로 반영되지 않음
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [165]:
# 🔴 데이터 프레임 생성

## 4 *5 무작위 정수(np.random.randint())
## 로우 / 컬럼 인덱스도 순서가 없는 값 지정

df1 = pd.DataFrame(np.random.randint(20, size=(4,5)) , index=list('hcae'), columns=list('EAFCD'))
df1

Unnamed: 0,E,A,F,C,D
h,19,5,3,19,4
c,17,0,7,19,8
a,6,17,3,3,4
e,12,0,10,8,3


In [166]:
# 🔴 row 인덱스 기준으로 오름차순 정렬(axis=0)

df1.sort_index()

Unnamed: 0,E,A,F,C,D
a,6,17,3,3,4
c,17,0,7,19,8
e,12,0,10,8,3
h,19,5,3,19,4


In [167]:
# 🔴 로우 인덱스 기준으로 내림차순 정렬

df1.sort_index(ascending=False)

Unnamed: 0,E,A,F,C,D
h,19,5,3,19,4
e,12,0,10,8,3
c,17,0,7,19,8
a,6,17,3,3,4


In [169]:
# 🔴 컬럼명 기준으로 오름차순 정렬

df1.sort_index(axis=1)

Unnamed: 0,A,C,D,E,F
h,5,19,4,19,3
c,0,19,8,17,7
a,17,3,4,6,3
e,0,8,3,12,10


In [170]:
# 🔴 컬럼명 기준으로 내림차순 정렬

df1.sort_index(axis=1, ascending=False)

Unnamed: 0,F,E,D,C,A
h,3,19,4,19,5
c,7,17,8,19,0
a,3,6,4,3,17
e,10,12,3,8,0


In [172]:
# 🔴 컬럼 기준으로 내림차순 정렬 후, 로우 기준으로 오름차순 정렬

df1.sort_index(axis=1, ascending=False).sort_index()

Unnamed: 0,F,E,D,C,A
a,3,6,4,3,17
c,7,17,8,19,0
e,10,12,3,8,0
h,3,19,4,19,5


In [173]:
## 🔸 원본은 변하지 않는다.

df1

Unnamed: 0,E,A,F,C,D
h,19,5,3,19,4
c,17,0,7,19,8
a,6,17,3,3,4
e,12,0,10,8,3


In [175]:
# 🔴 값 기준으로 정렬

## 🔸 컬럼 D의 값을 기준으로 오름차순 정렬
## sort_values(axis=0, by='기준컬럼명')

df1.sort_values(by='D')

Unnamed: 0,E,A,F,C,D
e,12,0,10,8,3
h,19,5,3,19,4
a,6,17,3,3,4
c,17,0,7,19,8


In [179]:
## 🔸 컬럼 A를 기준으로 내림차순 정렬

df1.sort_values(by='A', ascending=False)

Unnamed: 0,E,A,F,C,D
a,6,17,3,3,4
h,19,5,3,19,4
c,17,0,7,19,8
e,12,0,10,8,3


In [180]:
## 🔸 인덱스라벨(row)의 c의 값을 오름차순으로 정렬

## 결과적으로 정렬되는 대상 : 컬럼
## 정렬의 기준 : row라벨

df1.sort_values(axis=1, by='c')

Unnamed: 0,A,F,D,E,C
h,5,3,4,19,19
c,0,7,8,17,19
a,17,3,4,6,3
e,0,10,3,12,8


In [181]:
## 🔸 row 'e'를 기준으로 값을 내림차순으로 정렬

df1.sort_values(axis=1, by='e', ascending=False)

Unnamed: 0,E,F,C,D,A
h,19,3,19,4,5
c,17,7,19,8,0
a,6,3,3,4,17
e,12,10,8,3,0
