In [1]:
# 라이브러리 가져오기

import pandas as pd # Series, DataFrame 사용
import numpy as np  # 값을 생성하는데 사용

# ⬛ 계층 색인

- 행, 열의 각 축에 대해 다중 단계(계층)을 지정하여 데이터에 차원을 설정
- 인덱스에 다차원 리스트를 전달하면 계층 색인을 지정할 수 있음
- 데이터 구조를 재배열하거나 pivot 테이블과 같은 그룹 기반 작업에 유용

- 재배열 메서드
    - stack() : 컬럼을 로우로 피벗
    - unstack() : 로우를 컬럼으로 피벗

In [2]:
# 🔴 Series (이중 라벨링)

## 🔸 인덱스에 다차원 리스트(아이템 2개)를 전달
## 🔸 다차원리스트[0] 상위계층
## 🔸 상위 계층 작성시 주의점 : 각 계층별로 속하는 하위계층 값의 개수만큼 계층명 작성
## 🔸 상위 계층 리스트의 개수 = 하위 계층 리스트 개수
## 🔸 다차원리스트[1] : 하위계층

## 🔸 실습 ---->
### 로우 인덱스 - 상위 계층 : a, b, c, d
### 하위 계층 - a(1, 2, 3), b(1, 2), c(1, 2, 3, 4), d(1)

s1 = pd.Series(np.arange(10), index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'c', 'c', 'd'],
                                     [1, 2, 3, 1, 2, 1, 2, 3, 4, 1]])

# 💛 인덱스를 이중 리스트로 주면 같은 값끼리 묶여서 그룹핑이 된다.

In [3]:
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [4]:
## 🔸 인덱스 확인 => multi index (다중 인덱스)

s1.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2),
            ('c', 3),
            ('c', 4),
            ('d', 1)],
           )

In [5]:
# 🔴 상위 계층에 접근

## 🔸 계층 색인이 적용된 객체의 상위 인덱스에 접근 : 일반적인 Series 인덱싱으로 접근

s1['c']

1    5
2    6
3    7
4    8
dtype: int32

In [6]:
# 🔴 계층 색인데 대한 슬라이싱 : 마지막 인덱스도 포함('b' : 'd' 입력시 b, c, d를 조회)

s1['b':'d']

b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [7]:
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [8]:
# 🔴 하위 계층에 접근

## 🔸 a, b, c, d에서 하위계층 라벨번호 2인 데이터만 조회
## 🔸 데이터[상위계층명,하위계층번호]

s1[:, 2]

## 상위계층 : 범위 전체
## 하위계층 : 2번째 번호만
## 결과값 : a의 2번째, b의 2번째, c의 두 번째

a    1
b    4
c    6
dtype: int32

In [9]:
# 🔴 하위 계층에 슬라이싱 : loc 메서드를 이용해서 슬라이싱

## 🔸 상위 계층이 c이고 하위계층을 2 ~ 4 까지 슬라이싱(.loc는 마지막 번호도 포함)

s1['c'].loc[2:4]

2    6
3    7
4    8
dtype: int32

In [10]:
# 🔴 unstack() : 최하위(기본동작)에 있는 로우 계층을 컬럼으로 적용하여 위로 올림

## 🔸 Series 객체를 DataFrame화 할 수 있음
## 🔸 NaN : 기존에 없던 로우 계층에 대한 값

s1.unstack()

## 🔸 일차원 데이터를 2차원 데이터로 바꾸어버림

Unnamed: 0,1,2,3,4
a,0.0,1.0,2.0,
b,3.0,4.0,,
c,5.0,6.0,7.0,8.0
d,9.0,,,


In [11]:
# 🔴 stack() 메서드 : 컬럼에 있던 값을 가장 하위 인덱스로 내려서 재배열

## 🔸 DataFrame을 다시 Series화 할 때 사용

s1.unstack().stack()

a  1    0.0
   2    1.0
   3    2.0
b  1    3.0
   2    4.0
c  1    5.0
   2    6.0
   3    7.0
   4    8.0
d  1    9.0
dtype: float64

In [12]:
# 🔴 DataFrame 생성

## 구조 : 4,5
## row : 상위(2017, 2018), 하위(모든 상위 인덱스에 대해 동일하게 a, b)
## col : 상위(서울, 경기), 하위(서울- 강남,잠실 / 경기-안양,수원,판교)
## 값 : 1씩 증가하는 20개

df = pd.DataFrame(np.arange(20).reshape(4,5), 
                  index=[[2017, 2017, 2018, 2018],['a', 'b', 'a', 'b']], 
                  columns = [['서울', '서울', '경기', '경기', '경기'], ['강남', '잠실', '안양', '수원', '판교']])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,안양,수원,판교
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


In [13]:
# 🔴 컬럼의 상위 계층 접근 : 일반적인 df 컬럼 인덱싱 방식

## '서울' 데이터 조회

df['서울']

Unnamed: 0,Unnamed: 1,강남,잠실
2017,a,0,1
2017,b,5,6
2018,a,10,11
2018,b,15,16


In [14]:
# 🔴 컬럼이 이중 구조로 되어 있으므로, 인덱싱도 이중으로 해야 하나의 요소를 조회할 수 있음

print(df['서울']['강남'])
print("--------------------")
print(df['서울', '강남'])
print("--------------------")

## 🔸 튜플로 전달시 하나의 리스트로 2개 이상의 계층 처리 가능
print(df[('서울', '강남')])

2017  a     0
      b     5
2018  a    10
      b    15
Name: 강남, dtype: int32
--------------------
2017  a     0
      b     5
2018  a    10
      b    15
Name: (서울, 강남), dtype: int32
--------------------
2017  a     0
      b     5
2018  a    10
      b    15
Name: (서울, 강남), dtype: int32


In [15]:
# 🔴 row의 상위 계층 접근

## 🔸 2017년 데이터를 조회해주세요
df.loc[2017]

Unnamed: 0_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,강남,잠실,안양,수원,판교
a,0,1,2,3,4
b,5,6,7,8,9


In [16]:
## 🔸 2017년의 전반기a 데이터를 조회해주세요

### ◾ 방법1)

df.loc[2017, 'a']
df.loc[(2017, 'a')]

서울  강남    0
    잠실    1
경기  안양    2
    수원    3
    판교    4
Name: (2017, a), dtype: int32

In [17]:
### ◾ 방법2)

df.loc[2017].loc['a']

서울  강남    0
    잠실    1
경기  안양    2
    수원    3
    판교    4
Name: a, dtype: int32

In [18]:
# 🔴 분당 ~ 수원까지 데이터 조회

## 🔸 주의점 : 데이터프레임 컬럼은 row 슬라이싱 결과에 대해서만 슬라이싱 적용
df['경기'].loc[:, "안양":"수원"]

Unnamed: 0,Unnamed: 1,안양,수원
2017,a,2,3
2017,b,7,8
2018,a,12,13
2018,b,17,18


In [19]:
# 🔴 로우의 최하위계층(a, b)를 컬럼으로 올리기 : unstack()

df.unstack()

Unnamed: 0_level_0,서울,서울,서울,서울,경기,경기,경기,경기,경기,경기
Unnamed: 0_level_1,강남,강남,잠실,잠실,안양,안양,수원,수원,판교,판교
Unnamed: 0_level_2,a,b,a,b,a,b,a,b,a,b
2017,0,5,1,6,2,7,3,8,4,9
2018,10,15,11,16,12,17,13,18,14,19


In [20]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,안양,수원,판교
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


In [21]:
# 🔴 컬럼의 최하위계층을 로우의 하위계층으로 재배열 : stack()

df.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,경기,서울
2017,a,강남,,0.0
2017,a,수원,3.0,
2017,a,안양,2.0,
2017,a,잠실,,1.0
2017,a,판교,4.0,
2017,b,강남,,5.0
2017,b,수원,8.0,
2017,b,안양,7.0,
2017,b,잠실,,6.0
2017,b,판교,9.0,


In [22]:
# 🔴 계층의 인덱스 번호 또는 라벨을 사용하여 상, 하위간 교환

## 🔸 swaplevel(key1, key2, axis=0(기본값))
## 🔸 axis가 0인 경우는 row의 상하위 개념이 뒤집힌다.

df.swaplevel(1, 0)

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,안양,수원,판교
a,2017,0,1,2,3,4
b,2017,5,6,7,8,9
a,2018,10,11,12,13,14
b,2018,15,16,17,18,19


In [23]:
## 🔸 swaplevel에 axis=1을 주면 계층이 아닌 컬럼에 변동이 생깁니다.

df.swaplevel(1, 0, axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,강남,잠실,안양,수원,판교
Unnamed: 0_level_1,Unnamed: 1_level_1,서울,서울,경기,경기,경기
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


### ⬛ 객체 복사

- 할당기호(=) / 슬라이싱 : 원본과 상호 종속적인 복사본 객체 생성 (얕은 복사)
- obj.copy() : 원본과 독립적인 복사본 객체 생성(깊은 복사)

In [24]:
# 🔴 모든 값이 1인 5*1 구조의 Series 생성

s1 = pd.Series(np.ones(5))
s1

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [25]:
# 🔴 할당기호 = 로 복사 : 얕은 복사

s2 = s1
s2

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [26]:
# 🔴 할당 기호로 복사한 객체의 아이템 수정

s2[0] = 10
s2

0    10.0
1     1.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [27]:
## 🔸 =을 이용한 대입은 원본 객체도 변경됨
s1

0    10.0
1     1.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [28]:
# 🔴 원본 객체의 아이템 수정

## 🔸 원본도 복사본에게 영향을 줌

s1[1] = 30
print(s1)
print(s2)

0    10.0
1    30.0
2     1.0
3     1.0
4     1.0
dtype: float64
0    10.0
1    30.0
2     1.0
3     1.0
4     1.0
dtype: float64


In [29]:
# 🔴 슬라이싱으로 복사

## 🔸 일반 파이썬에서는 깊은 복사로 간주되지만
## 🔸 팬더스에서는 얕은 복사로 취급된다. 💛

s3 = s1[:]
s3

0    10.0
1    30.0
2     1.0
3     1.0
4     1.0
dtype: float64

In [30]:
## 🔸 복사본 객체 아이템 수정 => s1, s2에 영향

s3[2] = -9

print("------< s3 >----")
print(s3)
print("------< s1 >----")
print(s1)
print("------< s2 >----")
print(s2)

------< s3 >----
0    10.0
1    30.0
2    -9.0
3     1.0
4     1.0
dtype: float64
------< s1 >----
0    10.0
1    30.0
2    -9.0
3     1.0
4     1.0
dtype: float64
------< s2 >----
0    10.0
1    30.0
2    -9.0
3     1.0
4     1.0
dtype: float64


In [31]:
# 🔴 원본 변경 => s2, s3에 영향

s1[3] = 33

print("------< s1 >----")
print(s1)
print("------< s2 >----")
print(s2)
print("------< s3 >----")
print(s3)

------< s1 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64
------< s2 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64
------< s3 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64


In [32]:
# 🔴 깊은 복사를 하고싶으면 ? => .copy()를 이용

s4 = s1.copy()
s4

0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64

In [33]:
## 🔸 s4를 바꿔도 s1, s2, s3은 영향을 받지 않음.

s4[4] = 200

print("------< s1 >----")
print(s1)
print("------< s2 >----")
print(s2)
print("------< s3 >----")
print(s3)
print("------< s4 >----")
print(s4)

------< s1 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64
------< s2 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64
------< s3 >----
0    10.0
1    30.0
2    -9.0
3    33.0
4     1.0
dtype: float64
------< s4 >----
0     10.0
1     30.0
2     -9.0
3     33.0
4    200.0
dtype: float64


In [34]:
## 🔸 마찬가지로 s1을 변경해도 s4에는 영향을 주지 않음

s1[0] = 2929229

print("------< s1 >----")
print(s1)
print("------< s2 >----")
print(s2)
print("------< s3 >----")
print(s3)
print("------< s4 >----")
print(s4)

------< s1 >----
0    2929229.0
1         30.0
2         -9.0
3         33.0
4          1.0
dtype: float64
------< s2 >----
0    2929229.0
1         30.0
2         -9.0
3         33.0
4          1.0
dtype: float64
------< s3 >----
0    2929229.0
1         30.0
2         -9.0
3         33.0
4          1.0
dtype: float64
------< s4 >----
0     10.0
1     30.0
2     -9.0
3     33.0
4    200.0
dtype: float64


### ⬛ 정렬 (💛x5)

- obj.sort_index() : 인덱스를 기준으로 정렬 (기본값은 ascending=True, 오름차순 정렬)
    - DataFrame, Series
        - axis = 0 : 기본값, 로우 인덱스 기준으로 정렬
        - axis = 1 : 컬럼 인덱스 기준으로 정렬
        
        
- obj.sort_values() : 값을 기준으로 정렬
    - DataFrame, Series
        - by : 정렬의 기준이 되는 인덱스 값 전달
        - axis = 0 : 기본값, 컬럼을 기준으로 로우 인덱스를 정렬하며 기준값으로 by에 인덱스 컬럼 레벨 또는 컬럼명 전달
        - axis = 1 : 로우 인덱스를 기준으로 컬럼 라벨을 정렬하며 기준값으로 by에 레벨 또는 라벨명 전달

In [35]:
# 🔴 시리즈 생성

## 값과 인덱스라벨이 순서대로 들어가지 않은 시리즈

s1 = pd.Series([2, 3, 1, 7, 0], index=list('gacfd'))
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [36]:
# 🔴 인덱스 기준 오름차순 정렬

## 🔸 기본 동작 : 오름차순 & 로우 인덱스

s1.sort_index()

a    3
c    1
d    0
f    7
g    2
dtype: int64

In [37]:
# 🔴 인덱스 기준 내림차순으로 정렬

s1.sort_index(ascending=False)

g    2
f    7
d    0
c    1
a    3
dtype: int64

In [38]:
## 🔸 일시적 변경이므로 s1에는 영향을 주지 않음

s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [39]:
# 🔴 값 기준 오름차순 정렬

s1.sort_values()

d    0
c    1
g    2
a    3
f    7
dtype: int64

In [40]:
# 🔴 값 기준 내림차순 정렬

s1.sort_values(ascending=False)

f    7
a    3
g    2
c    1
d    0
dtype: int64

In [41]:
## 🔸 원본에 바로 반영되지 않음
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [53]:
# 🔴 데이터 프레임 생성

## 4 *5 무작위 정수(np.random.randint())
## 로우 / 컬럼 인덱스도 순서가 없는 값 지정

df1 = pd.DataFrame(np.random.randint(20, size=(4,5)) , index=list('hcae'), columns=list('EAFCD'))
df1

Unnamed: 0,E,A,F,C,D
h,15,1,19,7,7
c,7,1,8,5,14
a,0,12,15,0,14
e,7,18,11,7,18


In [54]:
# 🔴 row 인덱스 기준으로 오름차순 정렬(axis=0)

df1.sort_index()

Unnamed: 0,E,A,F,C,D
a,0,12,15,0,14
c,7,1,8,5,14
e,7,18,11,7,18
h,15,1,19,7,7


In [55]:
# 🔴 로우 인덱스 기준으로 내림차순 정렬

df1.sort_index(ascending=False)

Unnamed: 0,E,A,F,C,D
h,15,1,19,7,7
e,7,18,11,7,18
c,7,1,8,5,14
a,0,12,15,0,14


In [56]:
# 🔴 컬럼명 기준으로 오름차순 정렬

df1.sort_index(axis=1)

Unnamed: 0,A,C,D,E,F
h,1,7,7,15,19
c,1,5,14,7,8
a,12,0,14,0,15
e,18,7,18,7,11


In [57]:
# 🔴 컬럼명 기준으로 내림차순 정렬

df1.sort_index(axis=1, ascending=False)

Unnamed: 0,F,E,D,C,A
h,19,15,7,7,1
c,8,7,14,5,1
a,15,0,14,0,12
e,11,7,18,7,18


In [58]:
# 🔴 컬럼 기준으로 내림차순 정렬 후, 로우 기준으로 오름차순 정렬

df1.sort_index(axis=1, ascending=False).sort_index()

Unnamed: 0,F,E,D,C,A
a,15,0,14,0,12
c,8,7,14,5,1
e,11,7,18,7,18
h,19,15,7,7,1


In [59]:
## 🔸 원본은 변하지 않는다.

df1

Unnamed: 0,E,A,F,C,D
h,15,1,19,7,7
c,7,1,8,5,14
a,0,12,15,0,14
e,7,18,11,7,18


In [60]:
# 🔴 값 기준으로 정렬

## 🔸 컬럼 D의 값을 기준으로 오름차순 정렬
## sort_values(axis=0, by='기준컬럼명')

df1.sort_values(by='D')

Unnamed: 0,E,A,F,C,D
h,15,1,19,7,7
c,7,1,8,5,14
a,0,12,15,0,14
e,7,18,11,7,18


In [61]:
## 🔸 컬럼 A를 기준으로 내림차순 정렬

df1.sort_values(by='A', ascending=False)

Unnamed: 0,E,A,F,C,D
e,7,18,11,7,18
a,0,12,15,0,14
h,15,1,19,7,7
c,7,1,8,5,14


In [62]:
## 🔸 인덱스라벨(row)의 c의 값을 오름차순으로 정렬

## 결과적으로 정렬되는 대상 : 컬럼
## 정렬의 기준 : row라벨

df1.sort_values(axis=1, by='c')

Unnamed: 0,A,C,E,F,D
h,1,7,15,19,7
c,1,5,7,8,14
a,12,0,0,15,14
e,18,7,7,11,18


In [63]:
## 🔸 row 'e'를 기준으로 값을 내림차순으로 정렬

df1.sort_values(axis=1, by='e', ascending=False)

Unnamed: 0,A,D,F,E,C
h,1,7,19,15,7
c,1,14,8,7,5
a,12,14,15,0,0
e,18,18,11,7,7


In [69]:
# 🔴 두 개의 컬럼에 대해서 정렬 : 리스트로 묶어서 by의 인자값으로 전달

## 🔸 정렬 우선순위 : 차례대로 1순위 > 2순위(1순위 동정시 2순위로 넘어감)
## 🔸 1순위 정렬 후, 1순위 컬럼의 동점값에 대해 2순위 컬럼의 값이 재정렬
## 🔸 동일한 값이 아니라면 무조건 1순위 컬럼이 우선

df1.sort_values(by=['D','E'])

### D를 기준으로 하되, 동점자가 나오면 E를 기준으로 한 번 더 정렬을 해라(둘 다 오름차순)
### D를 기준으로 a와 c가 14로 동점일 때, E에서는 a(0), c(7)로 정렬됨

Unnamed: 0,E,A,F,C,D
h,15,1,19,7,7
a,0,12,15,0,14
c,7,1,8,5,14
e,7,18,11,7,18


In [70]:
## 🔸 D는 오름차순인데, E는 내림차순으로 하고 싶은 경우

## 🔸 ascending = [True, False]와 같이, 각각의 컬럼에 대해서 ascending을 따로 매겨준다.

df1.sort_values(by=['D','E'], ascending=[True, False])

Unnamed: 0,E,A,F,C,D
h,15,1,19,7,7
c,7,1,8,5,14
a,0,12,15,0,14
e,7,18,11,7,18


### <<연습문제>>

1. 아래의 데이터 프레임을 생성하세요
- 학생들의 점수는 50이상 100미만 무작위 정수값을 생성하여 사용

<img src="img/df_sort_practice1.png" width=250 align='left'>

In [86]:
df1 = pd.DataFrame(np.random.randint(50, 100, size=(5,4)), 
                   index=['Kim', 'Park', 'Lee', 'Jung', 'Moon'],
                   columns=[['2016', '2016', '2017', '2017'],['영어', '수학', '영어', '수학']])
df1

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,64,70,80,68
Park,59,79,70,88
Lee,83,75,83,69
Jung,87,88,99,63
Moon,77,98,76,58


In [88]:
df1.index.name = '학생명'
df1

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,64,70,80,68
Park,59,79,70,88
Lee,83,75,83,69
Jung,87,88,99,63
Moon,77,98,76,58


In [107]:
## 🔸 컬럼 인덱스 설정(리스트로 넘김) 💛

###  멀티 인덱스는 무조건 set_names를 이용해야 입력 가능

df1.columns.set_names(['연도', '과목명'], inplace=True)
df1

연도,2016,2016,2017,2017
과목명,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,64,70,80,68
Park,59,79,70,88
Lee,83,75,83,69
Jung,87,88,99,63
Moon,77,98,76,58


#### 2. 2016년 데이터만 별도의 데이터 프레임으로 분리 저장하세요(깊은 복사)

In [120]:
df2016 = df1['2016'].copy()
df2016

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,64,70
Park,59,79
Lee,83,75
Jung,87,88
Moon,77,98


#### 3. 2016 데이터에 대해 학생 이름을 기준으로 오름차순 정렬하세요.

In [114]:
df2016.sort_index()

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Jung,87,88
Kim,64,70
Lee,83,75
Moon,77,98
Park,59,79


#### 4. 2016 데이터의 과목별 점수에 대하여 영어점수가 높은 순서로 정렬하고, 영어점수 동점자의 경우 수학 점수가 낮은 순서로 정렬하세요

In [115]:
df2016.sort_values(by=['영어','수학'], ascending=[False, True])

과목명,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Jung,87,88
Lee,83,75
Moon,77,98
Kim,64,70
Park,59,79


### ⬛ 데이터 합치기 (sql의 join과 비슷함)


- merge
    - pandas 객체의 메서드로 pandas.merge(df1, df2...)로 사용
    - 두 개의 데이터 프레임에 대해 특정 컬럼(일치하는 데이터가 있는 컬럼)을 기준으로 합치기
        - 기본적으로는 프라이머리키를 기준으로 하겠지
          
    - 주요 파라미터
        - how : 합치는 방식으로 inner(기본값), left, right, outer 방식 존재
        - on : 합치는 기준으로 두 개의 데이터 프레임에 공통으로 존재하는 컬럼명을 사용해야 함(기본값 = None)

In [124]:
# 🔴 고객 번호와 고객명을 저장하고 있는 데이터 프레임 생성

## 🔸딕셔너리 타입으로 데이터 프레임 데이터 생성 : key:col, value->list() : row 💛 

data = {'no' : [30, 31, 32, 33, 34], 'name' : ['김파이썬', '이장고', '박팬더스', '강넘파이', '최주피터']}

data

{'no': [30, 31, 32, 33, 34], 'name': ['김파이썬', '이장고', '박팬더스', '강넘파이', '최주피터']}

In [127]:
df = pd.DataFrame(data, index=list('01234'))
df

Unnamed: 0,no,name
0,30,김파이썬
1,31,이장고
2,32,박팬더스
3,33,강넘파이
4,34,최주피터


In [126]:
## 선생님 답

df1 = pd.DataFrame({'no' : [30, 31, 32, 33, 34], 
                   'name' : ['김파이썬', '이장고', '박팬더스', '강넘파이', '최주피터']})
df1

Unnamed: 0,no,name
0,30,김파이썬
1,31,이장고
2,32,박팬더스
3,33,강넘파이
4,34,최주피터


In [128]:
# 🔴 고객번호와 주문 수량을 저장하고 있는 데이터 프레임 생성

## 🔸 다른 고객번호(no)를 일부 지정

df2 = pd.DataFrame({'no' : [30, 33, 40, 41],
              'amount' : [100, 130, 40, 60]})
df2

Unnamed: 0,no,amount
0,30,100
1,33,130
2,40,40
3,41,60


In [129]:
# 🔴 가장 기본적인 merge 방식 : 공통 컬럼을 기준으로 두 df에 모두 존재하는 교집합만 추출

## 🔸 기본 동작 : how = 'inner'

## 🔸 df1 & df2의 공통 컬럼 : no
## 🔸 공통 컬럼 내부의 공통 값 : 30, 33

## 🔸 df1 : 30 ~ 34
## 🔸 df2 : 30, 33, 40, 41

pd.merge(df1, df2)

Unnamed: 0,no,name,amount
0,30,김파이썬,100
1,33,강넘파이,130


In [130]:
# 🔴 how = 'outer' : 결합 기준으로 공통 컬럼을 사용함

## 🔸 교집합이 아닌 부분에 대해서는 NaN으로 처리(누락되는 데이터 없음)
## 🔸 합집합 형태로 만들어줌

pd.merge(df1, df2, how='outer')

Unnamed: 0,no,name,amount
0,30,김파이썬,100.0
1,31,이장고,
2,32,박팬더스,
3,33,강넘파이,130.0
4,34,최주피터,
5,40,,40.0
6,41,,60.0


In [131]:
# 🔴 left : 첫 번째로 전달한 df1의 데이터는 모두 살리고, df2에서는 df1과 겹칠때만 남김

pd.merge(df1, df2, how='left')

Unnamed: 0,no,name,amount
0,30,김파이썬,100.0
1,31,이장고,
2,32,박팬더스,
3,33,강넘파이,130.0
4,34,최주피터,


In [132]:
# 🔴 right : 두 번째 데이터 프레임의 데이터만 보존, df1에서는 df2와 겹치는 경우에 한해 데이터를 남김

pd.merge(df1, df2, how='right')

Unnamed: 0,no,name,amount
0,30,김파이썬,100
1,33,강넘파이,130
2,40,,40
3,41,,60


In [136]:
# 🔴 공통 컬럼이 두 개 이상인 경우

## 🔸 '고객명', '날짜', '정보' 컬럼 3개의 데이터를 저장하고 있는 데이터 프레임 생성
df3 = pd.DataFrame({'고객명':['김파이썬', '이장고', '박팬더스'],
                    '날짜' : ['2020-06-01', '2020-06-10', '2020-06-14'],
                    '정보' : ['010', '011', '019']})
df3

Unnamed: 0,고객명,날짜,정보
0,김파이썬,2020-06-01,10
1,이장고,2020-06-10,11
2,박팬더스,2020-06-14,19


In [137]:
## 🔸 '고객명', '정보'를 저장하고 있는 데이터 프레임 생성

df4 = pd.DataFrame({'고객명': ['김파이썬', '박팬더스', '최넘파이'],
                    '정보' : ['F', 'M', 'M']})
df4

Unnamed: 0,고객명,정보
0,김파이썬,F
1,박팬더스,M
2,최넘파이,M


In [140]:
# 🔴 (문제) 공통된 이름을 가진 컬럼이 2개 이상인 경우, 파라미터가 없으면 결과도 없다

pd.merge(df3, df4)

Unnamed: 0,고객명,날짜,정보


In [144]:
# 🔴 (해결) on 파라미터 사용 : 공통된 컬럼이 여럿인 경우 결합 기준 컬럼을 지정

## 🔸 합칠때 key로 사용할 컬럼 : '고객명'
## 🔸 공통 컬럼 결과 : 고객명, 정보 -> 정보 컬럼 결과를 확인
## 🔸 기본 동작으로 merge : inner

pd.merge(df3, df4, on='고객명')

Unnamed: 0,고객명,날짜,정보_x,정보_y
0,김파이썬,2020-06-01,10,F
1,박팬더스,2020-06-14,19,M


In [145]:
# 🔴 left_on, right_on : 두 개의 데이터프레임에 대해서 서로 다른 기준 컬럼을 지정

## 🔸 동일한 속성의 자료를 저장하는 컬럼인데 이름이 다른 경우(이름, 고객명)

## 🔸 고객이름, 날짜, 구매금액을 저장하고 있는 데이터 프레임 생성

df5 = pd.DataFrame({'고객이름' : ['김파이썬', '박팬더스', '강주피터'],
                    '날짜' : ['2020-01-01', '2020-02-01', '2020-02-15'],
                    '구매금액' : [1, 2, 3]})
df5

Unnamed: 0,고객이름,날짜,구매금액
0,김파이썬,2020-01-01,1
1,박팬더스,2020-02-01,2
2,강주피터,2020-02-15,3


In [146]:
## 🔸 '고객명', '성별'을 지정하고 있는 데이터 프레임 생성

df6 = pd.DataFrame({'고객명': ['김파이썬', '박팬더스'],
                    '성별' : ['F', 'M']})
df6

Unnamed: 0,고객명,성별
0,김파이썬,F
1,박팬더스,M


In [148]:
# 🔴 겹치는 컬럼명이 없어서 에러 발생

pd.merge(df5, df6)

## 에러 메세지 : MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [149]:
# 🔴 left(df5), right(df6)에서 공통 컬럼명을 각각 지정

tmp = pd.merge(df5, df6, left_on='고객이름', right_on='고객명')
tmp

## 🔸 (문제) 합쳐지긴 하지만, 어떤 컬럼명을 우선할 것인지 애매해서 두 개를 사용함

Unnamed: 0,고객이름,날짜,구매금액,고객명,성별
0,김파이썬,2020-01-01,1,김파이썬,F
1,박팬더스,2020-02-01,2,박팬더스,M


In [152]:
## 🔸 (해결) drop 메서드를 이용해 '고객명' 컬럼을 삭제해주세요

### ◾ 방법1)
tmp.drop(columns='고객명', inplace=True)
tmp

Unnamed: 0,고객이름,날짜,구매금액,성별
0,김파이썬,2020-01-01,1,F
1,박팬더스,2020-02-01,2,M


In [None]:
### ◾ 방법2)
tmp.drop('고객명', axis=1, inplace=True)
tmp

### ⬛ concat

- 특정 key를 기준으로 데이터를 합치는(=merge) 것이 아니라, 행/열 기준으로 데이터를 연결(sql의 union 같은 느낌)


- 주요 파라미터
    - axis : 0 / 행 방향(기본값)이며 컬럼을 key로 합치고, 1/열 방향으로 로우를 key로 합침
    - join : 데이터프레임끼리 연결할 때 합치는 방법으로 outer(기본값), inner 방식 존재
    - ignore_index : 합친 후, 기존 인덱스를 유지 또는 새로운 인덱스를 지정

In [154]:
# 🔴 공통 인덱스 라벨을 가지는 Series 2개 생성

s1 = pd.Series([1, 2, 3], index=list('abc'))
s2 = pd.Series([5, 6, 7, 8], index=list('abfh'))

In [155]:
s1

a    1
b    2
c    3
dtype: int64

In [156]:
s2

a    5
b    6
f    7
h    8
dtype: int64

In [157]:
# 🔴 두 시리즈 간 연결

## 🔸 기본 : axis=0 (행 방향으로 연결 = 행의 개수가 늘어나는 것)
## 🔸 첫 번쨰로 전달된 객체가 윙, 두 번째로 전달된 객체가 아래로 추가(연결)
## 🔸 인덱스 라벨은 기존 값 유지

pd.concat([s1, s2])

a    1
b    2
c    3
a    5
b    6
f    7
h    8
dtype: int64

In [158]:
# 🔴 새로운 인덱스로 초기화하기

pd.concat([s1, s2], ignore_index=True)

## 🔸 데이터는 합치고, 인덱스는 없던 것으로 만듦 
## 🔸 axis=0, 혹은 안 주면 행 방향으로 들어감

0    1
1    2
2    3
3    5
4    6
5    7
6    8
dtype: int64

In [162]:
print(s1)
print()
print(s2)

a    1
b    2
c    3
dtype: int64

a    5
b    6
f    7
h    8
dtype: int64


In [159]:
# 🔴 열 방향 연결 ->  두 개의 시리즈를 연결해서 하나의 데이터 프레임으로 만들기

## 🔸 길이가 다른 경우( -> NaN으로 처리해줌 )
pd.concat([s1, s2], axis=1)

Unnamed: 0,0,1
a,1.0,5.0
b,2.0,6.0
c,3.0,
f,,7.0
h,,8.0


In [161]:
## 🔸 열 이름을 설정하면서 붙여주기 : keys라는 파라미터에 컬럼명을 리스트로 전달해주면 됨

pd.concat([s1, s2], axis=1, keys=['c1', 'c2'])

Unnamed: 0,c1,c2
a,1.0,5.0
b,2.0,6.0
c,3.0,
f,,7.0
h,,8.0


In [171]:
# 🔴 두 개의 데이터 프레임 연결 (💛x5)

## 🔸 고객명, 날짜, 금액

df1 = pd.DataFrame({'고객명' : ['김파이썬', '이장고', '박팬더스'],
                    '날짜' : ['2020-06-01', '2020-06-02', '2020-06-14'],
                    '구매금액' : ['1.0', '2.0', '3.0']})

df1

Unnamed: 0,고객명,날짜,구매금액
0,김파이썬,2020-06-01,1.0
1,이장고,2020-06-02,2.0
2,박팬더스,2020-06-14,3.0


In [173]:
## 🔸 고객명, 성별

df2 = pd.DataFrame({'고객명' : ['김파이썬', '최넘파이'],
                    '성별' : ['F', 'M']})
df2

Unnamed: 0,고객명,성별
0,김파이썬,F
1,최넘파이,M


In [174]:
# 🔴 행 방향으로(row 개수 증가) 데이터 프레임 연결

pd.concat([df1, df2])

## 🔸 df1에 없던 '성별' 이 붙음
## 🔸 df2에 없던 '날짜', '구매금액'이 붙음

Unnamed: 0,고객명,날짜,구매금액,성별
0,김파이썬,2020-06-01,1.0,
1,이장고,2020-06-02,2.0,
2,박팬더스,2020-06-14,3.0,
0,김파이썬,,,F
1,최넘파이,,,M


In [176]:
# 🔴 열 방향으로 데이터 프레임 연결

pd.concat([df1, df2], axis=1)

## 🔸 오른쪽 방향으로 데이터 프레임이 붙여진다.

Unnamed: 0,고객명,날짜,구매금액,고객명.1,성별
0,김파이썬,2020-06-01,1.0,김파이썬,F
1,이장고,2020-06-02,2.0,최넘파이,M
2,박팬더스,2020-06-14,3.0,,


In [177]:
## 🔸 새로운 데이터 프레임 만들기

df3 = pd.DataFrame({'지역': ['서울', '부산', '제주'],
                    '직업' : ['웹개발자', '회계사', '회사원']})
df3

Unnamed: 0,지역,직업
0,서울,웹개발자
1,부산,회계사
2,제주,회사원


In [178]:
# 🔴 전제조건 : df1과 df3의 데이터 순서가, 맥락상 맞는 것이 확정적일때 concat으로 합치면 좋다

pd.concat([df1, df3], axis=1)

## pk, fk는 없지만, 맥락상 잘 붙는 경우 합칠 수 있는 것

Unnamed: 0,고객명,날짜,구매금액,지역,직업
0,김파이썬,2020-06-01,1.0,서울,웹개발자
1,이장고,2020-06-02,2.0,부산,회계사
2,박팬더스,2020-06-14,3.0,제주,회사원


### ⬛ append (💛 x5)

- 행 방향으로 데이터를 연결
- 주요 파라미터
    - ignore_index : 합친 후 기존 인덱스를 유지 또는 새로운 인덱스를 지정
  

In [179]:
# 🔴 두 개의 시리즈 생성

s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6, 7])

In [181]:
# 🔴 행 방향으로 데이터 연결하고 기존 인덱스 유지

s1.append(s2)

0    1
1    2
2    3
0    4
1    5
2    6
3    7
dtype: int64

In [182]:
# 🔴 행 방향으로 데이터를 연결하고, 기존 인덱스 누락 시키기

s1.append(s2, ignore_index=True)

0    1
1    2
2    3
3    4
4    5
5    6
6    7
dtype: int64

In [186]:
# 🔴 두 개의 데이터 프레임

## 🔸 서로 다른 컬럼명
df1 = pd.DataFrame([[1, 2], 
                    [3, 4]], columns=list('ab'))

df2 = pd.DataFrame([[5, 6], 
                    [7, 8], 
                    [9, 10]], columns=list('AB'))

In [187]:
df1

Unnamed: 0,a,b
0,1,2
1,3,4


In [188]:
df2

Unnamed: 0,A,B
0,5,6
1,7,8
2,9,10


In [189]:
## 🔸 서로 다른 컬럼명 합치기

df1.append(df2)

Unnamed: 0,a,b,A,B
0,1.0,2.0,,
1,3.0,4.0,,
0,,,5.0,6.0
1,,,7.0,8.0
2,,,9.0,10.0


In [190]:
## 🔸 동일한 컬럼명

df3 = pd.DataFrame([[10, 20],
                     [30, 40],
                     [50, 60]], columns=list('ab'))
df3

Unnamed: 0,a,b
0,10,20
1,30,40
2,50,60


In [191]:
## 🔸 동일한 컬럼명에 대해서 append를 하면, 컬럼개수는 원본 데이터 숫자 그대로, 행만 추가

### append는 보통 이런 케이스에 많이 사용함

df1.append(df3)

Unnamed: 0,a,b
0,1,2
1,3,4
0,10,20
1,30,40
2,50,60


In [192]:
## 🔸 ignore_index를 걸면 인덱스 번호도 0부터 다시 초기화

df1.append(df3, ignore_index=True)

Unnamed: 0,a,b
0,1,2
1,3,4
2,10,20
3,30,40
4,50,60


In [193]:
# 🔴 시리즈와 데이터 프레임

## 🔸 데이터 프레임에 한 줄 추가할 때 보통 시리즈를 많이 사용함
## 🔸 시리즈 라벨 & 데이터 프레임 컬럼명이 서로 일치할 때 매칭됨
## 🔸 시리즈 라벨, 데이터 프레임 컬럼명을 모두 a, b, c, d로 매칭시킴

s1 = pd.Series([10, 20, 30, 40], index=list('abcd'))
df1 = pd.DataFrame([[1, 1, 1, 1],
                    [2, 2, 2, 2]], columns=list('abcd'))

In [194]:
s1

a    10
b    20
c    30
d    40
dtype: int64

In [195]:
df1

Unnamed: 0,a,b,c,d
0,1,1,1,1
1,2,2,2,2


In [201]:
# 🔴 Series의 라벨이 df의 컬럼과 매핑이 됨

## 🔸 이 때 Series는 df의 새로운 row로 들어갑니다.

df1.append(s1, ignore_index=True)

## 데이터프레임은 시리즈의 중첩이기 때문에 가능 ~_~ !!

Unnamed: 0,a,b,c,d
0,1,1,1,1
1,2,2,2,2
2,10,20,30,40


### ⬛ 집계

- groupby(컬럼명)
    - 특정 속성을 기준으로 묶어서 다양한 집계 함수 적용
    - 대표적인 집계 함수
        - sum : 총합
        - mean : 평균값
        - min : 최소값
        - max : 최대값
        - count : 개수
        - std : 표준편차
        
        
- pivot table
    - df.pivot(로우로 사용될 컬럼명, 컬럼으로 사용될 컬럼명, 튜플을 구성하는 값으로 사용될 컬럼명, 집계함수)
    - 일차원으로 컬럼 및 로우가 단순 나열된 형식은 데이터를 파악하는데 적합하지 않기 때문에 pivot을 통해 계층 색인 및 형태 변경을 수행

In [202]:
# 🔴 엑셀 데이터 적재

## 🔸 Os error 에러가 뜨는 경우 ()괄호 안에 -> engine='python'
## 🔸Unicode, Encoding -> encoding='utf-8' or 'cp949' or 'utf-16'

data = pd.read_excel('data/인구수예제.xlsx')
data

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190
5,서울,서대문구,2013,95,111,206
6,서울,서대문구,2014,149,150,299
7,서울,서대문구,2015,106,77,183
8,서울,서대문구,2016,56,109,165
9,서울,서대문구,2017,82,96,178


In [203]:
# 🔴 데이터 구조 확인

data.shape

(50, 6)

In [204]:
# 🔴 상위 5개만 조회하기 

## 🔸 제대로 로딩 되었는지 확인하고 싶은데, 다 조회하면 너무 많은 경우 사용한다.

data.head()

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190


In [205]:
# 🔴 하위 5개만 조회하기

data.tail()

## 🔸 마지막 5개를 잘라서 보여주기 때문에(몇 개 인지 확인 가능) tail()을 선호한다고 하심.

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
45,부산,동래구,2013,83,65,148
46,부산,동래구,2014,139,87,226
47,부산,동래구,2015,147,115,262
48,부산,동래구,2016,61,102,163
49,부산,동래구,2017,132,105,237


In [206]:
# 🔴 상위 10개를 조회하기 

data.head(10)

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190
5,서울,서대문구,2013,95,111,206
6,서울,서대문구,2014,149,150,299
7,서울,서대문구,2015,106,77,183
8,서울,서대문구,2016,56,109,165
9,서울,서대문구,2017,82,96,178


In [208]:
data.tail(10)

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
40,부산,수영구,2013,134,94,228
41,부산,수영구,2014,74,138,212
42,부산,수영구,2015,69,81,150
43,부산,수영구,2016,81,148,229
44,부산,수영구,2017,144,98,242
45,부산,동래구,2013,83,65,148
46,부산,동래구,2014,139,87,226
47,부산,동래구,2015,147,115,262
48,부산,동래구,2016,61,102,163
49,부산,동래구,2017,132,105,237


In [211]:
# 🔴 자치구별 남, 여 인구 각각의 총합

## 🔸 조사 년도는 총 5개년

data.groupby('자치구')['남자인구'].sum()

## 🔸 해석 : '자치구'를 기준으로 '남자인구' 컬럼에 어떤 집계(sum)를 보고싶다

자치구
강남구     539
도봉구     485
동래구     562
동작구     454
서대문구    488
송파구     415
수영구     502
영등포구    629
종로구     483
해운대구    620
Name: 남자인구, dtype: int64

In [212]:
## 🔸 남자인구, 여자인구 둘 다 보고 싶은 경우? => 이 중 리스트로 묶음

data.groupby('자치구')[['남자인구', '여자인구']].sum()

Unnamed: 0_level_0,남자인구,여자인구
자치구,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,539,513
도봉구,485,550
동래구,562,474
동작구,454,582
서대문구,488,543
송파구,415,559
수영구,502,559
영등포구,629,562
종로구,483,373
해운대구,620,515


In [213]:
## 🔸 도시별 남여 인구의 총합

data.groupby('도시')[['남자인구', '여자인구']].sum()

Unnamed: 0_level_0,남자인구,여자인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,1684,1548
서울,3493,3682


In [214]:
# 🔴 연도별, 도시별과 같이 2개 이상의 조건을 묶고 싶을때는 .groupby([1번그룹, 2번그룹 ...]) 형식으로 묶을 수도 있다.

## 🔸 연도별, 도시별 남여인구 총합 
data.groupby(['연도', '도시'])[['여자인구', '남자인구']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,여자인구,남자인구
연도,도시,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,부산,262,341
2013,서울,769,758
2014,부산,369,314
2014,서울,691,882
2015,부산,266,331
2015,서울,710,541
2016,부산,376,276
2016,서울,722,671
2017,부산,275,422
2017,서울,790,641


In [218]:
## 🔸 도시별 연도별 총 인구 평균

data.groupby(['도시', '연도'])[['총인구']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구
도시,연도,Unnamed: 2_level_1
부산,2013,201.0
부산,2014,227.666667
부산,2015,199.0
부산,2016,217.333333
부산,2017,232.333333
서울,2013,218.142857
서울,2014,224.714286
서울,2015,178.714286
서울,2016,199.0
서울,2017,204.428571


In [219]:
## 🔸 가독성을 높이기 위해 unstack() 사용 (바로 윗 코드에서!! 총 인구에서 이중 리스트를 사용하지 않으면 지저분하게 나옴)

data.groupby(['도시', '연도'])[['총인구']].mean().unstack()

Unnamed: 0_level_0,총인구,총인구,총인구,총인구,총인구
연도,2013,2014,2015,2016,2017
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
부산,201.0,227.666667,199.0,217.333333,232.333333
서울,218.142857,224.714286,178.714286,199.0,204.428571


In [221]:
## 🔸 집계 아무거나 해보기

data.groupby(['자치구'])[['여자인구']].max()

Unnamed: 0_level_0,여자인구
자치구,Unnamed: 1_level_1
강남구,150
도봉구,140
동래구,115
동작구,139
서대문구,150
송파구,150
수영구,148
영등포구,136
종로구,91
해운대구,144
