# "[DA] Pandas - DataFrame 2"
> "계층색인, 정렬, 데이터합치기, 집계"

- toc: true
- branch: master
- badges: true
- comments: true
- categories: [stack,unstack,sort_index,sort_values,merge,concat,groupby]
- author: 도형준

# 계층 색인

- 행, 열의 각 축에 대해 다중 단계(계층)를 지정하여 데이터에 차원을 설정
- 인덱스에 다차원 리스트를 전달하면 계층 색인을 지정할 수 있음
- 데이터 구조를 재배열하거나 pivot 테이블과 같은 그룹 기반 작업에 유용
- 재배열 메서드
    - stack() : 컬럼을 로우로 피벗
    - unstack() : 로우를 컬럼으로 피벗

## 다차원 인덱스를 가진 Series 생성하기

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Series
# 인덱스에 다차원 리스트(아이템 2개)를 전달
# 다차원리스트[0] : 상위계층
# 상위계층 작성시 주의점 : 각 계층별로 속하는 하위계층 값의 개수만큼 계층명 작성
# 상위계층 리스트 개수 = 하위계층 리스트 개수
# 다차원리스트[1] : 하위계층
# 실습--->
# 로우 인덱스 - 상위계층 : a, b, c, d
# 하위계층 : a(1, 2, 3), b(1, 2), c(1, 2, 3, 4), d(1)
s1 = pd.Series(np.arange(10),
               index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'c', 'c', 'd'],
                     [1, 2, 3, 1, 2, 1, 2, 3, 4, 1]])
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [3]:
# 인덱스 확인
s1.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2),
            ('c', 3),
            ('c', 4),
            ('d', 1)],
           )

In [4]:
# 상위 인덱스(상위 계층)에 접근
# 계층 색인이 적용된 객체에 상위 인덱스에 접근: 일반적인 Series 인덱싱으로 접근
s1['c']

1    5
2    6
3    7
4    8
dtype: int32

In [5]:
# 계층색인에 대한 슬라이싱: 마지막 인덱스도 포함('b','d'로 입력시 b,c,d 조회)
s1['b':'d']

b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

In [6]:
# 하위계층에 접근
# a,b,c,d에서 하위계층 라벨번호 2인 데이터만 조회
# 데이터[상위계층 범위: 하위계층 번호]
s1[:,2]

a    1
b    4
c    6
dtype: int32

In [7]:
# 하위 계층에 슬라이싱: loc메서드를 이용하여 슬라이싱
# 상위계층이 c이고 하위계층을 2~까지 슬라이싱(마지막 번호도 포함)
s1['c']

1    5
2    6
3    7
4    8
dtype: int32

### unstack()

In [8]:
# unstack(): 최하위(기본 동작)에 있는 로우 계층을 컬럼으로 적용하여 위로 올림
# Series 객체를 DF로 재배열 할 수 있음
# NaN: 기존에는 없던 로우 계층에 대한 값
s1.unstack()

Unnamed: 0,1,2,3,4
a,0.0,1.0,2.0,
b,3.0,4.0,,
c,5.0,6.0,7.0,8.0
d,9.0,,,


### stack()

In [9]:
# stack()메서드: 컬럼에 있던 값을 멀티인덱스의 하위 인덱스로 내려서 재배열
# DF를 다시 Series()로 바꿔줄 때 사용
s1

a  1    0
   2    1
   3    2
b  1    3
   2    4
c  1    5
   2    6
   3    7
   4    8
d  1    9
dtype: int32

## 다차원 인덱스를 가진 DataFrame 생성

In [10]:
# DataFrame 생성
# 구조 : 4 x 5
# 로우 인덱스 : 상위(2017, 2018) / 하위(모든 상위 인덱스에 대해 동일하게 'a', 'b')
# 컬럼 인덱스 : 상위(서울, 경기) / 하위(서울-강남, 잠실 / 경기-분당, 수원, 판교)
# 값 : 1씩 증가하는 20개
df = pd.DataFrame(np.arange(20).reshape(4, 5),
                 index=[[2017, 2017, 2018, 2018],
                       ['a', 'b', 'a', 'b']],
                 columns=[['서울', '서울', '경기', '경기', '경기'],
                         ['강남', '잠실', '분당', '수원', '판교']])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,분당,수원,판교
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


### 데이터 조회하기

In [11]:
# 컬럼의 상위 계층 접근: 일반적인 df컬럼 인덱싱 방식
# 서울 데이터 조회
df['서울']

Unnamed: 0,Unnamed: 1,강남,잠실
2017,a,0,1
2017,b,5,6
2018,a,10,11
2018,b,15,16


In [12]:
# 컬럼이 이중이기 때문에 인덱싱을 이중으로 해야 하나의 요소 조회 가능
df['서울']['강남']

2017  a     0
      b     5
2018  a    10
      b    15
Name: 강남, dtype: int32

In [13]:
# 한번에 조회하고 싶다면 튜플로 전달하면 가능
df[('서울','강남')]

2017  a     0
      b     5
2018  a    10
      b    15
Name: (서울, 강남), dtype: int32

In [14]:
# 로우의 상위 계층 접근
# 2017년 데이터 조회
df.loc[2017]

Unnamed: 0_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,강남,잠실,분당,수원,판교
a,0,1,2,3,4
b,5,6,7,8,9


In [15]:
# 방법1. 2017 전반기 데이터
df.loc[2017].loc['a']

서울  강남    0
    잠실    1
경기  분당    2
    수원    3
    판교    4
Name: a, dtype: int32

In [16]:
# 방법2. 튜플로 전달
df.loc[(2017,'a')]

서울  강남    0
    잠실    1
경기  분당    2
    수원    3
    판교    4
Name: (2017, a), dtype: int32

In [17]:
# 분당~수원까지 데이터 조회
# 주의점: DF는 컬럼은 로우 슬라이싱 결과에 대해서만 슬라이싱 적용 가능
# df['경기']['분당':'수원'] => ERROR(컬럼 슬라이싱은 단독으로 불가능)
df['경기'].loc[:,'분당':'수원']

Unnamed: 0,Unnamed: 1,분당,수원
2017,a,2,3
2017,b,7,8
2018,a,12,13
2018,b,17,18


### unstack()

In [18]:
# DF의 로우 최하위 계층인 a,b컬럼을 올리기
df.unstack()

Unnamed: 0_level_0,서울,서울,서울,서울,경기,경기,경기,경기,경기,경기
Unnamed: 0_level_1,강남,강남,잠실,잠실,분당,분당,수원,수원,판교,판교
Unnamed: 0_level_2,a,b,a,b,a,b,a,b,a,b
2017,0,5,1,6,2,7,3,8,4,9
2018,10,15,11,16,12,17,13,18,14,19


### stack()

In [19]:
# 컬럼 최하위를 로우의 하위 계층으로 재배열하기
df.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,경기,서울
2017,a,강남,,0.0
2017,a,분당,2.0,
2017,a,수원,3.0,
2017,a,잠실,,1.0
2017,a,판교,4.0,
2017,b,강남,,5.0
2017,b,분당,7.0,
2017,b,수원,8.0,
2017,b,잠실,,6.0
2017,b,판교,9.0,


### swaplevel

In [20]:
# 계층의 인덱스 번호 또는 라벨을 사용하여 상 하위간 교환
# swaplevel(key1,key2, axis = 0(기본값))
# axis = 0
df.swaplevel(1,0)

Unnamed: 0_level_0,Unnamed: 1_level_0,서울,서울,경기,경기,경기
Unnamed: 0_level_1,Unnamed: 1_level_1,강남,잠실,분당,수원,판교
a,2017,0,1,2,3,4
b,2017,5,6,7,8,9
a,2018,10,11,12,13,14
b,2018,15,16,17,18,19


In [21]:
# axis=1은 로우 계층 변동이 아닌 컬럼 계층 변동
df.swaplevel(1,0,axis=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,강남,잠실,분당,수원,판교
Unnamed: 0_level_1,Unnamed: 1_level_1,서울,서울,경기,경기,경기
2017,a,0,1,2,3,4
2017,b,5,6,7,8,9
2018,a,10,11,12,13,14
2018,b,15,16,17,18,19


# 정렬

- obj.sort_index() : 인덱스를 기준으로 정렬 (기본값은 ascending=True, 오름차순 정렬)
    - DataFrame, Series
        - axis = 0 : 기본값, 로우 인덱스 기준으로 정렬
        - axis = 1 : 컬럼 인덱스 기준으로 정렬
- obj.sort_values() : 값을 기준으로 정렬
    - DataFrame, Series
        - by : 정렬의 기준이 되는 인덱스 값 전달
        - axis = 0 : 기본값, 컬럼을 기준으로 로우 인덱스를 정렬하며 기준값으로 by에 인덱스 컬럼 레벨 또는 컬럼명 전달
        - axis = 1 : 로우 인덱스를 기준으로 컬럼 라벨을 정렬하며 기준값으로 by에 레벨 또는 라벨명 전달

In [22]:
# Series 생성
# 값과 인덱스라벨이 순서대로 들어가지 않은 Series
s1 = pd.Series([2,3,1,7,0],index=list('gacfd'))
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [23]:
# 인덱스 기준 내림차순으로 정렬
s1.sort_index(ascending=False)

g    2
f    7
d    0
c    1
a    3
dtype: int64

In [24]:
# 일시적 변경이므로 s1자체에는 영향 없음
s1

g    2
a    3
c    1
f    7
d    0
dtype: int64

In [25]:
# 값 기준 오름차순으로 정렬
s1.sort_values(ascending=True)

d    0
c    1
g    2
a    3
f    7
dtype: int64

In [26]:
# 값 기준 내림차순으로 정렬
s1.sort_values(ascending=False)

f    7
a    3
g    2
c    1
d    0
dtype: int64

In [27]:
# 난수 시드 고정
np.random.seed(4)

In [28]:
# DF생성
# 4x5, 무작위 정수
# 로우/컬럼 인덱스도 순서가 없는 값 저장
df1 = pd.DataFrame(np.random.randint(20,size=(4,5)),
                   index = list('hcae'),
                   columns=list('EAFCD'))
df1

Unnamed: 0,E,A,F,C,D
h,14,5,1,8,8
c,18,9,7,13,8
a,4,18,12,6,10
e,3,0,9,6,6


In [29]:
# 로우 인덱스 기준으로 오름차순 정렬(axis=0 기본)
df1.sort_index()

Unnamed: 0,E,A,F,C,D
a,4,18,12,6,10
c,18,9,7,13,8
e,3,0,9,6,6
h,14,5,1,8,8


In [30]:
# 로우 인덱스 기준으로 내림차순 정렬(axis=0 기본)
df1.sort_index(ascending=False)

Unnamed: 0,E,A,F,C,D
h,14,5,1,8,8
e,3,0,9,6,6
c,18,9,7,13,8
a,4,18,12,6,10


In [31]:
# 컬럼명 기준으로 오름차순 정렬
df1.sort_index(axis=1)

Unnamed: 0,A,C,D,E,F
h,5,8,8,14,1
c,9,13,8,18,7
a,18,6,10,4,12
e,0,6,6,3,9


In [32]:
# 컬럼명 기준으로 내림차순 정렬
df1.sort_index(ascending=False,axis=1)

Unnamed: 0,F,E,D,C,A
h,1,14,8,8,5
c,7,18,8,13,9
a,12,4,10,6,18
e,9,3,6,6,0


In [33]:
# 컬럼 기준으로 내림차순 정렬 후, 로우 기준으로 오름차순 정렬
df1.sort_index(axis=1,ascending=False).sort_index()

Unnamed: 0,F,E,D,C,A
a,12,4,10,6,18
c,7,18,8,13,9
e,9,3,6,6,0
h,1,14,8,8,5


In [34]:
# 원본에는 영향 없음
df1

Unnamed: 0,E,A,F,C,D
h,14,5,1,8,8
c,18,9,7,13,8
a,4,18,12,6,10
e,3,0,9,6,6


In [35]:
# 값 기준으로 정렬
# 컬럼 D의 값을 기준으로 오름차순 정렬
# sort_values(axis=0, by = '기준컬럼이름'): 기본동작(정렬결과를 로우에 반영)
df1.sort_values(by='D')

Unnamed: 0,E,A,F,C,D
e,3,0,9,6,6
h,14,5,1,8,8
c,18,9,7,13,8
a,4,18,12,6,10


In [36]:
# 컬럼 A를 기준으로 내림차순 정렬
df1.sort_values(by='A',ascending=False)

Unnamed: 0,E,A,F,C,D
a,4,18,12,6,10
c,18,9,7,13,8
h,14,5,1,8,8
e,3,0,9,6,6


In [37]:
# 인덱스라벨(로우) c의 값을 오름차순으로 정렬
# 결괒거으로 정렬되는 대상: 컬럼
# 정렬의 기준: 로우 레이블
df1.sort_values(by='c',axis=1)

Unnamed: 0,F,D,A,C,E
h,1,8,5,8,14
c,7,8,9,13,18
a,12,10,18,6,4
e,9,6,0,6,3


In [38]:
# 로우 'e'깂을 기준으로 내림차순 정렬
df1.sort_values(by='e',axis=1,ascending=False)

Unnamed: 0,F,C,D,E,A
h,1,8,8,14,5
c,7,13,8,18,9
a,12,6,10,4,18
e,9,6,6,3,0


In [39]:
# 두 개의 컬럼에 대해서 정렬: 리스트로 묶어서 by의 인자값으로 전달
# 정렬 우선순위: 차례대로 1순위 > 2순위(1순위 동점시 2순위로 넘어감)
# 1순위 정렬 후 1순위 컬럼의 동점값에 대해 2순위 컬럼의 값이 재정렬
# 동일한 값이 아니라면 무조건 1순위 컬럼 우선
df1.sort_values(by=(['D','E']))

Unnamed: 0,E,A,F,C,D
e,3,0,9,6,6
h,14,5,1,8,8
c,18,9,7,13,8
a,4,18,12,6,10


In [40]:
# E는 오름차순, A는 내림차순으로 하고 싶다면
# ascending=[True,False]와 같이 각각의 기준에 대해서 ascending을 따로 매겨준다.
df1.sort_values(by=['e','c'],axis=1,ascending=[True,False])

Unnamed: 0,A,E,C,D,F
h,5,14,8,8,1
c,9,18,13,8,7
a,18,4,6,10,12
e,0,3,6,6,9


## 연습문제

- 1. 아래의 데이터프레임을 생성하세요
    - 학생들의 점수는 50 이상 100 미만의 무작위 정수 값을 생성하여 사용
![df_sort_practice1](https://user-images.githubusercontent.com/105966480/197458566-1eb75a90-44a5-4beb-8907-6907eeeea54b.PNG)

In [41]:
df = pd.DataFrame(np.random.randint(50,100,size=(5,4)),
                   index = ['Kim','Park','Lee','Jung','Moon'],
                   columns=[['2016','2016','2017','2017'],
                            ['영어','수학','영어','수학']])
#df.columns.names=['년도','과목']
#df.index.names=['학생명']
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
Kim,52,96,80,58
Park,99,52,73,82
Lee,90,92,95,83
Jung,82,95,78,53
Moon,65,84,81,67


In [42]:
# 로우 인덱스 이름 설정
df.index.names=['학생명']
df

Unnamed: 0_level_0,2016,2016,2017,2017
Unnamed: 0_level_1,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,52,96,80,58
Park,99,52,73,82
Lee,90,92,95,83
Jung,82,95,78,53
Moon,65,84,81,67


In [43]:
# 컬럼 인덱스 이름 설정
# 멀티 인덱스는 df.columns.set_names로 세팅 가능
df.columns.names='년도','과목'
df
# df.columns.set_names(['연도','과목명'],inplace=True) 도 가능

년도,2016,2016,2017,2017
과목,영어,수학,영어,수학
학생명,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Kim,52,96,80,58
Park,99,52,73,82
Lee,90,92,95,83
Jung,82,95,78,53
Moon,65,84,81,67


- 2. 2016데이터만 별도의 데이터 프레임으로 분리 저장(깊은 복사)

In [44]:
df_2016 = df['2016'].copy()
df_2016

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,52,96
Park,99,52
Lee,90,92
Jung,82,95
Moon,65,84


- 3. 2016년 데이터에 대해 학생 이름을 기준으로 오름차순 정렬

In [45]:
df_2016.sort_index()

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Jung,82,95
Kim,52,96
Lee,90,92
Moon,65,84
Park,99,52


- 4. 2016년 데이터의 과목별 점수에 대해 영어점수가 높은 순서로 정렬하고,
    영어 점수 동점자의 경우 수학 점수가 낮은 순서로 정렬

In [46]:
df_2016.sort_values(by=['영어','수학'],ascending=[False,True])

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Park,99,52
Lee,90,92
Jung,82,95
Moon,65,84
Kim,52,96


In [47]:
# 2등 kim과 4등인 moon의 점수를 동일하게 88점으로 통일
df_2016['영어']['Moon'] = 88
df_2016

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Kim,52,96
Park,99,52
Lee,90,92
Jung,82,95
Moon,88,84


In [48]:
df_2016.sort_values(by=['영어','수학'],ascending=[False,True])

과목,영어,수학
학생명,Unnamed: 1_level_1,Unnamed: 2_level_1
Park,99,52
Lee,90,92
Moon,88,84
Jung,82,95
Kim,52,96


# 데이터 합치기

## merge(특정 컬럼 기준)

- merge
    - pandas 객체의 메서드로 pandas.merge(df1, df2 ...)로 사용
    - 두 개의 데이터프레임에 대해 특정 컬럼을 기준으로 합치기
    - 주요 파라미터
        - how : 합치는 방식으로 inner(기본값), left, right, outer 방식 존재
        - on : 합치는 기준으로 두 개의 데이터프레임에 공통으로 존재하는 컬럼명을 사용해야함 (기본값=None)

### 공통 컬럼이 하나인 경우

In [57]:
# 고객번호와 고객명을 저장할고 있는 데이터프레임 생성
# 딕셔너리 타입으로 데이터프레임 데이터 생성 : key:col, value-> list():row
df1 = pd.DataFrame({'no':[30, 31, 32, 33, 34],
            'name':['김파이썬', '이장고', '박팬더스', '강넘파이', '최주피터']})
df1

Unnamed: 0,no,name
0,30,김파이썬
1,31,이장고
2,32,박팬더스
3,33,강넘파이
4,34,최주피터


In [50]:
# 고객 번호와 주문수량을 저장하고 있는 데이터프레임 생성
# 다른 고객번호(no)를 일부 지정
df2 = pd.DataFrame({'no':[30, 33, 40, 41],
                   'amount':[100, 130, 40, 60]})
df2

Unnamed: 0,no,amount
0,30,100
1,33,130
2,40,40
3,41,60


#### how = 'inner'

In [51]:
# 가장 기본적인 merge 방식 : 공통 컬럼을 기준으로 두 df에 모두 존재하는 교집합만 추출
# 기본 동작 : how = 'inner'
# df1 & df2의 공통컬럼 : no
# 공통 컬럼 내부의 공통 값 : 30, 33
# df1 : 30 ~ 34
# df2 : 30, 33, 40, 41
pd.merge(df1, df2)

Unnamed: 0,no,name,amount
0,30,김파이썬,100
1,33,강넘파이,130


#### how = 'outer'

In [52]:
# inner: 공통 컬럼을 기준으로 결합, 빈 값은 NaN
pd.merge(df1, df2,how='outer')

Unnamed: 0,no,name,amount
0,30,김파이썬,100.0
1,31,이장고,
2,32,박팬더스,
3,33,강넘파이,130.0
4,34,최주피터,
5,40,,40.0
6,41,,60.0


#### how = 'left'

In [53]:
# left: 첫번째로 전달한 DF의 자료는 모두 살리고, 두 번째에서는 교집한만
# 겹치지 않는 값은 NaN
pd.merge(df1,df2,how='left')

Unnamed: 0,no,name,amount
0,30,김파이썬,100.0
1,31,이장고,
2,32,박팬더스,
3,33,강넘파이,130.0
4,34,최주피터,


#### how = 'right'

In [54]:
# right: 두번째 DF의 자료는 모두 살리고, 첫번째에서는 교집합만
# 겹치지 않는 값은 NaN
pd.merge(df1,df2,how='right')

Unnamed: 0,no,name,amount
0,30,김파이썬,100
1,33,강넘파이,130
2,40,,40
3,41,,60


### 공통 컬럼이 두 개 이상인 경우

In [55]:
# 고객명, 날짜, 정보를 저장하고 있는 데이터프레임 생성
df3 = pd.DataFrame({'고객명':['김파이썬', '이장고', '박팬더스'],
                   '날짜':['2022-10-22', '2022-10-23', '2022-10-24'],
                   '정보':['010', '011', '019']})
df3

Unnamed: 0,고객명,날짜,정보
0,김파이썬,2022-10-22,10
1,이장고,2022-10-23,11
2,박팬더스,2022-10-24,19


In [56]:
# 고객명, 정보를 저장하고 있는 데이터프레임 생성
df4 = pd.DataFrame({'고객명':['김파이썬', '박팬더스', '최넘파이'],
                   '정보':['F', 'M', 'M']})
df4

Unnamed: 0,고객명,정보
0,김파이썬,F
1,박팬더스,M
2,최넘파이,M


In [58]:
# 공통된 이름을 가진 두 개 이상인 경우 파라미터가 없으면 결과도 없다
pd.merge(df3,df4)

Unnamed: 0,고객명,날짜,정보


#### on = '기준 컬럼'

In [59]:
# on 파라미터: 공통된 컬림이 여럿인 경우 결합 기준 컬럼을 지정
# 합칠 때 key로 사용할 컬럼: '고객명'
# 공통컬럼 결과: 고객명, 정보 => 정보 컬럼 결과를 확인
# 기본동작으로 merge: inner
pd.merge(df3,df4,on='고객명')

Unnamed: 0,고객명,날짜,정보_x,정보_y
0,김파이썬,2022-10-22,10,F
1,박팬더스,2022-10-24,19,M


#### left_on, right_on

In [60]:
# left_on, right_on : 두 개의 데이터프레임에 대해서 서로 다른 기준컬럼을 지정
# 예) 동일한 속성의 자료를 저장하는 컬럼인데 표기하는 이름이 다른 경우
# 고객이름, 날짜, 구매금액을 저장하고 있는 데이터프레임 생성
df5 = pd.DataFrame({'고객이름':['김파이썬', '박팬더스', '강주피터'],
                   '날짜':['2020-01-01', '2020-02-01', '2020-02-15'],
                   '구매금액':[1, 2, 3]})
df5

Unnamed: 0,고객이름,날짜,구매금액
0,김파이썬,2020-01-01,1
1,박팬더스,2020-02-01,2
2,강주피터,2020-02-15,3


In [61]:
# 고객명, 성별을 저장하고 있는 데이터프레임을 생성
df6 = pd.DataFrame({'고객명':['김파이썬', '박팬더스'],
                   '성별':['F', 'M']})
df6

Unnamed: 0,고객명,성별
0,김파이썬,F
1,박팬더스,M


In [62]:
# 겹치는 컬럼명이 없어서 에러 발생
pd.merge(df5,df6)

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [70]:
# left(df5), right(df6)에서 공통 컬럼명을 각각 지정
tmp = pd.merge(df5,df6,left_on='고객이름',right_on='고객명')
tmp

Unnamed: 0,고객이름,날짜,구매금액,고객명,성별
0,김파이썬,2020-01-01,1,김파이썬,F
1,박팬더스,2020-02-01,2,박팬더스,M


In [71]:
# drop 메서드를 이용해 컬럼삭제(고객명)
tmp.drop('고객명',axis=1)

Unnamed: 0,고객이름,날짜,구매금액,성별
0,김파이썬,2020-01-01,1,F
1,박팬더스,2020-02-01,2,M


In [72]:
tmp

Unnamed: 0,고객이름,날짜,구매금액,고객명,성별
0,김파이썬,2020-01-01,1,김파이썬,F
1,박팬더스,2020-02-01,2,박팬더스,M


In [None]:
# DF에 실제로 반영
tmp.drop('고객명',axis=1,inplace=True)

## concat(행,열 기준)

- 특정 key를 기준으로 데이터를 합치는 것이 아니라 행, 열 기준으로 데이터를 연결
- 주요 파라미터
    - axis : 0 / 행 방향(기본값)이며 컬럼을 key로 합치고, 1 / 열 방향으로 로우를 key로 합침
    - join : 데이터프레임끼리 연결할 때 합치는 방법으로 outer(기본값), inner 방식 존재
    - ignore_index : 합친 후 기존 인덱스를 유지 또는 새로운 인덱스를 지정

In [73]:
# 공통 인덱스 라벨을 가지는 Series 2개 생성
s1 = pd.Series([1,2,3],index=list('abc'))
s2 = pd.Series([5,6,7,8],index=list('abfh'))
print(s1)
print(s2)

a    1
b    2
c    3
dtype: int64
a    5
b    6
f    7
h    8
dtype: int64


In [75]:
# 두 Series간의 연결
# 기본: axis = 0(행 방향으로 연결)
# 첫 번째로 전달된 객체가 위에, 두 번째로 전달된 객체가 아래로 추가(연결)
# 인덱스 라벨은 기존 값 유지
pd.concat([s1,s2])

a    1
b    2
c    3
a    5
b    6
f    7
h    8
dtype: int64

In [76]:
# 새로운 인덱스 초기화하기
pd.concat([s1,s2],ignore_index=True)

0    1
1    2
2    3
3    5
4    6
5    7
6    8
dtype: int64

In [77]:
# 열 방향 연결 => 두 개의 Series를 연결해서 하나의 DF화 시키기
# 길이가 다른 경우
pd.concat([s1,s2],axis=1)

Unnamed: 0,0,1
a,1.0,5.0
b,2.0,6.0
c,3.0,
f,,7.0
h,,8.0


In [78]:
# 열 이름을 설정하면서 붙여주기: keys 파라미터에 컬럼명을 리스트로 전달
pd.concat([s1,s2],axis=1,keys=['c1','c2'],sort=False)

Unnamed: 0,c1,c2
a,1.0,5.0
b,2.0,6.0
c,3.0,
f,,7.0
h,,8.0


### 연습

In [82]:
# 두 개의 데이터프레임 연결
# 고객명, 날짜, 구매금액
df1 = pd.DataFrame({'고객명':['김파이썬', '이장고', '박팬더스'],
                   '날짜':['2022-10-22', '2022-10-23', '2022-12-14'],
                   '구매금액':[1, 2, 3]})
# 고객명, 성별
df2 = pd.DataFrame({'고객명':['김파이썬', '최넘파이'],
                   '성별':['F', 'M']})

In [83]:
df1

Unnamed: 0,고객명,날짜,구매금액
0,김파이썬,2022-10-22,1
1,이장고,2022-10-23,2
2,박팬더스,2022-12-14,3


In [84]:
df2

Unnamed: 0,고객명,성별
0,김파이썬,F
1,최넘파이,M


In [86]:
# 행 방향으로 데이터 프레임 연결(컬럼개수 증가)
pd.concat([df1,df2])

Unnamed: 0,고객명,날짜,구매금액,성별
0,김파이썬,2022-10-22,1.0,
1,이장고,2022-10-23,2.0,
2,박팬더스,2022-12-14,3.0,
0,김파이썬,,,F
1,최넘파이,,,M


In [89]:
# 열 방향으로 데이터 프레임 연결
pd.concat([df1,df2],axis=1)

Unnamed: 0,고객명,날짜,구매금액,고객명.1,성별
0,김파이썬,2022-10-22,1,김파이썬,F
1,이장고,2022-10-23,2,최넘파이,M
2,박팬더스,2022-12-14,3,,


# 집계

- groupby(컬럼명)
    - 특정 속성을 기준으로 묶어서 다양한 집계 함수 적용
    - 대표적인 집계 함수
        - sum : 총합
        - mean : 평균값
        - min : 최소값
        - max : 최대값
        - count : 개수
        - std : 표준편차
- pivot table
    - df.pivot(로우로 사용될 컬럼명, 컬럼으로 사용될 컬럼명, 튜플을 구성하는 값으로 사용될 컬럼명, 집계함수)
    - 일차원으로 컬럼 및 로우가 단순 나열된 형식은 데이터를 파악하는데 적합하지 않기 때문에 pivot을 통해 계층 색인 및 형태 변경을 수행

In [103]:
# Os error -> engine='python'
# Unicode, Encoding -> encoding='utf-8' or 'cp949' or 'utf-16'
data = pd.read_excel('data/인구수예제.xlsx') # 서울3, 부산 7
data

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190
5,서울,서대문구,2013,95,111,206
6,서울,서대문구,2014,149,150,299
7,서울,서대문구,2015,106,77,183
8,서울,서대문구,2016,56,109,165
9,서울,서대문구,2017,82,96,178


In [100]:
data.shape

(50, 6)

In [102]:
# 상위 5개 자료만 조회
data.head()

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190


In [105]:
# 상위 10개 자료 조회
data.head(10)

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
0,서울,강남구,2013,73,92,165
1,서울,강남구,2014,139,55,194
2,서울,강남구,2015,123,83,206
3,서울,강남구,2016,147,150,297
4,서울,강남구,2017,57,133,190
5,서울,서대문구,2013,95,111,206
6,서울,서대문구,2014,149,150,299
7,서울,서대문구,2015,106,77,183
8,서울,서대문구,2016,56,109,165
9,서울,서대문구,2017,82,96,178


In [104]:
# 하위 5개 자료만 조회
data.tail()

Unnamed: 0,도시,자치구,연도,남자인구,여자인구,총인구
45,부산,동래구,2013,83,65,148
46,부산,동래구,2014,139,87,226
47,부산,동래구,2015,147,115,262
48,부산,동래구,2016,61,102,163
49,부산,동래구,2017,132,105,237


In [110]:
# 지자치구별 남, 녀 인구 각각의 총합
# 조사년도 5개년
data.groupby('자치구')[['남자인구','여자인구']].sum()

Unnamed: 0_level_0,남자인구,여자인구
자치구,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,539,513
도봉구,485,550
동래구,562,474
동작구,454,582
서대문구,488,543
송파구,415,559
수영구,502,559
영등포구,629,562
종로구,483,373
해운대구,620,515


In [111]:
# 도시별 남여 인구 각각의 총합
data.groupby('도시')[['남자인구','여자인구']].sum()

Unnamed: 0_level_0,남자인구,여자인구
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,1684,1548
서울,3493,3682


In [112]:
# 연도별, 도시별 남여 인구의 총합
data.groupby(['연도','도시']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,남자인구,여자인구,총인구
연도,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2013,부산,341,262,603
2013,서울,758,769,1527
2014,부산,314,369,683
2014,서울,882,691,1573
2015,부산,331,266,597
2015,서울,541,710,1251
2016,부산,276,376,652
2016,서울,671,722,1393
2017,부산,422,275,697
2017,서울,641,790,1431


In [116]:
# 도시별, 연도별 총 인구 평균
data.groupby(['도시','연도'])[['총인구']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구
도시,연도,Unnamed: 2_level_1
부산,2013,201.0
부산,2014,227.666667
부산,2015,199.0
부산,2016,217.333333
부산,2017,232.333333
서울,2013,218.142857
서울,2014,224.714286
서울,2015,178.714286
서울,2016,199.0
서울,2017,204.428571


In [119]:
data.groupby(['도시','연도'])[['총인구']].mean().unstack()

Unnamed: 0_level_0,총인구,총인구,총인구,총인구,총인구
연도,2013,2014,2015,2016,2017
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
부산,201.0,227.666667,199.0,217.333333,232.333333
서울,218.142857,224.714286,178.714286,199.0,204.428571


In [120]:
data.groupby(['도시','연도'])[['총인구']].mean().unstack(0)

Unnamed: 0_level_0,총인구,총인구
도시,부산,서울
연도,Unnamed: 1_level_2,Unnamed: 2_level_2
2013,201.0,218.142857
2014,227.666667,224.714286
2015,199.0,178.714286
2016,217.333333,199.0
2017,232.333333,204.428571
