In [2]:
# Module
import numpy as np
import pandas as pd
import random

In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

# 데이터 프레임 병합
> pandas는 두 개 이상의 데이터 프레임을 하나로 합치는 병합(merge)이나 연결(concate)을 지원한다

## merge 함수를 사용한 데이터프레임 병합

> merge 함수는 두 데이터 프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블을 합친다. 이 때 기준이 되는 열, 행의 데이터를 키(key)라고 한다.

### 형식
- df.merge(df) : 두 df를 병합시켜준다
- 기본은 inner join : 양쪽에 동일하게 존재하는 키만 표시
- outer join : 한쪽에만 키가 존재하면 data를 표시
- 병합방식을 설정 : how = inner(생략가능), how = outer

In [4]:
#예시 df 생성 - 고객 정보를 담고 있는 df
df1 =pd.DataFrame({
    '고객번호' : [1001,1002,1003,1004,1005,1006,1007],
    '이름' : ['둘리','도우너','또치','길동','희동','마이콜','영희']
        },
    columns=['고객번호','이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [5]:
#예제 df 생성 - 예금 정보 df
df2 = pd.DataFrame({
    '고객번호':[1001,1001,1005,1006,1008,1001],
    '금액' : [10000,20000,15000,5000,100000,30000]
},columns=['고객번호','금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [6]:
# merge 명령으로 두 df를 병합하는 문법
# 모든 인수는 생략 가능(병합 df 이름은 제외) - 공통이름을 갖고 있는 열이 존재해야 함
# '고객번호'라는 공통이름 필드가 있음 - key로 설정
# 양쪽에 모두 존재하는 키의 data만 보여주는 inner join 방식을 사용

In [11]:
# inner join - 공통필드 존재 확인을 위한 column명을 확인
df1.head(1)
df2.head(1)
df1.merge(df2) # 기준이되는 df 객체의 매서드를 사용함
pd.merge(df1,df2) # 기준 data 프레임을 왼쪽에

Unnamed: 0,고객번호,이름
0,1001,둘리


Unnamed: 0,고객번호,금액
0,1001,10000


Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [12]:
# outer join : 키 값이 한 쪽에만 있어도 데이터를 출력
pd.merge(df1, df2, how = 'outer')
# 어느 한 df에만 데이터(key)가 존재하고 다른 df에는 존재하지 않으면 해당 필드에 NaN로 표시됨

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [13]:
# how = inner / outer / left / right
# how = left : 왼쪽 df에 있는 모든 키의 데이터 표시
# how = right : 오른쪽 df에 있는 모든 키의 데이터 표시
pd.merge(df1,df2,how='left')
pd.merge(df1,df2,how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000
5,1008,,100000


In [14]:
# df에 키 값이 같은 데이터가 여러개 있는 경우에는
# 모든 경우의 수를 따져서 조합을 만들어 냄
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]},
    columns=['품종', '꽃잎길이'])
df1
df2 = pd.DataFrame({
    '품종': ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]},
    columns=['품종', '꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [15]:
# df1과 df2를 병합
# 위 데이터에서 키 값 setosa에 대해 
# df1에는 1.4와 1.3 2개의 데이터가 있고
# df2에는 0.4라는 1개의 데이터가 있으므로
# 병합된 데이터에는 setosa가 (1.4, 0.4), (1.3, 0.4) 두 개의 데이터가 생긴다.
# 키 값 virginica의 경우에는 왼쪽 데이터프레임에 1.5와 1.3라는 2개의 데이터, 
# 오른쪽 데이터프레임에 0.3와 0.5라는 2개의 데이터가 있으므로 2개와 2개의 조합에 의해 4가지 값이 생긴다.

df1.head(1)
df2.head(1)

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4


Unnamed: 0,품종,꽃잎너비
0,setosa,0.4


In [16]:
pd.merge(df1,df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


- 두 데이터프레임에서 이름이 같은 열은 모두 키가 된다. 
- 만약 이름이 같아도 키가 되면 안되는 열이 있다면 on 인수로 기준열을 명시해야 한다. 

In [17]:
df1 = pd.DataFrame({
    '고객명': ['춘향', '춘향', '몽룡'],
    '날짜': ['2018-01-01', '2018-01-02', '2018-01-01'],
    '데이터': ['20000', '30000', '100000']})
df1

Unnamed: 0,고객명,날짜,데이터
0,춘향,2018-01-01,20000
1,춘향,2018-01-02,30000
2,몽룡,2018-01-01,100000


In [18]:
df2 = pd.DataFrame({
    '고객명': ['춘향', '몽룡'],
    '데이터': ['여자', '남자']})
df2

Unnamed: 0,고객명,데이터
0,춘향,여자
1,몽룡,남자


In [19]:
df1.head(1)
df2.head(1)

Unnamed: 0,고객명,날짜,데이터
0,춘향,2018-01-01,20000


Unnamed: 0,고객명,데이터
0,춘향,여자


In [20]:
# 기준열을 직접 지정 : on = 기준열 이름
# 반환 결과에 동일 필드명이 있을 경우에는 필드명_x(앞), 필드명_y(뒤)로
# 필드명을 변경해서 표현한다.
pd.merge(df1,df2,on = '고객명')

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-01,100000,남자


### 공통필드가 없는 경우
> 키가 되는 기준열의 이름이 두 데이터프레임에서 다르다면 left_on, right_on 인수를 사용하여 기준열을 명시해야 한다.

In [23]:
df1 = pd.DataFrame({
    '이름': ['영희', '철수', '철수'],
    '성적': [90, 80, 80]})
df1
df2 = pd.DataFrame({
    '성명': ['영희', '영희', '철수'],
    '성적2': [100, 80, 90]})
df2
df1.head(1)
df2.head(1)

Unnamed: 0,이름,성적
0,영희,90
1,철수,80
2,철수,80


Unnamed: 0,성명,성적2
0,영희,100
1,영희,80
2,철수,90


Unnamed: 0,이름,성적
0,영희,90


Unnamed: 0,성명,성적2
0,영희,100


In [24]:
# 양쪽 df의 기준이 되는 열의 이름이 다름
pd.merge(df1, df2, left_on='이름', right_on = '성명')
# 출력 결과는 양쪽 필드명이 다르기 때문에 기준열로 설정한 두 필드 모두 반환됨

Unnamed: 0,이름,성적,성명,성적2
0,영희,90,영희,100
1,영희,90,영희,80
2,철수,80,철수,90
3,철수,80,철수,90


### 일반 데이터열이 아닌 인덱스를 기준으로 merge 하기
- index를 기준열로 사용하려면
    - left_index = True
    - right_index = True

In [25]:
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,9853972
1,서울,2005,9762546
2,서울,2010,9631482
3,부산,2000,3655437
4,부산,2005,3512547


In [26]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [27]:
df1.head(1)
df2.head(2)

Unnamed: 0,도시,연도,인구
0,서울,2000,9853972


Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3


In [28]:
pd.merge(df1, df2, left_on = ['도시','연도'], right_index=True)
# 기준열로 삼은 index는 실제 data가 아니기 때문에 표현되지 않는다

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [29]:
# 일반 데이터에는 기준열이 없고 merge할 두 df모두 index를 기준열로 설정해야 하는 경우
df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
df1
df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
df2

Unnamed: 0,서울,부산
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


Unnamed: 0,대구,광주
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [33]:
# 위에서 작성한 두 df를 인덱스를 기준열로 설정하고 병합하시오
# 양쪽 데이터 프레임에 key가 모두 인덱스인 경우
pd.merge(df1, df2, how = 'outer', left_index=True, right_index = True)
# 기준이 모두 index로 처리되어 있으므로 index는 기존 index를 사용

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [34]:
# merge_명령어 대신 join 매서드를 사용할 수 있다
df1.join(df2, how = 'outer')

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


## 연습문제

두 개의 데이터프레임을 만들고 merge 명령으로 합친다. 단 데이터프레임은 다음 조건을 만족해야 한다.

1. 각각 5 x 5 이상의 크기를 가진다.
2. 공통 열을 하나 이상 가진다. 다만 공통 열의 이름은 서로 다르다.
3. merge의 경우 inner, outer, left, right 4개의 형태로 출력할 것
4. 지정된 인덱스와 컬럼명을 가진다


In [56]:
data = [[22,60.1,170.5,'남','서울'],
       [45, 51.3, 157.3, '여', '부산'],
       [22, 68.3, 180.1, '남', '대구'],
       [33, 88.3, 190.2, '남', '제주'],
       [27, 48.3, 160.1, '여', '강릉']]
df1 = pd.DataFrame(data,
               index = ['홍길동','이몽룡','성춘향','변학도','김연아'],
               columns = ['나이', '몸무게', '키', '성별', '주소'])
df1

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
이몽룡,45,51.3,157.3,여,부산
성춘향,22,68.3,180.1,남,대구
변학도,33,88.3,190.2,남,제주
김연아,27,48.3,160.1,여,강릉


In [57]:
data = [[22,60.1,170.5,'남','서울'],
       [45, 51.3, 157.3, '여', '부산'],
       [22, 68.3, 180.1, '남', '울산'],
       [33, 88.3, 190.2, '남', '제주'],
       [27, 48.3, 160.1, '여', '광주']]
df2 = pd.DataFrame(data,
               index = [1,2,3,4,5],
               columns = ['나이', '몸무게', '키', '성별', '지역'])
df2

Unnamed: 0,나이,몸무게,키,성별,지역
1,22,60.1,170.5,남,서울
2,45,51.3,157.3,여,부산
3,22,68.3,180.1,남,울산
4,33,88.3,190.2,남,제주
5,27,48.3,160.1,여,광주


In [70]:
pd.merge(df1, df2, left_on = '주소', right_on = '지역')
pd.merge(df1, df2, left_on = '주소', right_on = '지역', how = 'outer')
pd.merge(df1, df2, left_on = '주소', right_on = '지역', how = 'left')
pd.merge(df1, df2, left_on = '주소', right_on = '지역', how = 'right')

Unnamed: 0,나이_x,몸무게_x,키_x,성별_x,주소,나이_y,몸무게_y,키_y,성별_y,지역
0,22,60.1,170.5,남,서울,22,60.1,170.5,남,서울
1,45,51.3,157.3,여,부산,45,51.3,157.3,여,부산
2,33,88.3,190.2,남,제주,33,88.3,190.2,남,제주


Unnamed: 0,나이_x,몸무게_x,키_x,성별_x,주소,나이_y,몸무게_y,키_y,성별_y,지역
0,22.0,60.1,170.5,남,서울,22.0,60.1,170.5,남,서울
1,45.0,51.3,157.3,여,부산,45.0,51.3,157.3,여,부산
2,22.0,68.3,180.1,남,대구,,,,,
3,33.0,88.3,190.2,남,제주,33.0,88.3,190.2,남,제주
4,27.0,48.3,160.1,여,강릉,,,,,
5,,,,,,22.0,68.3,180.1,남,울산
6,,,,,,27.0,48.3,160.1,여,광주


Unnamed: 0,나이_x,몸무게_x,키_x,성별_x,주소,나이_y,몸무게_y,키_y,성별_y,지역
0,22,60.1,170.5,남,서울,22.0,60.1,170.5,남,서울
1,45,51.3,157.3,여,부산,45.0,51.3,157.3,여,부산
2,22,68.3,180.1,남,대구,,,,,
3,33,88.3,190.2,남,제주,33.0,88.3,190.2,남,제주
4,27,48.3,160.1,여,강릉,,,,,


Unnamed: 0,나이_x,몸무게_x,키_x,성별_x,주소,나이_y,몸무게_y,키_y,성별_y,지역
0,22.0,60.1,170.5,남,서울,22,60.1,170.5,남,서울
1,45.0,51.3,157.3,여,부산,45,51.3,157.3,여,부산
2,,,,,,22,68.3,180.1,남,울산
3,33.0,88.3,190.2,남,제주,33,88.3,190.2,남,제주
4,,,,,,27,48.3,160.1,여,광주


## concat 함수를 사용한 데이터 연결

> concat 함수를 사용하면 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결(concatenate)한다.

- 기본적으로는 위/아래로 데이터 행을 연결한다. 
- 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다.

In [72]:
# 두 시리즈 데이터 연결
s1 = pd.Series([0,1], index = ['A','B'])
s2 = pd.Series([2,3,4], index = ['A','B','C'])
s1
s2
pd.concat([s1,s2])

A    0
B    1
dtype: int64

A    2
B    3
C    4
dtype: int64

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [73]:
# 데이터프레임에 대한 concat 연결
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[0, 1, 2, 3])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[0, 1, 2, 3])
df1
df2
df3

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


Unnamed: 0,A,B,C,D
0,A8,B8,C8,D8
1,A9,B9,C9,D9
2,A10,B10,C10,D10
3,A11,B11,C11,D11


In [89]:
# concat() : 위아래 단순 병합
result = pd.concat([df1,df2,df3]) # axis = 0 이 기본값(생략 가능)
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7
0,A8,B8,C8,D8
1,A9,B9,C9,D9


In [90]:
# 인덱스가 중복되면 pd는 행/열의 구별을 위해서 다중 인덱스를 설정함
result.index

Int64Index([0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3], dtype='int64')

In [88]:
# 단순열결하는 df들의 index가 중복되면 key를 이용해 상위계층 인덱스를 만들어라
result = pd.concat([df1,df2,df3], keys = ['x','y','z']) 
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,0,A4,B4,C4,D4
y,1,A5,B5,C5,D5
y,2,A6,B6,C6,D6
y,3,A7,B7,C7,D7
z,0,A8,B8,C8,D8
z,1,A9,B9,C9,D9


In [79]:
# concat() : 가로 단순 병합
result1 = pd.concat([df1,df2,df3], axis = 1 )
result1

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,A4,B4,C4,D4,A8,B8,C8,D8
1,A1,B1,C1,D1,A5,B5,C5,D5,A9,B9,C9,D9
2,A2,B2,C2,D2,A6,B6,C6,D6,A10,B10,C10,D10
3,A3,B3,C3,D3,A7,B7,C7,D7,A11,B11,C11,D11


In [91]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])

df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [92]:
result = pd.concat([df1,df4],axis = 1)
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [95]:
# join = 'inner' : 공통된 index는 합치고
# 나머지 데이터는 버리면서 병합
result = pd.concat([df1,df4], axis =1, join = 'inner')
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [97]:
# reindex() : 기준 인덱스 지정 함수
# df1의 인덱스를 기준으로 병합한다는 의미
result = pd.concat([df1, df4],axis = 1).reindex(df1.index)
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [100]:
# 두 df를 세로 방향 결합시 기존 index 무시하고 새로 index 부여하는 매개변수 : ignore_index = True
result = pd.concat([df1,df2,df3],ignore_index=True)
result
result.index

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


RangeIndex(start=0, stop=12, step=1)

In [None]:
# 컬럼명 사용함 list 생성
# 리스트 내포 for 문 사용
month = [str(i)+ '월' for i range]