In [1]:
## 데이터 프레임 병합

데이터프레임 합치기
- merge() : 데이터프레임 병합(합치기)
- concat() : 데이터프레임 연결

In [2]:
### merge() 함수를 사용한 데이터프레임 병합

merge() 메소드(함수)
- 두 데이터프레임의 공통 열이나 인덱스를 기준으로 두 개의 데이터프레임을 합침
- 이 때 기준이 되는 열 또는 인덱스를 키(key)라고 함

merge() 함수에서 key를 설정하는 방식 : 양쪽 데이터프레임에서
   - (1) 열 & 열 (첫 번째 데이터프레임(df1)에서 열을 키로 설정하고, 두 번째 데이터프레임(df2)에서 열을 키로 설정)
   - (2) 열 & 인덱스 (df1에서 열을 키로 설정하고, df2에서 인덱스를 키로 설정)
   - (3) 인덱스 & 인덱스 (df1에서 인덱스를 키로 설정하고, df2에서도 인덱스를 키로 설정)

In [3]:
import pandas as pd
import numpy as np

In [4]:
# 데이터프레임 생성
df1 = pd.DataFrame({
    '고객번호' : [1001,1002, 1003, 1004, 1005, 1006, 1007],
    '이름' : ['둘리','도우너','또치','길동','희동','마이콜','영희']},
    columns = ['고객번호','이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [5]:
df2 = pd.DataFrame({
    '고객번호': [1001,1001,1005, 1006, 1008, 1001],
    '금액' : [10000, 20000, 15000, 5000, 100000, 30000]},
    columns = ['고객번호','금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


merge() 메소드를 사용해서 두 데이터프레임 df1, df2 병합
- 열 & 열 (키로 사용)
- 공동 열인 [고객번호]를 기준으로 데이터를 찾아서 병합
- 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 표시
- innner join 방식 이용
- merge(df1,df2,how) : how = 'inner'가 디폴트

In [6]:
# df1과 df2 병합
pd.merge(df1,df2) # how='inner' 디폴트로 생략되었음
# how='inner' : 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 표시

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [7]:
pd.merge(df1,df2,how='inner')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


outer join 방식 : how='outer'
- 키 값이 한쪽에만 있어도 데이터 표시 (전체 데이터 표시)
- 값이 없는 경우에는 NaN 으로 채움

In [8]:
pd.merge(df1,df2,how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


left, right 방식
- how='left' : 첫 번째(왼쪽) 데이터프레임의 키 값을 모두 표시
- how='right' : 두 번째(오른쪽) 데이터프레임의 키 값을 모두 표시
- 값이 없는 경우에는 NaN 으로 채움

In [9]:
pd.merge(df1,df2,how='left')
# df1의 모든 키 값 표시 (df1이 기준)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [10]:
pd.merge(df1,df2,how='right')
# df2의 모든 키 값 표시 (df2를 기준으로 병합)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000
5,1008,,100000


데이터프레임 키 값이 같은 여러 개의 데이터가 있는 경우
- 가능한 모든 경우의 수를 따져서 조합해서 만들어 낸다

In [11]:
df3 = pd.DataFrame({
    '품종' : ['setosa','setosa','virginica','virginica'],
    '꽃잎길이' : [1.4, 1.3, 1.5, 1.3]},
    columns = ['품종','꽃잎길이'])
df3

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [12]:
df4 = pd.DataFrame({
    '품종' : ['setosa','virginica','virginica','versicolor'],
    '꽃잎너비' : [0.4, 0.3, 0.5, 0.3]},
    columns = ['품종','꽃잎너비'])
df4

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


데이터프레임 키 값이 같은 여러 개의 데이터가 있는 경우
- 가능한 모든 경우의 수를 따져서 조합해서 만들어 낸다

setosa의 경우
왼쪽 : 1.4, 1.3
오른쪽 : 0.4
    -> (1.4, 0.4), (1.3, 0.4)

virginica의 경우
왼쪽 : 1.5, 1.3
오른쪽 : 0.3, 0.5
    -> (1.5, 0.3), (1.5, 0.5), (1.3, 0.3), (1.3, 0.5)

In [13]:
pd.merge(df3,df4)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


두 데이터프레임에서 이름이 같은 열은 모두 키가 되는데 (공통 열)
이름이 같아도 키가 안 되는 열이 존재
이때는 on 인수로 기준열을 명시한다

예)
    첫 번째 데이터프레임의 열 이름 [데이터] (실제 값 : 금액)
    두 번째 데이터프레임의 열 이름 [데이터] (실제 값 : 성별)
    이 경우 열 이름이 같아도 다른 데이터이므로, 이 열은 기준열이 되면 안 된다!

In [14]:
df5 = pd.DataFrame({
    '고객명' : ['춘향','춘향','몽룡'],
    '날짜' : ['2020-01-01','2020-01-02','2020-01-01'],
    '데이터' : ['2000','30000','100000']})
df5

Unnamed: 0,고객명,날짜,데이터
0,춘향,2020-01-01,2000
1,춘향,2020-01-02,30000
2,몽룡,2020-01-01,100000


In [15]:
df6 = pd.DataFrame({
    '고객명' : ['춘향', '몽룡'],
    '데이터' : ['여자', '남자']})
df6

Unnamed: 0,고객명,데이터
0,춘향,여자
1,몽룡,남자


In [16]:
# df5와 df6를 병합
# 기준열을 명시하지 않았을 때
pd.merge(df5,df6)

Unnamed: 0,고객명,날짜,데이터


In [17]:
# df5와 df6에 모두 공통 열 [고객명] 이외에 [데이터]라는 공통 열이 존재하지만,
# 실제로는 금액과 성별로 서로다른 데이터이기 때문에
# [데이터] 열이 기준으로 설정되면 안 되고
# 별도의 기준열을 명시해야 한다
# on = '고객명' : 기준열 명시

pd.merge(df5, df6, on='고객명')
# 이때 기준열이 아니면서 이름이 같은 열에는
# 구분하기 위해 _x 또는 _y와 같은 접미사가 붙는다

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2020-01-01,2000,여자
1,춘향,2020-01-02,30000,여자
2,몽룡,2020-01-01,100000,남자


In [18]:
반대로 키가 되는 기준열의 이름이 두 데이터프레임에서 다르면
left_on, right_on 인수를 사용해서 기준열을 명시한다

SyntaxError: invalid syntax (<ipython-input-18-04b5de72a39a>, line 1)

In [None]:
df7 = pd.DataFrame({
    '이름' : ['영희','철수','철수'],
    '성적' : [1, 2, 3]})
df7

In [None]:
df8 = pd.DataFrame({
    '성명' : ['영희','영희','철수'],
    '성적2' : [4, 5, 6]})
df8

In [None]:
# 왼쪽의 '이름'과 오른쪽의 '성명'이 같다고 지정 (연결)
pd.merge(df7,df8,left_on='이름',right_on='성명')

열이 아닌 인덱스를 사용해서 병합 가능
- 왼쪽 데이터프레임의 인덱스를 사용하는 경우에는 left_index=True
- 오른쪽 데이터프레임의 인덱스를 사용하는 경우에는 right_index=True 설정

In [None]:
df9 = pd.DataFrame({
    '도시' : ['서울','서울','서울','부산','부산'],
    '연도' : [2000, 2005, 2010, 2000, 2005],
    '인구' : [9853972, 9762546, 9631482, 3655437, 3512547]})
df9

In [None]:
# 인덱스가 2개 있는 데이터프레임 생성
df10 = pd.DataFrame(
    np.arange(12).reshape(6,2),
    index = [['부산','부산','서울','서울','서울','서울'],[2000, 2005, 2000, 2005, 2010, 2015]],
    columns = ['데이터1','데이터2'])
df10

# 인덱스 2개
# (1) 도시를 나타내는 인덱스
# (2) 연도를 나타내는 인덱스

In [None]:
# 병합 방식 : 열 & 인덱스
# 왼쪽 데이터프레임에서는 열을 키로 사용하고
# 오른쪽 데이터프레임에서는 인덱스를 키로 사용해서 병합 : right_index=True
# 왼쪽의 '도시','연도' 열과 오른쪽의 인덱스와 같다고 지정
# 왼쪽에서는 도시','연도' 열을 키로 사용하고
# 오른쪽에서는 인덱스를 키로 사용하겠다는 의미

pd.merge(df9, df10, left_on=['도시','연도'], right_index=True)

병합 방식 : 인덱스 & 인덱스
left_index=True, right_index=True

In [None]:
df11 = pd.DataFrame([[1.,2,],[3., 4.],[5., 6.]],
                   index = ['a','b','c'],
                   columns = ['서울','부산'])
df11

In [None]:
df12 = pd.DataFrame(
    [[7., 8.],[9., 10.], [11., 12.],[13., 14.]],
    index = ['a','b','d','e'],
    columns = ['대구','광주'])
df12

In [None]:
# 인덱스 & 인덱스로 병합
pd.merge(df11, df12, how='outer', left_index=True, right_index=True)
# outer : 양쪽 열 값 모두 표시 (없는 값은 NaN)

### join 메소드

- merge() 대신 join() 사용 가능
- join 방식
    - inner join : 양쪽에서 공통된 키의 값만 표시
    - outer join : 양쪽 모든 값 표시 (없는 값은 NaN으로 표시)
    - left join : 왼쪽 기준 (왼쪽 모든 값 표시, 오른쪽에 없는 값은 NaN으로 채움)
    - right join : 오른쪽 기준 (오른쪽 모든 값 표시, 왼쪽에 없는 값은 NaN으로 채움) 

In [None]:
df11

In [None]:
df12

In [None]:
# inner join : 양쪽에서 공통된 인덱스만 표시 : a, b
df11.join(df12, how='inner')

In [None]:
# outer join : 양쪽 모두 표시 (없는 값은 NaN으로 채움)
df11.join(df12, how='outer')

In [None]:
# left join : 왼쪽 데이터프레임 기준 (왼쪽 값 모두 표시)
# 오른쪽에 없는 값은 NaN으로 채움
df11.join(df12, how='left')

In [None]:
# how 생략 시 디폴트는 left join
df11.join(df12)

In [None]:
# right join : 오른쪽 데이터프레임 기준 (오른쪽 값 모두 표시)
# 왼쪽에 없는 값은 NaN으로 채움
df11.join(df12, how='right')

연습문제 1

두 개의 데이터프레임을 만들고 merge() 함수를 사용해서 병합

조건
(1) 각각 5 x 5 이상의 크기
(2) 공통 열을 하나 이상 가진다. 단, 공통 열의 이름은 서로 다르다

데이터프레임 1개의 열은 다음으로 사용
- 이름, 출시연도, 연료, 마력, 탑승인원
- 이름 : Morning, K3, K5, ...
- 연료 : 휘발유, 경유, ...
- 마력 : 50, 100, ...

In [None]:
df_car1 = pd.DataFrame({
    '이름' : ['모닝','K3','그랜저','카니발','아반떼'],
    '출시연도' : [2000, 2005, 2010, 2005, 2011],
    '연료' : ['휘발유','경유','경유','경유','휘발유'],
    '마력' : [50, 100, 150, 120, 170],
    '에너지등급' : [3,2,1,2,1]},
    columns = ['이름','출시연도','연료','마력','에너지등급'])
df_car1

In [None]:
df_car2 = pd.DataFrame({ 
    'Name' : ['Morning','K3','K5','K9','아반떼'],
    '가격' : [1500, 4000, 4000, 2000, 2500],
    '출력' : []
})

In [None]:
# (2) 공통 열을 하나 이상 가진다. 단, 공통 열의 이름은 서로 다르다
pd.merge(df_car1, df_car2, left_on="Name",'right_on="이름")

In [None]:
pd.merge(df_car1, df_car3, left_on="Name",'right_on="이름")

### concat() 메소드를 사용한 데이터 연결

concat() 메소드
- 기준열을 사용하지 않고 단순히 데이터 연결만 수행
- 기본적으로 위/아래 데이터 행을 연결 (axis=0 이 디폴트)
- axis = 1 로 설정하면 옆으로 연결
- 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있음

In [None]:
# 시리즈 연결
s1 = pd.Series(['a','b'], index=[0,1])
s2 = pd.Series(['c','d','e'], index=[0,1,2])

In [None]:
s1

In [None]:
s2

In [None]:
# 시리즈 s1과 s2 연결
pd.concat([s1,s2]) # axis=0 디폴트 (생략)
# 결과 : 시리즈

In [None]:
pd.concat([s1,s2], axis=0) # 결과 동일

In [None]:
# axis=1 설정 : 옆으로 연결
a = pd.concat([s1,s2], axis=1)
a
# 데이터프레임 반환

In [None]:
a = pd.concat([s2,s1], axis=1)
a

In [None]:
### 데이터프레임 연결
df_con1 = pd.DataFrame(
    np.arange(6).reshape(3,2),
    index = ['a','b','c'],
    columns = ['데이터1','데이터2'])
df_con1

In [None]:
df_con2 = pd.DataFrame(
    5 + np.arange(4).reshape(2,2),
    index = ['a','c'],
    columns = ['데이터3','데이터4'])
df_con2

In [None]:
# 데이터프레임 위/아래 연결 : axis = 0 디폴트
pd.concat([df_con1,df_con2])

In [None]:
# 데이터프레임 옆으로 연결
pd.concat([df_con1,df_con2],axis=1)

### 연습문제 2

어느 회사의
(1) 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임(df_sales1) 생성 ('매출', '비용' 2개의 열)
(2) 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임(df_sales2) 생성 ('매출', '비용' 2개의 열)
(3) df_sales1과 df_sales2 합쳐서 df_sales3 생성
(4) df_sales3에 실적 정보를 나타내는 "이익" 열 추가 (이익 = 매출 - 비용).
(5) 또한 1년간의 '총 실적'을 마지막 행으로 덧붙인다.

In [19]:
#(1) 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임(df_sales1) 생성 ('매출', '비용' 2개의 열)
df_sales1 = pd.DataFrame({
    '매출' : [500, 700, 1000, 1500, 1200, 1400],
    '비용' : [150, 300, 500, 700, 600, 500]},
    index = ['1월','2월','3월','4월','5월','6월'])
df_sales1

Unnamed: 0,매출,비용
1월,500,150
2월,700,300
3월,1000,500
4월,1500,700
5월,1200,600
6월,1400,500


In [20]:
#(2) 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임(df_sales2) 생성 ('매출', '비용' 2개의 열)
df_sales2 = pd.DataFrame({
    '매출' : [800, 1000, 2000, 1700, 1100, 800],
    '비용' : [300, 500, 800, 900, 500, 600]},
    index = ['8월','8월','9월','10월','11월','12월'])
df_sales2

Unnamed: 0,매출,비용
8월,800,300
8월,1000,500
9월,2000,800
10월,1700,900
11월,1100,500
12월,800,600


In [21]:
#(3) df_sales1과 df_sales2 합쳐서 df_sales3 생성
df_sales3 = pd.concat([df_sales1,df_sales2])
df_sales3

Unnamed: 0,매출,비용
1월,500,150
2월,700,300
3월,1000,500
4월,1500,700
5월,1200,600
6월,1400,500
8월,800,300
8월,1000,500
9월,2000,800
10월,1700,900


In [None]:
#(4) df_sales3에 실적 정보를 나타내는 "이익" 열 추가 (이익 = 매출 - 비용).

In [22]:
df_sales3['이익'] = df_sales3['매출']-df_sales3['비용']
df_sales3

Unnamed: 0,매출,비용,이익
1월,500,150,350
2월,700,300,400
3월,1000,500,500
4월,1500,700,800
5월,1200,600,600
6월,1400,500,900
8월,800,300,500
8월,1000,500,500
9월,2000,800,1200
10월,1700,900,800


In [None]:
#(5) 또한 1년간의 '총 실적'을 마지막 행으로 덧붙인다.

In [23]:
df_sales3.loc['총 실적'] = df_sales3.sum(axis=0)
df_sales3

Unnamed: 0,매출,비용,이익
1월,500,150,350
2월,700,300,400
3월,1000,500,500
4월,1500,700,800
5월,1200,600,600
6월,1400,500,900
8월,800,300,500
8월,1000,500,500
9월,2000,800,1200
10월,1700,900,800
