In [51]:
import pandas as pd
import numpy as np
import seaborn

#### `merge`함수를 통한 데이터프레임 병합
`merge()` 메서드로 공통 열 혹은 행을 기준으로 두 개의 데이터프레임을 병합 할 수 있음, 병합의 기준이 되는 열 혹은 행을 '키'라고 함  

기본적으로 `merge()`메서드는 **inner join** 형태를 가짐
**outer(full), left, right join** 형태로 변경하고자 한다면 `how` 인수에 조인 방식을 지정함  

- `merge()` 메서드로 병합을 하려 한다면 동일한 이름의 열 또는 행이 존재해야함 (ex_columns명이 같아야한다)

In [52]:
df1 = pd.DataFrame(
    {
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
    }, columns=['고객번호', '이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [53]:
df2 = pd.DataFrame(
    {
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
    }, columns=['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [54]:
pd.merge(df1,df2)
# 모든 값을 함께 출력

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [55]:
pd.merge(df1,df2,how='outer')
# 좌 우측을 모두 보여주고 데이터가 없는 부분에는 NaN으로 표시

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [56]:
pd.merge(df1,df2,how='left')
# 좌항에 대해 존재하는 값을 보여주고, 우측에 존재하지 않는 값은 NaN으로 표시

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [57]:
pd.merge(df1,df2,how='right')
# 오른쪽에 있는 값을 다 보여주고, 없는 것은 NaN으로 표시

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


만약 키 값에 동일한 데이터가 여러개 존재한다면, 모든 경우의 수를 표현함

In [58]:
df1 = pd.DataFrame(
    {
    '품종': ['튤립', '튤립', '장미', '장미'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]
    }
)    
df1

Unnamed: 0,품종,꽃잎길이
0,튤립,1.4
1,튤립,1.3
2,장미,1.5
3,장미,1.3


In [59]:
df2 = pd.DataFrame(
    {
    '품종': ['튤립', '장미', '장미', '무궁화'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]
    }
)    
df2

Unnamed: 0,품종,꽃잎너비
0,튤립,0.4
1,장미,0.3
2,장미,0.5
3,무궁화,0.3


In [60]:
pd.merge(df1,df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,튤립,1.4,0.4
1,튤립,1.3,0.4
2,장미,1.5,0.3
3,장미,1.5,0.5
4,장미,1.3,0.3
5,장미,1.3,0.5


In [61]:
pd.merge(df1,df2,how='outer')

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,무궁화,,0.3
1,장미,1.5,0.3
2,장미,1.5,0.5
3,장미,1.3,0.3
4,장미,1.3,0.5
5,튤립,1.4,0.4
6,튤립,1.3,0.4


- 병합되는 두 데이터 프레임의 동일한 컬럼명이 여러개 존재한다면 모두 키가 되기 때문에  
특정한 컬럼만 키로 사용하고자 한다면 `on` 인수로 지정해야함

In [62]:
df1 = pd.DataFrame(
    {
        '이름':['춘향','몽룡','춘향'],
        '날짜':['20180101','20180102','20180102'],
        '데이터':['20000','30000','100000']
    }
)
df1

Unnamed: 0,이름,날짜,데이터
0,춘향,20180101,20000
1,몽룡,20180102,30000
2,춘향,20180102,100000


In [63]:
df2 = pd.DataFrame(
    {
        '이름':['춘향','몽룡'],
        '데이터':['여','남']
    }
)
df2

Unnamed: 0,이름,데이터
0,춘향,여
1,몽룡,남


In [64]:
pd.merge(df1,df2, how='outer')

Unnamed: 0,이름,날짜,데이터
0,몽룡,20180102.0,30000
1,몽룡,,남
2,춘향,20180102.0,100000
3,춘향,20180101.0,20000
4,춘향,,여


In [65]:
pd.merge(df1,df2,on='이름')
# 기준 열이 아니면서 이름이 같은 열에는 _x 또는 _y 와 같은 접미사가 붙는다.

Unnamed: 0,이름,날짜,데이터_x,데이터_y
0,춘향,20180101,20000,여
1,몽룡,20180102,30000,남
2,춘향,20180102,100000,여


- 키가 되는 기준열의 이름이 서로 다르면 `left_on` , `right_on` 인수에 사용할 키 컴럼 이름을 지정함

In [66]:
df1 = pd.DataFrame(
    {
        '이름':['춘향','몽룡','춘향'],
        '날짜':['20180101','20180102','20180102']
    }
)
df1

Unnamed: 0,이름,날짜
0,춘향,20180101
1,몽룡,20180102
2,춘향,20180102


In [67]:
df2 = pd.DataFrame(
    {
        '성명':['춘향','몽룡','길동'],
        '데이터':['여','남','남']
    }
)
df2

Unnamed: 0,성명,데이터
0,춘향,여
1,몽룡,남
2,길동,남


In [68]:
pd.merge(df1,df2,left_on='이름',right_on='성명')
# 둘 데이터 모두 출력

Unnamed: 0,이름,날짜,성명,데이터
0,춘향,20180101,춘향,여
1,몽룡,20180102,몽룡,남
2,춘향,20180102,춘향,여


- 일반 데이터 열이 아닌 인덱스를 기준열로 사용하려면 `left_index` 또는 `right_index` 인수를 `True` 로 설정한다.

In [69]:
df1 = pd.DataFrame(
    {
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [980, 970, 960, 360, 350]
    }
)
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,980
1,서울,2005,970
2,서울,2010,960
3,부산,2000,360
4,부산,2005,350


In [70]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6,2)),
    index =[
        ['부산', '부산', '서울', '서울', '서울', '서울'],
        [2000, 2005, 2000, 2005, 2010, 2015]
    ],
    columns=['데이터1','데이터2']
)
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [71]:
pd.merge(df1,df2,left_on=['도시','연도'], right_index=True)
# 일반 데이터 열이 아닌 인덱스를 기준열로 사용 

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


#### `join` 메서드
데이터프레임 인스턴스에 사용할 땐 `merge` 메서드 대신에 `join` 메서드를 사용가능

In [72]:
df1.join(df2,on=['도시','연도'])

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


#### `concat` 메서드로 데이터 연결
기준 열 지정없이 단순히 데이터를 연결하고자 할 땐 `concat()` 메서드를 사용함  
- 단, 기본적으로 위아래로 행을 연결하기 때문에 인덱스가 중복될 수 있음  
- 만약, 좌우로 열을 연결하고 싶을 때는 `axis=1`인수를 사용함

In [73]:
s1 = pd.Series([0,1],index=['A','B'])
s1

A    0
B    1
dtype: int64

In [74]:
s2 = pd.Series([2,3,4], index=['A','B','C'])
s2

A    2
B    3
C    4
dtype: int64

In [75]:
pd.concat([s1,s2]) # []배열로 연결

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [76]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3,2),
    index=['a','b','c'],
    columns=['데이터1','데이터2']
)
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [77]:
df2 = pd.DataFrame(
    np.arange(4).reshape(2,2),
    index=['b','d'],
    columns=['데이터3','데이터4']
)
df2

Unnamed: 0,데이터3,데이터4
b,0,1
d,2,3


In [78]:
pd.concat([df1,df2],axis=1)
# 없는 데이터는 NaN 으로 표시되고, 데이터를 연결시킬 수 있다

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0.0,1.0,,
b,2.0,3.0,0.0,1.0
c,4.0,5.0,,
d,,,2.0,3.0


<span style='color:YELLOW;'>예제문제)</span> 
- 어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다.  
실적 정보는 “매출”, “비용”, “이익” 으로 이루어진다. (이익 = 매출 - 비용).

- 또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

In [None]:
df1 = pd.DataFrame(
    {
    '매출': [10000, 11000, 9000, 12000, 13000, 8000],
    '비용': [9000,9500,9000,10000,11000,10000],
    '이익': [1000,1500,0,2000,2000,-2000]
    }, 
    index = ['1월','2월','3월','4월','5월','6월'],
    columns=['매출', '비용','이익']
)
df1

In [None]:
df2 = pd.DataFrame(
    {
    '매출': [9000, 10000, 12000, 9000, 10000, 11000],
    '비용': [10000,12000,10000,9000,9000,9500],
    '이익': [-1000,-2000,2000,0,1000,1500]
    }, 
    index = ['7월','8월','9월','10월','11월','12월'],
    columns=['매출', '비용','이익'])
df2

In [None]:
df3 = pd.concat([df1,df2])
df3

In [None]:
df3.loc['총실적'] = df3.sum()
df3

#### 피봇 테이블
**피봇 테이블**:데이터에 이미 존재하는 기본 열을 행 인덱스와 열 인덱스로 사용하는 테이블

pandas에서 피봇테이블을 만들기 위해서는 `pivot()`메서드를 사용할 수 있음  
`pivot()`메서드에는  
- `index`인수로 행 인덱스로 사용할 열을 지정,  
- `columns`인수로 열 인덱스로 사용할 열을 지정,  
- `values()`인수로 표현할 데이터 지정

In [155]:
df1 = pd.DataFrame(
    {
    '도시': ['서울', '서울', '서울', '부산', '부산','부산','인천','인천'],
    '연도': [2000, 2005, 2010, 2000, 2005, 2010, 2005, 2010],
    '인구': [980, 970, 960, 360, 350, 350, 250, 260],
    '지역':['수도권','수도권','수도권','경상권','경상권','경상권','수도권','수도권']
    }
)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2000,980,수도권
1,서울,2005,970,수도권
2,서울,2010,960,수도권
3,부산,2000,360,경상권
4,부산,2005,350,경상권
5,부산,2010,350,경상권
6,인천,2005,250,수도권
7,인천,2010,260,수도권


In [158]:
df1.pivot(index='도시',columns='연도',values='인구')
# 인천은 2000 자료가 없기 때문에 NaN 으로 표시됨

연도,2000,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,360.0,350.0,350.0
서울,980.0,970.0,960.0
인천,,250.0,260.0


- 행 인덱스나 열 인덱스를 리스트[ ]로 전달하면 다중 인덱스 피봇 테이블로 생성할 수 있음

In [159]:
df1.pivot(index=['지역','도시'],columns='연도',values='인구')

Unnamed: 0_level_0,연도,2000,2005,2010
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,360.0,350.0,350.0
수도권,서울,980.0,970.0,960.0
수도권,인천,,250.0,260.0


- 행 인덱스와 열 인덱스 조건에 만족하는 데이터가 2개 이상 존재한다면 피봇 테이블을 생성할 수 없음 / 겹치면 안됨

In [None]:
df1.pivot(index='연도',columns='지역',values='인구')
# ValueError: Index contains duplicate entries, cannot reshape : 에러 메세지
# 중복된 데이터가 있어서 안된다는 메세지 (EX_2005-수도권-인천 : 2005-수도권-서울)