# 데이터프레임 합치기

-   두개 이상의 DataFrame을 합쳐 하나의 DataFrame으로 만든다.
-   수직 결합: SQL의 UNION
-   수평 결합: SQL의 JOIN

-   **수직결합**
    -   단순결합으로 여러개의 DataFrame들의 같은 컬럼끼리 수직으로 합친다.
-   **수평결합**
    -   연관성 있는 여러 데이터를 하나로 합쳐서 조회하는 JOIN 처리를 한다.
    -   JOIN은 합치려는 DataFrame들의 index 나 특정 컬럼의 값이 같은 행 끼리 합친다.

## 데이터셋 읽기

-   stocks_2016.csv, stocks_2017.csv, stocks_2018.csv : 년도별 보유 주식
-   stocks_info.csv : 주식 정보

In [1]:
import pandas as pd
import numpy as np

tmp = ['2016','2017','2018','info']
stock_2016, stock_2017, stock_2018, stock_info = [pd.read_csv(f'data/stocks_{v}.csv') for v in tmp]

In [2]:
stock_2016

Unnamed: 0,Symbol,Shares,Low,High
0,AAPL,80,95,110
1,TSLA,50,80,130
2,WMT,40,55,70


In [3]:
stock_2017

Unnamed: 0,Symbol,Shares,Low,High
0,AAPL,50,120,140
1,GE,100,30,40
2,IBM,87,75,95
3,SLB,20,55,85
4,TXN,500,15,23
5,TSLA,100,100,300


In [4]:
stock_2018

Unnamed: 0,Symbol,Shares,Low,High
0,AAPL,40,135,170
1,AMZN,8,900,1125
2,TSLA,50,220,400


In [5]:
stock_info

Unnamed: 0,Symbol,Name
0,AAPL,Apple Inc
1,TSLA,Tesla Inc
2,WMT,Walmart Inc
3,GE,General Electric
4,IBM,IBM(International Business Machines Co)
5,SLB,Schlumberger Limited.
6,TXN,Texas Instruments Incorporated
7,AMZN,"Amazon.com, Inc"


## concat() 이용

-   수직, 수평 결합 모두 지원한다.
-   하나의 데이터셋을 여러 DataFrame으로 나눈 것을 하나의 DataFrame으로 합칠 때 사용한다.

-   **수직 결합** (행이 늘어나도록 합친다.)
    -   **컬럼명이 같은 열끼리 합친다.**
    -   같은 column 명이 없는 열들도 결과 DataFrame에 들어간다.(default)
        -   full outer join개념
-   **수평결합** (열이 늘어나도록 합친다.)
    -   **index명이 같은 행 끼리 합친다.** (equi-join)
    -   같은 index명이 없는 행들도 결과 DataFrame에 들어간다.(default)
        -   full outer join

-   pd.concat(objs, [, key=리스트]), axis=0, join='outer' )
    -   매개변수
        -   objs: 합칠 DataFrame들을 리스트로 전달
        -   keys=[] 를 이용해 합친 행들을 구분하기 위한 다중 인덱스 처리
        -   axis
            -   0 또는 index : 수직결합
            -   1 또는 columns : 수평결합
        -   join:
            -   합치는 방식으로 다음 문자열을 값으로 설정한다.
                -   'outer'(기본값): full outer join
                -   'inner': inner join (동일한 index명, column명 끼리 합친다.)

> ### 조인(join)
>
> -   여러 데이터프레임에 흩어져 있는 정보 중 필요한 정보만 모아서 결합하기 위한 것.
> -   두개 이상의 데이터프레임을 특정 컬럼(열)의 값이 같은 행 끼리 수평 결합하는 것.
> -   Inner Join, Left Outer Join, Right Outer Join, Full Outer Join

In [6]:
result = pd.concat([stock_2016,stock_2017]) # axis=0 (default: 0 - 수직) # 열이름이 같은 열끼리 합친다.
result

Unnamed: 0,Symbol,Shares,Low,High
0,AAPL,80,95,110
1,TSLA,50,80,130
2,WMT,40,55,70
0,AAPL,50,120,140
1,GE,100,30,40
2,IBM,87,75,95
3,SLB,20,55,85
4,TXN,500,15,23
5,TSLA,100,100,300


In [7]:
result2 = pd.concat([stock_2016,stock_2017], axis=1) # 행이름이 같은 행끼리 합친다.
result2

Unnamed: 0,Symbol,Shares,Low,High,Symbol.1,Shares.1,Low.1,High.1
0,AAPL,80.0,95.0,110.0,AAPL,50,120,140
1,TSLA,50.0,80.0,130.0,GE,100,30,40
2,WMT,40.0,55.0,70.0,IBM,87,75,95
3,,,,,SLB,20,55,85
4,,,,,TXN,500,15,23
5,,,,,TSLA,100,100,300


In [8]:
result = pd.concat([stock_2016, stock_2017, stock_2018])
result

Unnamed: 0,Symbol,Shares,Low,High
0,AAPL,80,95,110
1,TSLA,50,80,130
2,WMT,40,55,70
0,AAPL,50,120,140
1,GE,100,30,40
2,IBM,87,75,95
3,SLB,20,55,85
4,TXN,500,15,23
5,TSLA,100,100,300
0,AAPL,40,135,170


In [9]:
result.loc[1]

Unnamed: 0,Symbol,Shares,Low,High
1,TSLA,50,80,130
1,GE,100,30,40
1,AMZN,8,900,1125


In [10]:
result2 = pd.concat([stock_2016, stock_2017, stock_2018], ignore_index=True)
result2

Unnamed: 0,Symbol,Shares,Low,High
0,AAPL,80,95,110
1,TSLA,50,80,130
2,WMT,40,55,70
3,AAPL,50,120,140
4,GE,100,30,40
5,IBM,87,75,95
6,SLB,20,55,85
7,TXN,500,15,23
8,TSLA,100,100,300
9,AAPL,40,135,170


In [11]:
result3 = pd.concat([stock_2016, stock_2017, stock_2018],
                    keys = ['2016년', '2017년', '2018년'])
# 각 DataFrame을 구분할 수 있는 index name을 multi index로 추가
result3

Unnamed: 0,Unnamed: 1,Symbol,Shares,Low,High
2016년,0,AAPL,80,95,110
2016년,1,TSLA,50,80,130
2016년,2,WMT,40,55,70
2017년,0,AAPL,50,120,140
2017년,1,GE,100,30,40
2017년,2,IBM,87,75,95
2017년,3,SLB,20,55,85
2017년,4,TXN,500,15,23
2017년,5,TSLA,100,100,300
2018년,0,AAPL,40,135,170


In [12]:
result3.loc['2017년']

Unnamed: 0,Symbol,Shares,Low,High
0,AAPL,50,120,140
1,GE,100,30,40
2,IBM,87,75,95
3,SLB,20,55,85
4,TXN,500,15,23
5,TSLA,100,100,300


In [13]:
# xs() : 멀티인덱스의 특정 하위(레벨) 값에 해당하는 데이터의 "단면(cross-section)"을 뽑는 함수
result3.xs(2, level=-1, axis=0) # (index 이름, level(-1: 가장 안쪽 인덱스), 축방향(0:행, 1:열))

Unnamed: 0,Symbol,Shares,Low,High
2016년,WMT,40,55,70
2017년,IBM,87,75,95
2018년,TSLA,50,220,400


## 조인을 통한 DataFrame 합치기

-   연관성있는 둘 이상의 DataFrame을 하나로 합친다.
    -   ex) 고객과 주문정보, 교수와 수업정보, 직원과 부서정보
-   **join()**
    -   **2개 이상**의 DataFrame을 조인할 때 사용
-   **merge()**
    -   **2개의** DataFrame의 조인만 지원

### join()

-   dataframe객체.join(others, how='left', lsuffix='', rsuffix='')
-   `df_A.join(df_b)`, `df_A.join([df_b, df_c, df_d])`
-   두개 이상의 DataFrame들을 조인 할 수 있다.
    -   **조인 기준**: index name이 같은 값인 행끼리 합친다. (equi-join)
    -   **조인 기본 방식**: Left Outer Join
-   매개변수
    -   lsuffix, rsuffix
        -   조인 대상 DataFrame에 같은 이름의 컬럼이 있으면 에러 발생.
        -   같은 이름이 있는 경우 붙일 접미어 지정
    -   how :조인방식. 'left', 'right', 'outer', 'inner'. left가 기본

In [14]:
print(stock_info.columns, stock_2016.columns)

Index(['Symbol', 'Name'], dtype='object') Index(['Symbol', 'Shares', 'Low', 'High'], dtype='object')


In [15]:
# stock_info (source-main 정보) + stock_2016 (target - 부가 정보)
# 합치는 기준: index name이 같은 행
#   같은 이름의 컬럼이 있으면 exception 발생
# stock_info.join(stock_2016)
stock_info.join(stock_2016, lsuffix='_info')

Unnamed: 0,Symbol_info,Name,Symbol,Shares,Low,High
0,AAPL,Apple Inc,AAPL,80.0,95.0,110.0
1,TSLA,Tesla Inc,TSLA,50.0,80.0,130.0
2,WMT,Walmart Inc,WMT,40.0,55.0,70.0
3,GE,General Electric,,,,
4,IBM,IBM(International Business Machines Co),,,,
5,SLB,Schlumberger Limited.,,,,
6,TXN,Texas Instruments Incorporated,,,,
7,AMZN,"Amazon.com, Inc",,,,


In [16]:
# index 이름을 맞추는 작업을 먼저
stock_info.set_index('Symbol').join(stock_2016.set_index('Symbol'))

Unnamed: 0_level_0,Name,Shares,Low,High
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AAPL,Apple Inc,80.0,95.0,110.0
TSLA,Tesla Inc,50.0,80.0,130.0
WMT,Walmart Inc,40.0,55.0,70.0
GE,General Electric,,,
IBM,IBM(International Business Machines Co),,,
SLB,Schlumberger Limited.,,,
TXN,Texas Instruments Incorporated,,,
AMZN,"Amazon.com, Inc",,,


In [17]:
stock_info.set_index('Symbol').join(stock_2016.set_index('Symbol'), how='inner')

Unnamed: 0_level_0,Name,Shares,Low,High
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AAPL,Apple Inc,80,95,110
TSLA,Tesla Inc,50,80,130
WMT,Walmart Inc,40,55,70


In [18]:
stock_2016.set_index('Symbol').join(stock_info.set_index('Symbol'), how='right')

Unnamed: 0_level_0,Shares,Low,High,Name
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AAPL,80.0,95.0,110.0,Apple Inc
TSLA,50.0,80.0,130.0,Tesla Inc
WMT,40.0,55.0,70.0,Walmart Inc
GE,,,,General Electric
IBM,,,,IBM(International Business Machines Co)
SLB,,,,Schlumberger Limited.
TXN,,,,Texas Instruments Incorporated
AMZN,,,,"Amazon.com, Inc"


In [19]:
# DF.add_suffix(접미어) # DF의 모든 컬럼이름 뒤에 접미어를 뒤에 붙인다.
# DF.add_prefix(접두어) # DF의 모든 컬럼이름 뒤에 접두어를 앞에 붙인다.
stock_2016.add_suffix('_2016')
stock_2016.add_prefix('2016_')

Unnamed: 0,2016_Symbol,2016_Shares,2016_Low,2016_High
0,AAPL,80,95,110
1,TSLA,50,80,130
2,WMT,40,55,70


In [20]:
s_2016 = stock_2016.set_index('Symbol').add_suffix('_2016')
s_2017 = stock_2017.set_index('Symbol').add_suffix('_2017')
s_2018 = stock_2018.set_index('Symbol').add_suffix('_2018')
s_2018

Unnamed: 0_level_0,Shares_2018,Low_2018,High_2018
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AAPL,40,135,170
AMZN,8,900,1125
TSLA,50,220,400


In [21]:
join = stock_info.set_index('Symbol').join([s_2016, s_2017, s_2018])
join

Unnamed: 0_level_0,Name,Shares_2016,Low_2016,High_2016,Shares_2017,Low_2017,High_2017,Shares_2018,Low_2018,High_2018
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
AAPL,Apple Inc,80.0,95.0,110.0,50.0,120.0,140.0,40.0,135.0,170.0
TSLA,Tesla Inc,50.0,80.0,130.0,100.0,100.0,300.0,50.0,220.0,400.0
WMT,Walmart Inc,40.0,55.0,70.0,,,,,,
GE,General Electric,,,,100.0,30.0,40.0,,,
IBM,IBM(International Business Machines Co),,,,87.0,75.0,95.0,,,
SLB,Schlumberger Limited.,,,,20.0,55.0,85.0,,,
TXN,Texas Instruments Incorporated,,,,500.0,15.0,23.0,,,
AMZN,"Amazon.com, Inc",,,,,,,8.0,900.0,1125.0


In [22]:
stock_info

Unnamed: 0,Symbol,Name
0,AAPL,Apple Inc
1,TSLA,Tesla Inc
2,WMT,Walmart Inc
3,GE,General Electric
4,IBM,IBM(International Business Machines Co)
5,SLB,Schlumberger Limited.
6,TXN,Texas Instruments Incorporated
7,AMZN,"Amazon.com, Inc"


In [23]:
s_2016

Unnamed: 0_level_0,Shares_2016,Low_2016,High_2016
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AAPL,80,95,110
TSLA,50,80,130
WMT,40,55,70


### merge()

-   `df_a.merge(df_b)`
-   두개의 DataFrame간의 조인만 가능하다.
    -   **조인 기준**
        -   **같은 컬럼명**을 기준으로 equi-join을 하는 것이 기본이다.
        -   **조인기준을 다양하게 정할 수 있다.**
            -   컬럼, index등을 기준으로 같은 행끼리 join 하도록 설정할 수 있다.
    -   **조인 기본 방식**
        -   inner join
        -   how 매개변수를 이용해 변경이 가능하다.
-   `dataframe.merge(합칠dataframe, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False)`
-   매개변수
    -   on : 같은 컬럼명이 여러개일때 join 대상 컬럼을 선택
    -   right_on, left_on : 조인할 때 사용할 왼쪽,오른쪽 Dataframe의 컬럼명.
    -   left_index, right_index: 조인 할때 index를 사용할 경우 True로 지정
    -   how : 조인 방식. 'left', 'right', 'outer', 'inner'. 기본: inner
    -   suffixes: 두 DataFrame에 같은 이름의 컬럼명이 있을 경우 구분을 위해 붙인 접미어를 리스트로 설정
        -   생략시 x, y를 붙인다.

In [24]:
# 두 DataFrame에서 같은 컬럼명(Symbol)의 값이 같은 행끼리 join
# 방식: inner join
stock_info.merge(stock_2016)

Unnamed: 0,Symbol,Name,Shares,Low,High
0,AAPL,Apple Inc,80,95,110
1,TSLA,Tesla Inc,50,80,130
2,WMT,Walmart Inc,40,55,70


In [25]:
# 왼쪽 DataFrame(stock_info)의 Symbol 컬럼과 
# 오른쪽 DataFrame(s_2016)의 index name 의 값이 같은 행끼리 join
stock_info.merge(s_2016, left_on = 'Symbol', right_index=True)

Unnamed: 0,Symbol,Name,Shares_2016,Low_2016,High_2016
0,AAPL,Apple Inc,80,95,110
1,TSLA,Tesla Inc,50,80,130
2,WMT,Walmart Inc,40,55,70


In [26]:
s_2018_2 = stock_2018.add_suffix('_2018')
s_2018_2

Unnamed: 0,Symbol_2018,Shares_2018,Low_2018,High_2018
0,AAPL,40,135,170
1,AMZN,8,900,1125
2,TSLA,50,220,400


In [27]:
# stock_info(left) 의 Symbol 컬럼과 s_2018_2 의 Symbol_2018 컬럼의 값이 같은 행끼리 join
stock_info.merge(s_2018_2, left_on = 'Symbol', right_on = 'Symbol_2018')

Unnamed: 0,Symbol,Name,Symbol_2018,Shares_2018,Low_2018,High_2018
0,AAPL,Apple Inc,AAPL,40,135,170
1,TSLA,Tesla Inc,TSLA,50,220,400
2,AMZN,"Amazon.com, Inc",AMZN,8,900,1125


In [28]:
# 같은 이름의 컬럼이 여러개인 DataFrame을 join 할 때 
# join에 사용할 컬럼을 선택
stock_2016.merge(stock_2018, on = "Symbol") # , on=("Symbol", "Low")) # 여러개 컬럼 지정은 list나 튜플로 묶어준다.

Unnamed: 0,Symbol,Shares_x,Low_x,High_x,Shares_y,Low_y,High_y
0,AAPL,80,95,110,40,135,170
1,TSLA,50,80,130,50,220,400


In [29]:
# 같은 이름의 컬럼이 있을때 붙일 접미어 설정. (생략하면 _x, _y 붙인다.)
stock_2016.merge(stock_2018, on = "Symbol", suffixes=['_2016','_2018'])

Unnamed: 0,Symbol,Shares_2016,Low_2016,High_2016,Shares_2018,Low_2018,High_2018
0,AAPL,80,95,110,40,135,170
1,TSLA,50,80,130,50,220,400


-   하나의 데이터셋을 어떤 특정행 또튼 특정열을 기준으로 단순해 분리 한 경우를 합치는 경우 concat() 사용
    -   수직 결합일 경우는 concat()을 사용해야 한다.
-   서로 연관성 있는 다른 데이터셋을 결합해서 보는 경우 join(), merge()를 사용한다. (Join)
    -   **두 개 이상의** DataFrame을 조인할 때는 하는 경우 : join() 사용
    -   두개의 DataFrame을 조인할 때는 **merge()** 를 사용한다. => 컨트롤이 편하다.

In [30]:
# 1 data/customer.csv, data/order.csv, data/qna.csv 를 DataFrame으로 읽으시오.
file_path = ['data/customer.csv','data/order.csv','data/qna.csv']
cust, order, qna = [pd.read_csv(i) for i in file_path]

In [31]:
# 2 TODO1에서 읽은 세개의 데이터셋의 정보를 확인하세요.
cust

Unnamed: 0,id,name,age
0,id-1,김영수,33
1,id-2,박선영,23
2,id-3,오정현,21
3,id-4,박명수,40
4,id-5,이철기,17


In [32]:
order

Unnamed: 0,order_id,cust_id,total_price
0,1,id-1,100000
1,2,id-1,250000
2,3,id-2,300000
3,4,id-2,15000
4,5,id-2,51000
5,6,id-4,32000


In [33]:
qna

Unnamed: 0,qna_no,cust_id,txt
0,1,id-4,물건있나요?
1,2,id-4,얼마에요
2,3,id-5,반품은 어떻게 해요?


In [34]:
# 3 customer DataFrame과 order DataFrame을 고객정보는 모두 나오도록 join 하세요.
result = cust.merge(order, left_on = 'id', right_on = 'cust_id', how = 'left').drop(columns = 'cust_id')
result

Unnamed: 0,id,name,age,order_id,total_price
0,id-1,김영수,33,1.0,100000.0
1,id-1,김영수,33,2.0,250000.0
2,id-2,박선영,23,3.0,300000.0
3,id-2,박선영,23,4.0,15000.0
4,id-2,박선영,23,5.0,51000.0
5,id-3,오정현,21,,
6,id-4,박명수,40,6.0,32000.0
7,id-5,이철기,17,,


In [35]:
# 4 customer DataFrame의 index를 id컬럼으로 변경.
cust2 = cust.set_index('id')
cust2

Unnamed: 0_level_0,name,age
id,Unnamed: 1_level_1,Unnamed: 2_level_1
id-1,김영수,33
id-2,박선영,23
id-3,오정현,21
id-4,박명수,40
id-5,이철기,17


In [36]:
# 5 4에서 만든 customer DataFrame과 qna DataFrame을 inner join 하세요.
result2 = cust2.merge(qna, left_index = True, right_on = 'cust_id', how = 'inner')
result2

Unnamed: 0,name,age,qna_no,cust_id,txt
0,박명수,40,1,id-4,물건있나요?
1,박명수,40,2,id-4,얼마에요
2,이철기,17,3,id-5,반품은 어떻게 해요?


In [37]:
# 6. 세개의 DataFrame을 고객정보는 모두 나오도록 join 하세요.
result3 = cust2.join([order.set_index('cust_id'), qna.set_index('cust_id')], how = 'left')
result3

Unnamed: 0,name,age,order_id,total_price,qna_no,txt
id-1,김영수,33,1.0,100000.0,,
id-1,김영수,33,2.0,250000.0,,
id-2,박선영,23,3.0,300000.0,,
id-2,박선영,23,4.0,15000.0,,
id-2,박선영,23,5.0,51000.0,,
id-3,오정현,21,,,,
id-4,박명수,40,6.0,32000.0,1.0,물건있나요?
id-4,박명수,40,6.0,32000.0,2.0,얼마에요
id-5,이철기,17,,,3.0,반품은 어떻게 해요?
