# 데이터프레임 합치기
- 수직 결합: 행이 늘어남 
- 수평 결함: 열이 늘어남 => SQL의 JOIN\
=> 보통 둘다 같이 결합되어있었는데 읽어올때 따로 읽어오는 경우가 많다 \
-> 데이터양이 많을때

## 합쳐주는 애들
- concat(): 수직, 수평 모두 지원

In [2]:
import pandas as pd
import numpy as np

In [3]:
# 파일 한번에 읽어오기
tmp = ['2016', '2017', '2018', 'info']
stock_2016, stock_2017, stock_2018, stock_info = [pd.read_csv(f'data/stocks_{v}.csv') for v in tmp]

In [20]:
# 년도의 경우 수직으로 합쳐도됨. 수직은 concat만 가능
## 이때 컬럼은 공유하므로 사라지는데 index name은 유지해서 합쳐진다
### 무시하려면 ignore_index=True
result = pd.concat([stock_2016, stock_2017],
                  ignore_index=True)
result

Unnamed: 0,Symbol,Shares,Low,High
0,AAPL,80,95,110
1,TSLA,50,80,130
2,WMT,40,55,70
3,AAPL,50,120,140
4,GE,100,30,40
5,IBM,87,75,95
6,SLB,20,55,85
7,TXN,500,15,23
8,TSLA,100,100,300


In [10]:
# index이름이 같은 행끼리 합친다. 부족한 값은 결측치 처리
pd.concat([stock_2016, stock_2017], axis=1) 

Unnamed: 0,Symbol,Shares,Low,High,Symbol.1,Shares.1,Low.1,High.1
0,AAPL,80.0,95.0,110.0,AAPL,50,120,140
1,TSLA,50.0,80.0,130.0,GE,100,30,40
2,WMT,40.0,55.0,70.0,IBM,87,75,95
3,,,,,SLB,20,55,85
4,,,,,TXN,500,15,23
5,,,,,TSLA,100,100,300


In [11]:
result2 = pd.concat([stock_2016, stock_2017, stock_2018],
                   keys=['2016년', '2017년', '2018년'])
result2

Unnamed: 0,Unnamed: 1,Symbol,Shares,Low,High
2016년,0,AAPL,80,95,110
2016년,1,TSLA,50,80,130
2016년,2,WMT,40,55,70
2017년,0,AAPL,50,120,140
2017년,1,GE,100,30,40
2017년,2,IBM,87,75,95
2017년,3,SLB,20,55,85
2017년,4,TXN,500,15,23
2017년,5,TSLA,100,100,300
2018년,0,AAPL,40,135,170


In [12]:
# 멀티 인덱스인데 index가 3개인 경우. 각각을 0레벨, 1레벨, 2레벨로 부른다 
# 뒤에서 부터는 -1, -2, -3

In [19]:
result2.xs(2, level=-1, axis=0)

Unnamed: 0,Symbol,Shares,Low,High
2016년,WMT,40,55,70
2017년,IBM,87,75,95
2018년,TSLA,50,220,400


## 조인을 통한 DataFrame 합치기
- 연관성 있는 둘 이상의 DataFrame을 하나로 합친다
- 두개 이상의 DF를 합칠 수 있다 -> join() -> 자유도 떨어짐
  - 합칠때 컬럼이름이 같은 경우에 에러 발생 => lsuffix, rsuffix 사용
  - how: 조인방식 => 'left', 'right', 'outer', 'inner'
- 두개만 합칠 수 있다 -> merge() -> 자유도 높음
  - **조인 기준**: index 이름이 같은 경우

In [29]:
# stock_info(source - main정보) + stock_2016(target - 부가정보)
# 합치는 기준: index 이름이 같은 행
# 같은 이름의 컬럼이 있으면 exception 발
stock_info.join(stock_2016, lsuffix='_info')

Unnamed: 0,Symbol_info,Name,Symbol,Shares,Low,High
0,AAPL,Apple Inc,AAPL,50.0,120.0,140.0
1,TSLA,Tesla Inc,GE,100.0,30.0,40.0
2,WMT,Walmart Inc,IBM,87.0,75.0,95.0
3,GE,General Electric,SLB,20.0,55.0,85.0
4,IBM,IBM(International Business Machines Co),TXN,500.0,15.0,23.0
5,SLB,Schlumberger Limited.,TSLA,100.0,100.0,300.0
6,TXN,Texas Instruments Incorporated,,,,
7,AMZN,"Amazon.com, Inc",,,,


In [31]:
# 현재는 index 이름이 같은 값끼리 합쳐진것
stock_info.join(stock_2017, lsuffix='_info')

# 우리는 symbol이 같은 경우를 합쳐야되므로
# index 이름을 맞추는 작업을 먼저 한다
stock_info.set_index('Symbol').join(stock_2017.set_index('Symbol'))
# 이때는 lsuffix같은 조건을 안줘도됨 -> 중복되는것을 인덱스로 줬기떄문

Unnamed: 0_level_0,Name,Shares,Low,High
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AAPL,Apple Inc,50.0,120.0,140.0
TSLA,Tesla Inc,100.0,100.0,300.0
WMT,Walmart Inc,,,
GE,General Electric,100.0,30.0,40.0
IBM,IBM(International Business Machines Co),87.0,75.0,95.0
SLB,Schlumberger Limited.,20.0,55.0,85.0
TXN,Texas Instruments Incorporated,500.0,15.0,23.0
AMZN,"Amazon.com, Inc",,,


In [35]:
# innner 조인으로 결합
stock_info.set_index('Symbol').join(stock_2016.set_index('Symbol'), how='inner')

Unnamed: 0_level_0,Name,Shares,Low,High
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AAPL,Apple Inc,80,95,110
TSLA,Tesla Inc,50,80,130
WMT,Walmart Inc,40,55,70


In [38]:
# DF.add_suffix(접미어) : DF의 모든 컬럼이름 뒤에 접미어를 붙인다
# DF.add_prefix(접두어) : DF의 모든 컬럼이름 앞에 접두어를 붙인다
stock_2016.add_suffix("_2016")

Unnamed: 0,Symbol_2016,Shares_2016,Low_2016,High_2016
0,AAPL,80,95,110
1,TSLA,50,80,130
2,WMT,40,55,70


In [39]:
s_2016 = stock_2016.set_index('Symbol').add_suffix('_2016')
s_2017 = stock_2017.set_index('Symbol').add_suffix('_2017')
s_2018 = stock_2018.set_index('Symbol').add_suffix('_2018')

In [41]:
stock_info.set_index('Symbol').join([s_2016, s_2017, s_2018])

Unnamed: 0_level_0,Name,Shares_2016,Low_2016,High_2016,Shares_2017,Low_2017,High_2017,Shares_2018,Low_2018,High_2018
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
AAPL,Apple Inc,80.0,95.0,110.0,50.0,120.0,140.0,40.0,135.0,170.0
TSLA,Tesla Inc,50.0,80.0,130.0,100.0,100.0,300.0,50.0,220.0,400.0
WMT,Walmart Inc,40.0,55.0,70.0,,,,,,
GE,General Electric,,,,100.0,30.0,40.0,,,
IBM,IBM(International Business Machines Co),,,,87.0,75.0,95.0,,,
SLB,Schlumberger Limited.,,,,20.0,55.0,85.0,,,
TXN,Texas Instruments Incorporated,,,,500.0,15.0,23.0,,,
AMZN,"Amazon.com, Inc",,,,,,,8.0,900.0,1125.0


### merge()
같은 이름의 컬럼명을 기준으로 합쳐줌

In [42]:
stock_info.merge(stock_2016)

Unnamed: 0,Symbol,Name,Shares,Low,High
0,AAPL,Apple Inc,80,95,110
1,TSLA,Tesla Inc,50,80,130
2,WMT,Walmart Inc,40,55,70


In [44]:
stock_2016

Unnamed: 0,Symbol,Shares,Low,High
0,AAPL,80,95,110
1,TSLA,50,80,130
2,WMT,40,55,70
