## [ 데이터 병합/연결/조인 ]
- 여러 개의 Series / DataFrame 객체의 데이터들을 합치는 방법

(1) 모듈 로딩<hr>

In [139]:
import pandas as pd

(2) 데이터 준비 <hr>

In [140]:
datas = {"name":['홍 길동','이 나영','마 징가','베 토벤']   ## key값이 컬럼명
         ,'age':[10,21,73,89],
         'reg_date': ['2010/1/23','2020/4/23','2000/7/18','2017/12/3']}

datas2 = ["name",'age', 'reg_date'], ['홍 길동','이 나영','마 징가','베 토벤'],[10,21,73,89], ['2010/1/23','2020/4/23','2000/7/18','2017/12/3']

(3) 데이터 저장 <hr>

In [141]:
# Dict ==> DataFrame
df1 = pd.DataFrame(datas)
df1

Unnamed: 0,name,age,reg_date
0,홍 길동,10,2010/1/23
1,이 나영,21,2020/4/23
2,마 징가,73,2000/7/18
3,베 토벤,89,2017/12/3


In [142]:
# List ==> DataFrame
df2=pd.DataFrame(datas2)
df2

Unnamed: 0,0,1,2,3
0,name,age,reg_date,
1,홍 길동,이 나영,마 징가,베 토벤
2,10,21,73,89
3,2010/1/23,2020/4/23,2000/7/18,2017/12/3


(4) 데이터 정보 확인 <hr>

In [143]:
# 데이터의 전체 기본 정보 -> info()
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   name      4 non-null      object
 1   age       4 non-null      int64 
 2   reg_date  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes


(5) 데이터 전처리<hr>

- (5-1) 행 <-> 열 치환

In [144]:
df1 = df1.T
df1 = df1.transpose()

(5-2) 실제 데이터와 타입 확인 후 형변환

In [145]:
df1.head()

Unnamed: 0,name,age,reg_date
0,홍 길동,10,2010/1/23
1,이 나영,21,2020/4/23
2,마 징가,73,2000/7/18
3,베 토벤,89,2017/12/3


In [146]:
# 1번 컬럼 : object => int
df1['age'] = df1['age'].astype('uint8')


In [147]:
# 2번 컬럼 : object => datetime64[ns]
df1['reg_date'] = df1['reg_date'].astype('datetime64[ns]')

In [148]:
df1.dtypes

name                object
age                  uint8
reg_date    datetime64[ns]
dtype: object

(5-3) 0번 컬럼의 이름을 성과 이름으로 분리

In [149]:
# 0번 컬럼만 추출
nameSR = df1['name']
nameSR, nameSR[1]   # nameSR[1] type : str

(0    홍 길동
 1    이 나영
 2    마 징가
 3    베 토벤
 Name: name, dtype: object,
 '이 나영')

In [150]:
# "이 나영" 데이터를 추출 => 성과 이름으로 분리
# nameSR[1].split()

In [151]:
# for idx in range(nameSR.shape[0]):
#     nameSR[idx] = nameSR[idx].split()

# nameSR

In [152]:
namesDF = nameSR.str.split(expand=True)
namesDF

Unnamed: 0,0,1
0,홍,길동
1,이,나영
2,마,징가
3,베,토벤


(5-4) 두개의 DataFrame을 컬럼 방향으로 연결

In [153]:
pd.concat([df1,namesDF], axis = 1, ignore_index = True )  # 기본값은 axis = 0 -> 밑으로 연결됨

Unnamed: 0,0,1,2,3,4
0,홍 길동,10,2010-01-23,홍,길동
1,이 나영,21,2020-04-23,이,나영
2,마 징가,73,2000-07-18,마,징가
3,베 토벤,89,2017-12-03,베,토벤


- (5-5) 두개의 DataFrame을 행(row)방향으로 연결

In [154]:
# [기본]여러 개의 DF, SR을 연결 시에 모든 컬럼명/행 인덱스를 연결 시켜주는 방식 ==> outer 방식
pd.concat([df1, namesDF])  

Unnamed: 0,name,age,reg_date,0,1
0,홍 길동,10.0,2010-01-23,,
1,이 나영,21.0,2020-04-23,,
2,마 징가,73.0,2000-07-18,,
3,베 토벤,89.0,2017-12-03,,
0,,,NaT,홍,길동
1,,,NaT,이,나영
2,,,NaT,마,징가
3,,,NaT,베,토벤


In [155]:
# 여러 개의 DF, SR을 연결 시에 동일 컬럼명/행 인덱스만 연결 시켜주는 방식 ==> inner 방식
pd.concat([df1, namesDF], join = 'inner')   ## 동일 컬럼 아래에 데이터가 들어감

0
1
2
3
0
1
2
3


In [156]:
df1.append([namesDF])

AttributeError: 'DataFrame' object has no attribute 'append'

### [ 병합 - (2) merge ]
- 두개의 DF에서 특정 컬럼을 기준으로 데이터를 합치는 것
- 두 DF를 합치는 기준이 되는 컬럼을 지정 필요
- 지정된 컬럼명이 없으면 동일한 컬럼명을 기준으로 합쳐짐

- (2-1) 데이터 준비<hr>

In [None]:
f1 = '../../DATA/stock price.xlsx'
f2 = '../../DATA/stock valuation.xlsx'

- (2-2) 데이터 저장 EXCEL ==> DataFrame<hr>

In [157]:
df1 = pd.read_excel(f1)
df1

Unnamed: 0,id,stock_name,value,price
0,128940,한미약품,59385.666667,421000.0
1,138040,메리츠금융지주,827.5,
2,130960,CJ E&M,58540.666667,98900.0
3,138250,엔에스쇼핑,14558.666667,13200.0
4,139480,이마트,239230.833333,254500.0
5,142280,녹십자엠에스,468.833333,10200.0
6,145990,삼양사,82750.0,82000.0
7,181710,NHN엔터테인먼트,,
8,185750,종근당,40293.666667,100500.0
9,192400,쿠쿠홀딩스,179204.666667,177500.0


In [158]:
df2 = pd.read_excel(f2)
df2

Unnamed: 0,id,name,eps,bps,per,pbr
0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,하림,274.166667,3551,11.489362,0.887074
2,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990,삼양사,5741.0,108090,14.283226,0.758627
5,161390,한국타이어,5648.5,51341,7.453306,0.820007
6,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750,종근당,3990.333333,40684,25.185866,2.470259
8,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
9,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


- (2-3) 데이터 확인

In [159]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id          13 non-null     int64  
 1   stock_name  13 non-null     object 
 2   value       11 non-null     float64
 3   price       11 non-null     float64
dtypes: float64(2), int64(1), object(1)
memory usage: 544.0+ bytes


In [160]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      10 non-null     int64  
 1   name    10 non-null     object 
 2   eps     10 non-null     float64
 3   bps     10 non-null     int64  
 4   per     10 non-null     float64
 5   pbr     10 non-null     float64
dtypes: float64(3), int64(2), object(1)
memory usage: 608.0+ bytes


- (2-4) DataFrame 병합<hr>

- (2-4-1) merge()<hr>

In [161]:
# [기본] 두 개의 DF에서 동일 컬럼명을 찾아서 두 DF에 존재하는 컬럼명의 행 데이터만 병합
pd.merge(df1,df2)  ## 존재하는 동일 컬럼명 : id -> id가 같은 행 데이터만 병합

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,138040,메리츠금융지주,827.5,,메리츠금융지주,2122.333333,14894,6.313806,0.899691
1,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068,15.695091,1.829178
2,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780,13.931338,0.860437
3,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090,14.283226,0.758627
4,181710,NHN엔터테인먼트,,,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
5,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684,25.185866,2.470259
6,204210,모두투어리츠,3093.333333,3475.0,모두투어리츠,85.166667,5335,40.802348,0.651359
7,207940,삼성바이오로직스,,91900.0,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


In [162]:
# [설정 => how = 'outer']  두 개의 DF에서 동일 컬럼명을 찾아서 모든 DF 데이터를 병합
pd.merge(df1,df2, how = 'outer') 

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,,,,,
1,138040,메리츠금융지주,827.5,,메리츠금융지주,2122.333333,14894.0,6.313806,0.899691
2,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
3,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
4,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
5,142280,녹십자엠에스,468.833333,10200.0,,,,,
6,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
7,181710,NHN엔터테인먼트,,,NHN엔터테인먼트,2110.166667,78434.0,30.755864,0.827447
8,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684.0,25.185866,2.470259
9,192400,쿠쿠홀딩스,179204.666667,177500.0,,,,,


In [163]:
# [설정 => how = 'left]  두 개의 DF에서 동일 컬럼명을 찾아서 왼쪽 DF 데이터 기준으로 병합
pd.merge(df1,df2, how = 'left')  #교집합 + df1

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,,,,,
1,138040,메리츠금융지주,827.5,,메리츠금융지주,2122.333333,14894.0,6.313806,0.899691
2,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
3,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
4,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
5,142280,녹십자엠에스,468.833333,10200.0,,,,,
6,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
7,181710,NHN엔터테인먼트,,,NHN엔터테인먼트,2110.166667,78434.0,30.755864,0.827447
8,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684.0,25.185866,2.470259
9,192400,쿠쿠홀딩스,179204.666667,177500.0,,,,,


In [164]:
# [설정 => how = 'right'] 두 개의 DF에서 동일 컬럼명을 찾아서 오른쪽 DF 데이터 기준으로 병합
pd.merge(df1,df2, how = 'right')   #교집합 + df2

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,,,,하림,274.166667,3551,11.489362,0.887074
2,138040,메리츠금융지주,827.5,,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780,13.931338,0.860437
4,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090,14.283226,0.758627
5,161390,,,,한국타이어,5648.5,51341,7.453306,0.820007
6,181710,NHN엔터테인먼트,,,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684,25.185866,2.470259
8,204210,모두투어리츠,3093.333333,3475.0,모두투어리츠,85.166667,5335,40.802348,0.651359
9,207940,삼성바이오로직스,,91900.0,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


In [165]:
# [설정 => how = 'cross'] 두 개의 DF에서 동일 컬럼명을 찾아서 DF 데이터를 교차 병합
pd.merge(df1,df2, how = 'cross')   #df1 * df2   # 교차조인 or 상호조인
# df1 전체를 멀티 인덱스 하는 것도 좋은 방법(똑같은 값 반복)

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,128940,한미약품,59385.666667,421000.0,136480,하림,274.166667,3551,11.489362,0.887074
2,128940,한미약품,59385.666667,421000.0,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,128940,한미약품,59385.666667,421000.0,139480,이마트,18268.166667,295780,13.931338,0.860437
4,128940,한미약품,59385.666667,421000.0,145990,삼양사,5741.000000,108090,14.283226,0.758627
...,...,...,...,...,...,...,...,...,...,...
125,207940,삼성바이오로직스,,91900.0,161390,한국타이어,5648.500000,51341,7.453306,0.820007
126,207940,삼성바이오로직스,,91900.0,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
127,207940,삼성바이오로직스,,91900.0,185750,종근당,3990.333333,40684,25.185866,2.470259
128,207940,삼성바이오로직스,,91900.0,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
