## [ 데이터 병합/연결/조인 ]
- 여러 개의 Series/DataFrame 객체의 데이터들을 합치는 방법

(1) 모듈 로딩

In [1]:
import pandas as pd

(2) 데이터 준비

In [2]:
data1 = [['홍 길동', '이 나영', '마 징가', '베 토벤'],
        [10, 21, 73, 89],
        ['2000/01/23', '2020/11/8', '1999/5/4', '1987/12/24']]

In [3]:
data2 = {'name':['홍 길동', '이 나영', '마 징가', '베 토벤'],
        'age':[10, 21, 73, 89],
        'reg_date':['2000/01/23', '2020/11/8', '1999/5/4', '1987/12/24']}

(3) 데이터 저장

In [4]:
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,0,1,2,3
0,홍 길동,이 나영,마 징가,베 토벤
1,10,21,73,89
2,2000/01/23,2020/11/8,1999/5/4,1987/12/24


In [5]:
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,name,age,reg_date
0,홍 길동,10,2000/01/23
1,이 나영,21,2020/11/8
2,마 징가,73,1999/5/4
3,베 토벤,89,1987/12/24


(4) 데이터 정보 확인

In [6]:
# 데이터의 전체 기본 정보 => info()
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      object
 2   2       3 non-null      object
 3   3       3 non-null      object
dtypes: object(4)
memory usage: 224.0+ bytes


(5) 데이터 전처리

(5-1) 행 <=> 열 전치

In [7]:
df1.T

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/23
1,이 나영,21,2020/11/8
2,마 징가,73,1999/5/4
3,베 토벤,89,1987/12/24


In [8]:
df1 = df1.transpose()
df1

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/23
1,이 나영,21,2020/11/8
2,마 징가,73,1999/5/4
3,베 토벤,89,1987/12/24


(5-2) 실제 데이터와 타입 확인 후 형변환

In [9]:
df1.head()

Unnamed: 0,0,1,2
0,홍 길동,10,2000/01/23
1,이 나영,21,2020/11/8
2,마 징가,73,1999/5/4
3,베 토벤,89,1987/12/24


In [10]:
# 1번 컬럼 : object => 정수
df1[1] = df1[1].astype('uint8')

In [11]:
df1.dtypes

0    object
1     uint8
2    object
dtype: object

In [12]:
# 2번 컬럼 : object -> datetime64[ns]
df1[2] = df1[2].astype('datetime64[ns]')

In [13]:
df1.dtypes

0            object
1             uint8
2    datetime64[ns]
dtype: object

(5-3) 0번 컬럼의 이름을 성과 이름으로 분리

In [14]:
# 0번 컬럼만 추출 -> Series
nameSR = df1[0]
nameSR

0    홍 길동
1    이 나영
2    마 징가
3    베 토벤
Name: 0, dtype: object

In [15]:
nameSR[1]

'이 나영'

In [16]:
type(nameSR[1])

str

In [17]:
# '이 나영' 데이터를 추출 -> 성, 이름으로 분리
nameSR[1].split()

['이', '나영']

In [18]:
for idx in range(nameSR.shape[0]):
    print(nameSR[idx])

홍 길동
이 나영
마 징가
베 토벤


In [19]:
nameSR.str.split()

0    [홍, 길동]
1    [이, 나영]
2    [마, 징가]
3    [베, 토벤]
Name: 0, dtype: object

In [20]:
nameSR.str.split(expand=True)

Unnamed: 0,0,1
0,홍,길동
1,이,나영
2,마,징가
3,베,토벤


In [21]:
df1

Unnamed: 0,0,1,2
0,홍 길동,10,2000-01-23
1,이 나영,21,2020-11-08
2,마 징가,73,1999-05-04
3,베 토벤,89,1987-12-24


In [22]:
namesDF = nameSR.str.split(expand=True)
namesDF

Unnamed: 0,0,1
0,홍,길동
1,이,나영
2,마,징가
3,베,토벤


(5-4) 두 개의 DataFrame을 컬럼 방향으로 엮음

In [23]:
# 기본적으로, 아래쪽으로 합쳐친다.
pd.concat([df1, namesDF], axis='columns', ignore_index=True)   # 열방향으로 추가되게 한다.

Unnamed: 0,0,1,2,3,4
0,홍 길동,10,2000-01-23,홍,길동
1,이 나영,21,2020-11-08,이,나영
2,마 징가,73,1999-05-04,마,징가
3,베 토벤,89,1987-12-24,베,토벤


(5-5) 두 개의 DataFrame을 행(row) 방향으로 데이터 연결

In [28]:
# 여러 개의 DF, SR을 연결 시에 모든 컬럼명/행인덱스만 연결하는 방식 => outer (합집합) 방식
# null 값 대량 발생 가능
pd.concat([df1, namesDF])

Unnamed: 0,0,1,2
0,홍 길동,10,2000-01-23
1,이 나영,21,2020-11-08
2,마 징가,73,1999-05-04
3,베 토벤,89,1987-12-24
0,홍,길동,NaT
1,이,나영,NaT
2,마,징가,NaT
3,베,토벤,NaT


In [29]:
# 여러 개의 DF, SR을 연결 시에 동일 컬럼명/행인덱스만 연결하는 방식 => inner (교집합) 방식
# null 값을 남기지 않음
pd.concat([df1, namesDF], join='inner')

Unnamed: 0,0,1
0,홍 길동,10
1,이 나영,21
2,마 징가,73
3,베 토벤,89
0,홍,길동
1,이,나영
2,마,징가
3,베,토벤


### [ 병합 - (2) merge ]
- 두 개의 DF에서 특정 컬럼을 기준으로 데이터를 합치는 것
- 두 DF에 합치는 기준이 되는 컬럼을 지정 필요
- 지정된 컬럼명이 없으면 덩ㅇ;ㄹ힌 칼람먕을 기문으로 반환한다.

(2-1) 데이터 준비

In [31]:
f1 = '../../DATA/stock price.xlsx'
f2 = '../../DATA/stock valuation.xlsx'

(2-2) 데이터 저장 EXCEL -> DataFrame

In [32]:
df1 = pd.read_excel(f1)
df2 = pd.read_excel(f2)

In [34]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id          13 non-null     int64  
 1   stock_name  13 non-null     object 
 2   value       11 non-null     float64
 3   price       11 non-null     float64
dtypes: float64(2), int64(1), object(1)
memory usage: 544.0+ bytes


(2-4) 데이터프레임 병합

- (2-4-1) merge()

In [36]:
# [기본] 두 개의 DF에서 동일 컬럼명을 찾아서 두 DF에 존재하는 컬럼명의 행 데이터만 합치기
pd.merge(df1, df2)

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,138040,메리츠금융지주,827.5,,메리츠금융지주,2122.333333,14894,6.313806,0.899691
1,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068,15.695091,1.829178
2,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780,13.931338,0.860437
3,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090,14.283226,0.758627
4,181710,NHN엔터테인먼트,,,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
5,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684,25.185866,2.470259
6,204210,모두투어리츠,3093.333333,3475.0,모두투어리츠,85.166667,5335,40.802348,0.651359
7,207940,삼성바이오로직스,,91900.0,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


In [48]:
# [설정=> how 'outer'] 두 개의 DF에서 동일 컬럼명을 찾아서 두 DF에 존재하는 컬럼명의 행 데이터만 합치기
pd.merge(df1, df2, how='outer')

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,,,,,
1,138040,메리츠금융지주,827.5,,메리츠금융지주,2122.333333,14894.0,6.313806,0.899691
2,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
3,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
4,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
5,142280,녹십자엠에스,468.833333,10200.0,,,,,
6,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
7,181710,NHN엔터테인먼트,,,NHN엔터테인먼트,2110.166667,78434.0,30.755864,0.827447
8,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684.0,25.185866,2.470259
9,192400,쿠쿠홀딩스,179204.666667,177500.0,,,,,


In [46]:
# [설정=> how 'left'] 두 개의 DF에서 동일 컬럼명을 찾아서 왼쪽 DF 데이터를 기준으로 병합
pd.merge(df1, df2, how='left')

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,,,,,
1,138040,메리츠금융지주,827.5,,메리츠금융지주,2122.333333,14894.0,6.313806,0.899691
2,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
3,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
4,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
5,142280,녹십자엠에스,468.833333,10200.0,,,,,
6,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
7,181710,NHN엔터테인먼트,,,NHN엔터테인먼트,2110.166667,78434.0,30.755864,0.827447
8,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684.0,25.185866,2.470259
9,192400,쿠쿠홀딩스,179204.666667,177500.0,,,,,


In [49]:
# [설정 => how 'cross'] 
pd.merge(df1, df2, how='cross')

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,128940,한미약품,59385.666667,421000.0,136480,하림,274.166667,3551,11.489362,0.887074
2,128940,한미약품,59385.666667,421000.0,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,128940,한미약품,59385.666667,421000.0,139480,이마트,18268.166667,295780,13.931338,0.860437
4,128940,한미약품,59385.666667,421000.0,145990,삼양사,5741.000000,108090,14.283226,0.758627
...,...,...,...,...,...,...,...,...,...,...
125,207940,삼성바이오로직스,,91900.0,161390,한국타이어,5648.500000,51341,7.453306,0.820007
126,207940,삼성바이오로직스,,91900.0,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
127,207940,삼성바이오로직스,,91900.0,185750,종근당,3990.333333,40684,25.185866,2.470259
128,207940,삼성바이오로직스,,91900.0,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
