# [데이터 병합/연결/조인]
[concat](https://pandas.pydata.org/docs/user_guide/merging.html#concat)
![concat](https://pandas.pydata.org/docs/_images/merging_concat_basic.png)
- 여러 개의 SR/DF 객체의 데이터를 합치는 방법

- concat은 데이터 프레임 두 개를 단순히 합칠 때 사용한다.
- concat이 단순히 두 데이터 프레임을 합치는 거라면, merge는 두 데이터 프레임을 공통된 항목을 기준으로 합치는 것이다.
- join은 행인덱스 기준으로만

## <hr> 1. 모듈로딩

In [2]:
import pandas as pd

## <hr> 2. 데이터 준비

In [3]:
datas1 = {"name":["홍 길동", "이 나영", "마 징가", "베 토벤"],
        "age" : [10, 21, 73, 89],
        "reg_date" : ["2000/1/23", "1991/11/8", "2001/5/8", "1900/11/12"]}
datas2 = [["홍 길동", "이 나영", "마 징가", "베 토벤"],
        [10, 21, 73, 89],
        ["2000/1/23", "1991/11/8", "2001/5/8", "1900/11/12"]]

## <hr> 3. 데이터 저장

In [4]:
# Dict -> DF
df1 = pd.DataFrame(datas1)
df1

Unnamed: 0,name,age,reg_date
0,홍 길동,10,2000/1/23
1,이 나영,21,1991/11/8
2,마 징가,73,2001/5/8
3,베 토벤,89,1900/11/12


In [5]:
# List -> DF
df2 = pd.DataFrame(datas2)
df2

Unnamed: 0,0,1,2,3
0,홍 길동,이 나영,마 징가,베 토벤
1,10,21,73,89
2,2000/1/23,1991/11/8,2001/5/8,1900/11/12


## <hr> 4. 데이터 정보 확인

In [6]:
# 데이터의 전체 기본 정보 확인
df1.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   name      4 non-null      object
 1   age       4 non-null      int64 
 2   reg_date  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes


## <hr> 5. 데이터 전처리

In [7]:
df1.transpose()

Unnamed: 0,0,1,2,3
name,홍 길동,이 나영,마 징가,베 토벤
age,10,21,73,89
reg_date,2000/1/23,1991/11/8,2001/5/8,1900/11/12


In [8]:
df1.columns = [0, 1, 2]
df1

Unnamed: 0,0,1,2
0,홍 길동,10,2000/1/23
1,이 나영,21,1991/11/8
2,마 징가,73,2001/5/8
3,베 토벤,89,1900/11/12


In [9]:
# 1번 컬럼 : object => 정수 
df1[1] = df1[1].astype("uint8")

In [10]:
df1[1].dtypes

dtype('uint8')

In [11]:
# 2번 컬럼 : object -> datetme64[ns] (astype 혹은 to_datetime)
df1[2] = df1[2].astype("datetime64[ns]")

In [12]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   0       4 non-null      object        
 1   1       4 non-null      uint8         
 2   2       4 non-null      datetime64[ns]
dtypes: datetime64[ns](1), object(1), uint8(1)
memory usage: 196.0+ bytes


In [13]:
df1.dtypes

0            object
1             uint8
2    datetime64[ns]
dtype: object

In [14]:
# 0번 컬럼 성과 이름으로 구분하기 
nameSR = df1[0] # SR 

In [15]:
type(nameSR[1])

str

In [16]:
nameSR[1].split()

['이', '나영']

In [17]:
'''
for idx in range(nameSR.shape[0]):
    nameSR[idx] = nameSR[idx].split()
nameSR
'''

'\nfor idx in range(nameSR.shape[0]):\n    nameSR[idx] = nameSR[idx].split()\nnameSR\n'

In [18]:
#for n in  df1[0]:
  #  f, b = n.split()
names = nameSR.str.split(expand=True)
names

Unnamed: 0,0,1
0,홍,길동
1,이,나영
2,마,징가
3,베,토벤


In [19]:
df1

Unnamed: 0,0,1,2
0,홍 길동,10,2000-01-23
1,이 나영,21,1991-11-08
2,마 징가,73,2001-05-08
3,베 토벤,89,1900-11-12


우리의 목적은 df1에 0번을 names로 바꿔치기 하는 것

### 5-(4) 2개의 데이터 프레임을 컬럼방향으로 연결하고 싶음 

In [20]:
pd.concat([df1, names], axis=True)

Unnamed: 0,0,1,2,0.1,1.1
0,홍 길동,10,2000-01-23,홍,길동
1,이 나영,21,1991-11-08,이,나영
2,마 징가,73,2001-05-08,마,징가
3,베 토벤,89,1900-11-12,베,토벤


In [21]:
pd.concat([df1, names], axis=True, ignore_index=True)

Unnamed: 0,0,1,2,3,4
0,홍 길동,10,2000-01-23,홍,길동
1,이 나영,21,1991-11-08,이,나영
2,마 징가,73,2001-05-08,마,징가
3,베 토벤,89,1900-11-12,베,토벤


In [22]:
### 5-(5) 두 개의 DataFrame을 행(row) 방향으로 연결 

In [24]:
# 여러개의 DF/ SR을 연결 시에 모든 동일 컬럼명/행인덱스 연결 시켜주는 방식 => outer
pd.concat([df1, names])

Unnamed: 0,0,1,2
0,홍 길동,10,2000-01-23
1,이 나영,21,1991-11-08
2,마 징가,73,2001-05-08
3,베 토벤,89,1900-11-12
0,홍,길동,NaT
1,이,나영,NaT
2,마,징가,NaT
3,베,토벤,NaT


In [25]:
# 여러개의 DF/ SR을 연결 시에 동일 컬럼명/행인덱스 연결 시켜주는 방식 => inner
pd.concat([df1, names], join = "inner")

Unnamed: 0,0,1
0,홍 길동,10
1,이 나영,21
2,마 징가,73
3,베 토벤,89
0,홍,길동
1,이,나영
2,마,징가
3,베,토벤


## [merge]
- 2개의 DF에서 특정 컬럼을 기준으로 데이터를 합치는 것
- 기준 컬럼 지정 필요
- 지정된 컬럼 없으면 컬럼명을 기준으로 합쳐짐 

In [None]:
merge(df_left, df_right, how='inner', on=None, left=왼쪽 키, right=오른쪽 키)

In [26]:
f1 = "../DATA/stock price.xlsx"
f2 = "../DATA/stock valuation.xlsx"

In [31]:
DF1 = pd.read_excel(f1)
DF1

Unnamed: 0,id,stock_name,value,price
0,128940,한미약품,59385.666667,421000.0
1,138040,메리츠금융지주,827.5,
2,130960,CJ E&M,58540.666667,98900.0
3,138250,엔에스쇼핑,14558.666667,13200.0
4,139480,이마트,239230.833333,254500.0
5,142280,녹십자엠에스,468.833333,10200.0
6,145990,삼양사,82750.0,82000.0
7,181710,NHN엔터테인먼트,,
8,185750,종근당,40293.666667,100500.0
9,192400,쿠쿠홀딩스,179204.666667,177500.0


In [43]:
DF2 = pd.read_excel(f2)
DF2

Unnamed: 0,id,name,eps,bps,per,pbr
0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,하림,274.166667,3551,11.489362,0.887074
2,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990,삼양사,5741.0,108090,14.283226,0.758627
5,161390,한국타이어,5648.5,51341,7.453306,0.820007
6,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750,종근당,3990.333333,40684,25.185866,2.470259
8,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
9,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


id 기준으로 합쳐질 것을 예상할 수 있음

### 데이터 확인

In [44]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   0       4 non-null      object        
 1   1       4 non-null      uint8         
 2   2       4 non-null      datetime64[ns]
dtypes: datetime64[ns](1), object(1), uint8(1)
memory usage: 196.0+ bytes


In [45]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      object
 2   2       3 non-null      object
 3   3       3 non-null      object
dtypes: object(4)
memory usage: 224.0+ bytes


### 데이터 프레임 병합

In [50]:
# [기본] 두 개의 DF에서 동일 컬럼명을 찾아 '존재하는' 컬럼명의 '행' 데이터만 합치기 
pd.merge(df1, df2)

Unexpected exception formatting exception. Falling back to standard exception


Traceback (most recent call last):
  File "C:\Users\kdp\anaconda3\envs\My_38\lib\site-packages\IPython\core\interactiveshell.py", line 3508, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "C:\Users\kdp\AppData\Local\Temp\ipykernel_25388\946318515.py", line 2, in <module>
    pd.merge(df1, df2)
  File "C:\Users\kdp\anaconda3\envs\My_38\lib\site-packages\pandas\core\reshape\merge.py", line 148, in merge
  File "C:\Users\kdp\anaconda3\envs\My_38\lib\site-packages\pandas\core\reshape\merge.py", line 741, in __init__
    copy=False,
  File "C:\Users\kdp\anaconda3\envs\My_38\lib\site-packages\pandas\core\reshape\merge.py", line 1405, in _maybe_coerce_merge_keys
    right_on = com.maybe_make_list(right_on)
ValueError: You are trying to merge on datetime64[ns] and object columns. If you wish to proceed you should use pd.concat

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "C:\Users\kdp\anaconda3\envs\My