"""
1. df1 ~ df3 merge(위/아래)
2. how, axis 값을 변경해서 테스트
3. ignore_index 적용
4. merge / join 함수 버전으로 각각 수행
5. survey_ 파일에 대해 merge 연습
-survey_site, survey_visited 열 기준으로 데이터 연결
6. 어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는
데이터프레임을 임의로 만든 뒤 합친다. 실적 정보는 "매출", "비용", "이익"으로 이루어진다. (이익 = 매출 - 비용)
또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

1월~6월               7월~12월
월 매출 비용 이익     월 매출 비용 이익
1   100  50   50
2     ...
3
...
6

=> 합치기
1월~12월
월        매출 비용 이익  
1          100  50   50
2             ...
3
..
12
총실적    xx    yy   zz 

"""

In [1]:
import numpy as np
import pandas as pd

In [2]:
df1 = pd.read_csv("datamerge_practice_data/concat_1.csv")
df2 = pd.read_csv("datamerge_practice_data/concat_2.csv")
df3 = pd.read_csv("datamerge_practice_data/concat_3.csv")

#### 1. df1 ~ df3 merge(위/아래)

In [3]:
pd.concat((df1, df2, df3))

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


#### 2. how, axis 값을 변경해서 테스트

In [5]:
pd.concat((df1, df2, df3), join = 'outer', axis = 0) # default

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


In [6]:
pd.concat((df1, df2, df3), join = 'inner', axis = 0)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


In [7]:
pd.concat((df1, df2, df3), join = 'outer', axis = 1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [8]:
pd.concat((df1, df2, df3), join = 'inner', axis = 1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


#### 3. ignore_index 적용

In [12]:
pd.concat((df1, df2, df3), ignore_index = False) # default
pd.concat((df1, df2, df3), ignore_index = True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


#### 4. merge / join 함수 버전으로 각각 수행

In [13]:
# merge
df12 = pd.merge(df1, df2, how = 'outer')
pd.merge(df12, df3, how = 'outer')

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


In [27]:
df12_lr = pd.merge(df1, df2, left_index = True, right_index = True)
pd.merge(df1, df2, left_index = True, right_index = True, how = 'left')
pd.merge(df1, df2, left_index = True, right_index = True, how = 'right') # 모두 같은 결과

Unnamed: 0,A_x,B_x,C_x,D_x,A_y,B_y,C_y,D_y
0,a0,b0,c0,d0,a4,b4,c4,d4
1,a1,b1,c1,d1,a5,b5,c5,d5
2,a2,b2,c2,d2,a6,b6,c6,d6
3,a3,b3,c3,d3,a7,b7,c7,d7


In [30]:
pd.merge(df12_lr, df3, left_index = True, right_index = True)
pd.merge(df12_lr, df3, left_index = True, right_index = True, how = 'left')
pd.merge(df12_lr, df3, left_index = True, right_index = True, how = 'right') # 모두 같은 결과

Unnamed: 0,A_x,B_x,C_x,D_x,A_y,B_y,C_y,D_y,A,B,C,D
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [94]:
# join
df12_join = df1.join(df2, how = 'right', lsuffix='_left', rsuffix='_right')
df12_join.join(df3, how = 'right')

Unnamed: 0,A_left,B_left,C_left,D_left,A_right,B_right,C_right,D_right,A,B,C,D
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


#### 5. survey_ 파일에 대해 merge 연습
- survey_site, survey_visited 열 기준으로 데이터 연결

In [38]:
df_site = pd.read_csv("datamerge_practice_data/survey_site.csv")
df_visited = pd.read_csv("datamerge_practice_data/survey_visited.csv")

In [55]:
pd.merge(df_site, df_visited, left_index = True, right_index = True, how = 'right')

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-3,-47.15,-126.72,622,DR-1,1927-02-10
2,MSK-4,-48.87,-123.4,734,DR-3,1939-01-07
3,,,,735,DR-3,1930-01-12
4,,,,751,DR-3,1930-02-26
5,,,,752,DR-3,
6,,,,837,MSK-4,1932-01-14
7,,,,844,DR-1,1932-03-22


#### 6. 어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 임의로 만든 뒤 합친다.   실적 정보는 "매출", "비용", "이익"으로 이루어진다. (이익 = 매출 - 비용)   또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

1월~6월               7월~12월   
월 매출 비용 이익     월 매출 비용 이익   
1   100  50   50   
2     ...   
3   
...   
6   
   
=> 합치기   
1월~12월    
월        매출 비용 이익   
1          100  50   50   
2             ...   
3   
..   
12   
총실적    xx    yy   zz 


In [66]:
df1_6 = pd.DataFrame({'월' : [1, 2, 3, 4, 5, 6],
             '매출' : [100, 200, 300, 200, 300, 100],
             '비용' : [50, 120, 210, 100, 180, 60]})
df7_12 = pd.DataFrame({'월' : [7, 8, 9, 10, 11, 12],
                      '매출' : [210, 420, 250, 170, 300, 200],
                      '비용' : [100, 250, 170, 80, 120, 100]})
df1_6['이익'] = df1_6['매출'] - df1_6['비용']
df7_12['이익'] = df7_12['매출'] - df7_12['비용']

In [84]:
df1_12 = pd.merge(df1_6, df7_12, how = 'outer')

In [86]:
df1_12.loc['총실적'] = [np.nan, df1_12['매출'].sum(), df1_12['비용'].sum(), df1_12['이익'].sum()]

In [87]:
df1_12

Unnamed: 0,월,매출,비용,이익
0,1.0,100.0,50.0,50.0
1,2.0,200.0,120.0,80.0
2,3.0,300.0,210.0,90.0
3,4.0,200.0,100.0,100.0
4,5.0,300.0,180.0,120.0
5,6.0,100.0,60.0,40.0
6,7.0,210.0,100.0,110.0
7,8.0,420.0,250.0,170.0
8,9.0,250.0,170.0,80.0
9,10.0,170.0,80.0,90.0
