## 데이터 통합
 분석하기 좋은 데이터 집합(data set)을 만들기 위해서 여러 개의 데이터 집합을 연결하거나
 데이터를 추출하여 데이터를 정리한다 
 
 ### 1. 데이터 연결 - concat 메서드
 
 **여러 dataframes을 행방향으로 데이터 연결하기**
 
 concat 메서드는 데이터프레임을 연결할 때 열이름이 같으면 위에서 아래 방향으로 연결한다. 인덱스도 그대로 유지된다.

In [1]:
import pandas as pd

In [2]:
df1 = pd.read_csv('../data2/concat_1.csv')
df2 = pd.read_csv('../data2/concat_2.csv')
df3 = pd.read_csv('../data2/concat_3.csv')

df1, df2, df3

(    A   B   C   D
 0  a0  b0  c0  d0
 1  a1  b1  c1  d1
 2  a2  b2  c2  d2
 3  a3  b3  c3  d3,
     A   B   C   D
 0  a4  b4  c4  d4
 1  a5  b5  c5  d5
 2  a6  b6  c6  d6
 3  a7  b7  c7  d7,
      A    B    C    D
 0   a8   b8   c8   d8
 1   a9   b9   c9   d9
 2  a10  b10  c10  d10
 3  a11  b11  c11  d11)

In [4]:
row_concat = pd.concat([df1, df2, df3]) #데이터프레임 아래로 연결
row_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


In [5]:
print(row_concat.iloc[3,]) #index번호로 추출

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object


**Dataframe와 series의 연결**

데이터프레임과 시리즈를 연결할때에는 시리즈가 데이터프레임의 새로운 열로 추가된다.

시리즈는 열이름이 없어서 행으로 연결되지 않고 NaN인 누락값이 많이 생긴다.

In [32]:
new_row_series = pd.Series(['n1','n2','n3','n4'])#열 이름이 없이 값들만 들어있다
pd.concat([df1, new_row_series]) #열 이름이 없는경우 concat하면 새로운 열을 생성해서 아래(행 방향으로)추가한다.

Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,
1,a1,b1,c1,d1,
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
0,,,,,n1
1,,,,,n2
2,,,,,n3
3,,,,,n4


In [6]:
new_series = pd.Series(['k4','k3','k2','k1'])
pd.concat([df1, new_series])

Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,
1,a1,b1,c1,d1,
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
0,,,,,k4
1,,,,,k3
2,,,,,k2
3,,,,,k1


concat은 항상 위아래로 행을 추가하여 연결하는 방식을 사용한다.

위와 같은 경우에는 series에 열이름이 없기때문에, 새로운 열이 생성되고, 아래 행으로 추가된다.

In [7]:
new_row_df = pd.DataFrame([['n1','n2','n3','n4']], columns=['A','B','C','D'])
print(new_row_df)

    A   B   C   D
0  n1  n2  n3  n4


In [8]:
pd.concat([df1, new_row_df])

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


위와 같은 경우에는 new_row_df라는 series의 열이름이 A,B,C,D로 df1의 열이름과 동일하기때문에, 
해당 열 A,B,C,D에 맞게 추가된다.

**append 메서드**

append 메서드로 딕셔너리의값을 데이터프레임에 추가하기

In [11]:
df1.append(new_row_df) #ignore_index가 없으면 각 dataframe 또는 series의 인덱스 값 유지

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


In [14]:
df1.append(new_row_df, ignore_index=True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


**ignore_index 속성**

ignore_index = True로 지정하면 데이터 통합후 인덱스를 0부터 다시 지정한다.

In [9]:
data_dict = {'A':'n1','B':'n2','C':'n3','D':'n4',}
print(df1.append(data_dict, ignore_index = True))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  n1  n2  n3  n4


**concat메소드: 열 방향으로 데이터 연결**

**axis = 1으로 열 방향으로** 데이터를 연결한다.

기본값은 **axis = 0으로 행으로** 연결이다.

In [15]:
col_concat = pd.concat([df1, df2, df3], axis=1) #옆으로 연결(열방향 연결)
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [16]:
col_concat['A']

Unnamed: 0,A,A.1,A.2
0,a0,a4,a8
1,a1,a5,a9
2,a2,a6,a10
3,a3,a7,a11


**새로운 열 추가**

In [20]:
col_concat['new_col_list'] = ['n1','n2','n3','n4'] #row 갯수와 더하려는 새로운 열의 row 갯수가 동일 해야한다.
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new_col_list
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,n1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,n2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,n3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,n4


**ignore index 활용**

데이터프레임 열 방향으로 연결하여 열 이름이 중복될때

ignore_index = True로 지정하면 열이름을 0부터 다시 지정된다.

In [21]:
pd.concat([df1, df2, df3], axis =1, ignore_index=True)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


### 공통 열과 공통 인덱스만 연결하기

열 이름이 일부 다른 세개의 데이터프레임을 행으로 연결하면

열이름이 정렬되고, 데이터프레임에 없는 열은 누락값(NaN)으로 처리된다.


In [29]:
df1.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [30]:
df2.columns

Index(['E', 'F', 'G', 'H'], dtype='object')

In [31]:
df2.columns = ['E', 'F', 'G', 'H'] #df2의 columns을 A,B,C,D --> E,F,G,H로 변경
df2.columns

Index(['E', 'F', 'G', 'H'], dtype='object')

In [13]:
df3.columns = ['A', 'C', 'F', 'H']

In [14]:
df1, df2, df3

(    A   B   C   D
 0  a0  b0  c0  d0
 1  a1  b1  c1  d1
 2  a2  b2  c2  d2
 3  a3  b3  c3  d3,
     E   F   G   H
 0  a4  b4  c4  d4
 1  a5  b5  c5  d5
 2  a6  b6  c6  d6
 3  a7  b7  c7  d7,
      A    C    F    H
 0   a8   b8   c8   d8
 1   a9   b9   c9   d9
 2  a10  b10  c10  d10
 3  a11  b11  c11  d11)

In [15]:
row_concat = pd.concat([df1, df2, df3])
row_concat

Unnamed: 0,A,B,C,D,E,F,G,H
0,a0,b0,c0,d0,,,,
1,a1,b1,c1,d1,,,,
2,a2,b2,c2,d2,,,,
3,a3,b3,c3,d3,,,,
0,,,,,a4,b4,c4,d4
1,,,,,a5,b5,c5,d5
2,,,,,a6,b6,c6,d6
3,,,,,a7,b7,c7,d7
0,a8,,b8,,,c8,,d8
1,a9,,b9,,,c9,,d9


- 데이터프레임의 공통 열만 골라 연결하면 누락값이 생기지 않는다.
- join = inner로 지정하면 공통 열만 골라 연결할 수 있다.
- df1,df2,df3은 공통열이 없다

In [18]:
pd.concat([df1, df2, df3], join='inner')

0
1
2
3
0
1
2
3
0
1
2


In [25]:
# df1, df3은 공통 열 A와 ,C만 연결된다.

pd.concat([df1,df3],ignore_index=False, join='inner') 
# join = inner로 지정하면 공통 행만 골라 출력
# ignore_index=False로 지정하면 행(인덱스)번호 그대로 유지

Unnamed: 0,A,C
0,a0,c0
1,a1,c1
2,a2,c2
3,a3,c3
0,a8,b8
2,a9,b9
5,a10,b10
7,a11,b11


In [27]:
pd.concat([df2,df3], ignore_index=True)
# ignore_index=False로 지정하면 행(인덱스)번호 연결하는 df 순서대로 새로 지정

pd.concat([df2,df3], ignore_index=True, join= innrl)

Unnamed: 0,E,F,G,H,A,C
0,a4,b4,c4,d4,,
1,a5,b5,c5,d5,,
2,a6,b6,c6,d6,,
3,a7,b7,c7,d7,,
4,,c8,,d8,a8,b8
5,,c9,,d9,a9,b9
6,,c10,,d10,a10,b10
7,,c11,,d11,a11,b11


In [21]:
pd.concat([df3,df2], ignore_index=True, join='inner')
# ignore_index=False로 지정하면 행(인덱스)번호 연결하는 df 순서대로 새로 지정

Unnamed: 0,F,H
0,c8,d8
1,c9,d9
2,c10,d10
3,c11,d11
4,b4,d4
5,b5,d5
6,b6,d6
7,b7,d7


In [28]:
df1.index =[0,1,2,3]
df2.index =[4,5,6,7]
df3.index =[0,2,5,7]

In [23]:
df1, df2, df3

(    A   B   C   D
 0  a0  b0  c0  d0
 1  a1  b1  c1  d1
 2  a2  b2  c2  d2
 3  a3  b3  c3  d3,
     E   F   G   H
 4  a4  b4  c4  d4
 5  a5  b5  c5  d5
 6  a6  b6  c6  d6
 7  a7  b7  c7  d7,
      A    C    F    H
 0   a8   b8   c8   d8
 2   a9   b9   c9   d9
 5  a10  b10  c10  d10
 7  a11  b11  c11  d11)

In [24]:
# 인덱스를 다시 지정후 df1,df2,df3를 axis = 1로 해서 열방향으로 연결한다.
col_concat = pd.concat([df1, df2, df3], axis=1)
col_concat

Unnamed: 0,A,B,C,D,E,F,G,H,A.1,C.1,F.1,H.1
0,a0,b0,c0,d0,,,,,a8,b8,c8,d8
1,a1,b1,c1,d1,,,,,,,,
2,a2,b2,c2,d2,,,,,a9,b9,c9,d9
3,a3,b3,c3,d3,,,,,,,,
4,,,,,a4,b4,c4,d4,,,,
5,,,,,a5,b5,c5,d5,a10,b10,c10,d10
6,,,,,a6,b6,c6,d6,,,,
7,,,,,a7,b7,c7,d7,a11,b11,c11,d11


In [50]:
pd.concat([df1, df3] , axis=1, join='inner') #열 방향 추가

Unnamed: 0,A,B,C,D,A.1,C.1,F,H
0,a0,b0,c0,d0,a8,b8,c8,d8
2,a2,b2,c2,d2,a9,b9,c9,d9


In [53]:
pd.concat([df1, df3] , axis=0, join='inner') #행 방향 추가

Unnamed: 0,A,C
0,a0,c0
1,a1,c1
2,a2,c2
3,a3,c3
0,a8,b8
2,a9,b9
5,a10,b10
7,a11,b11


In [51]:
pd.concat([df2, df3] , axis=1, join='inner')

Unnamed: 0,E,F,G,H,A,C,F.1,H.1
5,a5,b5,c5,d5,a10,b10,c10,d10
7,a7,b7,c7,d7,a11,b11,c11,d11


In [52]:
pd.concat([df2, df3] , axis=0, join='inner')

Unnamed: 0,F,H
4,b4,d4
5,b5,d5
6,b6,d6
7,b7,d7
0,c8,d8
2,c9,d9
5,c10,d10
7,c11,d11


### 2. merge로 옆으로(열방향) 통합하기

- 두데이터를 옆으로(열방향)으로 통합한다.
- 기준데이터와 정보를 결합하고 싶은 데이터간에 공통된 열에 대해
  같은 값을 찾아서 결합해 하나의 데이터로 통합한다.
- 실습을 위해 특정 위치의 날씨 정보에 필요한 데이터 집합을 불러온다
- person 관측한 사람이름, site 관측위치, visited 관측날짜, survey  날씨정보 이다.
- 관측날짜(visited) 의 일부 데이터만 추출후 사용한다.

In [62]:
person = pd.read_csv('../data2/survey_person.csv')
site = pd.read_csv('../data2/survey_site.csv')
survey = pd.read_csv('../data2/survey_survey.csv')
visited = pd.read_csv('../data2/survey_visited.csv')

print(person)
print(site)
print(survey)
print(visited)

      ident   personal    family
0      dyer    William      Dyer
1        pb      Frank   Pabodie
2      lake   Anderson      Lake
3       roe  Valentina   Roerich
4  danforth      Frank  Danforth
    name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40
    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25
  

In [57]:
visited_subset = visited.loc[[0,2,6], ]
visited_subset

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
2,734,DR-3,1939-01-07
6,837,MSK-4,1932-01-14


site.merge(visited_subset) 으로 site와 visited_subset를 통합해보자.

left_on, right_on은 통합할 두 데이터프레임 site와 visited_subset의 일치하는 열로 지정한다.

left_on은 site의 name열을 right_on은 visited_subset의 site열을 지정한다.

In [64]:
site

Unnamed: 0,name,lat,long
0,DR-1,-49.85,-128.57
1,DR-3,-47.15,-126.72
2,MSK-4,-48.87,-123.4


In [58]:
o2o_merge = site.merge(visited_subset, left_on='name', right_on='site')
o2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
2,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [60]:
o2o_merge = visited_subset.merge(site, left_on='site', right_on='name') #반대 순서로 merge하는 경우
o2o_merge

Unnamed: 0,ident,site,dated,name,lat,long
0,619,DR-1,1927-02-08,DR-1,-49.85,-128.57
1,734,DR-3,1939-01-07,DR-3,-47.15,-126.72
2,837,MSK-4,1932-01-14,MSK-4,-48.87,-123.4


In [61]:
# site.merge(visited)으로 site와 visited를 통합한다.

m2o_merge = site.merge(visited, left_on='name', right_on='site')
m2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [66]:
visited

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,
6,837,MSK-4,1932-01-14
7,844,DR-1,1932-03-22


In [65]:
m2o_merge = visited.merge(site, left_on='site', right_on='name')
m2o_merge

Unnamed: 0,ident,site,dated,name,lat,long
0,619,DR-1,1927-02-08,DR-1,-49.85,-128.57
1,622,DR-1,1927-02-10,DR-1,-49.85,-128.57
2,844,DR-1,1932-03-22,DR-1,-49.85,-128.57
3,734,DR-3,1939-01-07,DR-3,-47.15,-126.72
4,735,DR-3,1930-01-12,DR-3,-47.15,-126.72
5,751,DR-3,1930-02-26,DR-3,-47.15,-126.72
6,752,DR-3,,DR-3,-47.15,-126.72
7,837,MSK-4,1932-01-14,MSK-4,-48.87,-123.4


In [69]:
#person.merge(survey)으로 person과 survey 데이터 통합
ps = person.merge(survey, left_on='ident', right_on='person')
ps

Unnamed: 0,ident,personal,family,taken,person,quant,reading
0,dyer,William,Dyer,619,dyer,rad,9.82
1,dyer,William,Dyer,619,dyer,sal,0.13
2,dyer,William,Dyer,622,dyer,rad,7.8
3,dyer,William,Dyer,622,dyer,sal,0.09
4,pb,Frank,Pabodie,734,pb,rad,8.41
5,pb,Frank,Pabodie,734,pb,temp,-21.5
6,pb,Frank,Pabodie,735,pb,rad,7.22
7,pb,Frank,Pabodie,751,pb,rad,4.35
8,pb,Frank,Pabodie,751,pb,temp,-18.5
9,lake,Anderson,Lake,734,lake,sal,0.05


In [70]:
# visited.merge(survey)으로 visited와 survey 데이터 통합
vs = visited.merge(survey, left_on='ident', right_on='taken')
vs

Unnamed: 0,ident,site,dated,taken,person,quant,reading
0,619,DR-1,1927-02-08,619,dyer,rad,9.82
1,619,DR-1,1927-02-08,619,dyer,sal,0.13
2,622,DR-1,1927-02-10,622,dyer,rad,7.8
3,622,DR-1,1927-02-10,622,dyer,sal,0.09
4,734,DR-3,1939-01-07,734,pb,rad,8.41
5,734,DR-3,1939-01-07,734,lake,sal,0.05
6,734,DR-3,1939-01-07,734,pb,temp,-21.5
7,735,DR-3,1930-01-12,735,pb,rad,7.22
8,735,DR-3,1930-01-12,735,,sal,0.06
9,735,DR-3,1930-01-12,735,,temp,-26.0


**merge하는 양쪽 dataframe의 여러개 열의 값을 이용하기**

- left_on, right_on에 여러개 열을 리스트에 담아서 전달할 수 있다.
- ps데이터프레임에 ident, taken,quant, reading 열의 값과  vs 데이트프레임에
  person, ident, quant, reading 열의 값을 이용하여 ps 데이터프레임과 vs 데이터프레임을 서로 연결한다.
- 양쪽 데이터프레임에 있었던 중복된 열 이름(ident,taken,person)에 접미사 _x, _y가 추가되어 있다.
- _x는 왼쪽, _y는 오른쪽 데이터프레임의 열을 의미한다.

In [71]:
ps_vs = ps.merge(vs, left_on=['ident', 'taken', 'quant', 'reading'],
                    right_on=['person','ident','quant','reading'])
ps_vs
# reading은 왜 _x, _y로 따로생성안되지?

Unnamed: 0,ident_x,personal,family,taken_x,person_x,quant,reading,ident_y,site,dated,taken_y,person_y
0,dyer,William,Dyer,619,dyer,rad,9.82,619,DR-1,1927-02-08,619,dyer
1,dyer,William,Dyer,619,dyer,sal,0.13,619,DR-1,1927-02-08,619,dyer
2,dyer,William,Dyer,622,dyer,rad,7.8,622,DR-1,1927-02-10,622,dyer
3,dyer,William,Dyer,622,dyer,sal,0.09,622,DR-1,1927-02-10,622,dyer
4,pb,Frank,Pabodie,734,pb,rad,8.41,734,DR-3,1939-01-07,734,pb
5,pb,Frank,Pabodie,734,pb,temp,-21.5,734,DR-3,1939-01-07,734,pb
6,pb,Frank,Pabodie,735,pb,rad,7.22,735,DR-3,1930-01-12,735,pb
7,pb,Frank,Pabodie,751,pb,rad,4.35,751,DR-3,1930-02-26,751,pb
8,pb,Frank,Pabodie,751,pb,temp,-18.5,751,DR-3,1930-02-26,751,pb
9,lake,Anderson,Lake,734,lake,sal,0.05,734,DR-3,1939-01-07,734,lake


### merge메서드의 how 속성
 
merge 메서드의 how 속성을 사용하면 기준 데이터를 정할 수 있다.

- how='left' 지정하면 왼쪽 데이터프레임을 기준으로 통합하므로 오른쪽 데이터프레임에
  매칭되는 값이 없다면 NaN으로 결과가 출력된다.
- 분석을 위한 엑셀 데이터 읽어온다.

In [72]:
sample_1 = pd.read_excel('../data2/sample_1.xlsx', 
                         header=1,         #1번 header가져와라
                         skipfooter=2,     # footer는 2개 다 skip해라
                         usecols='A:C')    # columns A부터 C까지 가져와라
sample_1

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


In [73]:
code_master = pd.read_excel('../data2/sample_codemaster.xlsx')
code_master

Unnamed: 0,국적코드,국적명
0,A01,일본
1,A02,대만
2,A03,홍콩
3,A18,중국
4,A19,이란
5,A22,우즈베키스탄
6,A23,카자흐스탄
7,A99,아시아 기타


**merge 메서드에 how='left'를 사용하여 왼쪽 데이터를 기준으로 통합하기**

left와 right속성에 합치려는 dataframe들을 지정한다.

In [77]:
sample_1_left = pd.merge(left=sample_1, right=code_master,
                            how='left',     #how='left'를 표기해서 왼쪽 데이터(sample_1)가 기준이 된다.
                            left_on='국적코드',
                            right_on='국적코드') 
sample_1_left

Unnamed: 0,국적코드,성별,입국객수,국적명
0,A01,남성,106320,일본
1,A01,여성,191436,일본
2,A31,남성,319,
3,A31,여성,42,
4,A18,남성,158912,중국
5,A18,여성,232943,중국


**merge 메서드에 how='inner'를 사용하면 두 데이터의 일치하는 부분만 통합하기**

how='inner'는 기본값이으므로 생략해도 된다

In [78]:
sample_1_inner = pd.merge(left=sample_1, right=code_master,
                            how='inner',
                            left_on='국적코드',
                            right_on='국적코드')
sample_1_inner

Unnamed: 0,국적코드,성별,입국객수,국적명
0,A01,남성,106320,일본
1,A01,여성,191436,일본
2,A18,남성,158912,중국
3,A18,여성,232943,중국


### append 메서드 - 아래로 통합하기(행방향)


In [79]:
sample_1_code['기준년월'] = '2019-11'
sample_1_code

Unnamed: 0,국적코드,성별,입국객수,국적명,기준년월
0,A01,남성,106320,일본,2019-11
1,A01,여성,191436,일본,2019-11
2,A31,남성,319,,2019-11
3,A31,여성,42,,2019-11
4,A18,남성,158912,중국,2019-11
5,A18,여성,232943,중국,2019-11


In [84]:
sample_2 = pd.read_excel('../data2/sample_2.xlsx',
                        header=1,
                        skipfooter=2,
                        usecols='A:C')
sample_2

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,92556
1,A01,여성,163737
2,A18,남성,155540
3,A18,여성,249023


In [85]:
sample_2['기준년월']='2019-12'

In [86]:
sample_2_code = pd.merge(left=sample_2,
                            right=code_master,
                            how='left',
                            left_on='국적코드',
                            right_on='국적코드')
sample_2_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,92556,2019-12,일본
1,A01,여성,163737,2019-12,일본
2,A18,남성,155540,2019-12,중국
3,A18,여성,249023,2019-12,중국


**열이 같은 경우, 아래로(행방향 으로) 통합할 수 있다**

gnore_index = True 인덱스값을 다시 새롭게 설정한다.

In [87]:
sample = sample_1_code.append(sample_2_code, ignore_index=True)
sample

Unnamed: 0,국적코드,성별,입국객수,국적명,기준년월
0,A01,남성,106320,일본,2019-11
1,A01,여성,191436,일본,2019-11
2,A31,남성,319,,2019-11
3,A31,여성,42,,2019-11
4,A18,남성,158912,중국,2019-11
5,A18,여성,232943,중국,2019-11
6,A01,남성,92556,일본,2019-12
7,A01,여성,163737,일본,2019-12
8,A18,남성,155540,중국,2019-12
9,A18,여성,249023,중국,2019-12


### 새로 만든 dataframe을 excel파일에 저장

index속성에 True/False 지정해서 인덱스번호를 포함할지 제어한다.

In [88]:
sample.to_excel('../data2/sample.xlsx', index=False) #인덱스번호는 제외하고 저장