# 3. 데이터 join
여러 가지 데이터프레임을 연결하여, 깔끔한 데이터(Tidy Data)를 만드는 과정을 알아보자.  
먼저 임의의 데이터(df1, df2, df3)를 생성해보자.  
이는 1반, 2반, 3반 학생들 3명의 시험 성적 데이터이다.

In [1]:
import pandas as pd

In [2]:
# df1: 1반 학생들(3명)의 시험 성적 
a = [100, 66, 80, 97]
b = [26, 53, 45, 100]
c = [94, 100, 32, 43]
df1 = pd.DataFrame([a,b,c], columns = ['Korean', 'Math', 'English', 'Science'])
df1

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43


In [3]:
# df2: 2반 학생들(3명)의 시험 성적 
a = [88, 94, 21, 39]
b = [82, 79, 19, 87]
c = [20, 10, 92, 13]
df2 = pd.DataFrame([a,b,c], columns = ['Korean', 'Math', 'English', 'Science'])
df2

Unnamed: 0,Korean,Math,English,Science
0,88,94,21,39
1,82,79,19,87
2,20,10,92,13


In [4]:
# df3: 3반 학생들(3명)의 시험 성적 
a = [39, 18, 20, 72]
b = [47, 98, 50, 100]
c = [62, 79, 65, 81]
df3 = pd.DataFrame([a,b,c], columns = ['Korean', 'Math', 'English', 'Science'])
df3

Unnamed: 0,Korean,Math,English,Science
0,39,18,20,72
1,47,98,50,100
2,62,79,65,81


## 1. pd.concat
`pd.concat( [df1, df2, df3, ... ], axis = 0, ignore_index = False, join = 'outer') `  
- 반드시 df1, df2 등은 데이터프레임 형태로 넣어야 하며, 데이터프레임은 2개 이상 넣을 수 있음 
- concat 메서드의 디폴트는 outer join / axis = 0 (row-bind), axis = 1(column-bind)/ 인덱스 초기화 X
- **합집합 형태로 묶어야 할 때 사용하면 편리**
    - axis =0인 경우 그냥 행끼리 갖다붙이거나,
    - axis =1인 경우 그냥 열 옆에다 갖다붙일 때 사용하기 좋다.
    - 교집합을 구할 수도 있는데, 이 때 (axis=0)겹치는 열이 없거나 / (axis=1)겹치는 인덱스번호가 없으면 아무것도 뽑히지 않는다.

In [5]:
# 디폴트 -> row-bind로 붙여지는 게 기본형태
pd.concat([df1, df2, df3])

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43
0,88,94,21,39
1,82,79,19,87
2,20,10,92,13
0,39,18,20,72
1,47,98,50,100
2,62,79,65,81


In [6]:
# 축을 바꿔보면? -> col-bind로 붙여짐 (같은 인덱스 번호인 애들끼리)
pd.concat([df1, df2, df3], axis = 1)

Unnamed: 0,Korean,Math,English,Science,Korean.1,Math.1,English.1,Science.1,Korean.2,Math.2,English.2,Science.2
0,100,66,80,97,88,94,21,39,39,18,20,72
1,26,53,45,100,82,79,19,87,47,98,50,100
2,94,100,32,43,20,10,92,13,62,79,65,81


In [7]:
# 인덱스 번호 초기화 
pd.concat([df1, df2, df3], ignore_index = True)

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43
3,88,94,21,39
4,82,79,19,87
5,20,10,92,13
6,39,18,20,72
7,47,98,50,100
8,62,79,65,81


In [8]:
# 참고로, col-bind로 붙여졌을 때도 인덱스 번호를 초기화할 수 있다
pd.concat([df1, df2, df3], axis = 1, ignore_index = True)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,100,66,80,97,88,94,21,39,39,18,20,72
1,26,53,45,100,82,79,19,87,47,98,50,100
2,94,100,32,43,20,10,92,13,62,79,65,81


In [9]:
# 디폴트는 outer join으로 겹치는 값 상관없이 모두 join함.
# 겹치는 값만 뽑아보면 -> 열 이름이 같으므로 전부 뽑힌다!! 
pd.concat([df1, df2, df3], join = 'inner')

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43
0,88,94,21,39
1,82,79,19,87
2,20,10,92,13
0,39,18,20,72
1,47,98,50,100
2,62,79,65,81


In [10]:
# (위에 이어서) 열 이름을 중복이 있는것과 없는걸로 바꿔서 조인해보자 
df1.columns = ['A', 'B', 'C', 'D']
df2.columns = ['A', 'E', 'F', 'D']
pd.concat([df1, df2], join = 'inner')

Unnamed: 0,A,D
0,100,97
1,26,100
2,94,43
0,88,39
1,82,87
2,20,13


In [11]:
# 디폴트 
## 이렇게 공통열이 아닌 부분은 NaN이 뜬다
pd.concat([df1, df2], join = 'outer')

Unnamed: 0,A,B,C,D,E,F
0,100,66.0,80.0,97,,
1,26,53.0,45.0,100,,
2,94,100.0,32.0,43,,
0,88,,,39,94.0,21.0
1,82,,,87,79.0,19.0
2,20,,,13,10.0,92.0


In [12]:
## 마찬가지로 col-bind로 붙일 때에도 인덱스 번호를 바꿔버리면?!
df1.columns =['Korean', 'Math', 'English', 'Science']
df2.columns =['Korean', 'Math', 'English', 'Science']
display(df1, df2, df3)

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43


Unnamed: 0,Korean,Math,English,Science
0,88,94,21,39
1,82,79,19,87
2,20,10,92,13


Unnamed: 0,Korean,Math,English,Science
0,39,18,20,72
1,47,98,50,100
2,62,79,65,81


In [13]:
# 전부 0,1,2로 인덱스 번호가 되어있다. 얘를 마음대로 바꿔보면
df2.index = [2,3,4]
df3.index = [0,4,7]
display(df1, df2, df3)

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43


Unnamed: 0,Korean,Math,English,Science
2,88,94,21,39
3,82,79,19,87
4,20,10,92,13


Unnamed: 0,Korean,Math,English,Science
0,39,18,20,72
4,47,98,50,100
7,62,79,65,81


In [14]:
# axis = 1로 붙여보자
pd.concat([df1, df2, df3], axis = 1)

Unnamed: 0,Korean,Math,English,Science,Korean.1,Math.1,English.1,Science.1,Korean.2,Math.2,English.2,Science.2
0,100.0,66.0,80.0,97.0,,,,,39.0,18.0,20.0,72.0
1,26.0,53.0,45.0,100.0,,,,,,,,
2,94.0,100.0,32.0,43.0,88.0,94.0,21.0,39.0,,,,
3,,,,,82.0,79.0,19.0,87.0,,,,
4,,,,,20.0,10.0,92.0,13.0,47.0,98.0,50.0,100.0
7,,,,,,,,,62.0,79.0,65.0,81.0


이렇게 같은 인덱스 번호인 애들끼리만 붙여진다!

### pd.concat의 또다른 기능
#### 1) 인덱싱

In [15]:
df2.index = [0, 1, 2]
df3.index = [0, 1, 2]
new_df = pd.concat([df1, df2, df3])
new_df

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43
0,88,94,21,39
1,82,79,19,87
2,20,10,92,13
0,39,18,20,72
1,47,98,50,100
2,62,79,65,81


In [16]:
# 행 값이 1인 것만 추출 (인덱스가 1인 값 모두)
new_df.loc[1,]

Unnamed: 0,Korean,Math,English,Science
1,26,53,45,100
1,82,79,19,87
1,47,98,50,100


In [17]:
# 이번에는 딱 1행만 추출
new_df.iloc[1, ]

Korean      26
Math        53
English     45
Science    100
Name: 1, dtype: int64

#### 2) 새로운 데이터 추가 
깜빡하고 학생 1명의 성적을 누락해서 넣어주려고 한다.

In [18]:
df4 = pd.Series([47, 92, 88, 76])

#이 상태에서 그냥 concat 시키면?
pd.concat([new_df, df4])

Unnamed: 0,0,English,Korean,Math,Science
0,,80.0,100.0,66.0,97.0
1,,45.0,26.0,53.0,100.0
2,,32.0,94.0,100.0,43.0
0,,21.0,88.0,94.0,39.0
1,,19.0,82.0,79.0,87.0
2,,92.0,20.0,10.0,13.0
0,,20.0,39.0,18.0,72.0
1,,50.0,47.0,98.0,100.0
2,,65.0,62.0,79.0,81.0
0,47.0,,,,


df4에서는 new_df와 동일한 컬럼명이 없기 때문에 맨 밑 행으로 바로 붙여지지 않는다.  
그래서 따로 열 '0' 을 생성하고 거기에 붙여지게 됨

In [19]:
# 이런 경우, df4에도 컬럼명을 써주면 해결!
## 컬럼이 여러개이면 Series가 아닌 Dataframe이므로 바꿔준다 
df4 = pd.DataFrame([[47, 92, 88, 76]], columns = ['Korean', 'Math', 'English', 'Science'])
pd.concat([new_df, df4])

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43
0,88,94,21,39
1,82,79,19,87
2,20,10,92,13
0,39,18,20,72
1,47,98,50,100
2,62,79,65,81
0,47,92,88,76


In [20]:
df4

Unnamed: 0,Korean,Math,English,Science
0,47,92,88,76


사실 df4처럼 행이 1개인 경우엔 그냥 데이터프레임끼리 append하면 추가된다.

In [21]:
new_df.append(df4)

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43
0,88,94,21,39
1,82,79,19,87
2,20,10,92,13
0,39,18,20,72
1,47,98,50,100
2,62,79,65,81
0,47,92,88,76


혹은 데이터프레임이 아니라 딕셔너리 형태로 만들어 append해도 된다.

In [22]:
dict4 = dict({'Korean': 47, 'Math': 92, 'English': 88, 'Science': 76})
# 하지만, 딕셔너리 형태로 append하는 경우엔 ignore_index=True를 꼭 써주어야 한다!
new_df.append(dict4, ignore_index = True)

Unnamed: 0,Korean,Math,English,Science
0,100,66,80,97
1,26,53,45,100
2,94,100,32,43
3,88,94,21,39
4,82,79,19,87
5,20,10,92,13
6,39,18,20,72
7,47,98,50,100
8,62,79,65,81
9,47,92,88,76


## 2. pd.merge
### df1, df2의 열 이름이 모두 동일한 경우 
`pd.merge(df1, df2, on = '공통열', how = 'inner')`  
### df1, df2의 열이 의미하는 것은 같은데 이름이 다른 경우
`df1.merge(df2, left_on = 'df1의 공통컬럼명', right_on = 'df2의 공통컬럼명', how = 'inner)`  
- merge는 디폴트로 inner join을 실행 
- how 옵션: left, right, inner, outer
- **merge는 특정 "공통열"을 기준으로, 나머지 열까지 조인하고 싶을 때 편리하다!**

In [23]:
# 여기서는 데이터를 다운받아 사용한다 (데이터는 깃허브에 있다)
person = pd.read_csv('survey_person.csv') #관측한 사람의 이름
site = pd.read_csv('survey_site.csv') #관측한 위치
survey = pd.read_csv('survey_survey.csv') #날씨 정보
visited = pd.read_csv('survey_visited.csv') #관측한 날짜

display(person.head(3), site, survey.head(3), visited.head(3))

Unnamed: 0,ident,personal,family
0,dyer,William,Dyer
1,pb,Frank,Pabodie
2,lake,Anderson,Lake


Unnamed: 0,name,lat,long
0,DR-1,-49.85,-128.57
1,DR-3,-47.15,-126.72
2,MSK-4,-48.87,-123.4


Unnamed: 0,taken,person,quant,reading
0,619,dyer,rad,9.82
1,619,dyer,sal,0.13
2,622,dyer,rad,7.8


Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07


#### Q1. person과 survey를 연결하자.
둘의 공통열이 다르다. person 데이터에선 'ident'인데, survey 데이터에선 이 열이 'person' 이라는 이름이다.  
이때 이 하나의 공통열을 기준으로 나머지 열도 모두 조인하고 싶을때 merge를 사용

In [24]:
#디폴트 
person.merge(survey, left_on = 'ident', right_on = 'person')

Unnamed: 0,ident,personal,family,taken,person,quant,reading
0,dyer,William,Dyer,619,dyer,rad,9.82
1,dyer,William,Dyer,619,dyer,sal,0.13
2,dyer,William,Dyer,622,dyer,rad,7.8
3,dyer,William,Dyer,622,dyer,sal,0.09
4,pb,Frank,Pabodie,734,pb,rad,8.41
5,pb,Frank,Pabodie,734,pb,temp,-21.5
6,pb,Frank,Pabodie,735,pb,rad,7.22
7,pb,Frank,Pabodie,751,pb,rad,4.35
8,pb,Frank,Pabodie,751,pb,temp,-18.5
9,lake,Anderson,Lake,734,lake,sal,0.05


ident 열과 person 열의 내용이 완전히 같다. 디폴트가 inner(교집합)이기 때문이다.  
하지만 person 데이터에선 없는 내용이 survey 데이터에선 있으면 어떻게 할까?  
아님 survey 데이터에선 없는 내용이 person 데이터에서 있으면??  
-> `how = outer`(합집합)으로 연결해보자.

In [25]:
# 합집합
person.merge(survey, left_on = 'ident', right_on = 'person', how = 'outer')

Unnamed: 0,ident,personal,family,taken,person,quant,reading
0,dyer,William,Dyer,619.0,dyer,rad,9.82
1,dyer,William,Dyer,619.0,dyer,sal,0.13
2,dyer,William,Dyer,622.0,dyer,rad,7.8
3,dyer,William,Dyer,622.0,dyer,sal,0.09
4,pb,Frank,Pabodie,734.0,pb,rad,8.41
5,pb,Frank,Pabodie,734.0,pb,temp,-21.5
6,pb,Frank,Pabodie,735.0,pb,rad,7.22
7,pb,Frank,Pabodie,751.0,pb,rad,4.35
8,pb,Frank,Pabodie,751.0,pb,temp,-18.5
9,lake,Anderson,Lake,734.0,lake,sal,0.05


**19번 행**을 보면, survey 데이터 값이 NaN이다. -> 즉 person 데이터에선 있는데 survey 데이터에선 없음  
**20,21번 행**을 보면 person 데이터 값이 NaN이다. -> 즉 survey엔 있는데 person 데이터에선 없음.(참고로 얘네는 아예 ident이름으로 지정된 값이 없다.)  
--> 기준이 되는 데이터를 'person'으로 하고자 할 때, 즉 person 데이터 값은 전부 나오고 싶고, 얘랑 겹치는 survey 값만 뽑고 싶다면? 이렇게 써보자

In [26]:
# left join
person.merge(survey, left_on = 'ident', right_on = 'person', how = 'left')

Unnamed: 0,ident,personal,family,taken,person,quant,reading
0,dyer,William,Dyer,619.0,dyer,rad,9.82
1,dyer,William,Dyer,619.0,dyer,sal,0.13
2,dyer,William,Dyer,622.0,dyer,rad,7.8
3,dyer,William,Dyer,622.0,dyer,sal,0.09
4,pb,Frank,Pabodie,734.0,pb,rad,8.41
5,pb,Frank,Pabodie,734.0,pb,temp,-21.5
6,pb,Frank,Pabodie,735.0,pb,rad,7.22
7,pb,Frank,Pabodie,751.0,pb,rad,4.35
8,pb,Frank,Pabodie,751.0,pb,temp,-18.5
9,lake,Anderson,Lake,734.0,lake,sal,0.05


이렇게 **19번 행**만 살아남았다.  
반대로 survey 데이터만 전부 나오고 싶고, 얘랑 겹치는 person만 나오고 싶다면?

In [27]:
# right join (8,9번 행만 살아남음)
person.merge(survey, left_on = 'ident', right_on = 'person', how = 'right')

Unnamed: 0,ident,personal,family,taken,person,quant,reading
0,dyer,William,Dyer,619,dyer,rad,9.82
1,dyer,William,Dyer,619,dyer,sal,0.13
2,dyer,William,Dyer,622,dyer,rad,7.8
3,dyer,William,Dyer,622,dyer,sal,0.09
4,pb,Frank,Pabodie,734,pb,rad,8.41
5,lake,Anderson,Lake,734,lake,sal,0.05
6,pb,Frank,Pabodie,734,pb,temp,-21.5
7,pb,Frank,Pabodie,735,pb,rad,7.22
8,,,,735,,sal,0.06
9,,,,735,,temp,-26.0


#### Q2. site와 visited를 연결하자.
마찬가지로 두개의 공통열 이름이 다르다. site에서는 'name' 이지만, visited에서는 'site'이다.  
pd.merge를 활용해 연결해보면!

In [28]:
site.merge(visited, left_on = 'name', right_on = 'site')

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [29]:
# site, visited 데이터셋은 한쪽 데이터에만 존재하는 값이 없다. 그래서 outer join 해도 결과 동일  
site.merge(visited, left_on = 'name', right_on = 'site', how = 'outer')

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


#### Q3. ps와 vs 데이터셋을 연결하자.
여기서 주의할 점은 ps, vs 데이터가 공통열이 많다는 점이다.  
`left_on`, `right_on` 옵션에는 여러 가지 열이 들어가도 된다!

In [30]:
ps = person.merge(survey, left_on = 'ident', right_on = 'person')
# ps의 중복되는 열 삭제
del ps['person']
vs = visited.merge(survey, left_on = 'ident', right_on = 'taken')
# vs의 중복되는 열 삭제
del vs['taken']

display(ps.head(3), vs.head(3))

Unnamed: 0,ident,personal,family,taken,quant,reading
0,dyer,William,Dyer,619,rad,9.82
1,dyer,William,Dyer,619,sal,0.13
2,dyer,William,Dyer,622,rad,7.8


Unnamed: 0,ident,site,dated,person,quant,reading
0,619,DR-1,1927-02-08,dyer,rad,9.82
1,619,DR-1,1927-02-08,dyer,sal,0.13
2,622,DR-1,1927-02-10,dyer,rad,7.8


In [31]:
ps.merge(vs, left_on = ['ident', 'taken', 'quant', 'reading'],
                        right_on = ['person', 'ident', 'quant', 'reading'])

Unnamed: 0,ident_x,personal,family,taken,quant,reading,ident_y,site,dated,person
0,dyer,William,Dyer,619,rad,9.82,619,DR-1,1927-02-08,dyer
1,dyer,William,Dyer,619,sal,0.13,619,DR-1,1927-02-08,dyer
2,dyer,William,Dyer,622,rad,7.8,622,DR-1,1927-02-10,dyer
3,dyer,William,Dyer,622,sal,0.09,622,DR-1,1927-02-10,dyer
4,pb,Frank,Pabodie,734,rad,8.41,734,DR-3,1939-01-07,pb
5,pb,Frank,Pabodie,734,temp,-21.5,734,DR-3,1939-01-07,pb
6,pb,Frank,Pabodie,735,rad,7.22,735,DR-3,1930-01-12,pb
7,pb,Frank,Pabodie,751,rad,4.35,751,DR-3,1930-02-26,pb
8,pb,Frank,Pabodie,751,temp,-18.5,751,DR-3,1930-02-26,pb
9,lake,Anderson,Lake,734,sal,0.05,734,DR-3,1939-01-07,lake


공통되는 열이지만 열이름이 다른 것들끼리 묶여 잘 나왔다.  
그리고 새롭게 만들어진 데이터셋에서 서로 다른 열이지만 열 이름이 같은 'ident'는 뒤에 x, y가 자동으로 붙는다! 