## 데이터 연결하기

#### 깔끔한 데이터의 조건
- 데이터 분석 목적에 맞는 데이터를 모아 새로운 표를 만들어야 한다.
- 측정한 값은 행을 구성해야 한다.
- 변수는 열로 구성해야한다.

In [1]:
#### concat 메서드로 데이터 연결하기
import pandas as pd

df1 = pd.read_csv('data/concat_1.csv')
df2 = pd.read_csv('data/concat_2.csv')
df3 = pd.read_csv('data/concat_3.csv')

In [2]:
# concat 메서드는 데이터프레임을 연결할 때 위에서 아래 방향으로 연결한다.
row_concat = pd.concat([df1, df2, df3])
print(row_concat)

     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


In [5]:
# 행 데이터 추출
print(row_concat.iloc[3])

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object


In [7]:
# 데이터프레임에 시리즈 연결하기
new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])
new_row_series

0    n1
1    n2
2    n3
3    n4
dtype: object

In [8]:
# 데이터프레임과 시리즈를 연결하면 행이 아니라 열로 추가됨
# 시리즈에는 열이름이 없기 때문에 새로운 열로 간주하여 0이라는 이름의 열을 추가
print(pd.concat([df1, new_row_series]))

     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4


In [9]:
# 행 1개로 구성된 데이터프레임 생성하여 연결하기
new_row_df = pd.DataFrame([['n1', 'n2', 'n3','n4']], columns=['A','B','C','D'])
print(new_row_df)

    A   B   C   D
0  n1  n2  n3  n4


In [13]:
# 연결할 데이터프레임이 1개라면 append 메서드를 사용해도됨
print(df1.append(new_row_df,ignore_index=True))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  n1  n2  n3  n4


In [11]:
# append와 딕셔너리를 이용하여 데이터 연결
# ignore_index를 True로 설정하면 데이터를 연결한 다음 데이터프레임의 인덱스를 0부터 다시 지정
data_dict = {'A':'n1', 'B':'n2', 'C':'n3', 'D':'n4'}
print(df1.append(data_dict, ignore_index=True))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  n1  n2  n3  n4


In [17]:
# 열방향으로 데이터 연결하기
# axis = 1 (열방향 연결), axis = 0 (행방향 연결)
col_concat = pd.concat([df1, df2, df3], axis=1)
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


In [18]:
# 새로운 열 추가
col_concat['new_col'] = ['n1', 'n2', 'n3', 'n4']
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D new_col
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8      n1
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9      n2
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10      n3
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11      n4


In [19]:
# 열이름도 새롭게 정렬가능
print(pd.concat([df1, df2, df3], axis=1, ignore_index=True))

   0   1   2   3   4   5   6   7    8    9    10   11
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


In [20]:
# 열이름 다시 지정
df1.columns=['A','B','C','D']
df2.columns=['E','F','G','H']
df3.columns=['A','C','F','H']

In [22]:
# 데이터프레임에 없는 열 이름의 데이터는 누락값으로 처리
row_concat = pd.concat([df1,df2,df3])
print(row_concat)

     A    B    C    D    E    F    G    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN
0  NaN  NaN  NaN  NaN   a4   b4   c4   d4
1  NaN  NaN  NaN  NaN   a5   b5   c5   d5
2  NaN  NaN  NaN  NaN   a6   b6   c6   d6
3  NaN  NaN  NaN  NaN   a7   b7   c7   d7
0   a8  NaN   b8  NaN  NaN   c8  NaN   d8
1   a9  NaN   b9  NaN  NaN   c9  NaN   d9
2  a10  NaN  b10  NaN  NaN  c10  NaN  d10
3  a11  NaN  b11  NaN  NaN  c11  NaN  d11


In [23]:
# 공통된열만 골라 연결하여 누락값 제거
# 공통열만 연결하려면 join 인자를 inner로 지정
print(pd.concat([df1,df3], ignore_index=False, join='inner'))

     A    C
0   a0   c0
1   a1   c1
2   a2   c2
3   a3   c3
0   a8   b8
1   a9   b9
2  a10  b10
3  a11  b11


### 내부조인과 외부조인
- 내부조인 : 둘 이상의 데이터프레임에서 조건에 맞는 행을 연결하는 것
- 외부조인 : 두 데이터프레임 중 어떤 데이터프레임을 기준으로 할 것인지에 따라 왼쪽, 오른쪽, 완전으로 나뉨
    - 왼쪽 : 왼쪽 데이터프레임을 모두 포함하여 연결
    - 오른쪽 : 오른쪽 데이터프레임을 모두 포함하여 연결
    - 완전 : 왼쪽, 오른쪽 모두 포함하여 연결
    

In [33]:
### merge 메서드 사용하기
person = pd.read_csv('data/survey_person.csv')
site = pd.read_csv('data/survey_site.csv')
survey = pd.read_csv('data/survey_survey.csv')
visited = pd.read_csv('data/survey_visited.csv')
print(site)

    name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40


In [28]:
# visited 데이터 일부 추출
visited_subset = visited.loc[[0,2,6],]
print(visited_subset)

   ident   site       dated
0    619   DR-1  1927-02-08
2    734   DR-3  1939-01-07
6    837  MSK-4  1932-01-14


In [31]:
# site를 중심으로 visited
o2o_merge = site.merge(visited_subset, left_on='name', right_on='site')
print(o2o_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
2  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


In [38]:
o2o_merge = site.merge(visited, left_on='name', right_on='site')
print(o2o_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-1 -49.85 -128.57    622   DR-1  1927-02-10
2   DR-1 -49.85 -128.57    844   DR-1  1932-03-22
3   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
4   DR-3 -47.15 -126.72    735   DR-3  1930-01-12
5   DR-3 -47.15 -126.72    751   DR-3  1930-02-26
6   DR-3 -47.15 -126.72    752   DR-3         NaN
7  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


In [43]:
print(person)
print(survey)

      ident   personal    family
0      dyer    William      Dyer
1        pb      Frank   Pabodie
2      lake   Anderson      Lake
3       roe  Valentina   Roerich
4  danforth      Frank  Danforth
    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


In [48]:
# 다른 데이터 연결해보기
# 열이름은 다르지만 행의 데이터는 같아야 병합가능
ps = person.merge(survey, left_on='ident', right_on='person')
vs = visited.merge(survey, left_on='ident', right_on='taken')
print(ps)
print(vs)

   ident   personal   family  taken person quant  reading
0   dyer    William     Dyer    619   dyer   rad     9.82
1   dyer    William     Dyer    619   dyer   sal     0.13
2   dyer    William     Dyer    622   dyer   rad     7.80
3   dyer    William     Dyer    622   dyer   sal     0.09
4     pb      Frank  Pabodie    734     pb   rad     8.41
5     pb      Frank  Pabodie    734     pb  temp   -21.50
6     pb      Frank  Pabodie    735     pb   rad     7.22
7     pb      Frank  Pabodie    751     pb   rad     4.35
8     pb      Frank  Pabodie    751     pb  temp   -18.50
9   lake   Anderson     Lake    734   lake   sal     0.05
10  lake   Anderson     Lake    751   lake   sal     0.10
11  lake   Anderson     Lake    752   lake   rad     2.19
12  lake   Anderson     Lake    752   lake   sal     0.09
13  lake   Anderson     Lake    752   lake  temp   -16.00
14  lake   Anderson     Lake    837   lake   rad     1.46
15  lake   Anderson     Lake    837   lake   sal     0.21
16   roe  Vale

In [53]:
# left_on, right_on에 전달하는 값은 여러개라도 상관없음
ps_vs = ps.merge(vs, left_on=['ident','quant','taken'], right_on=['person','quant','ident'])
print(ps_vs)

   ident_x   personal   family  taken_x person_x quant  reading_x  ident_y  \
0     dyer    William     Dyer      619     dyer   rad       9.82      619   
1     dyer    William     Dyer      619     dyer   sal       0.13      619   
2     dyer    William     Dyer      622     dyer   rad       7.80      622   
3     dyer    William     Dyer      622     dyer   sal       0.09      622   
4       pb      Frank  Pabodie      734       pb   rad       8.41      734   
5       pb      Frank  Pabodie      734       pb  temp     -21.50      734   
6       pb      Frank  Pabodie      735       pb   rad       7.22      735   
7       pb      Frank  Pabodie      751       pb   rad       4.35      751   
8       pb      Frank  Pabodie      751       pb  temp     -18.50      751   
9     lake   Anderson     Lake      734     lake   sal       0.05      734   
10    lake   Anderson     Lake      751     lake   sal       0.10      751   
11    lake   Anderson     Lake      752     lake   rad       2.1

In [52]:
# 중복된 열을 _x(왼쪽), _y(오른쪽)으로 구분
print(ps_vs.loc[0,])

ident_x            dyer
personal        William
family             Dyer
taken_x             619
person_x           dyer
quant               rad
reading_x          9.82
ident_y             619
site               DR-1
dated        1927-02-08
taken_y             619
person_y           dyer
reading_y          9.82
Name: 0, dtype: object
