# 데이터 연결하기
- 분석하기 좋은 상태의 데이터로 만들기 위해 데이터 집합을 연결하거나 추출하여 데이터 정리

# 05-1 분석하기 좋은 데이터

#### [깔끔한 데이터의 조건]
1. 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들어야 함
2. 측정한 값은 행(row)을 구성해야 함
3. 변수는 열(column)을 구성해야 함

# 05-2 데이터 연결 기초

### concat 메서드로 데이터 연결하기

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [3]:
df1 = pd.read_csv('./data/concat_1.csv')
df2 = pd.read_csv('./data/concat_2.csv')
df3 = pd.read_csv('./data/concat_3.csv')

In [4]:
row_concat = pd.concat([df1, df2, df3])
row_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


▶ concat1, 2, 3 데이터는 컬럼이 모두 A,B,C,D로 동일.

In [5]:
#연결한 데이터프레임에서 특정 행 데이터 추출하기

row_concat.iloc[3, ] #네번째 행 추출

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object

In [9]:
#데이터프레임에 시리즈 연결하기

new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])
pd.concat([df1, new_row_series])

Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,
1,a1,b1,c1,d1,
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
0,,,,,n1
1,,,,,n2
2,,,,,n3
3,,,,,n4


▶ 시리즈는 새로운 '행'이 아니라 새로운 '열'이 추가됨. (시리즈는 열 이름이 없기 때문)

In [8]:
#1개의 행으로 이루어진 데이터프레임 생성하여 연결하기

new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A', 'B', 'C', 'D'])
pd.concat([df1, new_row_df])

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


### 연결할 데이터프레임이 1개라면 append() 사용 가능

In [10]:
df1.append(new_row_df)

  df1.append(new_row_df)


Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


In [12]:
dic = {'A':'d1', 'B':'d2', 'C':'d3', 'D':'d4'}
df1.append(dic, ignore_index=True) #ignore_index=True : 인덱스 다시 지정

  df1.append(dic, ignore_index=True) #ignore_index=True : 인덱스 다시 지정


Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,d1,d2,d3,d4


In [13]:
#인덱스 다시 지정하기: ignore_index=True

row_concat_reIdx = pd.concat([df1, df2, df3], ignore_index=True)
row_concat_reIdx

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


In [14]:
#컬럼 방향으로 데이터 연결하기: axis=1

col_concat = pd.concat([df1, df2, df3], axis=1)
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [15]:
#해당 컬럼 이름을 가진 데이터 모두 추출

col_concat['A']

Unnamed: 0,A,A.1,A.2
0,a0,a4,a8
1,a1,a5,a9
2,a2,a6,a10
3,a3,a7,a11


In [16]:
# 새로운 컬럼 추가하기

col_concat['new'] = ['n1', 'n2', 'n3', 'n4']
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,n1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,n2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,n3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,n4


In [17]:
#컬럼 방향으로 데이터 연결 후 인덱스 다시 지정

col_concat = pd.concat([df1, df2, df3], axis=1, ignore_index=True)
col_concat

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [18]:
#공통 컬럼과 공통 로우만 연결하기


#기존 컬럼 변경하기
df1.columns = ['A', 'B', 'C', 'D']
df2.columns = ['E', 'F', 'G', 'H']
df3.columns = ['A', 'C', 'F', 'H']

row_concat = pd.concat([df1, df2, df3])
row_concat

Unnamed: 0,A,B,C,D,E,F,G,H
0,a0,b0,c0,d0,,,,
1,a1,b1,c1,d1,,,,
2,a2,b2,c2,d2,,,,
3,a3,b3,c3,d3,,,,
0,,,,,a4,b4,c4,d4
1,,,,,a5,b5,c5,d5
2,,,,,a6,b6,c6,d6
3,,,,,a7,b7,c7,d7
0,a8,,b8,,,c8,,d8
1,a9,,b9,,,c9,,d9


▶ 컬럼 이름이 재정렬되며 연결됨. 누락값 발생

In [19]:
# 누락값이 발생하지 않도록 하기 위해 공통 컬럼 연결하기

pd.concat([df1, df2, df3], join='inner')

0
1
2
3
0
1
2
3
0
1
2


▶ 공통 컬럼 없음

In [20]:
#df1과 df3만 공통 컬럼 연결하기

pd.concat([df1, df3], join='inner')

Unnamed: 0,A,C
0,a0,c0
1,a1,c1
2,a2,c2
3,a3,c3
0,a8,b8
1,a9,b9
2,a10,b10
3,a11,b11


In [21]:
#로우 방향으로 데이터 연결하기

#로우 인덱스 재설정
df1.index = [0, 1, 2, 3]
df2.index = [4, 5, 6, 7]
df3.index = [0, 2, 5, 7]

col_concat = pd.concat([df1, df2, df3], axis=1)
col_concat

Unnamed: 0,A,B,C,D,E,F,G,H,A.1,C.1,F.1,H.1
0,a0,b0,c0,d0,,,,,a8,b8,c8,d8
1,a1,b1,c1,d1,,,,,,,,
2,a2,b2,c2,d2,,,,,a9,b9,c9,d9
3,a3,b3,c3,d3,,,,,,,,
4,,,,,a4,b4,c4,d4,,,,
5,,,,,a5,b5,c5,d5,a10,b10,c10,d10
6,,,,,a6,b6,c6,d6,,,,
7,,,,,a7,b7,c7,d7,a11,b11,c11,d11


▶ 로우 인덱스가 재정렬되며 연결됨. 누락값 발생

In [22]:
#df1, df3 공통 로우만 연결하기

pd.concat([df1, df3], join='inner', axis=1)

Unnamed: 0,A,B,C,D,A.1,C.1,F,H
0,a0,b0,c0,d0,a8,b8,c8,d8
2,a2,b2,c2,d2,a9,b9,c9,d9


# 05-3 데이터 연결 마무리

## merge() 사용하기

In [23]:
person = pd.read_csv('./data/survey_person.csv')
site = pd.read_csv('./data/survey_site.csv')
survey = pd.read_csv('./data/survey_survey.csv')
visited = pd.read_csv('./data/survey_visited.csv')

In [24]:
#visited 데이터의 일부만 떼어오기

visited_subset = visited.loc[[0, 2, 6], ]

In [25]:
o2o_merge = site.merge(visited_subset, left_on='name', right_on='site')
o2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
2,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [26]:
m2o_merge = site.merge(visited, left_on='name', right_on='site')
m2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14
