<img src="http://image.yes24.com/goods/64625506/800x0" width="200" height="200"><br>
# Chapter 5 데이터 연결하기

이번에는 분석하기 좋은 데이터 집합을 만들기 위한 데이터 전처리를 알아보자.

## 5-1 분석하기 좋은 데이터 

### 분석하기 좋은 데이터란?
분석하기 좋은 데이터란 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것을 의미한다. 데이터 분석 단계에서 데이터 정리는 아주 중요한데, 실제로 데이터 분석 작업의 70%이상을 차지 하고 있는 작업이 데이터 천처리 이기 때문이다. 분석하기 좋은 데이터는 다음 조건을 만족해야 하며 이 조건을 만족하는 데이터를 Tidy Data라고 부른다.

#### 깔끔한 데이터의 조건

 - 데이터 분석 목적에 맞는 데이터를 모아 새로운 Table을 만든다.
 - 측정한 값은 row를 구성해야 한다. 
 - 변수는 열로 구성되어야 한다. 

## 5-2 데이터 연결 기초

### 데이터 연결하기

#### 1. concat 메서드로 데이터 연결하기
데이터를 연결하려면 concat 메서드를 사용하자.

In [3]:
import pandas as pd

df1 = pd.read_csv("data/concat_1.csv")
df2 = pd.read_csv("data/concat_2.csv")
df3 = pd.read_csv("data/concat_3.csv")

#### 2. 
concat 메서드를 연결하려는 데이터프레임을 리스트에 담아 전달하면 연결한 데이터 프레임을 반환 한다. concat 메서드는 데이터 프레임을 연결할때 위에서 아래 방향으로 연결한다.

In [4]:
row_concat = pd.concat([df1, df2, df3])
row_concat

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,a4,b4,c4,d4
1,a5,b5,c5,d5
2,a6,b6,c6,d6
3,a7,b7,c7,d7
0,a8,b8,c8,d8
1,a9,b9,c9,d9


#### 3. 
연결한 데이터프레임에서 행 데이터를 추출해보자. concat 메서드는 전달받은 리스트의 요소 순서대로 데이터를 연결한다. 그래서 기존 데이터프레임에 있던 인덱스도 그대로 유지가 된다. 다음은 데이터 프레임에서 네번째 행을 추출한 코드이다.

In [5]:
row_concat.iloc[3,]

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object

#### 4. 데이터프레임에 시리즈 연결하기

In [9]:
new_row_series = pd.Series(['n1','n2', 'n3', 'n4'])
new_row_series

0    n1
1    n2
2    n3
3    n4
dtype: object

#### 5. 
concat 메서드로 데이터프레임과 시리즈를 연결해보자. 

In [10]:
pd.concat([df1, new_row_series])

Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,
1,a1,b1,c1,d1,
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,
0,,,,,n1
1,,,,,n2
2,,,,,n3
3,,,,,n4


### 행이 1개라도 데이터프레임에 담아서 연결하자.

### 행 1개로 구성된 데이터프레임 생성하여 연결하기 

#### 1. 
시리즈는 행이 1개인 데이터프레임이라고 생각해도 된다. 다음은 1개의 행을 가지는 데이터프레임을 생성하여 df1에 연결한 코드이다.

In [12]:
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A','B','C','D'])
new_row_df

Unnamed: 0,A,B,C,D
0,n1,n2,n3,n4


#### 2. 
concat 메서드는 한 번에 2개 이상의 데이터프레임을 연결할 수 있는 메서드이다. 만약 연결할 데이터프레임이 1개라면 append 메서드를 사용해도 된다.

In [13]:
df1.append(new_row_df)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


#### 3. 
append 메서드와 딕셔너리를 사용하면 더욱 간편하게 행을 연결할 수 있다. 이때 ignore_index를 True로 설정하면 데이터를 연결한 다음 데이터프레임의 인덱스를 0부터 다시 시정한다. 

In [16]:
data_dict = {'A': 'n1', 'B': 'n2', 'C': 'n3', 'D': 'n4'}
df1.append(data_dict, ignore_index=True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


### 다양한 방법으로 데이터 연결하기

판다스는 데이터를 연결하는 다양한 방법을 제공한다. 다음 예제를 통해 데이터를 연결하는 다양한 방법에 대해 알아보자.

### 다양한 방덥으로 데이터 연결하기 

#### 1. ignore_index 인자 사용하기 
ignore_index를 True로 지정하면 데이터를 연결한 다음 데이터프레임의 인덱스를 0부터 다시 지정한다.

In [17]:
row_concat_i = pd.concat([df1, df2, df3], ignore_index=True)
row_concat_i

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


#### 2. 열 방향으로 데이터 연결하기

concat 메서드의 axis인자를 1로 지정하여 열방향으로 데이터를 연결 해보자.

In [18]:
col_concat = pd.concat([df1, df2, df3], axis=1)
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


#### 3. 
만약 같은 열 이름이 있는 데이터 프레임에서 열 이름으로 데이터를 추출하면 해당 열 이름의 데이터를 모두 추출한다.

In [19]:
col_concat['A']

Unnamed: 0,A,A.1,A.2
0,a0,a4,a8
1,a1,a5,a9
2,a2,a6,a10
3,a3,a7,a11


#### 4. 
다음과 같이 입력하면 간편하게 새로운 열을 추가할 수도 있다.

In [20]:
col_concat['new_col_list'] = ['n1', 'n2', 'n3', 'n4']
col_concat

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,new_col_list
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8,n1
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9,n2
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10,n3
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11,n4


#### 5. 
다음은 ignore_index를 True로 지정하여 열 이름을 다시 지정한 것이다. 이는 열 이름의 중복을 방지하기 위함이다.

In [21]:
col_concat = pd.concat([df1, df2, df3], axis=1, ignore_index=True)
col_concat

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


#### 6. 공통 열과 공통 인덱스만 연결하기 

In [22]:
df1.columns = ['A','B', 'C','D']
df2.columns = ['E','F', 'G','H']
df3.columns = ['A','C', 'F','H']

print(df1)
print(type(df1))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
<class 'pandas.core.frame.DataFrame'>


In [23]:
print(df2)
print(type(df2))

    E   F   G   H
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7
<class 'pandas.core.frame.DataFrame'>


In [24]:
print(df3)
print(type(df3))

     A    C    F    H
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11
<class 'pandas.core.frame.DataFrame'>


#### 7. 
새롭게 열 이름을 부여한 데이터프레임 3개를 concat 메서드로 연결해보자. 누락갑싱 생기는데 이를 방지 해보자.

#### 8. 
데이터프레임의 공통 열만 골라 연결하면 누락갑싱 생기지 않는다. 공통 열만 골라서 연결하려면 join 인자를 inner로 지정한다. 이 경우에는 공통된 열이 없기때문에 Empty 로 출력이 된다.

In [26]:
pd.concat([df1, df2, df3], join='inner')

0
1
2
3
0
1
2
3
0
1
2


#### 9. 
df1, df3의 공통 열만 연결해보자. A,C만 출력이 될것이다.

In [27]:
pd.concat([df1, df3], ignore_index=False, join='inner')

Unnamed: 0,A,C
0,a0,c0
1,a1,c1
2,a2,c2
3,a3,c3
0,a8,b8
1,a9,b9
2,a10,b10
3,a11,b11


#### 10. 
이번에는 데이터프레임을 행 방향으로 연결해보자. df1,df2, df3의 인덱스를 다시 지정하자.

In [28]:
df1.index = [0,1,2,3]
df2.index = [4,5,6,7]
df3.index = [0,2,5,7]

print(df1)
print(df2)
print(df3)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
    E   F   G   H
4  a4  b4  c4  d4
5  a5  b5  c5  d5
6  a6  b6  c6  d6
7  a7  b7  c7  d7
     A    C    F    H
0   a8   b8   c8   d8
2   a9   b9   c9   d9
5  a10  b10  c10  d10
7  a11  b11  c11  d11


#### 11. 
concat 메서드로 df1, df2, df3을 행 방향으로 견결 하면 누락값이 발생하게 된다.

In [29]:
col_concat = pd.concat([df1, df2, df3], axis=1)
col_concat

Unnamed: 0,A,B,C,D,E,F,G,H,A.1,C.1,F.1,H.1
0,a0,b0,c0,d0,,,,,a8,b8,c8,d8
1,a1,b1,c1,d1,,,,,,,,
2,a2,b2,c2,d2,,,,,a9,b9,c9,d9
3,a3,b3,c3,d3,,,,,,,,
4,,,,,a4,b4,c4,d4,,,,
5,,,,,a5,b5,c5,d5,a10,b10,c10,d10
6,,,,,a6,b6,c6,d6,,,,
7,,,,,a7,b7,c7,d7,a11,b11,c11,d11


#### 12. 
이번에는 df1, df3의 공통 행만 연결해보자. 

In [30]:
pd.concat([df1, df3], axis=1, join = 'inner')

Unnamed: 0,A,B,C,D,A.1,C.1,F,H
0,a0,b0,c0,d0,a8,b8,c8,d8
2,a2,b2,c2,d2,a9,b9,c9,d9


### 외부 조인과 내부 조인

 - 내부 조인(inner join)
 둘 이상의 데이터프레임에서 조건에 마즌 행을 연결
 - 외부 조인(outer join)
 외부 조인은 두 데이터프레임 중 어떤 데이터프레임을 기준으로 할 것인지에 왼쪽, 오른쪽, 완전 외부조인으로 나뉘게 된다.

## 5-3 데이터 연결 마무리

판다스는 데이터 연결 전용 메서드인 merge를 제공한다. merge 메서드의 사용방법을 알아보자. 

### merge 메서드 사용하기

#### 1. 
다음은 특정 위치의 날씨 정보에 필요한 데이터 집합을 모두 불러온 것이다. person은 관측한 사람의 이름, site는 관측 위치, visited는 관측 날짜, survey는 날씨 정보 이다.

In [31]:
person = pd.read_csv("data/survey_person.csv")
site = pd.read_csv("data/survey_site.csv")
survey = pd.read_csv("data/survey_survey.csv")
visited = pd.read_csv("data/survey_visited.csv")

In [32]:
person

Unnamed: 0,ident,personal,family
0,dyer,William,Dyer
1,pb,Frank,Pabodie
2,lake,Anderson,Lake
3,roe,Valentina,Roerich
4,danforth,Frank,Danforth


In [33]:
site

Unnamed: 0,name,lat,long
0,DR-1,-49.85,-128.57
1,DR-3,-47.15,-126.72
2,MSK-4,-48.87,-123.4


In [34]:
visited

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,
6,837,MSK-4,1932-01-14
7,844,DR-1,1932-03-22


In [35]:
survey

Unnamed: 0,taken,person,quant,reading
0,619,dyer,rad,9.82
1,619,dyer,sal,0.13
2,622,dyer,rad,7.8
3,622,dyer,sal,0.09
4,734,pb,rad,8.41
5,734,lake,sal,0.05
6,734,pb,temp,-21.5
7,735,pb,rad,7.22
8,735,,sal,0.06
9,735,,temp,-26.0


#### 2. 
visited 데이터프레임의 일부 데이터만 떼어 사용해보자.

In [37]:
visited_subset = visited.loc[[0,2,6],]
visited_subset

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
2,734,DR-3,1939-01-07
6,837,MSK-4,1932-01-14


#### 3. 
merge 메서드는 기본적으로 내부 조인을 실행하며 메서드를 사용한 데이터프레임의 왼족으로 지정하고 첫 번째 인잣값으로 지정한 데이터프레임을 오른쪽으로 지정한다. left_on, right_on인자는 갑싱 일치해야 할 왼쪽과 오른쪽 데이터프레임의 열을 지정한다. 즉, 왼쪽 데이터프레임의 열과 오른쪽 데이터프레임의 열갑싱 일치하게 됨녀 왼쪽 데이터 프레임을 기준으로 연결 한다.

In [38]:
o2o_merge = site.merge(visited_subset, left_on='name', right_on='site')
o2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
2,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


#### 4. 
다음은 site, visited 데이터프레임을 이용하여 데이터를 연결한 것이다.

In [39]:
m2o_merge = site.merge(visited, left_on='name', right_on='site')
m2o_merge

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


#### 5. 
다음은 person, survery 데이터프레임과 visited, survey 데이터프레임을 merge 메서드로 연결한 것이다.

In [41]:
ps = person.merge(survey, left_on = 'ident', right_on = 'person')
vs = visited.merge(survey, left_on = 'ident', right_on = 'taken')

ps

Unnamed: 0,ident,personal,family,taken,person,quant,reading
0,dyer,William,Dyer,619,dyer,rad,9.82
1,dyer,William,Dyer,619,dyer,sal,0.13
2,dyer,William,Dyer,622,dyer,rad,7.8
3,dyer,William,Dyer,622,dyer,sal,0.09
4,pb,Frank,Pabodie,734,pb,rad,8.41
5,pb,Frank,Pabodie,734,pb,temp,-21.5
6,pb,Frank,Pabodie,735,pb,rad,7.22
7,pb,Frank,Pabodie,751,pb,rad,4.35
8,pb,Frank,Pabodie,751,pb,temp,-18.5
9,lake,Anderson,Lake,734,lake,sal,0.05


In [42]:
vs

Unnamed: 0,ident,site,dated,taken,person,quant,reading
0,619,DR-1,1927-02-08,619,dyer,rad,9.82
1,619,DR-1,1927-02-08,619,dyer,sal,0.13
2,622,DR-1,1927-02-10,622,dyer,rad,7.8
3,622,DR-1,1927-02-10,622,dyer,sal,0.09
4,734,DR-3,1939-01-07,734,pb,rad,8.41
5,734,DR-3,1939-01-07,734,lake,sal,0.05
6,734,DR-3,1939-01-07,734,pb,temp,-21.5
7,735,DR-3,1930-01-12,735,pb,rad,7.22
8,735,DR-3,1930-01-12,735,,sal,0.06
9,735,DR-3,1930-01-12,735,,temp,-26.0


#### 6. 
left_on, right_on에 전달하는 값은 여러 개라도 상관이 없다. 다음과 같이 여러개의 열 이름을 리스트에 담아 전달 해도 된다. ps 데이터프레임의 ident, taken, quant, reading 열의 값과 vs 데이터프레임의 person, ident, quant, reading 열의 값을 이용하녀 ps와 vs데이터프레임을 서로 연결한 것이다.

In [44]:
ps_vs = ps.merge(vs, left_on=['ident', 'taken', 'quant', 'reading'], right_on = ['person', 'ident', 'quant', 'reading'])
ps_vs

Unnamed: 0,ident_x,personal,family,taken_x,person_x,quant,reading,ident_y,site,dated,taken_y,person_y
0,dyer,William,Dyer,619,dyer,rad,9.82,619,DR-1,1927-02-08,619,dyer
1,dyer,William,Dyer,619,dyer,sal,0.13,619,DR-1,1927-02-08,619,dyer
2,dyer,William,Dyer,622,dyer,rad,7.8,622,DR-1,1927-02-10,622,dyer
3,dyer,William,Dyer,622,dyer,sal,0.09,622,DR-1,1927-02-10,622,dyer
4,pb,Frank,Pabodie,734,pb,rad,8.41,734,DR-3,1939-01-07,734,pb
5,pb,Frank,Pabodie,734,pb,temp,-21.5,734,DR-3,1939-01-07,734,pb
6,pb,Frank,Pabodie,735,pb,rad,7.22,735,DR-3,1930-01-12,735,pb
7,pb,Frank,Pabodie,751,pb,rad,4.35,751,DR-3,1930-02-26,751,pb
8,pb,Frank,Pabodie,751,pb,temp,-18.5,751,DR-3,1930-02-26,751,pb
9,lake,Anderson,Lake,734,lake,sal,0.05,734,DR-3,1939-01-07,734,lake


#### 7. 
직전에 진행한 ps_vs 데이터프레임의 첫 번째 행을 살펴보면 양쪽 데이터 프레임에 중복된 열이름에 _x, _y가 추가되어 있는걸을 확인할 수 있다. _x는 왼쪽 데이터프레임의 열을, _y는 오른쪽 데이터프레임의 열을 의미한다.

In [45]:
print(ps_vs.loc[0,])

ident_x           dyer
personal       William
family            Dyer
taken_x            619
person_x          dyer
quant              rad
reading           9.82
ident_y            619
site              DR-1
dated       1927-02-08
taken_y            619
person_y          dyer
Name: 0, dtype: object
