# 5장. 데이터 연결하기(119쪽)
pandas 내장함수를 이용한 pandas 객체 data 합치기:
- pandas.merge는 하나 이상의 키를 기준으로 df의 row를 join과 유사한 방법으로 결합한다.(수평결합)
- pandas.concat은 하나의 축에 따라 객체를 이어붙인다.(수직결합)
- conbine_first 메소드는 두 객체를 포개어 한 객체에서 누락된 데이터를 다른 객체에 있는 값으로 채운다.

자세한 내용은 [pandas 문서](https://pandas.pydata.org/pandas-docs/stable/merging.html)를 참고하세요.

## 5.1 분석하기 좋은 데이터?
- 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들어야 한다. 
- 측정한 값은 행(row)을 구성해야 한다. 
- 변수는 열(column)로 구성하며, 각 열은 동질성을 가져야 한다.

보통 입수한(크롤링, 설문, 해킹 ...) 데이터는 날것(raw)이며, 이를 정재(cleansing, tydy)하여 좋은(structured) 데이터로 변환시키는 작업을 manipulation 이라하며, 전체 분석 작업의 70% 이상을 차지한다.

## 5.2 데이터 연결 기초
### 5.2.1. concat 메서드로 데이터 연결하기
concat은 2장에서 보았듯이, 동일한 열이름을 갖는 df들간의  **수직결합을 위한 함수**이다.
![](https://pandas.pydata.org/pandas-docs/stable/_images/merging_concat_basic.png)

기본적으로 어떤 타겟 대상(예 고객들)에 대해:
1. 서로 다른 대상으로 동일한 정보(변수들, 컬럼들)을 조사하고,
2. 이를 종적으로 취합하는 용도로 만들어졌다.

예를 들면:
1. 부서(A, B, C)가 서로 다른 고객군 (1 ~ 4, 5 ~ 8, 9 ~ 12)들에 대해 조사하여 
2. 동일한 변수명을 갖는 DataFrame(dfA, dfB, dfC)을 생성하고, 
3. 각 부서가 생성한 DataFrame들을 수직으로 결합(pandas.concat([dfA, dfB, dfC])하여,
4. 모든 고객(1 ~ 12)에 대한 DataFrame df를 생성하는데 사용한다.

In [1]:
import pandas as pd

df1 = pd.read_csv('../data/concat_1.csv') 
df2 = pd.read_csv('../data/concat_2.csv') 
df3 = pd.read_csv('../data/concat_3.csv')

In [2]:
row_concat = pd.concat([df1, df2, df3]) 
print(row_concat)

     A    B    C    D
0   a0   b0   c0   d0
1   a1   b1   c1   d1
2   a2   b2   c2   d2
3   a3   b3   c3   d3
0   a4   b4   c4   d4
1   a5   b5   c5   d5
2   a6   b6   c6   d6
3   a7   b7   c7   d7
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11


In [3]:
row_concat.loc[3, ]

Unnamed: 0,A,B,C,D
3,a3,b3,c3,d3
3,a7,b7,c7,d7
3,a11,b11,c11,d11


In [4]:
print(row_concat.iloc[3, ])

A    a3
B    b3
C    c3
D    d3
Name: 3, dtype: object


<font color="red">[Quiz]</font> row index는 보통 unique해야 한다. 이를 unique하도록 수정하여 concat하려면?

In [3]:
pd.concat([df1, df2, df3], ignore_index=True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6
7,a7,b7,c7,d7
8,a8,b8,c8,d8
9,a9,b9,c9,d9


### 5.2.2 데이터프레임에 시리즈 연결하기

In [5]:
new_row_series = pd.Series(['n1', 'n2', 'n3', 'n4'])
new_row_series

0    n1
1    n2
2    n3
3    n4
dtype: object

In [6]:
print(pd.concat([df1, new_row_series]))

     A    B    C    D    0
0   a0   b0   c0   d0  NaN
1   a1   b1   c1   d1  NaN
2   a2   b2   c2   d2  NaN
3   a3   b3   c3   d3  NaN
0  NaN  NaN  NaN  NaN   n1
1  NaN  NaN  NaN  NaN   n2
2  NaN  NaN  NaN  NaN   n3
3  NaN  NaN  NaN  NaN   n4


<font color="red">[Quiz]</font> NaN이 왜 생겼을까? 안 생기게 하려면?

수직결합을 하였고 따라서, 수직으로 연결되었다. 해결방법은:
1. 수평결합을 한다.
2. 수직결합을 하되, 열이름을 명시해준다.

In [8]:
pd.concat([df1, new_row_series], axis=1)

Unnamed: 0,A,B,C,D,0
0,a0,b0,c0,d0,n1
1,a1,b1,c1,d1,n2
2,a2,b2,c2,d2,n3
3,a3,b3,c3,d3,n4


In [9]:
new_row_series.name = 'F'
pd.merge(df1, new_row_series, left_index=True, right_index=True)

Unnamed: 0,A,B,C,D,F
0,a0,b0,c0,d0,n1
1,a1,b1,c1,d1,n2
2,a2,b2,c2,d2,n3
3,a3,b3,c3,d3,n4


In [16]:
new_row_copy = new_row_series.copy()
new_row_copy.index = df1.columns

pd.concat([df1, new_row_copy.to_frame().T], ignore_index=True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


### 5.2.3 행 1개로 구성된 데이터프레임 연결하기(121쪽)

In [12]:
new_row_df = pd.DataFrame([['n1', 'n2', 'n3', 'n4']], columns=['A', 'B', 'C', 'D']) 
new_row_df

Unnamed: 0,A,B,C,D
0,n1,n2,n3,n4


In [13]:
df1

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3


In [14]:
pd.concat([df1, new_row_df])

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


In [19]:
df1.append(new_row_df)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
0,n1,n2,n3,n4


In [20]:
data_dict = {'A': 'n1', 'B': 'n2', 'C': 'n3', 'D': 'n4'}
df1.append(data_dict, ignore_index=True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


In [23]:
data_list = [{'A': 'n1', 'B': 'n2', 'C': 'n3', 'D': 'n4'}]
df1.append(data_list, ignore_index=True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


In [24]:
df1.append(new_row_copy, ignore_index=True)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,n1,n2,n3,n4


### 5.2.4 다양한 방법으로 데이터 연결하기(122쪽)

#### 1) ignore_index 인자 사용하기

In [25]:
row_concat_i = pd.concat([df1, df2, df3], ignore_index=True) 
print(row_concat_i)

      A    B    C    D
0    a0   b0   c0   d0
1    a1   b1   c1   d1
2    a2   b2   c2   d2
3    a3   b3   c3   d3
4    a4   b4   c4   d4
5    a5   b5   c5   d5
6    a6   b6   c6   d6
7    a7   b7   c7   d7
8    a8   b8   c8   d8
9    a9   b9   c9   d9
10  a10  b10  c10  d10
11  a11  b11  c11  d11


#### 2) 열 방향으로 데이터 연결하기

In [26]:
col_concat = pd.concat([df1, df2, df3], axis=1) 
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11


In [27]:
print(col_concat['A'])

    A   A    A
0  a0  a4   a8
1  a1  a5   a9
2  a2  a6  a10
3  a3  a7  a11


In [24]:
col_concat['new_col_list'] = ['n1', 'n2', 'n3', 'n4'] 
print(col_concat)

    A   B   C   D   A   B   C   D    A    B    C    D new_col_list
0  a0  b0  c0  d0  a4  b4  c4  d4   a8   b8   c8   d8           n1
1  a1  b1  c1  d1  a5  b5  c5  d5   a9   b9   c9   d9           n2
2  a2  b2  c2  d2  a6  b6  c6  d6  a10  b10  c10  d10           n3
3  a3  b3  c3  d3  a7  b7  c7  d7  a11  b11  c11  d11           n4


index 여부에 따른 대입가능 여부를 확인해보자.

In [37]:
tmp = df1.copy()
tmp.index = list('abcd')
tmp

Unnamed: 0,A,B,C,D
a,a0,b0,c0,d0
b,a1,b1,c1,d1
c,a2,b2,c2,d2
d,a3,b3,c3,d3


Series인 경우, index가 있으므로 입력되지 않는다. 이때 values로 index가 없는 array를 대입하면 잘 처리가 된다.

In [42]:
tmp['new'] = pd.Series(['n1', 'n2', 'n3', 'n4']).values
tmp

Unnamed: 0,A,B,C,D,new
a,a0,b0,c0,d0,n1
b,a1,b1,c1,d1,n2
c,a2,b2,c2,d2,n3
d,a3,b3,c3,d3,n4


수평결합시, ignore_index=True로 설정하여, index가 아닌 columns를 rangeIndex로 초기화할 수 있다.

In [44]:
pd.concat([df1, df2, df3], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


<font color="red">[Quiz]</font> concat으로 df1, df2, df3를 수평결합하는데, 각 데이터프레임의 이름으로 계층적 column을 구축하라.

In [45]:
keys = ['df'+str(i) for i in range(1,4)]
hirachy = pd.concat([df1, df2, df3], axis=1, 
                    keys=keys, names=['dfname', 'colname'])
hirachy

dfname,df1,df1,df1,df1,df2,df2,df2,df2,df3,df3,df3,df3
colname,A,B,C,D,A,B,C,D,A,B,C,D
0,a0,b0,c0,d0,a4,b4,c4,d4,a8,b8,c8,d8
1,a1,b1,c1,d1,a5,b5,c5,d5,a9,b9,c9,d9
2,a2,b2,c2,d2,a6,b6,c6,d6,a10,b10,c10,d10
3,a3,b3,c3,d3,a7,b7,c7,d7,a11,b11,c11,d11


In [46]:
hirachy['df1']

colname,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3


In [48]:
hirachy['df1'][['A', 'B']]

colname,A,B
0,a0,b0
1,a1,b1
2,a2,b2
3,a3,b3


In [49]:
hirachy.df1.A

0    a0
1    a1
2    a2
3    a3
Name: A, dtype: object

In [50]:
hirachy.stack()

Unnamed: 0_level_0,dfname,df1,df2,df3
Unnamed: 0_level_1,colname,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,A,a0,a4,a8
0,B,b0,b4,b8
0,C,c0,c4,c8
0,D,d0,d4,d8
1,A,a1,a5,a9
1,B,b1,b5,b9
1,C,c1,c5,c9
1,D,d1,d5,d9
2,A,a2,a6,a10
2,B,b2,b6,b10


In [51]:
hirachy.stack(0)

Unnamed: 0_level_0,colname,A,B,C,D
Unnamed: 0_level_1,dfname,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,df1,a0,b0,c0,d0
0,df2,a4,b4,c4,d4
0,df3,a8,b8,c8,d8
1,df1,a1,b1,c1,d1
1,df2,a5,b5,c5,d5
1,df3,a9,b9,c9,d9
2,df1,a2,b2,c2,d2
2,df2,a6,b6,c6,d6
2,df3,a10,b10,c10,d10
3,df1,a3,b3,c3,d3


In [52]:
hirachy.stack(0).unstack(0)

colname,A,A,A,A,B,B,B,B,C,C,C,C,D,D,D,D
Unnamed: 0_level_1,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3
dfname,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
df1,a0,a1,a2,a3,b0,b1,b2,b3,c0,c1,c2,c3,d0,d1,d2,d3
df2,a4,a5,a6,a7,b4,b5,b6,b7,c4,c5,c6,c7,d4,d5,d6,d7
df3,a8,a9,a10,a11,b8,b9,b10,b11,c8,c9,c10,c11,d8,d9,d10,d11


In [63]:
hirachy.stack(0).unstack(0).swaplevel(1, 0, axis=1)

Unnamed: 0_level_0,0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3
colname,A,A,A,A,B,B,B,B,C,C,C,C,D,D,D,D
dfname,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
df1,a0,a1,a2,a3,b0,b1,b2,b3,c0,c1,c2,c3,d0,d1,d2,d3
df2,a4,a5,a6,a7,b4,b5,b6,b7,c4,c5,c6,c7,d4,d5,d6,d7
df3,a8,a9,a10,a11,b8,b9,b10,b11,c8,c9,c10,c11,d8,d9,d10,d11


#### 3) 공통 열과 공통 인덱스만 연결하기

In [64]:
df1.columns = ['A', 'B', 'C', 'D'] 
df2.columns = ['E', 'F', 'G', 'H'] 
df3.columns = ['A', 'C', 'F', 'H']
print(df1)
print(type(df1))

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3
<class 'pandas.core.frame.DataFrame'>


In [65]:
print(df2)
print(type(df2))

    E   F   G   H
0  a4  b4  c4  d4
1  a5  b5  c5  d5
2  a6  b6  c6  d6
3  a7  b7  c7  d7
<class 'pandas.core.frame.DataFrame'>


In [66]:
print(df3)
print(type(df3))

     A    C    F    H
0   a8   b8   c8   d8
1   a9   b9   c9   d9
2  a10  b10  c10  d10
3  a11  b11  c11  d11
<class 'pandas.core.frame.DataFrame'>


In [67]:
row_concat = pd.concat([df1, df2, df3]) 
print(row_concat)

     A    B    C    D    E    F    G    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN
0  NaN  NaN  NaN  NaN   a4   b4   c4   d4
1  NaN  NaN  NaN  NaN   a5   b5   c5   d5
2  NaN  NaN  NaN  NaN   a6   b6   c6   d6
3  NaN  NaN  NaN  NaN   a7   b7   c7   d7
0   a8  NaN   b8  NaN  NaN   c8  NaN   d8
1   a9  NaN   b9  NaN  NaN   c9  NaN   d9
2  a10  NaN  b10  NaN  NaN  c10  NaN  d10
3  a11  NaN  b11  NaN  NaN  c11  NaN  d11


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


In [70]:
print(pd.concat([df1, df2, df3], join='inner'))

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3]


In [71]:
print(pd.concat([df1,df3], ignore_index=False, join='inner'))

     A    C
0   a0   c0
1   a1   c1
2   a2   c2
3   a3   c3
0   a8   b8
1   a9   b9
2  a10  b10
3  a11  b11


In [72]:
print(pd.concat([df1,df3], ignore_index=True, join='inner'))

     A    C
0   a0   c0
1   a1   c1
2   a2   c2
3   a3   c3
4   a8   b8
5   a9   b9
6  a10  b10
7  a11  b11


In [73]:
df1.index = [0, 1, 2, 3] 
df2.index = [4, 5, 6, 7] 
df3.index = [0, 2, 5, 7]

print(df1)

    A   B   C   D
0  a0  b0  c0  d0
1  a1  b1  c1  d1
2  a2  b2  c2  d2
3  a3  b3  c3  d3


In [74]:
print(df2)

    E   F   G   H
4  a4  b4  c4  d4
5  a5  b5  c5  d5
6  a6  b6  c6  d6
7  a7  b7  c7  d7


In [75]:
print(df3)

     A    C    F    H
0   a8   b8   c8   d8
2   a9   b9   c9   d9
5  a10  b10  c10  d10
7  a11  b11  c11  d11


In [76]:
col_concat = pd.concat([df1, df2, df3], axis=1) 
print(col_concat)

     A    B    C    D    E    F    G    H    A    C    F    H
0   a0   b0   c0   d0  NaN  NaN  NaN  NaN   a8   b8   c8   d8
1   a1   b1   c1   d1  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
2   a2   b2   c2   d2  NaN  NaN  NaN  NaN   a9   b9   c9   d9
3   a3   b3   c3   d3  NaN  NaN  NaN  NaN  NaN  NaN  NaN  NaN
4  NaN  NaN  NaN  NaN   a4   b4   c4   d4  NaN  NaN  NaN  NaN
5  NaN  NaN  NaN  NaN   a5   b5   c5   d5  a10  b10  c10  d10
6  NaN  NaN  NaN  NaN   a6   b6   c6   d6  NaN  NaN  NaN  NaN
7  NaN  NaN  NaN  NaN   a7   b7   c7   d7  a11  b11  c11  d11


In [77]:
print(pd.concat([df1, df3], axis=1, join='inner'))

    A   B   C   D   A   C   F   H
0  a0  b0  c0  d0  a8  b8  c8  d8
2  a2  b2  c2  d2  a9  b9  c9  d9


<font color="red">[Quiz]</font> df1과 df2를 index를 무시하고 수평결합한 후, df3의 열로 업데이트 및 추가하라.

In [81]:
tmp = pd.concat([df1, df2.reset_index(drop=True)], axis=1)
tmp

Unnamed: 0,A,B,C,D,E,F,G,H
0,a0,b0,c0,d0,a4,b4,c4,d4
1,a1,b1,c1,d1,a5,b5,c5,d5
2,a2,b2,c2,d2,a6,b6,c6,d6
3,a3,b3,c3,d3,a7,b7,c7,d7


In [84]:
df3

Unnamed: 0,A,C,F,H
0,a8,b8,c8,d8
2,a9,b9,c9,d9
5,a10,b10,c10,d10
7,a11,b11,c11,d11


In [83]:
df3.reset_index(drop=True).combine_first(tmp)

Unnamed: 0,A,B,C,D,E,F,G,H
0,a8,b0,b8,d0,a4,c8,c4,d8
1,a9,b1,b9,d1,a5,c9,c5,d9
2,a10,b2,b10,d2,a6,c10,c6,d10
3,a11,b3,b11,d3,a7,c11,c7,d11


- df3 입장에서는 other와 결합하되, 내꺼를 우선(first)하여 없는 것을 메꾸고
- other(tmp)입장에서는 df3의 값으로 업데이트를 수행한다.

## 5.3 데이터 연결 마무리
### 5.3.1 merge 메서드 사용하기(129쪽)
pd.merge(df1, df2, on=[left_on=, right_on, left_index=, right_index=], how=inner[, suffixes=, sort=True])
- how 옵션에 따라 inner, outer, lef, right join을 발생시킨다.
![](https://www.dofactory.com/Images/sql-joins.png)
- 기본적으로 중복된 key에 대한 catesian production이 발생한다.
 - join key로 index를 사용하지 않는 경우를 우선 고려하므로 가능하다.
 - 따라서, 비교할 동일한 key 값을 만날 경우에도 마지막까지 비교해서 느리다.
 - n x m 비교에 따라, 정렬이 용이하므로 sort=True가 기본 지원된다.
- 동일한 이름을 갖는 변수를 key로 사용하는 경우를 우선 고려한다.
- key가 아닌 동일한 이름의 변수들에 대한 suffix를 자동으로 제공한다.

---
다음은 특정 위치의 날씨 정보에 필요한 데이터 집합을 모두 불러온 것이다. person은 관측한 사람의 이름, site는 관측 위치, visited는 관측 날짜, survey는 날씨 정보이다.

In [85]:
person = pd.read_csv('../data/survey_person.csv') 
site = pd.read_csv('../data/survey_site.csv') 
survey = pd.read_csv('../data/survey_survey.csv') 
visited = pd.read_csv('../data/survey_visited.csv')

print(person)

      ident   personal    family
0      dyer    William      Dyer
1        pb      Frank   Pabodie
2      lake   Anderson      Lake
3       roe  Valentina   Roerich
4  danforth      Frank  Danforth


In [86]:
print(site)

    name    lat    long
0   DR-1 -49.85 -128.57
1   DR-3 -47.15 -126.72
2  MSK-4 -48.87 -123.40


In [87]:
print(visited)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22


In [88]:
print(survey)

    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


visited의 일부만 실습에 사용하자.

In [89]:
visited_subset = visited.loc[[0, 2, 6], ]
visited_subset

Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
2,734,DR-3,1939-01-07
6,837,MSK-4,1932-01-14


In [90]:
o2o_merge = site.merge(visited_subset, left_on='name', right_on='site') 
print(o2o_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
2  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


In [91]:
m2o_merge = site.merge(visited, left_on='name', right_on='site') 
print(m2o_merge)

    name    lat    long  ident   site       dated
0   DR-1 -49.85 -128.57    619   DR-1  1927-02-08
1   DR-1 -49.85 -128.57    622   DR-1  1927-02-10
2   DR-1 -49.85 -128.57    844   DR-1  1932-03-22
3   DR-3 -47.15 -126.72    734   DR-3  1939-01-07
4   DR-3 -47.15 -126.72    735   DR-3  1930-01-12
5   DR-3 -47.15 -126.72    751   DR-3  1930-02-26
6   DR-3 -47.15 -126.72    752   DR-3         NaN
7  MSK-4 -48.87 -123.40    837  MSK-4  1932-01-14


In [92]:
ps = person.merge(survey, left_on='ident', right_on='person') 
vs = visited.merge(survey, left_on='ident', right_on='taken')

print(ps)

   ident   personal   family  taken person quant  reading
0   dyer    William     Dyer    619   dyer   rad     9.82
1   dyer    William     Dyer    619   dyer   sal     0.13
2   dyer    William     Dyer    622   dyer   rad     7.80
3   dyer    William     Dyer    622   dyer   sal     0.09
4     pb      Frank  Pabodie    734     pb   rad     8.41
5     pb      Frank  Pabodie    734     pb  temp   -21.50
6     pb      Frank  Pabodie    735     pb   rad     7.22
7     pb      Frank  Pabodie    751     pb   rad     4.35
8     pb      Frank  Pabodie    751     pb  temp   -18.50
9   lake   Anderson     Lake    734   lake   sal     0.05
10  lake   Anderson     Lake    751   lake   sal     0.10
11  lake   Anderson     Lake    752   lake   rad     2.19
12  lake   Anderson     Lake    752   lake   sal     0.09
13  lake   Anderson     Lake    752   lake  temp   -16.00
14  lake   Anderson     Lake    837   lake   rad     1.46
15  lake   Anderson     Lake    837   lake   sal     0.21
16   roe  Vale

In [93]:
print(vs)

    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

left_on, right_on에 전달하는 값은 여러 개라도 상관이 없다.

다음은 ps 데이터프레임의 ident, taken, quant, reading 열의 값과 vs 데이터프레임의 person, ident, quant, reading 열의 값을 이용하여, ps와 vs 데이터프레임을 서로 연결한 것이다.

In [58]:
ps_vs = ps.merge(vs, left_on=['ident', 'taken', 'quant', 'reading'], right_on=['person', 'ident', 'quant', 'reading'])

In [59]:
ps_vs[:2]

Unnamed: 0,ident_x,personal,family,taken_x,person_x,quant,reading,ident_y,site,dated,taken_y,person_y
0,dyer,William,Dyer,619,dyer,rad,9.82,619,DR-1,1927-02-08,619,dyer
1,dyer,William,Dyer,619,dyer,sal,0.13,619,DR-1,1927-02-08,619,dyer


ps_vs 데이터프레임의 첫 번째 행을 살펴보면:
- 양쪽 데이터프레임에 있었던 중복된 열 이름(ident, taken, person)에 접미사 `_x`, `_y`가 추가되어 있는 것 ident_x dyer 을 알 수 있다. 
- `_x`는 왼쪽 데이터프레임의 열을 의미하고 `_y`는 오른쪽 데이터프레임의 열을 의미한다.

### [Quiz] concat 활용
1. 각각 10명의 학생수를 갖는 두 개의 class A, B를 생성한다.
2. 각 클래스의 학생은 id : 1 ~ 10으로 구분된다.
3. 각 학생들에 대해 math, eng, sci 과목에 대한 30 ~ 100 사이의 random 점수를 생성하라.
4. 최종 scores 데이터 프레임은 아래와 같다.

|class|stu|subj|score|
|---|---|---|---|
|A|1|math|92|
|A|1|eng|52|
|A|1|sci|43|
|...|...|...|...|
|A|10|math|67|
|A|10|eng|52|
|A|10|sci|54|
|B|1|math|45|
|B|1|eng|78|
|B|1|sci|65|
|...|...|...|...|
|B|10|math|54|
|B|10|eng|38|
|B|10|sci|67|

이때, 각 학생별 평균을 구해 반별로 내림차순 상위 5명의 학생에 대해, 아래와 같은 표를 작성하라.

|class|stu|mean|
|---|---|---|
|A|5|87|
|...|...|...|
|A|2|42|
|B|9|81|
|...|...|...|
|B|7|53|

In [95]:
dictdf = {}
dictdf['class'] = ['A']*30 + ['B']*30
dictdf['stu'] = []
for i in range(1, 11):
    dictdf['stu'] = dictdf['stu'] + [i]*3
dictdf['stu'] = dictdf['stu']*2
dictdf['subj'] = ['math', 'eng', 'sci']*20

scores = pd.DataFrame(dictdf)
scores['score'] = np.random.randint(30, 100, 60)
scores

Unnamed: 0,class,stu,subj,score
0,A,1,math,75
1,A,1,eng,56
2,A,1,sci,80
3,A,2,math,77
4,A,2,eng,85
5,A,2,sci,53
6,A,3,math,84
7,A,3,eng,41
8,A,3,sci,48
9,A,4,math,51


In [96]:
meanScores = scores.groupby(['class', 'stu']).mean()
meanScores

Unnamed: 0_level_0,Unnamed: 1_level_0,score
class,stu,Unnamed: 2_level_1
A,1,70.333333
A,2,71.666667
A,3,57.666667
A,4,46.666667
A,5,67.0
A,6,61.666667
A,7,60.0
A,8,47.666667
A,9,60.0
A,10,65.333333


In [97]:
grouped = meanScores.groupby(level=0)
for _, subdf in grouped:
    print(subdf)

               score
class stu           
A     1    70.333333
      2    71.666667
      3    57.666667
      4    46.666667
      5    67.000000
      6    61.666667
      7    60.000000
      8    47.666667
      9    60.000000
      10   65.333333
               score
class stu           
B     1    84.333333
      2    66.666667
      3    55.666667
      4    45.333333
      5    83.000000
      6    64.333333
      7    58.333333
      8    74.000000
      9    57.333333
      10   62.666667


In [98]:
rest = []
for _, subdf in grouped:
    tmp = subdf.sort_values('score', ascending=False).head(5)
    rest.append(tmp)
pd.concat(rest)

Unnamed: 0_level_0,Unnamed: 1_level_0,score
class,stu,Unnamed: 2_level_1
A,2,71.666667
A,1,70.333333
A,5,67.0
A,10,65.333333
A,6,61.666667
B,1,84.333333
B,5,83.0
B,8,74.0
B,2,66.666667
B,6,64.333333


In [99]:
grouped = meanScores.groupby(level=0, group_keys=False)
grouped.apply(lambda x: x.sort_values('score', ascending=False).head(5))

Unnamed: 0_level_0,Unnamed: 1_level_0,score
class,stu,Unnamed: 2_level_1
A,2,71.666667
A,1,70.333333
A,5,67.0
A,10,65.333333
A,6,61.666667
B,1,84.333333
B,5,83.0
B,8,74.0
B,2,66.666667
B,6,64.333333


### [참고] python 객체이름 가져오기
globals 함수는 파이썬 global 객체에 대해 {key:value, ...}로 {객체명:객체} 형식의 사전을 리턴한다.

In [32]:
def name_of_global_obj(xx):
    for objname, oid in globals().items():
        if oid is xx:
            return objname

In [33]:
name_of_global_obj(df1)

'df1'

In [94]:
globals()['df1']

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2
3,a3,b3,c3,d3
