## Table Data Operation

연산을 할 수 없는 요소는 NaN으로 표시

### 행 데이터 선택
```python
Series_data.loc[index_label_item]    # 이름
DataFrame_data.loc[index_label_item] # 이름
```
- index 라벨: index 라벨 하나(예: 'a', 'b', 'd')를 지정합니다. 하나의 행 데이터를 반환하는데 Series 데이터(Series_data)의 경우 요소값으로 반환하고, DataFrame 데이터(DataFrame_data)의 경우 Series로 반환합니다.
- index 라벨 리스트나 배열: index 라벨을 요소로 갖는 리스트나 배열(예: ['a', 'b', 'e'], ['가', '나', '다'])로 지정합니다. 여러행의 데이터를 반환하는데 Series 데이터(Series_data)의 경우 Series로 반환하고, DataFrame 데이터의 경우 DataFrame으로 반환합니다.
- index 라벨 슬리이싱: index 라벨을 이용한 슬라이싱(예: 'a':'d', 'a':'e':2)으로 지정합니다. 지정한 범위의 행 데이터를 반환하는데 Series 데이터(Series_data)의 경우 Series로 반환하고, DataFrame 데이터(DataFrame_data)의 경우 DataFrame으로 반환합니다. index 라벨 슬라이싱의 경우는 정수 위치에 기반한 지정 방식과 다르게 범위는 index_start_라벨 ~ index_end_라벨이 됩니다.

```python
Series_data.iloc[index_pos_item]     # 번호
DataFrame_data.iloc[index_pos_item]  # 번호
```
- index 위치: index 라벨의 위치(예: 0, 1, -1, 2)를 지정합니다. 하나의 행 데이터를 반환하는데 Series 데이터(Series_data)의 경우 요소값으로 반환하고, DataFrame 데이터의 경우 Series로 반환합니다.
- index 위치 리스트나 배열: index 라벨 위치를 요소로 갖는 리스트나 배열(예: [0, 1, 2], [-1, -2, 3, 7])로 지정합니다. 여러행의 데이터를 반환하는데 Series 데이터의 경우 Series로 반환하고, DataFrame 데이터의 경우 DataFrame으로 반환합니다.
- index 위치 슬라이싱: index 라벨 위치를 이용한 슬라이싱(예: 0:8, 0:10:1, 9::-1)으로 지정합니다. 지정한 범위의 행 데이터를 반환하는데 Series 데이터의 경우 Series로 반환하고, DataFrame 데이터의 경우 DataFrame으로 반환합니다.

### 열 데이터 선택
```python
DataFrame_data[columns_name_item]  # col 이름
```
- 열이름: DataFrame 데이터의 열 이름(예: 'A', 'B')을 지정합니다. 하나의 열 데이터를 Series 형식으로 반환
- 열 이름 리스트나 배열: 열 이름을 요소로 갖는 리스트나 배열(예: ['A'],['A','B','C'])을 지정합니다.   
  지정한 여러 열 데이터를 DataFrame 형식으로 변환

### 행과 열 데이터 선택
```python
DataFrame_data.loc[index_label_item, columns_name_item]
DataFrame_data.iloc[index_pos_item, columns_pos_item]

DataFrame_data[column_name][index_label_item]
DataFrame_data[column_name][index_pos_item]

# Transpose : 행렬의 행과 열을 바꾸는 전치
DataFrame_data.T  
```

### 행이나 열 데이터 삭제
```python
Series_data.drop(index = index_label)
DataFrame_data.drop(index = index_label 혹은 columns = column_name)
```

### 표 데이터 통합
#### 1. concat() : 세로나 가로 방향으로 연결해 반환
```python
pd.concat(Series_data_list or DataFrame_data_list
          [, axis = 0(기본) or 1,
           ignore_index = True or False(기본),
           join = 'outer'(기본) or 'inner' ])
```

- axis : 0=가로 방향으로 연결, 1=세로 방향으로 연결  
- join : 'outer'=모두기술, 'inner'=공통항목만

#### 2. append() : 세로 방향으로 연결
```python
Series_data.append(other_Series_data
          [, ignore_index = True or False(기본) ])
```

- ignore_index : True=새로운 index 적용, False=각각의 index 적용

#### 3. join() : 가로방향(index 기준)으로 병합  
```python
DataFrame_data.join(other_DataFrame_data
          [, lsuffix = str_left, rsuffix = str_right,
           how = join_method(기본: 'left') ])
```

- lsuffix : 왼쪽과 오른쪽의 공통 열 이름 중에 왼쪽 문자열에 적용되는 suffix
- rsuffix : 왼쪽과 오른쪽의 공통 열 이름 중에 오른쪽 문자열에 적용되는 suffix


| how 옵션| 설명 |
|:-----|:--------|
|left  |왼쪽 데이터는 모두 선택하고 왼쪽 index와 연관된 항목이 있는 오른쪽 데이터만 병합(기본)|
|right |오른쪽 데이터는 모두 선택하고 오른쪽 index와 연관된 항목이 있는 왼쪽 데이터만 병합 |
|outer |index를 기준으로 왼쪽과 오른쪽 열 데이터를 모두 병합 |
|inner |index를 기준으로 왼쪽과 오른쪽에 연관된 항목이 모두 있는 데이터만 병합 |

#### 4. merge() : 가로방향(열 기준)으로 병합
```python
DataFrame_left.merge(DataFrame_right
          [, how = merge_method(기본: 'inner'), on = key_label,
           left_on = left_key_label, right_on = right_key_label,
           suffixes = (str_left, str_right) ])
```
- on: DataFrame 데이터 DataFrame_left와 DataFrame_right에서 공통으로 있는 열 중에서 키로 지정하고 싶은 열 이름(key_label)을 지정한다. 열 이름(key_label)은 하나를 지정할 수도 있고 리스트로 지정할 수도 있다. 지정하지 않으면 DataFrame 데이터 DataFrame_left과 DataFrame_right에 공통으로 있는 열 이름이 자동 지정된다.
- left_on 과 right_on: DataFrame 데이터 DataFrame_left와 DataFrame_right에서 키로 지정하고 싶은 열의 열이름(left_key_label과 right_key_label)을 지정, 이 옵션은 항상 상으로 쓰며 on 옵션과는 함께 사용하지 않는다.
- how: 지정한 열을 기준으로 두 DataFrame 데이터끼리 병합 방법(merge_method)을 지정한다. 
- suffixes: 지정한 열 외에 공통된 열 이름이 있을 경우에 DataFrame 데이터 DataFrame_left와 DataFrame_right의 공통 열 이름 다음에 들어갈 문자열(str_left과 str_right)을 튜플 형식으로 지정, 문자열 str_left와 str_right는 각각 DataFrame 데이터 DataFrame_left와 DataFrame_right의 공통 열 이름 다음에 추가. 지정한 열 외에 공통된 열 이름이 있는데 suffixes 옵션을 지정하지 않으면 기본적으로 ('_x', '_y') 가 지정된다.

| how 옵션| 설명 |
|:-----|:--------|
|left  |왼쪽 데이터는 모두 선택하고 지정한 열(key)과 연관된 항목이 있는 오른쪽 데이터만 병합|
|right |오른쪽 데이터는 모두 선택하고 지정한 열(key)과 연관된 항목이 있는 왼쪽 데이터만 병합|
|outer |지정한 열(key)을 기준으로 외쪽과 오른쪽 열 데이터를 모두 병합 |
|inner |지정한 열(key)을 기준으로 왼쪽과 오른쪽에 연관된 항목이 모두 있는 데이터만 병합(기본)|




### 조건문
```python
Series_data[conditions]              # 조건문
DataFrame_data[conditions]

DataFrame_data.head([n])
DataFrame_data.tail([n])

```
- DataFrame_data.isin([n])
- DataFrame_data.head([n])
- DataFrame_data.tail([n])

In [1]:
import pandas as pd

In [2]:
s1 = pd.Series([10, 20, 30, 40, 50])
s1

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [3]:
s2 = pd.Series([1, 2, 3, 4])
s2

0    1
1    2
2    3
3    4
dtype: int64

In [4]:
s1 + s2

0    11.0
1    22.0
2    33.0
3    44.0
4     NaN
dtype: float64

In [5]:
s1 - s2

0     9.0
1    18.0
2    27.0
3    36.0
4     NaN
dtype: float64

In [6]:
s1 * s2

0     10.0
1     40.0
2     90.0
3    160.0
4      NaN
dtype: float64

In [7]:
s1 + 5

0    15
1    25
2    35
3    45
4    55
dtype: int64

In [8]:
s1 ** 2

0     100
1     400
2     900
3    1600
4    2500
dtype: int64

In [9]:
s1 > 30

0    False
1    False
2    False
3     True
4     True
dtype: bool

In [10]:
dict_data1 = {'A': [1, 2, 3, 4, 5],
             'B': [10, 20, 30, 40, 50],
             'C': [100, 200, 300, 400, 500]}
df1 = pd.DataFrame(dict_data1)
df1

Unnamed: 0,A,B,C
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [11]:
dict_data2 = {'A': [6, 7, 8, 9],
             'B': [60, 70, 80, 90],
             'D': [600, 700, 800, 900]}
df2 = pd.DataFrame(dict_data2)
df2

Unnamed: 0,A,B,D
0,6,60,600
1,7,70,700
2,8,80,800
3,9,90,900


## 아래 와 같이 +, -, *, /, **, > 연산 가능 

In [12]:
df1 + df2

Unnamed: 0,A,B,C,D
0,7.0,70.0,,
1,9.0,90.0,,
2,11.0,110.0,,
3,13.0,130.0,,
4,,,,


In [13]:
df1 > 30

Unnamed: 0,A,B,C
0,False,False,True
1,False,False,True
2,False,False,True
3,False,True,True
4,False,True,True


## 표 데이터의 집계 및 통계 연산

* DataFrame.mean()        # 세로로 평균값
* DataFrame.mean(axis=1)  # axis=1 옵션을 지정하면 가로로 평균값
* DataFrame.std()         # 세로로 표준편차
* DataFrame.std(axis=1)   # axis=1 홉션을 지정하면 가로로 표준편차
* DataFrame.describe()    # 데이터 개수, 평균, 표준편차, 최소값, 최대값 을 한번에 구한다.
* sum()
* mean()
* std()
* var()
* min()
* max()
* cumsum()
* cumprod()

In [14]:
folder = './example/pyexcel-master/data/ch05/'
csv_file = folder + 'korea_rain1.csv'
df = pd.read_csv(csv_file, encoding='utf8', index_col='연도')
df

Unnamed: 0_level_0,봄,여름,가을,겨울
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2014,215.9,599.8,293.1,76.9
2015,223.2,387.1,247.7,109.1
2016,312.8,446.2,381.6,108.1
2017,118.6,609.7,172.5,75.6
2018,368.1,586.5,351.2,66.5


In [15]:
df.mean() # 세로로 평균

봄     247.72
여름    525.86
가을    289.22
겨울     87.24
dtype: float64

In [16]:
df.mean(axis=1) # 기로로 평균

연도
2014    296.425
2015    241.775
2016    312.175
2017    244.100
2018    343.075
dtype: float64

In [17]:
df.describe()

Unnamed: 0,봄,여름,가을,겨울
count,5.0,5.0,5.0,5.0
mean,247.72,525.86,289.22,87.24
std,96.193123,102.192872,83.273807,19.909495
min,118.6,387.1,172.5,66.5
25%,215.9,446.2,247.7,75.6
50%,223.2,586.5,293.1,76.9
75%,312.8,599.8,351.2,108.1
max,368.1,609.7,381.6,109.1


## 표 데이터 선택
1. 행 데이터 선택
2. 열 데이터 선택
3. 행 데이터 삭제
4. 열 데이터 삭제


In [18]:
index_data = ['a', 'b', 'c', 'd', 'e']
data = [0.0, 1.0, 2.0, 3.0, 4.0]
s1 = pd.Series(data, index = index_data)
s1

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [19]:
print( s1.loc['a'] )
print('-----')
print( s1.iloc[0] )

0.0
-----
0.0


In [20]:
print( s1.loc[['a', 'c', 'e']] )
print('-----')
print( s1.iloc[[0, 2, 4]] )

a    0.0
c    2.0
e    4.0
dtype: float64
-----
a    0.0
c    2.0
e    4.0
dtype: float64


In [21]:
print( s1.loc['b':'d'] )
print('-----')
print( s1.iloc[1: 4] )

b    1.0
c    2.0
d    3.0
dtype: float64
-----
b    1.0
c    2.0
d    3.0
dtype: float64


In [22]:
print(s1)
print('-----')
s1.loc['a': 'c'] = 10
print(s1)

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64
-----
a    10.0
b    10.0
c    10.0
d     3.0
e     4.0
dtype: float64


In [23]:
dict_data = {'A': [0, 10, 20, 30, 40],
            'B': [0, 0.1, 0.2, 0.3, 0.4],
            'C': [0, 100, 200, 300, 400]}
index_data = ['a', 'b', 'c', 'd', 'e']

df1 = pd.DataFrame(dict_data, index=index_data)
df1

Unnamed: 0,A,B,C
a,0,0.0,0
b,10,0.1,100
c,20,0.2,200
d,30,0.3,300
e,40,0.4,400


In [24]:
print(df1.loc['b'])
print(df1.iloc[1])

A     10.0
B      0.1
C    100.0
Name: b, dtype: float64
A     10.0
B      0.1
C    100.0
Name: b, dtype: float64


In [25]:
df1.loc['a': 'b'] = 50
df1

Unnamed: 0,A,B,C
a,50,50.0,50
b,50,50.0,50
c,20,0.2,200
d,30,0.3,300
e,40,0.4,400


## 조건문

In [26]:
dict_data = {'지점': ['서울', '대전', '대구', '부산', '광주'],
            '1월': [558, 234, 340, 380, 213],
            '2월': [437, 216, 238, 290, 194],
            '3월': [337, 196, 209, 272, 186]}
df = pd.DataFrame(dict_data)
df

Unnamed: 0,지점,1월,2월,3월
0,서울,558,437,337
1,대전,234,216,196
2,대구,340,238,209
3,부산,380,290,272
4,광주,213,194,186


In [27]:
df[ (df['지점']=='서울') | (df['지점']=='부산')]

Unnamed: 0,지점,1월,2월,3월
0,서울,558,437,337
3,부산,380,290,272


In [28]:
df[ df['지점'].isin(['서울', '부산']) ]

Unnamed: 0,지점,1월,2월,3월
0,서울,558,437,337
3,부산,380,290,272


In [29]:
dict_data = {'제품ID': ['P501', 'P502', 'P503', 'P504', 'P505', 'P506', 'P507'],
            '판매가격': [6400, 5400, 9400, 10400, 9800, 1200, 3400],
            '판매량': [63, 56, 98, 48, 72, 59, 43],
            '이익률': [0.30, 0.21, 0.15, 0.25, 0.45, 0.47, 0.32]}
df2 = pd.DataFrame(dict_data)
df2

Unnamed: 0,제품ID,판매가격,판매량,이익률
0,P501,6400,63,0.3
1,P502,5400,56,0.21
2,P503,9400,98,0.15
3,P504,10400,48,0.25
4,P505,9800,72,0.45
5,P506,1200,59,0.47
6,P507,3400,43,0.32


In [30]:
df2.head()

Unnamed: 0,제품ID,판매가격,판매량,이익률
0,P501,6400,63,0.3
1,P502,5400,56,0.21
2,P503,9400,98,0.15
3,P504,10400,48,0.25
4,P505,9800,72,0.45


In [31]:
df2.head(2)

Unnamed: 0,제품ID,판매가격,판매량,이익률
0,P501,6400,63,0.3
1,P502,5400,56,0.21


In [32]:
df2.tail()

Unnamed: 0,제품ID,판매가격,판매량,이익률
2,P503,9400,98,0.15
3,P504,10400,48,0.25
4,P505,9800,72,0.45
5,P506,1200,59,0.47
6,P507,3400,43,0.32


## 열 데이터 선택

In [33]:
dict_data = {'제품ID': ['P501', 'P502', 'P503', 'P504', 'P505', 'P506', 'P507'],
            '판매가격': [6400, 5400, 9400, 10400, 9800, 1200, 3400],
            '판매량': [63, 56, 98, 48, 72, 59, 43],
            '이익률': [0.30, 0.21, 0.15, 0.25, 0.45, 0.47, 0.32]}
df2 = pd.DataFrame(dict_data)
# DataFrame 데이터에서 하나의 열 데이터를 선택하면 아래와 같이 Series로 출력
df2['제품ID']

0    P501
1    P502
2    P503
3    P504
4    P505
5    P506
6    P507
Name: 제품ID, dtype: object

In [34]:
# 여러 개의 열 데이터를 선택하려면 다음과 같이 원하는 열 이름을 리스트로 만들어 지정한다.
df2[['제품ID']]

Unnamed: 0,제품ID
0,P501
1,P502
2,P503
3,P504
4,P505
5,P506
6,P507


In [35]:
df2[['제품ID', '이익률']]

Unnamed: 0,제품ID,이익률
0,P501,0.3
1,P502,0.21
2,P503,0.15
3,P504,0.25
4,P505,0.45
5,P506,0.47
6,P507,0.32


In [36]:
df2[['이익률']] = 0.5
df2

Unnamed: 0,제품ID,판매가격,판매량,이익률
0,P501,6400,63,0.5
1,P502,5400,56,0.5
2,P503,9400,98,0.5
3,P504,10400,48,0.5
4,P505,9800,72,0.5
5,P506,1200,59,0.5
6,P507,3400,43,0.5


### 세로나 가로 방향으로 연결: concat()

In [38]:
s1 = pd.Series([10, 20, 30])
s2 = pd.Series([40, 50, 60])
s3 = pd.Series([70, 80, 90])

In [40]:
pd.concat([s1, s2])  # 세로 방향으로 연결

0    10
1    20
2    30
0    40
1    50
2    60
dtype: int64

In [41]:
pd.concat([s1, s2], ignore_index=True)  # 세로 방향으로 연결

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [42]:
df1 = pd.DataFrame({'물리':[95, 92, 98, 100], '화학':[91, 93, 97, 99]})
df2 = pd.DataFrame({'물리':[87, 89], '화학':[85, 90]})
df3 = pd.DataFrame({'물리':[72, 85]})
df4 = pd.DataFrame({'생명과학':[94, 91, 94, 83], '지구과학':[86, 94, 89, 93]})

In [45]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,물리,화학
0,95,91
1,92,93
2,98,97
3,100,99
4,87,85
5,89,90


In [46]:
pd.concat([df2, df3], ignore_index=True)

Unnamed: 0,물리,화학
0,87,85.0
1,89,90.0
2,72,
3,85,


In [48]:
# 세로 방향으로 공통 데이터만 연결 (기존 index를 무시)
pd.concat([df2, df3], ignore_index=True, join='inner')

Unnamed: 0,물리
0,87
1,89
2,72
3,85


In [51]:
# 세로방향 연결 (default)
pd.concat([df1, df4], axis=0)

Unnamed: 0,물리,화학,생명과학,지구과학
0,95.0,91.0,,
1,92.0,93.0,,
2,98.0,97.0,,
3,100.0,99.0,,
0,,,94.0,86.0
1,,,91.0,94.0
2,,,94.0,89.0
3,,,83.0,93.0


In [52]:
# 가로방향 연결
pd.concat([df1, df4], axis=1)

Unnamed: 0,물리,화학,생명과학,지구과학
0,95,91,94,86
1,92,93,91,94
2,98,97,94,89
3,100,99,83,93


### 세로 방향으로 연결: append()

In [53]:
s1 = pd.Series([10, 20, 30])
s2 = pd.Series([40, 50, 60])
s3 = pd.Series([70, 80, 90])
df1 = pd.DataFrame({'물리':[95, 92, 98, 100], '화학':[91, 93, 97, 99]})
df2 = pd.DataFrame({'물리':[87, 89], '화학':[85, 90]})
df3 = pd.DataFrame({'물리':[72, 85]})
df4 = pd.DataFrame({'생명과학':[94, 91, 94, 83], '지구과학':[86, 94, 89, 93]})

In [55]:
s1.append(s2, ignore_index=True)

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [57]:
df1.append(df2, ignore_index=True)

Unnamed: 0,물리,화학
0,95,91
1,92,93
2,98,97
3,100,99
4,87,85
5,89,90


In [58]:
df2.append(df3, ignore_index=True)

Unnamed: 0,물리,화학
0,87,85.0
1,89,90.0
2,72,
3,85,


### 가로 방향(index 기준)으로 병합: join()

In [61]:
dict_data = {'A':['a0', 'a1', 'a2'], 'B':['b0', 'b1', 'b2']}
df_left1 = pd.DataFrame(dict_data)

dict_data = {'C':['c0', 'c1', 'c2'], 'D':['d0', 'd1', 'd2']}
df_right1 = pd.DataFrame(dict_data, index = [1, 2, 3])

dict_data = {'A':['a0', 'a1', 'a2'], 'D':['d0', 'd1', 'd2']}
df_right2 = pd.DataFrame(dict_data)

In [63]:
# df_right1 의 index는 [1,2,3]
# how='left'인 경우, 왼쪽 데이터는 모두 선택, 왼쪽 index와 연관된 항목이 있는 오른쪽 데이터만 병합
df_left1.join(df_right1, how='left')

Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,c0,d0
2,a2,b2,c1,d1


In [64]:
# how='right'인 경우, 오른쪽 데이터는 모두 선택, 오른쪽 index와 연관된 항목이 있는 왼쪽 데이터만 병합
df_left1.join(df_right1, how='right')

Unnamed: 0,A,B,C,D
1,a1,b1,c0,d0
2,a2,b2,c1,d1
3,,,c2,d2


In [65]:
# how='outer'인 경우, 왼쪽과 오른쪽 열 데이터를 모두 병합
df_left1.join(df_right1, how='outer')

Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,c0,d0
2,a2,b2,c1,d1
3,,,c2,d2


In [66]:
# how='inner'인 경우, 왼쪽과 오른쪽에 연관된 항목이 모두 있는 데이터만 병합
df_left1.join(df_right1, how='inner')

Unnamed: 0,A,B,C,D
1,a1,b1,c0,d0
2,a2,b2,c1,d1


In [69]:
# 열 이름이 같은 열 데이터가 있는 경우 luffix와 rsuffix 옵션을 지정해야 한다. 지정하지 않으면 오류가 발생한다.
df_left1.join(df_right2, lsuffix='_1', rsuffix='_2')

Unnamed: 0,A_1,B,A_2,D
0,a0,b0,a0,d0
1,a1,b1,a1,d1
2,a2,b2,a2,d2


In [70]:
# concat() 는 DataFrame의 열에 공통된 열 이름이 있더라도 다음과 같이 특별한 지정없이 연결할 수 있다.
pd.concat([df_left1, df_right2], axis=1)

Unnamed: 0,A,B,A.1,D
0,a0,b0,a0,d0
1,a1,b1,a1,d1
2,a2,b2,a2,d2


### 가로 방향(열 기준)으로 병합: merge()

In [72]:
df_left3 = pd.DataFrame({'key':['k0', 'k1', 'k2', 'k3'], 'A':['a0', 'a1', 'a2', 'a3']})
df_right3 = pd.DataFrame({'key':['k2', 'k3', 'k4', 'k5'], 'B':['b2', 'b3', 'b4', 'b5']})

In [76]:
df_left3.merge(df_right3, how='left', on='key')

Unnamed: 0,key,A,B
0,k0,a0,
1,k1,a1,
2,k2,a2,b2
3,k3,a3,b3


In [77]:
df_left3.merge(df_right3, how='right', on='key')

Unnamed: 0,key,A,B
0,k2,a2,b2
1,k3,a3,b3
2,k4,,b4
3,k5,,b5


In [78]:
df_left3.merge(df_right3, how='outer', on='key')

Unnamed: 0,key,A,B
0,k0,a0,
1,k1,a1,
2,k2,a2,b2
3,k3,a3,b3
4,k4,,b4
5,k5,,b5


In [82]:
# 아래 두 문장은 동일하다.
# df_left3.merge(df_right3)
df_left3.merge(df_right3, how='inner', on='key')  

Unnamed: 0,key,A,B
0,k2,a2,b2
1,k3,a3,b3


In [83]:
df_left4 = pd.DataFrame({'key':['k0','k1','k2','k3'], 'A':['a0','a1','a2','a3'], 'C':['c0','c1','c2','c3']})
df_right4= pd.DataFrame({'key':['k0','k1','k2','k3'], 'A':['a0','a1','a4','a5'], 'D':['d0','d1','d2','d3']})

In [86]:
# how='inner'의 경우 두 문장에서 공통된 key 값을 가진 행을 출력한다.
df_left4.merge(df_right4, how='inner')

Unnamed: 0,key,A,C,D
0,k0,a0,c0,d0
1,k1,a1,c1,d1


In [87]:
# 위의 결과는 다음처럼 merge() 수행 시 on=['key', 'A'] 옵션을 지정한 결과와 같습니다.
df_left4.merge(df_right4, how='inner', on=['key', 'A'])

Unnamed: 0,key,A,C,D
0,k0,a0,c0,d0
1,k1,a1,c1,d1


In [89]:
# DataFrame 데이터 df_left4과 df_right4에는 두 개의 공통 열 이름이 있지만 다음처럼 merge() 수행시 on='key' 처럼
# 하나의 공통 열만 지정하면 같은 열 이름이 왼쪽에는 '_x'가 추가되고 오른쪽에는 '_y'가 추가됩니다.
df_left4.merge(df_right4, how='outer', on='key')

Unnamed: 0,key,A_x,C,A_y,D
0,k0,a0,c0,a0,d0
1,k1,a1,c1,a1,d1
2,k2,a2,c2,a4,d2
3,k3,a3,c3,a5,d3


In [90]:
df_left4.merge(df_right4, how='outer', on='key', suffixes=('_left', '_right'))

Unnamed: 0,key,A_left,C,A_right,D
0,k0,a0,c0,a0,d0
1,k1,a1,c1,a1,d1
2,k2,a2,c2,a4,d2
3,k3,a3,c3,a5,d3


In [91]:
df_left5 = pd.DataFrame({'key_left' :['k0', 'k1', 'k2', 'k3'], 'A':['a0', 'a1', 'a2', 'a3']})
df_right5= pd.DataFrame({'key_right':['k1', 'k2', 'k3'      ], 'A':['a1', 'a4', 'a5'      ]}, index=[2,3,4])

In [92]:
df_left5

Unnamed: 0,key_left,A
0,k0,a0
1,k1,a1
2,k2,a2
3,k3,a3


In [93]:
df_right5

Unnamed: 0,key_right,A
2,k1,a1
3,k2,a4
4,k3,a5


In [94]:
# 두 개의 DataFrame 데이터를 통합
df_left5.merge(df_right5, how='left', left_on='key_left', right_on='key_right')

Unnamed: 0,key_left,A_x,key_right,A_y
0,k0,a0,,
1,k1,a1,k1,a1
2,k2,a2,k2,a4
3,k3,a3,k3,a5


위 결과를 보면 left_on와 right_on에 키로 지정한 열은 모두 포함된 것을 볼 수 있다. 또한 공통 열A의 왼쪽 열 이름에는 '_x'가  
추가되고 오른쪽 열 이름에는 '_y'가 추가됨

In [95]:
code_list = ['LS05', 'SM10', 'BP70', 'LS10', 'BP70', 'SM10', 'LS05']
sales_list = [29, 25, 30, 22, 19, 38, 45]
store_list = ['강남', '강남', '강남', '대학로', '대학로', '인천공항', '인천공항']

# 제품의 코드와 매장별 판매량이 있는 DataFrame 데이터 생성
df_sales = pd.DataFrame({'code':code_list, 'sales':sales_list, 'store':store_list})
df_sales

Unnamed: 0,code,sales,store
0,LS05,29,강남
1,SM10,25,강남
2,BP70,30,강남
3,LS10,22,대학로
4,BP70,19,대학로
5,SM10,38,인천공항
6,LS05,45,인천공항


In [97]:
df_ref = pd.DataFrame({'code': ['LS05', 'SM10', 'BP70', 'LS10'],
                       'name': ['브리오슈', '베이글', '치아바타', '바게트']})
df_ref

Unnamed: 0,code,name
0,LS05,브리오슈
1,SM10,베이글
2,BP70,치아바타
3,LS10,바게트


In [98]:
df_sales.merge(df_ref, how='left', on='code')

Unnamed: 0,code,sales,store,name
0,LS05,29,강남,브리오슈
1,SM10,25,강남,베이글
2,BP70,30,강남,치아바타
3,LS10,22,대학로,바게트
4,BP70,19,대학로,치아바타
5,SM10,38,인천공항,베이글
6,LS05,45,인천공항,브리오슈
