## 모듈 import

In [None]:
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns

## 데이터셋 로드

In [None]:
!pip install opendata-kr -q

from opendata import dataset

# 유가정보 데이터 다운로드
dataset.download('유가정보')

**1월 부터 6월 까지 상반기** 데이터 로드

In [None]:
gas1 = pd.read_csv('data/gas_first_2019.csv', encoding='euc-kr')

In [None]:
print(gas1.shape)
gas1.head()

In [None]:
gas2 = pd.read_csv('data/gas_second_2019.csv', encoding='euc-kr')

**7월 부터 12월 까지 하반기** 데이터 로드

In [None]:
print(gas2.shape)
gas2.head()

## concat() - 데이터 연결

`concat()`은 DataFrame을 연결합니다.

단순하게 지정한 DataFrame을 이어서 연결합니다.

### 행 방향으로 연결

기본 값인 `axis=0`이 지정되어 있고, 행 방향으로 연결합니다.

또한, 같은 column을 알아서 찾아서 데이터를 연결합니다.

In [None]:
pd.concat([gas1, gas2])

연결시 위와 같이 index가 초기화가 되지 않아 **전체 DataFrame의 개수와 index가 맞지 않는** 모습입니다.

In [None]:
pd.concat([gas1, gas2]).iloc[90588:90593]

연결 하면서 **index를 무시하고 연결** 할 수 있습니다.

In [None]:
gas = pd.concat([gas1, gas2], ignore_index=True)
gas

합치고자 하는 데이터프레임의 **일부 컬럼이 누락되거나 순서가 바뀌어도** 알아서 같은 컬럼끼리 병합합니다.

In [None]:
gas11 = gas1[['지역', '주소', '상호', '상표', '휘발유']]
gas22 = gas2[['상표', '번호', '지역', '상호', '주소', '경유', '휘발유']]

In [None]:
gas11.head()

In [None]:
gas22.head()

In [None]:
pd.concat([gas11, gas22], ignore_index=True)

### 열 방향으로 연결

열(column) 방향으로 연결 가능하며, `axis=1`로 지정합니다.

In [None]:
# 실습을 위한 DataFrame 임의 분할
gas1 = gas.iloc[:, :5]
gas2 = gas.iloc[:, 5:]

In [None]:
gas1.head()

In [None]:
gas2.head()

같은 index 행끼리 연결됩니다.

In [None]:
pd.concat([gas1, gas2], axis=1)

## merge() - 병합

서로 **다른 구성의 DataFrame이지만, 공통된 key값(컬럼)을 가지고 있다면 병합**할 수 있습니다.

In [None]:
df1 = pd.DataFrame({
    '고객명': ['박세리', '이대호', '손흥민', '김연아', '마이클조던'],
    '생년월일': ['1980-01-02', '1982-02-22', '1993-06-12', '1988-10-16', '1970-03-03'],
    '성별': ['여자', '남자', '남자', '여자', '남자']})
df1

In [None]:
df2 = pd.DataFrame({
    '고객명': ['김연아', '박세리', '손흥민', '이대호', '타이거우즈'],
    '연봉': ['2000원', '3000원', '1500원', '2500원', '3500원']})
df2

In [None]:
pd.merge(df1, df2)

### 병합하는 방법 4가지

`how` 옵션 값을 지정하여 4가지 방식으로 병합을 할 수 있으며, 각기 다른 결과를 냅니다.

- **how** : {`left`, `right`, `outer`, `inner`}, 
- **default**로 설정된 값은`inner` 입니다.

In [None]:
# how='inner' 입니다.
pd.merge(df1, df2)

In [None]:
pd.merge(df1, df2, how='left')

In [None]:
pd.merge(df1, df2, how='right')

In [None]:
pd.merge(df1, df2, how='outer')

### 병합하려는 컬럼의 이름이 다른 경우

In [None]:
df1 = pd.DataFrame({
    '이름': ['박세리', '이대호', '손흥민', '김연아', '마이클조던'],
    '생년월일': ['1980-01-02', '1982-02-22', '1993-06-12', '1988-10-16', '1970-03-03'],
    '성별': ['여자', '남자', '남자', '여자', '남자']})
df1

In [None]:
df2 = pd.DataFrame({
    '고객명': ['김연아', '박세리', '손흥민', '이대호', '타이거우즈'],
    '연봉': ['2000원', '3000원', '1500원', '2500원', '3500원']})
df2

`left_on`가 `right_on`을 지정합니다. 

이름과 고객명 컬럼이 모두 drop되지 않고 살아 있음을 확인합니다.

In [None]:
pd.merge(df1, df2, left_on='이름', right_on='고객명')