# 실무예제 2-2

## 다음은 2016년 항만별 선박입출황 현황이다. 선박수 속성은 구간화(Binning) 기법으로 평활화시키고, 선박톤수 속성은 선박수 속성과의 회귀(regression) 분석을 통하여 평활화시키시오.

### 데이터 파일 : ch2-2(선박입출항).csv

### 원본 투플수 : 30개

In [165]:
# ch2-2.py
import pandas as pd
import numpy as np  # 수학 및 과학 연산을 위한 numpy 패키지 임포트
import pymssql      # SQLServer DB 연동을 위한 pymssql 패키지 임포트

# 데이터로드 (ch2-2.csv : 데이터 원본 파일)
# encoding : 윈도우즈 환경에서의 한글 처리
# engine : python 3.6에서 한글이 포함된 파일이름 사용
rawData = pd.read_csv('jupyter/ch2-2(선박입출항).csv', encoding='CP949', engine='python')

In [166]:
rawData

Unnamed: 0,항만,입항선박수,입항선박톤수,출항선박수,출항선박톤수
0,부산,7301,105138280,7409,103857903
1,인천,2715,30716710,2716,30779186
2,평택.당진,1558,23153226,1536,22778109
3,경인항,28,126236,27,128344
4,동해.묵호,552,4202603,546,4039929
5,삼척,186,589721,189,599042
6,속초,15,6631,17,7887
7,옥계,164,572269,167,584674
8,호산,14,976358,13,890153
9,대산,1333,10800292,1324,10944114


In [167]:
# MSSQL DB 연결
# 접속정보(connection string) : ID/PASS@CONNECTION_ALIAS
# CONNECTION_ALIAS : Oracle TNSNAMES.ORA 파일에 있는 접속정보 별칭(ALIAS)


# DB 커서(Cursor) 선언


# 사용할 Oracle 소스 테이블명 지정
src_table = "d_base2_2"

# 데이터프레임(rawData)에 저장된 데이터를 MSSQL 테이블(d_base2_2)에 입력하기 위한 로직
# d_base4_1 테이블 존재하는지 체크하는 함수
def table_exists(name=None, con=None):


    # 테이블이 존재하면 True, 그렇지 않으면 False 반환


# 테이블(d_base2_2) 생성 (테이블이 이미 존재한다면 TRUNCATE TABLE)
if table_exists(src_table, conn_mssql):

else:


### pymssql 패키지를 이용하여 SQLServer DBMS와 연동
### raw 데이터를 MSSQL 테이블에 저장하고, 이를 대상으로 SQL을 활용하여 평활화 작업을 수행
### MSSQL SQL은 분석함수 등 데이터 평활화 처리에 유리한 기능들을 다수 포함되어 있어 평활화 구현이 용이
### read_sql() : SQL의 수행결과를 데이터프레임에 넣은 pandas 함수
### MSSQL Studio를 이용하여 테이블 생성 확인

In [168]:
# INSERT INTO ... VALUES (%s, %s, ...) 에서 바인드 변수값을 주기위해 tuple 구조 사용
def convertSequenceToTuple(list):
    dict = []

    return 

### convertSequenceToTuple() : sequence 구조의 리스트를 입력받아 Tuple을 반환
### 뒤의 data 변수 확인

In [169]:
# 데이터프레임에 저장된 데이터를 MSSQL 테이블로 입력(insert)


### SQL INSERT 문 생성

In [170]:
# INSERT INTO ... VALUES (%s, %s, ...)의 바인드 변수 값을 저장하는 tuple 구조 생성
data = [convertSequenceToTuple(rec) for rec in rawData.values]

In [171]:
data

[('부산', 7301, 105138280, 7409, 103857903),
 ('인천', 2715, 30716710, 2716, 30779186),
 ('평택.당진', 1558, 23153226, 1536, 22778109),
 ('경인항', 28, 126236, 27, 128344),
 ('동해.묵호', 552, 4202603, 546, 4039929),
 ('삼척', 186, 589721, 189, 599042),
 ('속초', 15, 6631, 17, 7887),
 ('옥계', 164, 572269, 167, 584674),
 ('호산', 14, 976358, 13, 890153),
 ('대산', 1333, 10800292, 1324, 10944114),
 ('보령', 65, 1324916, 62, 1286459),
 ('태안', 52, 1178735, 55, 1254622),
 ('군산', 528, 6688062, 525, 7176882),
 ('장항', 81, 73959, 81, 74734),
 ('목포', 1040, 5028247, 1074, 6095534),
 ('완도', 304, 161468, 305, 161830),
 ('여수', 1198, 14020047, 1192, 13675603),
 ('광양', 4050, 58637066, 4078, 59036910),
 ('포항', 967, 8539680, 947, 8384609),
 ('마산', 1313, 7303157, 1314, 7256552),
 ('삼천포', 222, 1692380, 221, 1686756),
 ('옥포', 422, 948019, 426, 1973951),
 ('장승포', 3, 804, 3, 804),
 ('진해', 717, 1354918, 732, 1363052),
 ('통영', 178, 57992, 180, 57730),
 ('고현', 587, 1375796, 583, 1568294),
 ('하동', 58, 1466025, 57, 1450058),
 ('울산', 4145,

In [172]:
# 바인드 변수와 tuple 데이터구조를 활용하여 Bulk Insertion 구현

# csv 파일 데이터의 MSSQL 테이블 입력 완료 


### executemany() : 복수 개의 투플을 한 번에 MSSQL 테이블에 입력하는 함수
### commit() : MSSQL 테이블에 입력을 승인하는 함수

## 1) 구간화(Binning) - 평균값 평활화 (Smoothing by Bin Means)

In [173]:
# 평균값 평활화 (동일 너비 방식, 구간너비 : 500) 


### avg() over (partition by ...) : partition by에 의해 파티션된 그룹별 평균을 구하는 MSSQL 분석함수
### floor(입항선박수/500) : 입항선박수/500의 결과값보다 크지 않은 정수 중에서 가장 최대값을 산출하는 MSSQL 함수
### round(A,0) : A값을 소수첫째자리에서 반올림하는 MSSQL 함수

In [174]:
# 결과보기(첫 10개행만 출력)
result_df.head(10)

Unnamed: 0,항만,입항선박수,입항선박수_평활,출항선박수,출항선박수_평활
0,경인항,28.0,129.0,27.0,130.0
1,보령,65.0,129.0,62.0,130.0
2,삼척,186.0,129.0,189.0,130.0
3,삼천포,222.0,129.0,221.0,130.0
4,서귀포,140.0,129.0,141.0,130.0
5,속초,15.0,129.0,17.0,130.0
6,옥계,164.0,129.0,167.0,130.0
7,옥포,422.0,129.0,426.0,130.0
8,완도,304.0,129.0,305.0,130.0
9,장승포,3.0,129.0,3.0,130.0


## 2) 구간화(Binning) - 중앙값 평활화 (Smoothing by Bin Medians)

In [175]:
# 중앙값 평활화 (동일 너비 방식, 구간너비 : 500)
# 입항선박수 중앙값을 구하는 뷰(view)
def view_exists(name=None, con=None):
    sql = "select * from information_schema.views where table_name='MYVIEW'".replace('MYVIEW', name.upper())
    df = pd.read_sql(sql, con)

    # 뷰가 존재하면 True, 그렇지 않으면 False 반환
    exists = True if len(df) > 0 else False
    return exists

# 뷰(입항_median_view) 생성 (뷰가 이미 존재한다면 DROP VIEW)
if view_exists('입항_median_view', conn_mssql):



In [176]:
# 출항선박수 중앙값을 구하는 뷰(view)
def view_exists(name=None, con=None):
    sql = "select * from information_schema.views where table_name='MYVIEW'".replace('MYVIEW', name.upper())
    df = pd.read_sql(sql, con)

    # 뷰가 존재하면 True, 그렇지 않으면 False 반환
    exists = True if len(df) > 0 else False
    return exists

# 뷰(출항_median_view) 생성 (뷰가 이미 존재한다면 DROP VIEW)
if view_exists('출항_median_view', conn_mssql):

    


### 중앙값 평활화를 위해서 구간 크기를 정하고, 각 구간의 중앙값을 구함 
### 각 구간의 중앙값은 해당 구간에 속한 속성값들을 정렬했을 때, 가운데 위치한 값을 의미
### 중앙값을 구하기 위해서 우선 각 구간의 중앙 위치 정보를 구함
### 중앙 위치 정보를 구하기 위해서 Oracle 분석함수 row_number() over ()와 count() over ()를 활용
#### row_number() over () : 순번
#### count() over () : 구간크기
### 속성값이 홀수개일 때는 중앙위치가 하나이고, 짝수개일 때는 2개임. 이를 floor()와 ceil()을 이용하여 구함
#### floor() : 소수점을 버리는 함수이고
#### ceil() : 소수점을 올려 정수를 만드는 함수
### 속성값이 홀수개일 때는 med1과 med2가 동일한 값을 가짐

In [177]:
# 입항선박수와 출항선박수 평활(중앙)값 결합


### 중앙위치에서의 속성값을 구함
### 속성값이 홀수개일 때는 가운데 값이고 짝수개일 때는 두 개의 가운데 값의 평균임
### 다만, 가운데 값이 하나라 할지라도 두 개로 가정하여 평균을 구함 (하나의 값을 동일 값 두 개로 봄)
### 두 개 위치의 속성값을 찾아야하므로 동일 뷰를 두번 조인함

In [178]:
# 결과보기(첫 10개행만 출력)
result_df.head(10)

Unnamed: 0,항만,입항선박수,입항선박수_평활,출항선박수,출항선박수_평활
0,경인항,28.0,81.0,27.0,81.0
1,고현,587.0,587.0,583.0,583.0
2,광양,4050.0,4050.0,4078.0,4078.0
3,군산,528.0,587.0,525.0,583.0
4,대산,1333.0,1198.0,1324.0,1192.0
5,동해.묵호,552.0,587.0,546.0,583.0
6,마산,1313.0,1198.0,1314.0,1192.0
7,목포,1040.0,1198.0,1074.0,1192.0
8,보령,65.0,81.0,62.0,81.0
9,부산,7301.0,7301.0,7409.0,7409.0


## 3) 구간화(Binning) - 경계값 평활화 (Smoothing by Bin Boundaries)

In [179]:
# 경계값 평활화 (동일 너비 방식, 구간너비 : 500)


### 우선, 최소경계값과 최대경계값을 구한 다음
### 이를 대상으로 실제값과 경계값들의 차이를 구하고 이를 비교하여 두 경계값 중 하나를 선택함
### case when A then B else C end : 조건식 A가 참이면 B값을 그렇지 않으면 C값을 선택하는 SQL 구문

In [180]:
# 결과보기(첫 10개행만 출력)
result_df.head(10)

Unnamed: 0,항만,입항선박수,입항선박수_평활,출항선박수,출항선박수_평활
0,경인항,28.0,0.0,27.0,0.0
1,고현,587.0,500.0,583.0,500.0
2,광양,4050.0,4000.0,4078.0,4000.0
3,군산,528.0,500.0,525.0,500.0
4,대산,1333.0,1500.0,1324.0,1500.0
5,동해.묵호,552.0,500.0,546.0,500.0
6,마산,1313.0,1500.0,1314.0,1500.0
7,목포,1040.0,1000.0,1074.0,1000.0
8,보령,65.0,0.0,62.0,0.0
9,부산,7301.0,7500.0,7409.0,7500.0


## 4) 회귀분석에 의한 평활화

In [181]:
# 선형회귀분석을 위한 scipy 패키지 중 stats 모듈 임포트
from scipy import stats

In [182]:
# 데이터프레임 복사 : rawData -> result_df
# copy=True 이면 별도의 공간에 데이터프레임 생성
result_df = pd.DataFrame(rawData, copy=True)

In [183]:
# 회귀분석에 의한 평활화 (입출항선박수와 입출항선박톤수 간 회귀분석)
# 회귀분석 시, 결측치나 수의 표현, 범위 상이 문제로 인한 경고메시지 출력 방지
np.seterr(invalid='ignore')

# stats.linregress(x, y) : y = slope * x + intercept 형식의 선형함수를 찾아주는 stats 모듈 함수로 다섯 개의 값을 반환


# 입항선박수에 의한 입항선박톤수 산출




# 출항선박수에 의한 출항선박톤수 산출



### stats.linregress(x, y) : 속성 x에 대한 속성 y의 선형회귀분석을 수행하는 scipy 패키지 stats 모듈함수이다. 5개의 결과값을 반환하는데, 『y = slope * x + intercept』 형태의 선형함수식으로 해석됨.
### 『result_df.loc['입항선박톤수'] = result_df['입항선박수']*slope + intercept』 수행을 통하여 rawData 데이터프레임 각 행의 입항선박수 대비 입항선박톤수를 구함
### 위 코드 수행과정에서 『RuntimeWarning: invalid value encountered in greater』와 같은 Runtime Warning 메시지가 나타날 수 있다. 이는 numpy 패키지에서 주로 발생하는데, 결측치(NaNs) 또는 수의 표현이나 범위 상의 문제로 발생한다. Warning 메시지가 나타나지 않도록 하려면, 『np.seterr(invalid='ignore')』 코드를 추가시켜 주면 됨

In [184]:
# 결과보기(첫 10개행만 출력)
result_df.head(10)

Unnamed: 0,항만,입항선박수,입항선박톤수,출항선박수,출항선박톤수
0,부산,7301,95269560.0,7409,95609010.0
1,인천,2715,33639450.0,2716,33372500.0
2,평택.당진,1558,18090820.0,1536,17723850.0
3,경인항,28,-2470471.0,27,-2287845.0
4,동해.묵호,552,4571434.0,546,4594906.0
5,삼척,186,-347148.1,189,-139471.6
6,속초,15,-2645174.0,17,-2420460.0
7,옥계,164,-642800.6,167,-431226.0
8,호산,14,-2658613.0,13,-2473507.0
9,대산,1333,15067100.0,1324,14912400.0


In [185]:
# 커서(cursor) 종료
cur.close()

# MSSQL connection 종료
conn_mssql.close()

### MSSQL DB 세션(session) 종료 : 『ch2-2.py』의 마지막 코드 부분으로 DB 커서를 종료하고 MSSQL connection을 종료함