In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# import libraries

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('darkgrid')

from scipy.stats import norm
from scipy import stats

from sklearn.preprocessing import StandardScaler

import missingno as msno
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

In [None]:
# import data

path = "/content/drive/MyDrive/dacon/2023.09.25/dataset"

origin = pd.read_csv(path + '/train.csv')
df = pd.read_csv(path + '/train.csv')
test_df = pd.read_csv(path + '/test.csv')

In [None]:
# check columns

df.columns

## 1. 통계적 측정

### 1. 데이터 정보 둘러보기

In [None]:
df.info()

### 2. 데이터 수치 살펴보기

In [None]:
"""메모
위의 테이블에서 보면 , max에 60정도인 컬럼이 있다하면 , 237000이라는 max값을 가지는 컬럼도 있기 때문에
정규화 작업을 해야 할 것 같다."""

df.describe().style.background_gradient(cmap='pink_r')

## 2. EDA

### 1. 결측값 , 이상치 탐색

In [None]:
# 결측값 시각화

"""결측값을 확인해보면 , 벡터 데이터 , 기온 데이터 , BN데이터에 결측값이 있습니다."""
msno.matrix(df)

In [None]:
# 결측값 퍼센트 확인

"""메모
여기서 볼때 모든 결측값들이 전부 40%를 넘기 때문에 ,
   모델기반 결측값 처리를 하는 것이 바람직할 것 같다."""

cols = ['U_WIND' , 'V_WIND' , 'AIR_TEMPERATURE' , 'BN']

for col in cols:
    print(f"column : {col} Nan value percentage : {round(df[col].isna().sum() / len(df) * 100 , 2)}%")

In [None]:
# 이상치 살펴보기

plt.figure(figsize = (10 , 8))

data = pd.concat([df.select_dtypes('int') , df.select_dtypes('float')] , axis = 1)
data = data.drop(['CI_HOUR'] , axis = 1)

sns.boxplot(data = data , orient = 'h')
plt.title('Data values size and Outliers')
plt.xlabel('Values')
plt.ylabel('Columns')

### 2. Target Feature

In [None]:
data = df['CI_HOUR']

sns.distplot(data , fit = norm , color = 'g')

(mu , sigma) = norm.fit(data)

plt.legend(['Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(mu , sigma)] ,
           loc = 'best')
plt.title("CI_HOUR distribution")

fig = plt.figure()
res = stats.probplot(data , plot = plt)
plt.show()

In [None]:
print("target data skew : {:.2f}".format(data.skew()))
print("target data kurtosis : {:.2f}".format(data.kurtosis()))

### 3. Numerical Data

In [None]:
target = df['CI_HOUR']

In [None]:
# DEADWEIGHT

"""산포도에 의한 분석으로는 큰 상관관계는 없는 것 같다."""

var = 'DEADWEIGHT'
data = pd.concat([df[var] , target] , axis = 1)
sns.scatterplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR' ,
    color = 'g'
)

In [None]:
# GT

"""GT는 위의 feature과 거의 같은 의미를 가지는데 역시 큰 상관관계는
없는 것 같다"""

var = 'GT'
data = pd.concat([df[var] , target] , axis = 1)
sns.scatterplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR' ,
    color = 'g'
)

In [None]:
# U_WIND

var = 'U_WIND'
data = pd.concat([df[var] , target] , axis = 1)
sns.scatterplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR' ,
    color = 'g'
)

In [None]:
# V_WIND

var = 'V_WIND'
data = pd.concat([df[var] , target] , axis = 1)
sns.scatterplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR' ,
    color = 'g'
)

In [None]:
# AIR_TEMPERATURE

var = 'AIR_TEMPERATURE'
data = pd.concat([df[var] , target] , axis = 1)
sns.scatterplot(
    data = data ,
    x = var,
    y = 'CI_HOUR' ,
    color = 'g'
)

In [None]:
# BN

var = 'BN'
data = pd.concat([df[var] , target] , axis = 1)
sns.scatterplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR' ,
    color = 'g'
)

In [None]:
# DUBAI , BRENT , WTI

var = 'DUBAI'
data = pd.concat([df[var] , target] , axis = 1)
sns.scatterplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR' ,
    color = 'g'
)

In [None]:
var = 'BRENT'
data = pd.concat([df[var] , target] , axis = 1)
sns.scatterplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR' ,
    color = 'g'
)

In [None]:
var = 'WTI'
data = pd.concat([df[var] , target] , axis = 1)
sns.scatterplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR' ,
    color = 'g'
)

In [None]:
# BDI_ADJ

var = 'BDI_ADJ'
data = pd.concat([df[var] , target] , axis = 1)
sns.scatterplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR' ,
    color = 'g'
)

In [None]:
# PORT_SIZE

var = 'PORT_SIZE'
data = pd.concat([df[var] , target] , axis = 1)
sns.scatterplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR' ,
    color = 'g'
)

In [None]:
"""메모
수치형 데이터의 경우 역시 바람이나 기온등 , 날씨와 관련된 데이터들에게서 일정한
패턴이 나오는 것을 확인 가능
"""

### 4. Categorical Data

In [None]:
# ARI_CO

plt.figure(figsize = (13 , 8))

var = 'ARI_CO'
data = pd.concat([df[var] , target] , axis = 1)
sns.boxplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR'
)

In [None]:
sns.countplot(
    data = data ,
    y = var
)

In [None]:
# SHIP_TYPE_CATEGORY

var = 'SHIP_TYPE_CATEGORY'
data = pd.concat([df[var] , target] , axis = 1)
sns.boxplot(
    data = data ,
    x = var ,
    y = 'CI_HOUR'
)

In [None]:
sns.countplot(
    data = data ,
    y = var
)

In [None]:
# ATA

var = 'ATA'
year = df[var].str.split('-').str[0]
data = pd.concat([year , target] , axis = 1)
sns.boxplot(
    data = data ,
    x = 'ATA' ,
    y = 'CI_HOUR'
)

In [None]:
sns.countplot(
    data = data ,
    y = 'ATA'
)

In [None]:
# FLAG

plt.figure(figsize = (12 , 15))

var = 'FLAG'
data = pd.concat([df[var] , target] , axis = 1)
sns.boxplot(
    data = data ,
    y = 'FLAG' ,
    x = 'CI_HOUR'
)

## 3. 전처리

### 1. Na 값 처리

In [None]:
!pip install impyute

In [None]:
df['V_WIND'].isna().sum()

In [None]:
cols = ['U_WIND' , 'V_WIND' , 'AIR_TEMPERATURE' , 'BN']

"""
메모
그렇게 크게 결측값이 존재하지는 않기 때문에 KNN모델을 베이스로 한
결측값 처리를 시행

< 참고 >
결측값 10% 미만 : 결측값 삭제 또는 대치
결측값 10% ~ 50% : Regression or Model based imputation
결측값 50% 초과 : 해당 변수 자체를 제거
"""

from impyute.imputation.cs import mice

imputed = mice(df['V_WIND'].values.reshape(-1 , 1))