## 모듈 및 데이터 로딩 <hr>

In [2]:
import pandas as pd
import numpy as np
file = '../data/공정데이터 추가자료.csv'
data = pd.read_csv(file)

## 데이터 전처리 <hr>

In [3]:
# 오류 컬럼 제거
data = data.drop(columns=['Unnamed: 12'])

In [4]:
data

Unnamed: 0,time,E_scr_pv,E_scr_sv,c_temp_pv,c_temp_sv,k_rpm_pv,k_rpm_sv,n_temp_pv,n_temp_sv,scale_pv,s_temp_pv,s_temp_sv
0,2023-05-18T15:09:19.018900Z,8,8,69.6,70,189,180,67.2,70,3.01,67.1,70
1,2023-05-18T15:09:20.128150Z,8,8,69.8,70,189,180,67.2,70,3.01,67.0,70
2,2023-05-18T15:12:38.819460Z,8,8,69.7,70,189,180,67.9,70,3.08,65.9,70
3,2023-05-18T15:12:39.958188Z,8,8,69.7,70,189,180,67.8,70,3.08,65.9,70
4,2023-05-18T15:12:41.050178Z,8,8,69.7,70,189,180,67.8,70,3.08,65.9,70
...,...,...,...,...,...,...,...,...,...,...,...,...
235408,2023-10-16T09:34:12.837701Z,8,8,69.8,70,191,1910,67.5,70,0.00,67.0,70
235409,2023-10-16T09:34:13.915681Z,8,8,69.7,70,191,1910,67.4,70,0.00,66.8,70
235410,2023-10-16T09:34:14.978068Z,8,8,69.7,70,191,1910,67.3,70,0.00,66.7,70
235411,2023-10-16T09:34:16.040468Z,8,8,69.8,70,191,1910,67.2,70,0.00,66.6,70


In [5]:
# 'time' 컬럼을 datetime 형식으로 변환
data['time'] = pd.to_datetime(data['time']).dt.tz_localize(None)

In [6]:
# 10월 1일을 기준으로 데이터 분할
oct_1 = pd.Timestamp('2023-10-01')

In [7]:
# 10월 이후 데이터
oct_data = data[data['time'] >= oct_1]

In [8]:
# 분류 후 'time' 컬럼 삭제
oct_data = oct_data.drop(columns=['time'])

In [9]:
oct_data

Unnamed: 0,E_scr_pv,E_scr_sv,c_temp_pv,c_temp_sv,k_rpm_pv,k_rpm_sv,n_temp_pv,n_temp_sv,scale_pv,s_temp_pv,s_temp_sv
205736,8,8,69.4,70,40,400,69.6,70,0.0,70.2,70
205737,8,8,69.4,70,180,1800,69.5,70,0.0,70.3,70
205738,8,8,69.4,70,179,1790,69.4,70,0.0,70.4,70
205739,8,8,69.5,70,176,1760,69.4,70,0.0,70.6,70
205740,8,8,69.4,70,173,1730,69.6,70,0.0,70.7,70
...,...,...,...,...,...,...,...,...,...,...,...
235408,8,8,69.8,70,191,1910,67.5,70,0.0,67.0,70
235409,8,8,69.7,70,191,1910,67.4,70,0.0,66.8,70
235410,8,8,69.7,70,191,1910,67.3,70,0.0,66.7,70
235411,8,8,69.8,70,191,1910,67.2,70,0.0,66.6,70


In [10]:
# 웹 연동을 위한 DF 생성 -> 1. 행 우선 자르기 
oct_data = oct_data[(oct_data['scale_pv']>2) & (oct_data['scale_pv']<4)]

In [11]:
# 데이터 갯수 파악
oct_data

Unnamed: 0,E_scr_pv,E_scr_sv,c_temp_pv,c_temp_sv,k_rpm_pv,k_rpm_sv,n_temp_pv,n_temp_sv,scale_pv,s_temp_pv,s_temp_sv
205770,8,8,69.6,70,168,1680,70.1,70,3.06,68.0,70
205771,8,8,69.5,70,169,1690,70.1,70,3.06,68.0,70
205784,8,8,69.6,70,169,1690,70.6,70,3.16,69.4,70
205785,8,8,69.6,70,173,1730,70.5,70,3.16,69.5,70
205824,8,8,69.6,70,180,1800,69.3,70,3.17,68.0,70
...,...,...,...,...,...,...,...,...,...,...,...
235357,8,8,69.8,70,191,1910,66.5,70,3.05,66.2,70
235358,8,8,69.8,70,191,1910,66.4,70,3.05,66.0,70
235359,8,8,69.8,70,191,1910,66.4,70,3.05,66.1,70
235374,8,8,69.8,70,191,1910,66.8,70,3.09,66.6,70


In [12]:
for i in oct_data.columns:
    print(f'{i} : {oct_data[i].unique()}\n')

E_scr_pv : [8]

E_scr_sv : [8]

c_temp_pv : [69.6 69.5 69.7 69.9 69.8 70.1 70.  70.2 70.3 70.4 70.5 69.2 69.1 69.4
 69.3 68.8 68.7 68.9 69.  68.6 70.6 70.7]

c_temp_sv : [70]

k_rpm_pv : [168 169 173 180 183 185 186 190 192 193 194 175 188 195 197 196 191 189
 187 144 146 147 156 159 166 172 171 174 176 177 179 170 182 202 184 165
 181 160 163 178]

k_rpm_sv : [1680 1690 1730 1800 1830 1850 1860 1900 1920 1930 1940 1750 1880 1950
 1970 1960 1910 1890 1870 1440 1460 1470 1560 1590 1660 1720 1710 1740
 1760 1770 1790 1700 1820 2020 1840 1650 1810 1600 1630 1780]

n_temp_pv : [70.1 70.6 70.5 69.3 69.6 69.7 69.8 68.7 69.  69.1 68.9 68.5 68.4 68.8
 67.9 68.6 68.2 67.8 68.3 67.  67.1 67.3 66.7 66.8 66.6 67.7 67.6 67.5
 70.2 70.3 69.4 69.5 69.2 68.1 67.4 66.4 66.3 67.2 66.5 66.9 68.  66.1
 70.4 69.9 70.  66.2]

n_temp_sv : [70]

scale_pv : [3.06 3.16 3.17 3.14 3.09 3.07 3.05 3.08 3.03 3.04 3.02 2.95 3.01 3.15
 3.   2.99 2.97 3.1  3.18 3.11 2.96 3.13 2.85 2.98 3.28 3.12 3.19 3.27]

s_temp_pv :

In [13]:
# 웹에 연동할 자료는 'time'과 'Unnamed: 12' 컬럼을 제외하고 모두 살려야함
# 현재 중량예측 모델에서 사용하고 있는 컬럼은 c_temp_pv, k_rpm_pv, n_temp_pv, scale_pv, stemp_pv임
# 5개의 컬럼을 제외한 컬럼들에 대한 분석
'''
E_scr_pv  : 모두 고유값이 8 이므로 사용 가능
E_scr_sv  : 모두 고유값이 8 이므로 사용 가능
c_temp_sv : 모두 고유값이 70이므로 사용 가능
k_rpm_sv  : 고유값이 k_rpm_pv값에 10을 곱해진 값으로 설정되어 있음 [측정 오류] -> 모두 10을 나눠서 살려낼 순 있음
n_temp_sv : 모두 고유값이 70이므로 사용 가능
s_temp_sv : 모두 고유값이 70이므로 사용 가능
'''
# 고민해볼 문제점 -> k_rpm_sv값에 대해 시뮬레이션으로 들어가는 k_rpm_pv값이 곧 대응값이 되는데, 그럼 k_rpm_pv와 k_rpm_sv의 값이 같아짐.
# 해당 문제에 대해, k_rpm_sv값 설정을 기존 모델 학습에 사용된 데이터들의 다른 조건(k_rpm_pv를 제외한 Features 컬럼) 
# 즉 c_temp_pv, n_temp_sv, s_temp_sv에 따른 scale_pv값이 3이 되는 최적의 k_rpm_pv 값을 제시할 것인지에 대한 고민 필요.
# 하지만 이 부분은 대응으로 설정되는 rpm값과 연관성을 갖는지에 대한 판단이 필요함
# 기존의 셋팅값이던 k_rpm_sv를 10으로 나눈 값을 그대로 넣는다면, k_rpm_pv를 예측값으로 대체하여 넣을 수 있음.
# 근데 그러면 k_rpm_sv 값이 가지는 의미가 있는가? 어차피 pv는 따로 노는데?

## 결론 -> sv 즉 셋팅 벨류의 값은 기존에 해당 제품이 제조되는 공정에 가장 적합한 값을 정해둔 값이므로, 180고정하기로 결정.

'\nE_scr_pv  : 모두 고유값이 8 이므로 사용 가능\nE_scr_sv  : 모두 고유값이 8 이므로 사용 가능\nc_temp_sv : 모두 고유값이 70이므로 사용 가능\nk_rpm_sv  : 고유값이 k_rpm_pv값에 10을 곱해진 값으로 설정되어 있음 [측정 오류] -> 모두 10을 나눠서 살려낼 순 있음\nn_temp_sv : 모두 고유값이 70이므로 사용 가능\ns_temp_sv : 모두 고유값이 70이므로 사용 가능\n'

In [14]:
# k_rpm_sv 컬럼 모두 180으로 통일
oct_data['k_rpm_sv'] = 180

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  oct_data['k_rpm_sv'] = 180


In [15]:
oct_data

Unnamed: 0,E_scr_pv,E_scr_sv,c_temp_pv,c_temp_sv,k_rpm_pv,k_rpm_sv,n_temp_pv,n_temp_sv,scale_pv,s_temp_pv,s_temp_sv
205770,8,8,69.6,70,168,180,70.1,70,3.06,68.0,70
205771,8,8,69.5,70,169,180,70.1,70,3.06,68.0,70
205784,8,8,69.6,70,169,180,70.6,70,3.16,69.4,70
205785,8,8,69.6,70,173,180,70.5,70,3.16,69.5,70
205824,8,8,69.6,70,180,180,69.3,70,3.17,68.0,70
...,...,...,...,...,...,...,...,...,...,...,...
235357,8,8,69.8,70,191,180,66.5,70,3.05,66.2,70
235358,8,8,69.8,70,191,180,66.4,70,3.05,66.0,70
235359,8,8,69.8,70,191,180,66.4,70,3.05,66.1,70
235374,8,8,69.8,70,191,180,66.8,70,3.09,66.6,70
