In [14]:
import pandas as pd
import numpy as np

import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

import scipy.stats as stats
from statsmodels.formula.api import ols
from scipy.stats import ttest_ind
from scipy.stats import ttest_1samp

%matplotlib inline

In [15]:
plt.rc("font", family="NanumGothic Eco")
matplotlib.rc("axes", unicode_minus = False)

import warnings
warnings.filterwarnings('ignore')

In [16]:
Scale_raw = pd.read_csv("C:\포스코 아카데미\preprocessed_scale.csv")
Scale_raw.head()

Unnamed: 0.1,Unnamed: 0,scale,steel_kind,pt_thick,pt_width,pt_length,hsb,fur_no,fur_input_row,fur_heat_temp,fur_heat_time,fur_soak_temp,fur_soak_time,rolling_method,rolling_temp,descaling_count,fur_preheat_time
0,0,0,T,32,3700,15100,적용,1,1,1144,116,1133,59,TMCP(온도제어),934,8,84
1,1,0,T,32,3700,15100,적용,1,2,1144,122,1135,53,TMCP(온도제어),937,8,63
2,2,0,T,33,3600,19200,적용,2,1,1129,116,1121,55,TMCP(온도제어),889,8,87
3,3,0,T,33,3600,19200,적용,2,2,1152,125,1127,68,TMCP(온도제어),885,8,73
4,4,0,T,38,3100,13300,적용,3,1,1140,134,1128,48,TMCP(온도제어),873,8,64


# Welch's t-test

In [None]:

# 전체 pt_length 데이터 추출 (전체 평균과 개별 그룹을 비교하기 위한 전체 그룹)
all_data = Scale_raw['pt_length']

# scale의 고유 값 목록
scales = Scale_raw['scale'].unique()

# t-검정 결과 저장용 데이터프레임
t_test_results = pd.DataFrame(columns=['scale', 't-statistic', 'p-value'])

# 각 scale에 대해 Welch's t-test 수행
for scale in scales:
    # 해당 scale의 pt_length 데이터 추출
    price_brand = Scale_raw[Scale_raw['scale'] == scale]['pt_length']
    
    # Welch's t-test 수행: 해당 scale의 pt_length 데이터와 전체 데이터 비교
    t, p = ttest_ind(price_brand, all_data, equal_var=False)
    
    # 새로운 행을 데이터프레임으로 생성
    new_row = pd.DataFrame({
        'scale': [scale],
        't-statistic': [t],
        'p-value': [p]
    })
    
    # 결과 저장 (pd.concat을 사용하여 추가)
    t_test_results = pd.concat([t_test_results, new_row], ignore_index=True)

# 결과 출력
print(t_test_results)

  scale  t-statistic   p-value
0     0    -0.622961  0.533414
1     1     1.415637  0.157312


pt_length는 scale에 유의미하지않다.

In [25]:

# 전체 pt_length 데이터 추출 (전체 평균과 개별 그룹을 비교하기 위한 전체 그룹)
all_data = Scale_raw['pt_width']

# scale의 고유 값 목록
scales = Scale_raw['scale'].unique()

# t-검정 결과 저장용 데이터프레임
t_test_results = pd.DataFrame(columns=['scale', 't-statistic', 'p-value'])

# 각 scale에 대해 Welch's t-test 수행
for scale in scales:
    # 해당 scale의 pt_length 데이터 추출
    price_brand = Scale_raw[Scale_raw['scale'] == scale]['pt_width']
    
    # Welch's t-test 수행: 해당 scale의 pt_length 데이터와 전체 데이터 비교
    t, p = ttest_ind(price_brand, all_data, equal_var=False)
    
    # 새로운 행을 데이터프레임으로 생성
    new_row = pd.DataFrame({
        'scale': [scale],
        't-statistic': [t],
        'p-value': [p]
    })
    
    # 결과 저장 (pd.concat을 사용하여 추가)
    t_test_results = pd.concat([t_test_results, new_row], ignore_index=True)

# 결과 출력
print(t_test_results)

  scale  t-statistic   p-value
0     0     2.674101  0.007574
1     1    -4.393515  0.000014


pt_width는 scale에 유의미하다.

In [26]:

# 전체 pt_length 데이터 추출 (전체 평균과 개별 그룹을 비교하기 위한 전체 그룹)
all_data = Scale_raw['pt_thick']

# scale의 고유 값 목록
scales = Scale_raw['scale'].unique()

# t-검정 결과 저장용 데이터프레임
t_test_results = pd.DataFrame(columns=['scale', 't-statistic', 'p-value'])

# 각 scale에 대해 Welch's t-test 수행
for scale in scales:
    # 해당 scale의 pt_length 데이터 추출
    price_brand = Scale_raw[Scale_raw['scale'] == scale]['pt_thick']
    
    # Welch's t-test 수행: 해당 scale의 pt_length 데이터와 전체 데이터 비교
    t, p = ttest_ind(price_brand, all_data, equal_var=False)
    
    # 새로운 행을 데이터프레임으로 생성
    new_row = pd.DataFrame({
        'scale': [scale],
        't-statistic': [t],
        'p-value': [p]
    })
    
    # 결과 저장 (pd.concat을 사용하여 추가)
    t_test_results = pd.concat([t_test_results, new_row], ignore_index=True)

# 결과 출력
print(t_test_results)

  scale  t-statistic   p-value
0     0     1.213193  0.225263
1     1    -2.647198  0.008303


pt_thick는 scale이 0일때 유의미하지않다.
\
pt_thick는 scale이 1일때 유의미하다.

In [27]:

# 전체 pt_length 데이터 추출 (전체 평균과 개별 그룹을 비교하기 위한 전체 그룹)
all_data = Scale_raw['fur_soak_temp']

# scale의 고유 값 목록
scales = Scale_raw['scale'].unique()

# t-검정 결과 저장용 데이터프레임
t_test_results = pd.DataFrame(columns=['scale', 't-statistic', 'p-value'])

# 각 scale에 대해 Welch's t-test 수행
for scale in scales:
    # 해당 scale의 pt_length 데이터 추출
    price_brand = Scale_raw[Scale_raw['scale'] == scale]['fur_soak_temp']
    
    # Welch's t-test 수행: 해당 scale의 pt_length 데이터와 전체 데이터 비교
    t, p = ttest_ind(price_brand, all_data, equal_var=False)
    
    # 새로운 행을 데이터프레임으로 생성
    new_row = pd.DataFrame({
        'scale': [scale],
        't-statistic': [t],
        'p-value': [p]
    })
    
    # 결과 저장 (pd.concat을 사용하여 추가)
    t_test_results = pd.concat([t_test_results, new_row], ignore_index=True)

# 결과 출력
print(t_test_results)

  scale  t-statistic       p-value
0     0    -4.392721  1.200419e-05
1     1     8.956118  3.408921e-18


fur_soak_temp는 scale에 유의미하다.


In [None]:

# 전체 pt_length 데이터 추출 (전체 평균과 개별 그룹을 비교하기 위한 전체 그룹)
all_data = Scale_raw['descaling_count']

# scale의 고유 값 목록
scales = Scale_raw['scale'].unique()

# t-검정 결과 저장용 데이터프레임
t_test_results = pd.DataFrame(columns=['scale', 't-statistic', 'p-value'])

# 각 scale에 대해 Welch's t-test 수행
for scale in scales:
    # 해당 scale의 pt_length 데이터 추출
    price_brand = Scale_raw[Scale_raw['scale'] == scale]['descaling_count']
    
    # Welch's t-test 수행: 해당 scale의 pt_length 데이터와 전체 데이터 비교
    t, p = ttest_ind(price_brand, all_data, equal_var=False)
    
    # 새로운 행을 데이터프레임으로 생성
    new_row = pd.DataFrame({
        'scale': [scale],
        't-statistic': [t],
        'p-value': [p]
    })
    
    # 결과 저장 (pd.concat을 사용하여 추가)
    t_test_results = pd.concat([t_test_results, new_row], ignore_index=True)

# 결과 출력
print(t_test_results)

  scale  t-statistic   p-value
0     0     0.566785  0.570950
1     1    -1.121434  0.262549


descaling_count은 sclae에 유의미하지않다.

# T-Test

In [30]:
# 전체 fur_heat_temp의 평균 계산
overall_mean = Scale_raw['fur_heat_temp'].mean()

# scale의 고유 값 목록
scales = Scale_raw['scale'].unique()

# t-검정 결과 저장용 데이터프레임
t_test_results = pd.DataFrame(columns=['scale', 't-statistic', 'p-value'])

# 각 scale에 대해 t-검정 수행
for scale in scales:
    # 해당 scale의 fur_heat_temp 데이터 추출
    price_brand = Scale_raw[Scale_raw['scale'] == scale]['fur_heat_temp']
    
    # t-검정 수행: 해당 scale의 fur_heat_temp 데이터와 전체 평균 비교
    t, p = ttest_1samp(price_brand, overall_mean)
    
    # 새로운 행을 데이터프레임으로 생성
    new_row = pd.DataFrame({
        'scale': [scale],
        't-statistic': [t],
        'p-value': [p]
    })
    
    # 결과 저장 (pd.concat을 사용하여 추가)
    t_test_results = pd.concat([t_test_results, new_row], ignore_index=True)

# 결과 출력
print(t_test_results)

  scale  t-statistic       p-value
0     0    -3.873451  1.176264e-04
1     1     6.301136  1.016448e-09


fur_heat_temp는 scale에 유의미하다.

In [31]:
# 전체 fur_heat_temp의 평균 계산
overall_mean = Scale_raw['fur_heat_time'].mean()

# scale의 고유 값 목록
scales = Scale_raw['scale'].unique()

# t-검정 결과 저장용 데이터프레임
t_test_results = pd.DataFrame(columns=['scale', 't-statistic', 'p-value'])

# 각 scale에 대해 t-검정 수행
for scale in scales:
    # 해당 scale의 fur_heat_temp 데이터 추출
    price_brand = Scale_raw[Scale_raw['scale'] == scale]['fur_heat_time']
    
    # t-검정 수행: 해당 scale의 fur_heat_temp 데이터와 전체 평균 비교
    t, p = ttest_1samp(price_brand, overall_mean)
    
    # 새로운 행을 데이터프레임으로 생성
    new_row = pd.DataFrame({
        'scale': [scale],
        't-statistic': [t],
        'p-value': [p]
    })
    
    # 결과 저장 (pd.concat을 사용하여 추가)
    t_test_results = pd.concat([t_test_results, new_row], ignore_index=True)

# 결과 출력
print(t_test_results)

  scale  t-statistic   p-value
0     0     0.611589  0.541013
1     1    -1.048171  0.295379


fur_heat_time은 scale에 유의미하지 않다.

In [32]:
# 전체 fur_heat_temp의 평균 계산
overall_mean = Scale_raw['fur_soak_time'].mean()

# scale의 고유 값 목록
scales = Scale_raw['scale'].unique()

# t-검정 결과 저장용 데이터프레임
t_test_results = pd.DataFrame(columns=['scale', 't-statistic', 'p-value'])

# 각 scale에 대해 t-검정 수행
for scale in scales:
    # 해당 scale의 fur_heat_temp 데이터 추출
    price_brand = Scale_raw[Scale_raw['scale'] == scale]['fur_soak_time']
    
    # t-검정 수행: 해당 scale의 fur_heat_temp 데이터와 전체 평균 비교
    t, p = ttest_1samp(price_brand, overall_mean)
    
    # 새로운 행을 데이터프레임으로 생성
    new_row = pd.DataFrame({
        'scale': [scale],
        't-statistic': [t],
        'p-value': [p]
    })
    
    # 결과 저장 (pd.concat을 사용하여 추가)
    t_test_results = pd.concat([t_test_results, new_row], ignore_index=True)

# 결과 출력
print(t_test_results)

  scale  t-statistic       p-value
0     0     3.670378  2.610835e-04
1     1    -7.594583  3.695672e-13


fur_soak_time은 scale에 유의미하다.

In [33]:
# 전체 fur_heat_temp의 평균 계산
overall_mean = Scale_raw['rolling_temp'].mean()

# scale의 고유 값 목록
scales = Scale_raw['scale'].unique()

# t-검정 결과 저장용 데이터프레임
t_test_results = pd.DataFrame(columns=['scale', 't-statistic', 'p-value'])

# 각 scale에 대해 t-검정 수행
for scale in scales:
    # 해당 scale의 fur_heat_temp 데이터 추출
    price_brand = Scale_raw[Scale_raw['scale'] == scale]['rolling_temp']
    
    # t-검정 수행: 해당 scale의 fur_heat_temp 데이터와 전체 평균 비교
    t, p = ttest_1samp(price_brand, overall_mean)
    
    # 새로운 행을 데이터프레임으로 생성
    new_row = pd.DataFrame({
        'scale': [scale],
        't-statistic': [t],
        'p-value': [p]
    })
    
    # 결과 저장 (pd.concat을 사용하여 추가)
    t_test_results = pd.concat([t_test_results, new_row], ignore_index=True)

# 결과 출력
print(t_test_results)

  scale  t-statistic       p-value
0     0   -10.220911  6.463393e-23
1     1    16.451250  4.079539e-44


rolling_temp는 scale에 유의미하다.

In [34]:
# 전체 fur_heat_temp의 평균 계산
overall_mean = Scale_raw['fur_preheat_time'].mean()

# scale의 고유 값 목록
scales = Scale_raw['scale'].unique()

# t-검정 결과 저장용 데이터프레임
t_test_results = pd.DataFrame(columns=['scale', 't-statistic', 'p-value'])

# 각 scale에 대해 t-검정 수행
for scale in scales:
    # 해당 scale의 fur_heat_temp 데이터 추출
    price_brand = Scale_raw[Scale_raw['scale'] == scale]['fur_preheat_time']
    
    # t-검정 수행: 해당 scale의 fur_heat_temp 데이터와 전체 평균 비교
    t, p = ttest_1samp(price_brand, overall_mean)
    
    # 새로운 행을 데이터프레임으로 생성
    new_row = pd.DataFrame({
        'scale': [scale],
        't-statistic': [t],
        'p-value': [p]
    })
    
    # 결과 저장 (pd.concat을 사용하여 추가)
    t_test_results = pd.concat([t_test_results, new_row], ignore_index=True)

# 결과 출력
print(t_test_results)

  scale  t-statistic   p-value
0     0    -0.668198  0.504233
1     1     0.992287  0.321834


fur_preheat_time는 scale에 유의미하지않다.