## 11-2. 다중 회귀 분석(Multiple Regression Analysis)

- 목표 변수(Y, Target)값이 하나이고, 설명변수(Input, X)값이 여러개 있을 때 수행하는 회귀분석
- 여기서 회귀계수는(기울기) 최소제곱법(Least Square Metohd)계산
- 다중 회귀 분석에서는 **다중공선성(Multi-Collinearity)** 을 고려
- **다중공선성(Multi-Collinearity)** : 설명변수 X간 상관관계가 높아 발생하는 문제로, 설명변수 간 관계가 강한 변수들에 의해 수식이 구성될 때, 통제할 수 없는 오차
- **분산팽창지수(Variance Inflation Factor, VIF)** 을 이용하여, 다중공선성의 문제가 발생하는 변수를 파악, 처리
- 변수를 선택해 나가며 모델을 개선하는 작업을 수행

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import scipy.stats as stats

In [2]:
df = pd.read_csv('data/12_Data.csv')
print(df.shape)
df.head(2)

(569, 32)


Unnamed: 0,Image ID,Diagnosis,Mean Radius,Mean Perimeter,Mean Area,Mean Texture,Mean Smoothness,Mean Compactness,Mean Concavity,Mean Concave Points,...,SE Radius,SE Perimeter,SE Area,SE Texture,SE Smoothness,SE Compactness,SE Concavity,SE Concave Points,SE Symmetry,SE Fractal Dim
0,842302,M,17.99,122.8,1001.0,10.38,0.12,0.2776,0.3001,0.1471,...,1.095,8.589,153.4,0.9053,0.0064,0.049,0.0537,0.0159,0.03,0.0062
1,842517,M,20.57,132.9,1326.0,17.77,0.08,0.07864,0.0869,0.0702,...,0.5435,3.398,74.08,0.7339,0.0052,0.0131,0.0186,0.0134,0.0139,0.0035


In [6]:
df.columns

Index(['Image ID', 'Diagnosis', 'Mean Radius', 'Mean Perimeter', 'Mean Area',
       'Mean Texture', 'Mean Smoothness', 'Mean Compactness', 'Mean Concavity',
       'Mean Concave Points', 'Mean Symmetry', 'Mean Fractal Dim',
       'Max Radius', 'Max Perimeter', 'Max Area', 'Max Texture',
       'Max Smoothness', 'Max Compactness', 'Max Concavity',
       'Max Concave Points', 'Max Symmetry', 'Max Fractal Dim', 'SE Radius',
       'SE Perimeter', 'SE Area', 'SE Texture', 'SE Smoothness',
       'SE Compactness', 'SE Concavity', 'SE Concave Points', 'SE Symmetry',
       'SE Fractal Dim'],
      dtype='object')

In [12]:
# 다중 회귀 모델 구성
# Target Y값과 Input X값 설정
x = df[['Mean Perimeter', 'Mean Area',
       'Mean Texture', 'Mean Smoothness', 'Mean Compactness', 'Mean Concavity',
       'Mean Concave Points', 'Mean Symmetry', 'Mean Fractal Dim']]
y = df['Mean Radius']

In [13]:
import statsmodels.api as sm

# 상수항을 계산하기 위한 Column추가
x_const = sm.add_constant(x)

In [14]:
model = sm.OLS(y, x_const) # 모델을 구성
result = model.fit() # 구성된 모델을 최소제곱법으로 연산
result.summary() # 연산 결과를 확인

0,1,2,3
Dep. Variable:,Mean Radius,R-squared:,0.999
Model:,OLS,Adj. R-squared:,0.999
Method:,Least Squares,F-statistic:,99730.0
Date:,"Wed, 16 Apr 2025",Prob (F-statistic):,0.0
Time:,09:25:34,Log-Likelihood:,576.57
No. Observations:,569,AIC:,-1133.0
Df Residuals:,559,BIC:,-1090.0
Df Model:,9,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,0.1111,0.134,0.832,0.406,-0.151,0.374
Mean Perimeter,0.1567,0.001,117.406,0.000,0.154,0.159
Mean Area,-0.0003,7.84e-05,-3.546,0.000,-0.000,-0.000
Mean Texture,0.0003,0.001,0.283,0.778,-0.002,0.002
Mean Smoothness,1.1996,0.430,2.792,0.005,0.356,2.044
Mean Compactness,-4.8143,0.265,-18.155,0.000,-5.335,-4.293
Mean Concavity,-0.7665,0.156,-4.909,0.000,-1.073,-0.460
Mean Concave Points,-0.2747,0.445,-0.618,0.537,-1.148,0.599
Mean Symmetry,0.2399,0.180,1.330,0.184,-0.114,0.594

0,1,2,3
Omnibus:,116.768,Durbin-Watson:,1.995
Prob(Omnibus):,0.0,Jarque-Bera (JB):,2025.407
Skew:,-0.335,Prob(JB):,0.0
Kurtosis:,12.218,Cond. No.,273000.0


In [16]:
# 분산 팽창 지수를 계산
from statsmodels.stats.outliers_influence import variance_inflation_factor

# VIF값을 하나의 데이터 테이블로 계산
data_VIF = pd.DataFrame()
data_VIF['x'] = x_const.columns
data_VIF['vif'] = [variance_inflation_factor(x_const.values, x) for x in range(x_const.shape[1])]
data_VIF
# vif값이 1에 가까우면 다른 독립변수들과 상관관계가 낮음
# vif값이 1보다 크면 다른 독립변수들과 상관관계가 존재
# vif값이 5보다 크면 해당 독립변수가 다른 독립변수들과 상당한 다중 공선성을 가질 가능성이 있음


Unnamed: 0,x,vif
0,const,1293.292556
1,Mean Perimeter,76.100504
2,Mean Area,55.015152
3,Mean Texture,1.190713
4,Mean Smoothness,2.805506
5,Mean Compactness,14.185253
6,Mean Concavity,11.205207
7,Mean Concave Points,21.536872
8,Mean Symmetry,1.767032
9,Mean Fractal Dim,6.426153


- 다중공선성 문제를 해결하기 위한 변수 선택법
  - 1. 후진제거법(Backward Elimination): 모든 X를 포함하여 모델을 먼저 구성한 뒤, 가장 영향력이 적은 X들을 제거해 나가며 모델을 구성
   
  - 2. 전진선택법(Forward Selection): 설명력이 가장 큰 변수부터 시작하여, 순차적으로 X를 추가하며 회귀식에 기여하는 정도에 따라 변수를 선택
   
  - 3. 단계적 선택법(Stepwise): 후진제거법과 전진선택법의 단점을 보완해 여러단계로 모델을 구성해 나가며 가장 성능이 높은 모델을 찾는 방법

In [17]:
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE

In [18]:
# 모델 구성
model = LinearRegression()

# 전체 변수 중, 5개 변수가 남을 때 까지 변수를 제거
rfe_model = RFE(estimator = model, n_features_to_select = 5).fit(x, y)

In [24]:
# 선택된 변수
select_columns = x.columns[rfe_model.support_]
select_columns

Index(['Mean Smoothness', 'Mean Compactness', 'Mean Concave Points',
       'Mean Symmetry', 'Mean Fractal Dim'],
      dtype='object')

In [25]:
x_const_rfe = sm.add_constant(x_const[select_columns])
model = sm.OLS(y, x_const_rfe)
result = model.fit()
result.summary()

0,1,2,3
Dep. Variable:,Mean Radius,R-squared:,0.897
Model:,OLS,Adj. R-squared:,0.896
Method:,Least Squares,F-statistic:,977.3
Date:,"Wed, 16 Apr 2025",Prob (F-statistic):,9.36e-275
Time:,10:06:21,Log-Likelihood:,-877.77
No. Observations:,569,AIC:,1768.0
Df Residuals:,563,BIC:,1794.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,27.4806,0.619,44.399,0.000,26.265,28.696
Mean Smoothness,-25.8355,4.950,-5.220,0.000,-35.558,-16.113
Mean Compactness,11.2076,2.633,4.256,0.000,6.036,16.379
Mean Concave Points,76.9620,3.117,24.692,0.000,70.840,83.084
Mean Symmetry,-9.0868,2.280,-3.986,0.000,-13.564,-4.609
Mean Fractal Dim,-225.4089,12.417,-18.153,0.000,-249.799,-201.019

0,1,2,3
Omnibus:,6.681,Durbin-Watson:,1.923
Prob(Omnibus):,0.035,Jarque-Bera (JB):,7.937
Skew:,0.143,Prob(JB):,0.0189
Kurtosis:,3.503,Cond. No.,280.0


In [26]:
# 1. Tube Furnace CP(소입로 가스 침탄량)과 Corrleation이 높은 상위 5개의 항목을 확인하시오.
df = pd.read_csv('../hanro_test/0415/08_Data.csv')
print(df.shape)
df.head(2)

(93043, 17)


Unnamed: 0.1,Unnamed: 0,Code_Num,Datetime,Process_Type,ST,Tube Furnace CP,Tube Furnace1 OP,Tube Furnace1 Temp,Tube Furnace2 OP,Tube Furnace2 Temp,Tube Furnace3 OP,Tube Furnace3 Temp,Tube Furnace4 OP,Tube Furnace4 Temp,Z1-OP1,Z1-OP2,Z1-Temp
0,0,GroupA,2022-01-03 11:22,OP-A,,0.450497,73.527404,,59.989422,868.759544,52.249481,,72.134908,,74.25573,76.879748,
1,1,GroupA,2022-01-03 11:22,OP-A,,0.45737,79.149174,878.116929,62.027232,883.821264,50.617109,890.74076,71.245235,894.430606,66.323571,71.29772,


In [37]:
# 연속형 * 연속형 -> 연속형 자료가 정규분포를 따르는가?
# 각 연속형 자료들이 정규성을 따르는지 확인
numeric_list = df.describe().columns # describe함수가 연속형 자료들만 요약 통계량을 계싼하는 점을 활용하여 함수의 결과의 column명을 추출
df_num = df[numeric_list[1:]] 
# 연속형 자료들로만 구성된 데이터프레임의 각 column을 한줄 씩 가져와 정규성 검정을 수행
normal_list = []
nonnormal_list = []
for i in numeric_list[1:]:
    stats_result, pvalue_result = stats.normaltest(df_num[i].dropna())
    if pvalue_result < 0.05: # 대립가설 참 : 정규분포를 따르지 않는 데이터의 항목 명을 리스트에 추가
        nonnormal_list.append(i)
    else:
        normal_list.append(i)

In [38]:
# 정규분포를 따르는 연속형 자료들의 상관계수를 확인
df[normal_list].corr()

Unnamed: 0,Z1-OP1,Z1-OP2
Z1-OP1,1.0,-0.002423
Z1-OP2,-0.002423,1.0


In [41]:
# 정규분포를 따르지 않는 연속형 자료들의 상관계수를 확인
corr_result = df[nonnormal_list].corr(method = 'spearman')['Tube Furnace CP']

In [45]:
#2. 앞서 확인한 5개 항목을 X로, Tube Furnace CP을 Y로 선언하여, 전통 통계에서 사용하는 회귀 기법을 이용해 회귀 분석을 실시하시오.
# 부호를 제거하여 비례, 반비례 관계 없이 상관계수가 큰 값 확인
top_columns = corr_result.abs().sort_values(ascending = False).iloc[1:6]
top_columns

Tube Furnace1 OP    0.017604
Tube Furnace3 OP    0.013718
Z1-Temp             0.012176
Tube Furnace4 OP    0.012107
ST                  0.008257
Name: Tube Furnace CP, dtype: float64

In [51]:
df2 = df.dropna()
print(df2.shape)

(92847, 17)


In [55]:
x = df2[top_columns.index]
y = df2['Tube Furnace CP']

# 모델 구성
x_const = sm.add_constant(x)
model = sm.OLS(y, x_const)
result = model.fit()
result.summary()

0,1,2,3
Dep. Variable:,Tube Furnace CP,R-squared:,0.014
Model:,OLS,Adj. R-squared:,0.014
Method:,Least Squares,F-statistic:,273.1
Date:,"Wed, 16 Apr 2025",Prob (F-statistic):,5.480000000000001e-291
Time:,10:42:02,Log-Likelihood:,354260.0
No. Observations:,92847,AIC:,-708500.0
Df Residuals:,92841,BIC:,-708500.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,0.5305,0.004,131.570,0.000,0.523,0.538
Tube Furnace1 OP,-1.587e-05,8.43e-07,-18.818,0.000,-1.75e-05,-1.42e-05
Tube Furnace3 OP,0.0002,9.58e-06,23.968,0.000,0.000,0.000
Z1-Temp,-0.0007,4.01e-05,-16.690,0.000,-0.001,-0.001
Tube Furnace4 OP,-8.974e-05,7.48e-06,-11.999,0.000,-0.000,-7.51e-05
ST,-0.0002,2.91e-05,-6.183,0.000,-0.000,-0.000

0,1,2,3
Omnibus:,43399.57,Durbin-Watson:,0.597
Prob(Omnibus):,0.0,Jarque-Bera (JB):,1823426.834
Skew:,-1.553,Prob(JB):,0.0
Kurtosis:,24.487,Cond. No.,38600.0


In [56]:
#3. 회귀 분석 결과에 대해 아래의 사항을 진단하시오.
#- 아래 진단사항에 가설을 수립하고, 회귀 분석 결과를 이용해 해석하시오.
#- 3-1. 회귀선이 기울기가 존재하고 경회귀 선이 특정 경향성을 따르는가?
# 귀무가설: 해당 회귀선의 기울기가 0이다
# 대립가설: 해당 회귀선의 기울기는 0이 아니다.
# Prob (F-statistic):	5.48e-291 < 0.05 -> 귀무가설 기각 -> 기울기는 0이 아니다.

#- 3-2. 각 회귀 계수들의 값이 회귀식에 대해 유의미한가?
# 귀무가설: 해당 회귀 계수는 0이다.
# 대립가설: 해당 회귀 계수는 0이 아니다.
# P>|t|	< 0.05 귀무가설 기각 -> 해당 회귀 계수는 0이 아니다.회귀 계수 값들은 해당 회귀식에 대해 유의미하다.

#- 3-3. 회귀 모델의 오차 항이 정규 분포를 따르는가?
# 귀무가설: 해당 수식에 의한 오차항은 정규분포를 따른다.
# 대립가설: 해당 수식에 의한 오차항은 정규분포를 따르지 않는다.
# Prob(JB):	0.00 < 0.05 귀무가설 기각 -> 해당 수식에 의한 오차항은 정규분포를 따르지 않는다.
# 오차에 모델이 설명할 수 없는 경향성이 있다.



In [58]:
#4. 회귀식을 이용해, 5개의 값이 각각 순서대로 50, 80, 100, 75, 200 값이 왔을 때, Y값(Tube Furnace CP(소입로 가스 침탄량)을 계산하시오.
result.predict([[1, 50, 80, 100, 75, 200]])

array([0.43837486])

In [61]:
#5. Z1-OP1(공정건조온도 출력량) 평균에 대해 Z1-OP1 표준편차(σ)값이 3배이상 벗어나는 값을 '이상' 나머지를 '정상'으로 'Label'이라는 변수를 생성하고,
# Code_Num(공정배치그룹)과 'Label' 값이 서로 독립인지 가설 검정을 수행하시오.
#- 가설 및 결론까지 작성

# 조건을 이용해 파생변수 생성
# UCL: upper control limit 관리한계선
cond1 = df['Z1-OP1'] >= df['Z1-OP1'].mean() + df['Z1-OP1'].std() * 3
# LCL: lower control limit
cond2 = df['Z1-OP1'] <= df['Z1-OP1'].mean() - df['Z1-OP1'].std() * 3
df['Label'] = '정상'
df.loc[cond1 | cond2, 'Label'] = '이상'
df['Label'].value_counts()

Label
정상    92824
이상      219
Name: count, dtype: int64

In [63]:
c1 = pd.crosstab(df['Code_Num'], df['Label'])
c1

Label,이상,정상
Code_Num,Unnamed: 1_level_1,Unnamed: 2_level_1
GroupA,22,7320
GroupB,30,13269
GroupC,56,26926
GroupD,80,31649
GroupE,10,6208
GroupF,21,7452


In [65]:
# 이상 데이터의 비율 확인
c1['이상'] / (c1['이상'] + c1['정상'])

Code_Num
GroupA    0.002996
GroupB    0.002256
GroupC    0.002075
GroupD    0.002521
GroupE    0.001608
GroupF    0.002810
dtype: float64

In [67]:
# 귀무가설: 각 공정 라인과 이상 정상 여부는 서로 독립이다.(공정 라인별로 정상 이상 비율이 같다)
# 대립가설: 각 공정 라인과 이상 정상 여부는 서로 독립이 아니다.(공정 라인별로 정상 이상 비율이 다르다)
stats.chi2_contingency(c1)
# 귀무가설 참 -> 각 공정 라인과 이상 정상 여부는 서로 독립이다.

Chi2ContingencyResult(statistic=np.float64(4.74985011160537), pvalue=np.float64(0.44716509512437286), dof=5, expected_freq=array([[1.72812356e+01, 7.32471876e+03],
       [3.13025268e+01, 1.32676975e+04],
       [6.35088937e+01, 2.69184911e+04],
       [7.46821470e+01, 3.16543179e+04],
       [1.46356201e+01, 6.20336438e+03],
       [1.75895769e+01, 7.45541042e+03]]))

# 12. 데이터 수집

## 12-1. 데이터 크롤링

- 데이터 크롤링은 웹사이트에서 자동으로 데이터를 수집하는 과정
  - crawling: **웹페이지의 하이퍼링크를 돌아다니며**, 웹페이지를 다운로드 하는 작업
  - Scraping: 다운로드 한 웹페이지에서 필요한 정보를 추출하는 작업
- crawling에 사용되는 주요 library
  - request: http(hyper text transfer protocol)요청을 보내기 위해 사용되는 라이브러리
  - beautiful soup(bs4): html, xml 문서를 분석하는 라이브러리
  - selenium: app testing 라이브러리(여러 페이지를 돌아다니며 수집)
  - pyautogui: 컴퓨터에 입력장치를 자동으로 처리 라이브러리

## 12-2. 데이터 크롤링 과정

1. 시작 URL 설정:
   - 크롤링을 시작할 웹 페이지의 URL을 결정
   - URL(uniform resource locator, 인터넷 상 리소스 (문서, 이미지, 동영상 등)이 위치한 주소를 가리키는 문자열 )
2. 웹페이지 요청 및 다운로드:
   - 설정된 url로 http요청을 보내 해당 페이지의 내용을 다운로드
   - http(hyper text transfer protocol): 월드 와이드 웹에서 하이퍼텍스트(문자를 포함한 이미지 영상과 같은 모든 유형의 데이터를 문자와 한 것)를 요청하고, 정보를 전송하기 휘해 사용되는 프로토콜
   - 서버와 유저의 요청(request)와 응답(response)를 주고 받는 규칙
3. 데이터 파싱(parsing):
   - 다운로드 된 웹 페이지의 html코드를 분석하여, 필요한 데이터를 추출
   - html: 웹페이지에 데이터를 표현하기 위해 설계된 표준 언어
4. 추출 된 데이터 저장:
   - 추출된 데이터를 csv파일 또는 excel또는 db에 저장
  
5. 링크 추출 및 순회:
   - 현재 페이지에서 다른 정보를 수집하기 위해 다른 페이지의 링크를 추출하고, 이 링크를 따라가며 위의 4가지 과정을 반복 수행