In [None]:
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt

# 가상의 데이터 생성
np.random.seed(0)  # 결과의 일관성을 위해 시드 설정
X = np.random.rand(100, 1) * 100  # 독립 변수 (0~100 사이의 값 100개)
y = 3 * X + np.random.randn(100, 1) * 30  # 종속 변수 (기울기는 3, 잡음 추가)
X_sm = sm.add_constant(X)

# 데이터와 회귀선 시각화
plt.scatter(X, y, color='skyblue')  # 원본 데이터 산점도
plt.title('Simple Linear Regression')
plt.xlabel('X')
plt.ylabel('y')
plt.show()

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X, y)

In [None]:
# 예측 및 모델 평가
y_pred = model.predict(X)

# 데이터와 회귀선 시각화
plt.scatter(X, y, color='skyblue')  # 원본 데이터 산점도
plt.plot(X, y_pred, color='red')  # 회귀선
plt.title('Simple Linear Regression')
plt.xlabel('X')
plt.ylabel('y')
plt.show()

In [None]:
# 상수항 추가
X_sm = sm.add_constant(X)

# OLS (Ordinary Least Squares) 모델 생성 및 학습
model = sm.OLS(y, X_sm)
results = model.fit()

In [None]:
# 요약 결과 출력
print(results.summary())

# 데이터와 회귀선 시각화
plt.scatter(X, y, color='skyblue')  # 원본 데이터 산점도 (하늘색)
plt.plot(X, results.predict(X_sm), color='lightcoral')  # 회귀선 (밝은 주황색)
plt.title('Simple Linear Regression with Statsmodels')
plt.xlabel('X')
plt.ylabel('y')
plt.show()

In [None]:
predicted_values = results.predict(X_sm)
plt.scatter(predicted_values, y)
plt.xlabel("Predicted Values")
plt.ylabel("Actual Values")
plt.title("Predicted vs. Actual Values")
plt.show()

In [None]:
print('Durbin-Watson:', sm.stats.durbin_watson(results.resid), '\n')

In [None]:
print(results.summary()) # Durbin-Watson 확인

In [None]:
from scipy import stats

# 잔차 계산
residuals = results.resid

# Shapiro-Wilk 테스트
shapiro_test = stats.shapiro(residuals)
print("Shapiro-Wilk Test:\nStatistic:", shapiro_test[0], "\np-Value:", shapiro_test[1])

# Kolmogorov-Smirnov(K-S) 검정
ks_test = stats.kstest(residuals, 'norm')
print("Kolmogorov-Smirnov Test:\nStatistic:", ks_test[0], "\np-Value:", ks_test[1])

In [None]:
# Q-Q Plot
plt.figure(figsize=(6, 4))
sm.qqplot(residuals, line='s')
plt.title('Normal Q-Q Plot')
plt.show()

In [None]:
from statsmodels.stats.diagnostic import het_breuschpagan, het_goldfeldquandt

# 잔차 계산
residuals = results.resid

# Breusch-Pagan 테스트
bp_test = het_breuschpagan(residuals, results.model.exog)
print("Breusch-Pagan Test:\nStatistic:", bp_test[0], "\np-Value:", bp_test[1])

In [None]:
plt.scatter(predicted_values, results.resid)
plt.xlabel("Predicted Values")
plt.ylabel("Residuals")
plt.title("Predicted Values vs. Residuals")
plt.axhline(y=0, color='r', linestyle='--')
plt.show()

In [None]:
import pandas as pd

# 데이터셋 생성
np.random.seed(0)
X1 = np.random.rand(100) * 10  # 첫 번째 독립 변수
X2 = X1 + np.random.normal(0, 1, 100) * 2  # 두 번째 독립 변수, X1과 강한 상관 관계
X3 = np.random.rand(100) * 10  # 세 번째 독립 변수, 상대적으로 독립적
y = 5 + 2 * X1 + 3 * X2 + 7 * X3 + np.random.normal(0, 2, 100)  # 종속 변수

# DataFrame으로 변환
df = pd.DataFrame({'X1': X1, 'X2': X2, 'X3': X3, 'y': y})
df

In [None]:
from statsmodels.stats.outliers_influence import variance_inflation_factor

# VIF 계산
X = df[['X1', 'X2', 'X3']]
X = sm.add_constant(X)
vif_data = pd.DataFrame()
vif_data["feature"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]

print(vif_data)