##### Author : 문범수
##### date : 2024-03-03
##### title : 03/03 필수과제2

## 필수과제2
- 정규분포와 비슷하지 않은 컬럼 추가하여
- 기존 데이터 df casual, cnt ,[정규분포와 비슷하지 않은 추가컬럼을 box-cox 등으로 변환] 을 통해서 - r2, rmse, 확인해 주세요.
- 해당 컬럼을 box-cox, yeo-johnson을 통해 변환하고 실제 값을 계산해 주세요.
- 컴퓨터 성능 이슈로 인한 임의의 소규모 데이터 생성 후 실습 진행

In [4]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error
from scipy.stats import norm, boxcox

In [7]:
# 예시를 위해 임의의 데이터프레임 생성
np.random.seed(0)
data = {'casual': np.random.randint(0, 100, 100),
        'cnt': np.random.randint(50, 200, 100)}
df = pd.DataFrame(data)

In [9]:
# 정규분포와 비슷한 컬럼 추가
df['normal_column'] = np.random.normal(loc=100, scale=20, size=len(df))

# 정규분포와 비슷하지 않은 컬럼 추가
df['non_normal_column'] = np.random.uniform(low=0, high=200, size=len(df))

In [10]:
# 정규분포와 비슷한 컬럼을 사용하여 선형 회귀 모델 학습
X_normal = df[['casual', 'normal_column']]
y = df['cnt']
model_normal = LinearRegression().fit(X_normal, y)
y_pred_normal = model_normal.predict(X_normal)
r2_normal = r2_score(y, y_pred_normal)
rmse_normal = np.sqrt(mean_squared_error(y, y_pred_normal))

In [12]:
# 정규분포와 비슷하지 않은 컬럼을 사용하여 선형 회귀 모델 학습
X_non_normal = df[['casual', 'non_normal_column']]
model_non_normal = LinearRegression().fit(X_non_normal, y)
y_pred_non_normal = model_non_normal.predict(X_non_normal)
r2_non_normal = r2_score(y, y_pred_non_normal)
rmse_non_normal = np.sqrt(mean_squared_error(y, y_pred_non_normal))

In [14]:
print("Using columns with normal distribution-like properties:")
print("R-squared:", r2_normal)
print("RMSE:", rmse_normal)

print("\nUsing columns without normal distribution-like properties:")
print("R-squared:", r2_non_normal)
print("RMSE:", rmse_non_normal)

Using columns with normal distribution-like properties:
R-squared: 0.0543982986756375
RMSE: 42.52163183310113

Using columns without normal distribution-like properties:
R-squared: 0.028497214461124853
RMSE: 43.100055114131116


In [15]:
# Box-Cox 변환을 통해 정규분포와 비슷하지 않은 컬럼 변환
df['non_normal_column_boxcox'], _ = boxcox(df['non_normal_column'] + 1)  # +1을 해줘서 0 값이 되지 않도록 함

# Box-Cox 변환된 값을 실제 값으로 되돌리기
df['non_normal_column_back'] = np.power(df['non_normal_column_boxcox'], 1/2)  # Box-Cox 변환의 역함수는 x^(1/lambda)

# 변환된 컬럼을 사용하여 선형 회귀 모델 학습
X_boxcox = df[['casual', 'non_normal_column_boxcox']]
model_boxcox = LinearRegression().fit(X_boxcox, y)
y_pred_boxcox = model_boxcox.predict(X_boxcox)
r2_boxcox = r2_score(y, y_pred_boxcox)
rmse_boxcox = np.sqrt(mean_squared_error(y, y_pred_boxcox))

In [16]:
print("\nUsing Box-Cox transformed column:")
print("R-squared:", r2_boxcox)
print("RMSE:", rmse_boxcox)

# 실제 값과 변환된 값 비교
print("\nActual values vs. Box-Cox transformed values:")
print(df[['non_normal_column', 'non_normal_column_boxcox', 'non_normal_column_back']].head())


Using Box-Cox transformed column:
R-squared: 0.0308854632330684
RMSE: 43.047046006154844

Actual values vs. Box-Cox transformed values:
   non_normal_column  non_normal_column_boxcox  non_normal_column_back
0         184.831753                 54.757567                7.399836
1         172.463709                 52.099348                7.217988
2           9.738059                  6.132154                2.476319
3          50.728505                 21.418409                4.628003
4          89.227103                 32.364375                5.688970
