##### 동일 상품을 한 판매자가 싸게 파는게 매출이랑 어떤 관계가 있는지 선형회귀 분석

In [2]:
# 필요한 라이브러리를 불러옵니다.
import pandas as pd
import statsmodels.api as sm

# 데이터를 로드합니다.
file_path = '/mnt/data/total_df.csv'
data = pd.read_csv(file_path)

# 각 제품의 최저 가격을 찾아서 새로운 열로 추가합니다.
data['Min_Price'] = data.groupby('Product_id')['Price'].transform('min')

# 'Price'와 'Min_Price'가 동일한 경우, 즉 가장 낮은 가격으로 판매하는 경우를 표시하는 열을 추가합니다.
data['Is_Min_Price'] = (data['Price'] == data['Min_Price']).astype(int)

# 'Is_Min_Price'를 독립 변수(X)로, 'Revenue'를 종속 변수(y)로 설정합니다.
X = data[['Is_Min_Price']]
y = data['Revenue']

# statsmodels 라이브러리를 사용하여 선형회귀를 수행하기 위해, X에 상수항을 추가합니다.
X = sm.add_constant(X)

# OLS 모델을 생성하고 학습시킵니다.
model = sm.OLS(y, X).fit()

# 회귀분석 결과를 요약하여 출력합니다.
result = model.summary()
result


  data = pd.read_csv(file_path)


0,1,2,3
Dep. Variable:,Revenue,R-squared:,0.0
Model:,OLS,Adj. R-squared:,0.0
Method:,Least Squares,F-statistic:,21.42
Date:,"Fri, 26 Apr 2024",Prob (F-statistic):,3.7e-06
Time:,14:45:18,Log-Likelihood:,-718300.0
No. Observations:,105766,AIC:,1437000.0
Df Residuals:,105764,BIC:,1437000.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,140.1152,1.157,121.055,0.000,137.847,142.384
Is_Min_Price,-6.5314,1.411,-4.628,0.000,-9.298,-3.765

0,1,2,3
Omnibus:,184306.745,Durbin-Watson:,1.481
Prob(Omnibus):,0.0,Jarque-Bera (JB):,634573174.501
Skew:,11.866,Prob(JB):,0.0
Kurtosis:,381.724,Cond. No.,3.26


회귀 결과

R-squared (결정계수): 0.000으로, 모델이 데이터의 변동성을 거의 설명하지 못하고 있음을 나타냅니다. 이는 '가장 저렴한 가격으로 판매하는지'가 매출 변동성의 설명에 거의 기여하지 않는다는 것을 의미합니다.

Adj. R-squared (조정된 결정계수): 역시 0.000으로, 변수의 수를 고려해도 설명력이 매우 낮습니다.

F-statistic (F 통계량): 21.42로, 이 모델의 예측 변수가 통계적으로 유의미합니다. 즉, '최소 가격 판매 여부'가 매출에 미치는 영향은 통계적으로 유의하다고 할 수 있습니다.

P-value (F-statistic의 유의확률): 3.70e-06으로, 매우 작아서 이 회귀 모델의 예측 변수가 통계적으로 유의미함을 나타냅니다.

계수 해석

const: 상수항은 140.1152입니다. 이는 '최소 가격으로 판매하지 않는 경우'의 평균 매출을 의미합니다.

Is_Min_Price: 계수는 -6.5314로, 가장 저렴한 가격으로 상품을 판매할 경우 매출이 평균적으로 6.5314만큼 감소한다는 것을 나타냅니다.

시사점

영향력의 한계: '가장 저렴한 가격으로 판매하는지 여부'가 매출에 미치는 영향은 통계적으로 유의미하지만, 전체 매출 변동성을 설명하는 데에는 거의 기여하지 않습니다.

가격 경쟁의 복잡성: 최저 가격이 항상 높은 매출을 보장하지는 않습니다. 소비자의 구매 결정은 가격 외에도 다양한 요인에 의해 영향을 받을 수 있으며, 가장 싼 가격이 반드시 매출 증대로 이어지지는 않을 수 있습니다.

추가 분석의 필요성: 다른 변수들(예: 상품의 카테고리, 프로모션, 시즌, 고객 리뷰 등)과의 상호작용을 추가적으로 분석하여, 가격 결정이 매출에 미치는 전체적인 영향을 더 정밀하게 이해할 필요가 있습니다.

가장 저렴한 가격으로 판매하는지 여부'가 매출에 미치는 영향은 통계적으로 유의미하지만, 전체 매출 변동성을 설명하는 데에는 거의 기여하지 않습니다. 이게 무슨 말인지~

결정계수(R-squared): 이 값은 회귀 모델이 종속 변수(여기서는 매출)의 변동을 얼마나 잘 설명하는지를 수치적으로 나타냅니다. 이 값이 0에 가까울수록 모델이 데이터의 변동을 설명하는 데에 기여하는 바가 매우 낮다는 것을 의미합니다. 즉, 모델이 데이터를 설명하는 데 효과적이지 않다는 것을 나타냅니다.

계수의 유의성(p-value): 이 값은 모델의 예측 변수(여기서는 '가장 저렴한 가격으로 판매하는지 여부')가 통계적으로 유의미한 영향을 미치는지를 검정합니다. p-value가 매우 작다면, 해당 변수가 종속 변수에 영향을 미치는 것이 통계적으로 유의미하다는 것을 의미합니다.

따라서, "가장 저렴한 가격으로 판매하는지 여부'가 매출에 미치는 영향은 통계적으로 유의미하지만, 전체 매출 변동성을 설명하는 데에는 거의 기여하지 않습니다."라는 문장은 다음과 같은 상황을 설명합니다:

가장 저렴한 가격으로 판매하는 것이 매출에 통계적으로 유의미한 영향을 미치기는 하지만 (즉, 이 변수가 매출에 어떤 영향을 주고 있다는 것이 통계적으로 입증됨),

그러나 이 변수 하나만으로는 전체 매출의 변동성을 충분히 설명하지 못합니다. 즉, 매출에 영향을 주는 다른 많은 요인들이 있을 수 있으며, 이 변수만으로는 매출 데이터의 패턴을 충분히 설명할 수 없다는 것입니다.