#### 저렴한 품목을 취급하는 셀러와 고가의 품목을 취급하는 셀러의 Revenue 차이 파악 선형회귀분석

In [2]:
import pandas as pd
import numpy as np
import random
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# 파일을 불러오기
data = pd.read_csv('../total_df.csv')

# 각 판매자별 총매출(Revenue의 합계)과 평균 가격을 계산
seller_stats = data.groupby('Seller_id').agg(
    Total_Revenue=pd.NamedAgg(column='Revenue', aggfunc='sum'),  # 총 매출
    Average_Price=pd.NamedAgg(column='Price', aggfunc='mean')   # 평균 가격
).reset_index()

# 데이터를 특성(X)과 타겟(y)으로 분리
X = seller_stats[['Average_Price']]
y = seller_stats['Total_Revenue']

# 데이터를 학습 세트와 테스트 세트로 분리 (학습 80%, 테스트 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random.randint(1, 100))

# 선형 회귀 모델 생성 및 학습
model = LinearRegression()
model.fit(X_train, y_train)

# 모델 평가: 학습 세트와 테스트 세트에 대한 R² 값 계산
train_score = model.score(X_train, y_train)
test_score = model.score(X_test, y_test)

# 모델 평가 결과 출력
print("Train R² score:", train_score)
print("Test R² score:", test_score)


Train R² score: 0.008892310176462748
Test R² score: 0.007501353361703433


  data = pd.read_csv('../total_df.csv')


시사점
1. 약한 선형 관계:
평균 가격과 총 매출 사이에는 매우 약한 선형 관계가 존재합니다. 이는 결정계수(R²) 값이 매우 낮게 나타났음을 의미하며, 평균 가격이 총 매출을 예측하는데 중요한 요소로 작용하지 않는다는 것을 시사합니다.

2. 변수의 다양성 고려:
매출에 영향을 미치는 다른 요소들이 있을 가능성이 높습니다. 예를 들어, 판매량, 판매 지역, 고객 리뷰 점수, 제품의 카테고리, 판매 촉진 활동 등 다양한 변수들이 매출에 영향을 줄 수 있습니다. 이러한 변수들을 추가적으로 고려해 분석하는 것이 좋습니다.

3. 비선형 관계 검토:
선형 모델이 데이터를 충분히 설명하지 못하는 경우, 매출과 가격 사이의 비선형 관계나 상호작용 효과 등을 고려할 필요가 있습니다. 예를 들어, 평균 가격이 특정 수준을 넘어서면 매출 증가율이 달라질 수 있습니다. 이러한 패턴을 찾기 위해 다항 회귀나 다른 고급 분석 기법을 시도해 볼 수 있습니다.

4. 모델의 정교화:
추가 데이터를 확보하거나 다른 유형의 회귀 모델(예: 릿지, 라쏘 회귀)을 적용해 보는 것도 고려해 볼 수 있습니다. 이러한 모델들은 변수의 개수가 많고 상관 관계가 복잡할 때 유용할 수 있습니다.

5. 분석의 확장:
시계열 데이터를 활용하여 시간에 따른 매출 변화를 분석하거나, 판매자별로 시즌별 혹은 프로모션 기간별 매출 차이를 분석하는 것도 통찰력을 제공할 수 있습니다.

이러한 분석을 통해 판매 전략을 개선하고, 보다 정교한 판매 예측 모델을 구축하는 데 도움이 될 수 있습니다. 추가적인 데이터와 다양한 분석 방법을 사용하여 더 깊이 있는 인사이트를 얻을 수 있습니다.