# Linear Regression을 사용한 E-commerce 고객별 연간 지출액 예측

 - https://www.kaggle.com/code/aryan348/ecommerce-customers-linear-regression/
 - github 자료 사용
     - https://github.com/araj2/customer-database/blob/master/Ecommerce%20Customers.csv
 

# 1. 모듈 및 데이터 로딩

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
ecom_df = pd.read_csv('https://raw.githubusercontent.com/araj2/customer-database/master/Ecommerce%20Customers.csv')
ecom_df.head()

## 데이터 칼럼 설명
- Email: 고객 이메일
- Address: 고객 주소
- Avatar: 아바타
- Avg. Session Length: 한 번 접속 시 머문 평균 시간
- Time on App: 앱에서 쓴 시간
- Time on Website: 웹사이트에서 쓴 시간
- Length of Membership: 고객의 멤버십 가입 기간
- Yearly Amount Spent: 고객의 연간 지출액(종속변수)

In [None]:
ecom_df.tail()

# 2. 데이터 특성 확인

In [None]:
ecom_df.info()     # 데이터 정보. 인덱스와 칼럼의 데이터 개수/ 종류 확인

- 데이터 결측치 없음

In [None]:
ecom_df.describe()     # 데이터 통계 정보. 수치형 데이터(int, float)가 들어있는 칼럼의 기초통계량 확인

- 75%, max를 비교하면 아웃라이어 존재 확인 가능

In [None]:
sns.pairplot(ecom_df)     # 변수간 관계 확인

# 3. 불필요한 칼럼 제거

'Email', 'Address', 'Avatar' 컬럼 제외

In [None]:
# ecom_df = ecom_df[['Avg. Session Length', 'Time on App', 'Time on Website', 'Length of Membership', 'Yearly Amount Spent']]
ecom_df = ecom_df.drop(['Email', 'Address', 'Avatar'], axis = 1)
ecom_df.head()     # 필요한 칼럼만 가져와서 data에 저장


In [None]:
ecom_df.loc[:, ['Time on App']]

In [None]:
# RM 변수와 target과의 관계를 시각화
import matplotlib.pyplot as plt
X_time = ecom_df.loc[:, ['Time on App']] # Time on App
y = ecom_df['Yearly Amount Spent']
# 산점도 그리기
plt.scatter(X_time, y)
plt.xlabel("times")
plt.ylabel("spent ($)")
plt.show()

In [None]:
X_time.shape, y.shape

In [None]:
from sklearn.linear_model import LinearRegression

lg_clf = LinearRegression()
lg_clf.fit(X_time, y)

In [None]:
print("모델의 가중치:", lg_clf.coef_)
print("모델의 절편:", lg_clf.intercept_)

In [None]:
# 실제 학습 데이터와 회귀선
import numpy as np

pred_space = np.linspace(
    min(X_time.values), max(X_time.values)
).reshape(-1, 1)

# 산점도를 그려 봅니다.
plt.scatter(X_time, y)
# 회귀선 
plt.plot(pred_space, # X축
         lg_clf.predict(pred_space),
         color="red"
        ) # 우리 모델의 예측값
plt.show()

# 4. train / test 나누기

In [None]:
from sklearn.model_selection import train_test_split     # train set/ test set 나누기

X = ecom_df.drop('Yearly Amount Spent', axis = 1)     # 독립변수
# X = data[['Avg.Session Length', 'Time on App', 'Time on Website', 'Length of Membership']]
X

In [None]:
y = ecom_df['Yearly Amount Spent']     # 종속변수
y

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size = 0.2, 
                                                    random_state = 100)     # train set을 80%, test set을 20%로

- 보통 train:test 비율을 7:3으로 함(데이터가 10000이상으로 충분히 클 때)
- 데이터 크기가 작으면 8:2
- random_state는 분석의 편의를 위해 매번 똑같은 결과를 얻기 위해 작성.

In [None]:
X_train

# 5. Linear Regression 모델

In [None]:
from sklearn.linear_model import LinearRegression

reg_all = LinearRegression()
model = reg_all.fit(X_train, y_train)

In [None]:
# 가중치와 절편
print("가중치:", model.coef_)
print("절편:", model.intercept_)

In [None]:
# 모델 검증
print("훈련 세트 점수: {:.2f}".format(reg_all.score(X_train, y_train))) # 학습 데이터 
print("테스트 세트 점수: {:.2f}".format(reg_all.score(X_test, y_test))) # 테스트 데이터

# 6. 예측 및 평가

In [None]:
# 보스턴 데이터 셋의 첫번째 데이터와 타겟
print("데이터 셋 관측치:", X_test.iloc[1])
print("데이터 셋 label:", y_test.iloc[1])

In [None]:
X_test.iloc[1].shape

In [None]:
test = X_test.iloc[1]
test

In [None]:
X_train.shape

In [None]:
# 모델이 예측한 예측치
reg_all.predict(test.values.reshape(1, -1))

In [None]:
# 모델의 실제 값.
y_test.iloc[1]

### 모든 테스트 세트 예측

In [None]:
predictions = model.predict(X_test)     # 예측 데이터
predictions

In [None]:
y_test.values     # 실제 데이터