![](fc.PNG)

# [FastCampus] 파이썬을 활용한 이커머스 데이터 분석하기

## Ch02. 고객별 연간 예측 지출액 예측

패스트 캠퍼스의 좋은 강의가 있어 이것을 따라해 보면서 기록을 남겨 보았다. 

### 1. 모듈 및 데이터 로딩하기

먼저 항상 사용하는 4가지 모듈을 미리 임포트 한다.

In [3]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

먼저 데이터를 불러오자.

In [4]:
data = pd.read_csv('ecommerce.csv')

In [5]:
data

Unnamed: 0,Email,Address,Avatar,Avg. Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
0,mstephenson@fernandez.com,"835 Frank Tunnel\nWrightmouth, MI 82180-9605",Violet,34.497268,12.655651,39.577668,4.082621,587.951054
1,hduke@hotmail.com,"4547 Archer Common\nDiazchester, CA 06566-8576",DarkGreen,31.926272,11.109461,37.268959,2.664034,392.204933
2,pallen@yahoo.com,"24645 Valerie Unions Suite 582\nCobbborough, D...",Bisque,33.000915,11.330278,37.110597,4.104543,487.547505
3,riverarebecca@gmail.com,"1414 David Throughway\nPort Jason, OH 22070-1220",SaddleBrown,34.305557,13.717514,36.721283,3.120179,581.852344
4,mstephens@davidson-herman.com,"14023 Rodriguez Passage\nPort Jacobville, PR 3...",MediumAquaMarine,33.330673,12.795189,37.536653,4.446308,599.406092
...,...,...,...,...,...,...,...,...
495,lewisjessica@craig-evans.com,"4483 Jones Motorway Suite 872\nLake Jamiefurt,...",Tan,33.237660,13.566160,36.417985,3.746573,573.847438
496,katrina56@gmail.com,"172 Owen Divide Suite 497\nWest Richard, CA 19320",PaleVioletRed,34.702529,11.695736,37.190268,3.576526,529.049004
497,dale88@hotmail.com,"0787 Andrews Ranch Apt. 633\nSouth Chadburgh, ...",Cornsilk,32.646777,11.499409,38.332576,4.958264,551.620145
498,cwilson@hotmail.com,"680 Jennifer Lodge Apt. 808\nBrendachester, TX...",Teal,33.322501,12.391423,36.840086,2.336485,456.469510


head()는 데이터 프레임의 앞부분 5개 까지만 출력해준다.

In [6]:
data.head()

Unnamed: 0,Email,Address,Avatar,Avg. Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
0,mstephenson@fernandez.com,"835 Frank Tunnel\nWrightmouth, MI 82180-9605",Violet,34.497268,12.655651,39.577668,4.082621,587.951054
1,hduke@hotmail.com,"4547 Archer Common\nDiazchester, CA 06566-8576",DarkGreen,31.926272,11.109461,37.268959,2.664034,392.204933
2,pallen@yahoo.com,"24645 Valerie Unions Suite 582\nCobbborough, D...",Bisque,33.000915,11.330278,37.110597,4.104543,487.547505
3,riverarebecca@gmail.com,"1414 David Throughway\nPort Jason, OH 22070-1220",SaddleBrown,34.305557,13.717514,36.721283,3.120179,581.852344
4,mstephens@davidson-herman.com,"14023 Rodriguez Passage\nPort Jacobville, PR 3...",MediumAquaMarine,33.330673,12.795189,37.536653,4.446308,599.406092


컬럼이 뜻하는 바를 확인해보자.

- Email : 고객의 이메일 주소
- Address : 고객이 사는 주소
- Avatar : 고객의 아바타 캐릭터
- Avb.Session Length : 고객의 접속한 시간의 평균
- Time on App : 어플리케이션에서 사용한 시간
- Time on Website : 웹 사이트에서 사용한 시간
- Length of Membership : 고객의 맴버쉽 가입 기간
- Yearly Amount Spent : 고객이 연간 쓴 금액


데이터의 컬럼을 살펴본 결과 우리는 Yearly Amount Spent를 예측해야 한다는 것을 알 수 있다.

### 2. 데이터 특성 확인하기

info() 메서드로 각 컬럼의 정보를 확인해 보자.

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Email                 500 non-null    object 
 1   Address               500 non-null    object 
 2   Avatar                500 non-null    object 
 3   Avg. Session Length   500 non-null    float64
 4   Time on App           500 non-null    float64
 5   Time on Website       500 non-null    float64
 6   Length of Membership  500 non-null    float64
 7   Yearly Amount Spent   500 non-null    float64
dtypes: float64(5), object(3)
memory usage: 31.4+ KB


전체 컬럼의 결측값이 한 개도 없다는 것을 확인할 수 있다.

- object : text로 된 정보들
- float64 : 숫자로 된 정보들 (소수점이 들어있는 숫자)

describe() 메서드로는 각 컬럼의 전반적인 수치들을 알 수 있다. 이러한 스케일들을 확인하면 데이터를 분석하는데 도움이 된다.

In [8]:
data.describe()

Unnamed: 0,Avg. Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
count,500.0,500.0,500.0,500.0,500.0
mean,33.053194,12.052488,37.060445,3.533462,499.314038
std,0.992563,0.994216,1.010489,0.999278,79.314782
min,29.532429,8.508152,33.913847,0.269901,256.670582
25%,32.341822,11.388153,36.349257,2.93045,445.038277
50%,33.082008,11.983231,37.069367,3.533975,498.887875
75%,33.711985,12.75385,37.716432,4.126502,549.313828
max,36.139662,15.126994,40.005182,6.922689,765.518462


outlier가 있을 때는 75%의 값과 max의 값의 차이가 일관적이지 않고 많이 나게 된다. 

### 3. 불필요한 변수 버리기

먼저 불필요한 변수를 버리는 작업이 필요하다. 머신러닝을 사용할 때는 텍스트 데이터를 확인해 봐야한다. 모델링에 있어 의미가 없으면 사용하지 않는 것이 좋다.

Yearly Amount spent를 예측하는데 있어 text 데이터인 Email, Address, Avatar는 필요가 없어보인다.

아래의 코드를 입력하면 text 데이터들이 떨어져 나가고 숫자 데이터만 남게 된다.

In [12]:
data = data[['Avg. Session Length','Time on App','Time on Website','Length of Membership','Yearly Amount Spent']]

In [13]:
data

Unnamed: 0,Avg. Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
0,34.497268,12.655651,39.577668,4.082621,587.951054
1,31.926272,11.109461,37.268959,2.664034,392.204933
2,33.000915,11.330278,37.110597,4.104543,487.547505
3,34.305557,13.717514,36.721283,3.120179,581.852344
4,33.330673,12.795189,37.536653,4.446308,599.406092
...,...,...,...,...,...
495,33.237660,13.566160,36.417985,3.746573,573.847438
496,34.702529,11.695736,37.190268,3.576526,529.049004
497,32.646777,11.499409,38.332576,4.958264,551.620145
498,33.322501,12.391423,36.840086,2.336485,456.469510


### 4. Trian, Test set 나누기

새로운 데이터를 테스트하기 전에 가지고 있는 데이터에서 20 ~ 30 % 테스트 데이터를 떼어논 다음 남아있는 70 ~ 80 % 데이터로 훈련을 한다. 그리고 나서 떼어 놓았던 20 ~ 30 %의 데이터를 새로운 데이터인 마냥 테스트를 하게 된다. 20 ~ 30 % 떼어낸 데이터는 이미 알고 있어 모델링 한 결과가 훈련 set 에만 잘 맞는지 미래에 다가올 데이터에도 잘 작동을 하는지 볼 수 있게된다. 

sklearn의 하위 모델인 model_selection 을 입력한 후 train_test_split을 임포트 한다. 아래 코드처럼 모듈을 불러와야 메모리 낭비를 하지 않게 된다.

In [14]:
from sklearn.model_selection import train_test_split

In [16]:
data

Unnamed: 0,Avg. Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
0,34.497268,12.655651,39.577668,4.082621,587.951054
1,31.926272,11.109461,37.268959,2.664034,392.204933
2,33.000915,11.330278,37.110597,4.104543,487.547505
3,34.305557,13.717514,36.721283,3.120179,581.852344
4,33.330673,12.795189,37.536653,4.446308,599.406092
...,...,...,...,...,...
495,33.237660,13.566160,36.417985,3.746573,573.847438
496,34.702529,11.695736,37.190268,3.576526,529.049004
497,32.646777,11.499409,38.332576,4.958264,551.620145
498,33.322501,12.391423,36.840086,2.336485,456.469510


X는 독립변수, y는 종속변수를 의미한다. X는 우리가 예측에 필요한 데이터인 'Avg. Session Length','Time on App','Time on Website','Length of Membership','Yearly Amount Spent' 이고,  y는 Yearly Amount Spent이다.

In [23]:
X = data[['Avg. Session Length','Time on App','Time on Website','Length of Membership']]

In [24]:
X

Unnamed: 0,Avg. Session Length,Time on App,Time on Website,Length of Membership
0,34.497268,12.655651,39.577668,4.082621
1,31.926272,11.109461,37.268959,2.664034
2,33.000915,11.330278,37.110597,4.104543
3,34.305557,13.717514,36.721283,3.120179
4,33.330673,12.795189,37.536653,4.446308
...,...,...,...,...
495,33.237660,13.566160,36.417985,3.746573
496,34.702529,11.695736,37.190268,3.576526
497,32.646777,11.499409,38.332576,4.958264
498,33.322501,12.391423,36.840086,2.336485


In [25]:
y = data['Yearly Amount Spent']

In [26]:
y

0      587.951054
1      392.204933
2      487.547505
3      581.852344
4      599.406092
          ...    
495    573.847438
496    529.049004
497    551.620145
498    456.469510
499    497.778642
Name: Yearly Amount Spent, Length: 500, dtype: float64

In [27]:
X_train, X_test, y_train, y_test = train_test_split(X,y)

![](fcd.PNG)

In [28]:
X_train

Unnamed: 0,Avg. Session Length,Time on App,Time on Website,Length of Membership
332,33.144234,11.737041,37.935189,2.190132
68,32.430758,11.306232,37.680403,2.779521
175,33.308572,11.691686,37.480912,1.715777
391,33.481931,11.918670,37.317705,3.336339
84,34.655486,10.338073,36.157256,4.396652
...,...,...,...,...
177,34.713451,11.724002,36.813858,4.087837
207,33.324241,11.084584,36.776017,4.746990
233,32.004753,11.395209,37.332814,3.803365
176,32.332637,11.548761,38.576516,4.773503


77%의 데이터가 train 데이터가 나뉘어져 375개의 row와 4개의 컬럼으로 나뉘어진 것을 볼 수 있다. train 데이터와 test 데이터의 사이즈를 지정해 줄 수 있다. default 값은 test data에 33%가 들어가게 지정되어 있다. 아래 코드 처럼 사이즈 지정을 할 수 있다. 데이터가 엄청 많다면 6:4 정도로 나누어도 train 데이터가 많아 훈련하는데 무리가 없지만 데이터의 양이 적으면 8:2나 9:1 로 훈련 데이터 테스트 데이터를 나누는게 훈련하는데 무리가 없다.

random_state는 굳이 안써도 되지만 꼭 써야 하는 이유는 random하게 데이터를 섞기 때문에 다른 사람이 분석할 때 같은 값을 얻기 위함이다. 

In [29]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.2, random_state = 100 )

In [31]:
X_train

Unnamed: 0,Avg. Session Length,Time on App,Time on Website,Length of Membership
205,34.967610,13.919494,37.952013,5.066697
404,32.278443,12.527472,36.688367,3.531402
337,31.827979,12.461147,37.428997,2.974737
440,33.200616,11.965980,36.831536,3.549036
55,33.925297,11.588655,35.252242,3.392050
...,...,...,...,...
343,32.302748,12.815393,37.957810,4.615426
359,32.054262,13.149670,37.650400,4.195614
323,32.762456,10.952353,37.646292,4.019470
280,32.271848,13.485009,37.550880,3.086337


### 5. 리니어 리그레션 모델 만들기

리니어 리그레션을 부를수 있는 모델은 여러 종류가 있다.(오픈소스이기 때문) 여기에선 statsmodels로 모델을 불러오자.

In [32]:
import statsmodels.api as sm

In [33]:
model = sm.OLS(y_train, X_train)

OLS모듈안에 데이터를 넣어주어야 한다. 원래는 X를 먼저 넣어주어야하지만 이 모듈은 y를 먼저 넣어주어야한다.

In [None]:
mdmodel.fit