### 패턴/선호도 분석
1. 사용자별 방문 패턴 분석: 각 사용자가 방문한 페이지별로 평균 세션 지속 시간을 계산하고, 각 페이지별로 가장 긴 평균 세션 시간을 가진 사용자를 찾으세요. 이를 위해 각 사용자의 페이지별 평균 세션 시간을 계산하고, 각 페이지에서 가장 긴 평균 세션 시간을 모두 더하고 정수형으로 출력하시오.
2. 시간대별 페이지 선호도 분석: 하루를 네 시간대로 나누고 (새벽: 0-6시, 오전: 6-12시, 오후: 12-18시, 저녁: 18-24시), 각 시간대별로 가장 많이 방문된 페이지를 찾으세요. 각 시간대별로 가장 많이 방문된 페이지의 이름과 해당 시간대의 방문 횟수를 찾으세요! (단 0-6시 일때 0시부터 6시 전까지입니다.)
   * 시간대 별로 나누었을 때 가장 많이 방문한 페이지의 이름을 구하시오.
   * 시간대 별로 나누었을 때 가장 방문 횟수가 큰 값을 구하시오
3. 재방문 패턴 분석: 사용자가 같은 날짜에 여러 페이지를 방문하는 경우를 '재방문'으로 간주합니다. 재방문한 사용자들의 데이터를 분석하여, 재방문한 날짜별 총 방문 페이지 수를 구하고 가장 재방문이 많은 월을 정수로 구하시오

* [원본링크](https://www.kaggle.com/code/agileteam/t1-34-pattern-py)

In [1]:
import pandas as pd
data_path = 'C:\Engineer_Big_Data_Analysis\DATAS\kaggle_BDCKR\website.csv'
df = pd.read_csv(data_path)
print(df.shape)
df

(9601, 4)


Unnamed: 0,UserID,StartTime,EndTime,Page
0,1,2023-07-02 08:32:00,2023-07-02 12:41:00,Page1
1,1,2023-05-16 11:37:00,2023-05-16 13:29:00,Page5
2,1,2023-05-05 03:39:00,2023-05-05 05:48:00,Page2
3,1,2023-05-04 23:04:00,2023-05-05 01:54:00,Page3
4,1,2023-09-04 11:27:00,2023-09-04 14:09:00,Page1
...,...,...,...,...
9596,1202,2023-06-26 09:43:00,2023-06-26 13:43:00,Page3
9597,1202,2023-11-17 02:21:00,2023-11-17 04:31:00,Page3
9598,1202,2023-03-07 14:56:00,2023-03-07 17:27:00,Page2
9599,1202,2023-07-24 03:22:00,2023-07-24 06:58:00,Page2


In [2]:
# 1. 사용자별 방문 패턴 분석
    # 각 사용자가 방문한 페이지별로 평균 세션 지속 시간을 계산하고,
    # 각 페이지별로 가장 긴 평균 세션 시간을 가진 사용자를 찾으세요.
    # 이를 위해 각 사용자의 페이지별 평균 세션 시간을 계산하고,
    # 각 페이지에서 가장 긴 평균 세션 시간을 모두 더하고 정수형으로 출력하시오.

# 지속시간 열을 추가
# 하기 전에 time 열들을 datetime으로 변경
df['StartTime'] = pd.to_datetime(df['StartTime'])
df['EndTime'] = pd.to_datetime(df['EndTime'])
print(df.dtypes)

# 지속시간 열 추가
df['DwellHour'] = (df['EndTime'] - df['StartTime']).dt.total_seconds()/60/60
df

UserID                int64
StartTime    datetime64[ns]
EndTime      datetime64[ns]
Page                 object
dtype: object


Unnamed: 0,UserID,StartTime,EndTime,Page,DwellHour
0,1,2023-07-02 08:32:00,2023-07-02 12:41:00,Page1,4.150000
1,1,2023-05-16 11:37:00,2023-05-16 13:29:00,Page5,1.866667
2,1,2023-05-05 03:39:00,2023-05-05 05:48:00,Page2,2.150000
3,1,2023-05-04 23:04:00,2023-05-05 01:54:00,Page3,2.833333
4,1,2023-09-04 11:27:00,2023-09-04 14:09:00,Page1,2.700000
...,...,...,...,...,...
9596,1202,2023-06-26 09:43:00,2023-06-26 13:43:00,Page3,4.000000
9597,1202,2023-11-17 02:21:00,2023-11-17 04:31:00,Page3,2.166667
9598,1202,2023-03-07 14:56:00,2023-03-07 17:27:00,Page2,2.516667
9599,1202,2023-07-24 03:22:00,2023-07-24 06:58:00,Page2,3.600000


In [3]:
# 각 사용자의 페이지별 평균 세션 시간 확인
User_Page_per_df = df.groupby(['UserID', 'Page']).mean()
display(User_Page_per_df)

  User_Page_per_df = df.groupby(['UserID', 'Page']).mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,DwellHour
UserID,Page,Unnamed: 2_level_1
1,Page1,3.425000
1,Page2,2.570833
1,Page3,1.012500
1,Page5,2.920833
2,Page1,4.616667
...,...,...
1201,Page5,2.316667
1202,Page2,3.058333
1202,Page3,2.616667
1202,Page4,1.700000


In [4]:
# 페이지별 가장 긴 세션시간을 합해서 정수형으로 출력
display(User_Page_per_df.groupby('Page').max().DwellHour)
int(User_Page_per_df.groupby('Page').max().DwellHour.sum())

Page
Page1    5.000000
Page2    4.983333
Page3    5.000000
Page4    4.983333
Page5    4.983333
Name: DwellHour, dtype: float64

24

---

In [5]:
# 2. 시간대별 페이지 선호도 분석
    # 하루를 네 시간대로 나누고 (새벽: 0-6시, 오전: 6-12시, 오후: 12-18시, 저녁: 18-24시),
    # 각 시간대별로 가장 많이 방문된 페이지를 찾으세요.
    # 각 시간대별로 가장 많이 방문된 페이지의 이름과 해당 시간대의 방문 횟수를 찾으세요!
    # (단 0-6시 일때 0시부터 6시 전까지입니다.)
        # * 시간대 별로 나누었을 때 가장 많이 방문한 페이지의 이름을 구하시오.
        # * 시간대 별로 나누었을 때 가장 방문 횟수가 큰 값을 구하시오
        
# 복사해서 사용
timeslot_df = df.copy()

# 시간 넣어서 시간대 뽑을 함수 만들기
def time_trim(h):
    if 0 <= h < 6 : return '새벽'
    elif 6 <= h < 12 : return '오전'
    elif 12 <= h < 18 : return '오후'
    elif 18 <= h < 23 : return '저녁'
# 적용해서 열 추가
timeslot_df['TimeSlot'] = timeslot_df.StartTime.dt.hour.apply(time_trim)
timeslot_df

Unnamed: 0,UserID,StartTime,EndTime,Page,DwellHour,TimeSlot
0,1,2023-07-02 08:32:00,2023-07-02 12:41:00,Page1,4.150000,오전
1,1,2023-05-16 11:37:00,2023-05-16 13:29:00,Page5,1.866667,오전
2,1,2023-05-05 03:39:00,2023-05-05 05:48:00,Page2,2.150000,새벽
3,1,2023-05-04 23:04:00,2023-05-05 01:54:00,Page3,2.833333,
4,1,2023-09-04 11:27:00,2023-09-04 14:09:00,Page1,2.700000,오전
...,...,...,...,...,...,...
9596,1202,2023-06-26 09:43:00,2023-06-26 13:43:00,Page3,4.000000,오전
9597,1202,2023-11-17 02:21:00,2023-11-17 04:31:00,Page3,2.166667,새벽
9598,1202,2023-03-07 14:56:00,2023-03-07 17:27:00,Page2,2.516667,오후
9599,1202,2023-07-24 03:22:00,2023-07-24 06:58:00,Page2,3.600000,새벽


In [6]:
# 각 시간대별 가장 많이 방문한 페이지 df로 저장
sort_df = timeslot_df.groupby(['TimeSlot', 'Page']).count().sort_values(['TimeSlot', 'DwellHour'], ascending=False)
display(sort_df)

# 시간대별 가장 많이 방문한 페이지 이름과 방문 횟수
timeslot_list = ['새벽', '오전', '오후', '저녁']
for slot in timeslot_list:
    print(f"{slot}: 가장 많이 방문한 페이지는 {sort_df.loc[slot].index[0]}이고 그 횟수는 {sort_df.loc[slot].max()[0]}회")

Unnamed: 0_level_0,Unnamed: 1_level_0,UserID,StartTime,EndTime,DwellHour
TimeSlot,Page,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
저녁,Page1,428,428,428,428
저녁,Page5,425,425,425,425
저녁,Page3,416,416,416,416
저녁,Page4,405,405,405,405
저녁,Page2,380,380,380,380
오후,Page3,472,472,472,472
오후,Page1,466,466,466,466
오후,Page2,459,459,459,459
오후,Page5,455,455,455,455
오후,Page4,452,452,452,452


새벽: 가장 많이 방문한 페이지는 Page4이고 그 횟수는 526회
오전: 가장 많이 방문한 페이지는 Page5이고 그 횟수는 538회
오후: 가장 많이 방문한 페이지는 Page3이고 그 횟수는 472회
저녁: 가장 많이 방문한 페이지는 Page1이고 그 횟수는 428회


In [7]:
# 전체적으로 가장 많이 방문한 페이지와 그 횟수
print(timeslot_df.groupby(['TimeSlot', 'Page']).count().sort_values('DwellHour', ascending=False).index[0][1])
print(timeslot_df.groupby(['TimeSlot', 'Page']).count().sort_values('DwellHour', ascending=False).iloc[0,0])

Page5
538


In [8]:
# 3. 재방문 패턴 분석:
    # 사용자가 같은 날짜에 여러 페이지를 방문하는 경우를 '재방문'으로 간주합니다.
    # 재방문한 사용자들의 데이터를 분석하여,
    # 재방문한 날짜별 총 방문 페이지 수를 구하고
    # 가장 재방문이 많은 월을 정수로 구하시오
# 복사해서 사용
df_third = df.copy()
# StartTime에서 날짜만 빼서 StartDate로 열 추가
df_third['StartDate'] = df_third.StartTime.dt.date
print(df_third.dtypes)
df_third

UserID                int64
StartTime    datetime64[ns]
EndTime      datetime64[ns]
Page                 object
DwellHour           float64
StartDate            object
dtype: object


Unnamed: 0,UserID,StartTime,EndTime,Page,DwellHour,StartDate
0,1,2023-07-02 08:32:00,2023-07-02 12:41:00,Page1,4.150000,2023-07-02
1,1,2023-05-16 11:37:00,2023-05-16 13:29:00,Page5,1.866667,2023-05-16
2,1,2023-05-05 03:39:00,2023-05-05 05:48:00,Page2,2.150000,2023-05-05
3,1,2023-05-04 23:04:00,2023-05-05 01:54:00,Page3,2.833333,2023-05-04
4,1,2023-09-04 11:27:00,2023-09-04 14:09:00,Page1,2.700000,2023-09-04
...,...,...,...,...,...,...
9596,1202,2023-06-26 09:43:00,2023-06-26 13:43:00,Page3,4.000000,2023-06-26
9597,1202,2023-11-17 02:21:00,2023-11-17 04:31:00,Page3,2.166667,2023-11-17
9598,1202,2023-03-07 14:56:00,2023-03-07 17:27:00,Page2,2.516667,2023-03-07
9599,1202,2023-07-24 03:22:00,2023-07-24 06:58:00,Page2,3.600000,2023-07-24


In [44]:
# 같은 날짜-같은 유저-몇개의 페이지 방문 보기 위해 그룹핑해서 count
grouped_df_third = pd.DataFrame(df_third.groupby(['StartDate', 'UserID']).Page.count())
display(grouped_df_third)
print('-'*50)

# Page가 1보다 큰 경우만 남기고 reset_index해서 멀티인덱스를 행으로 옮기고 컬럼 이름 지정
over_1_df = grouped_df_third[grouped_df_third.Page > 1].reset_index()
over_1_df.columns = ['StartDate', 'UserID', 'Pages']
over_1_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Page
StartDate,UserID,Unnamed: 2_level_1
2023-01-01,23,1
2023-01-01,32,1
2023-01-01,36,1
2023-01-01,74,1
2023-01-01,76,1
...,...,...
2023-12-28,962,1
2023-12-28,1004,1
2023-12-28,1021,1
2023-12-28,1044,1


--------------------------------------------------


Unnamed: 0,StartDate,UserID,Pages
0,2023-01-01,347,2
1,2023-01-01,509,2
2,2023-01-07,1098,2
3,2023-01-08,271,2
4,2023-01-09,1068,2
...,...,...,...
130,2023-12-07,51,2
131,2023-12-08,685,2
132,2023-12-12,243,2
133,2023-12-18,822,2


In [45]:
# 가장 재방문이 많은 월을 정수로 구하시오

# 월 열 만들기
over_1_df['StartMonth'] = pd.to_datetime(over_1_df['StartDate']).dt.month
display(over_1_df.head())
print('-'*50)
# 월 기준으로그룹핑하고 sum의 max index값
over_1_df.groupby('StartMonth').Pages.sum().idxmax()

Unnamed: 0,StartDate,UserID,Pages,StartMonth
0,2023-01-01,347,2,1
1,2023-01-01,509,2,1
2,2023-01-07,1098,2,1
3,2023-01-08,271,2,1
4,2023-01-09,1068,2,1


--------------------------------------------------


4