# DA Mini Project
* 주제 : 온라인 학습 플랫폼 사용자 행동 패턴 분석
* 개요 :
```
이번 프로젝트는 학습 서비스를 이용하는 독자들 중 누가 서비스 구독을 연장할지 예측하기 위한 사전 파악에 초점을 맞추고 있습니다. 우리의 목표는 유저들의 학습 습관, 선호도, 이용 행태 등 다양한 측면을 면밀히 분석하는 것입니다.


이를 위해, 우리는 유저들의 학습 패턴, 서비스 이용 시간, 콘텐츠에 대한 반응, 그리고 이들이 얼마나 자주 서비스를 이용하는지 등 다양한 데이터를 수집하고 분석할 계획입니다. 이 데이터는 유저들이 서비스에 얼마나 만족하고 있는지, 어떤 요소들이 그들의 구독 결정에 영향을 미치는지 이해하는 데 중요한 역할을 할 것입니다.
```
* 데이터셋 : mini.csv
    * 메타데이터
        * user_id: 사용자의 고유 식별자
        * subscription_duration: 사용자가 서비스에 가입한 기간 (월)
        * recent_login_time: 사용자가 마지막으로 로그인한 시간 (일)
        * average_login_time:  사용자의 일반적인 로그인 시간
        * average_time_per_learning_session: 각 학습 세션에 소요된 평균 시간 (분)
        * monthly_active_learning_days: 월간 활동적인 학습 일수
        * total_completed_courses: 완료한 총 코스 수
        * recent_learning_achievement: 최근 학습 성취도
        * abandoned_learning_sessions: 중단된 학습 세션 수
        * community_engagement_level: 커뮤니티 참여도
        * preferred_difficulty_level: 선호하는 난이도
        * subscription_type: 구독 유형
        * customer_inquiry_history: 고객 문의 이력
        * payment_pattern : 사용자의 지난 3개월 간의 결제 패턴을 10진수로 표현한 값.
          - 7: 3개월 모두 결제함
          - 6: 첫 2개월은 결제했으나 마지막 달에는 결제하지 않음
          - 5: 첫 달과 마지막 달에 결제함
          - 4: 첫 달에만 결제함
          - 3: 마지막 2개월에 결제함
          - 2: 가운데 달에만 결제함
          - 1: 마지막 달에만 결제함
          - 0: 3개월 동안 결제하지 않음
        * target: 사용자가 다음 달에도 구독을 계속할지 (1) 또는 취소할지 (0)를 나타냄

In [159]:
import pandas as pd
import numpy as np
df = pd.read_csv("data/mini.csv")
df.describe(include='all')

Unnamed: 0,user_id,subscription_duration,recent_login_time,average_login_time,average_time_per_learning_session,monthly_active_learning_days,total_completed_courses,recent_learning_achievement,abandoned_learning_sessions,community_engagement_level,preferred_difficulty_level,subscription_type,customer_inquiry_history,payment_pattern,target
count,10000,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000,10000,10000.0,10000.0,10000.0
unique,10000,,,,,,,,,,3,2,,,
top,b919c29d,,,,,,,,,,Low,Basic,,,
freq,1,,,,,,,,,,4992,5979,,,
mean,,11.8974,15.0132,14.994076,54.91772,12.5454,12.2275,75.029513,3.0436,3.8861,,,2.0105,3.5029,0.6199
std,,6.600896,8.362573,3.001869,56.02431,6.932239,3.634125,9.968529,1.755052,1.262175,,,1.420983,2.311261,0.485435
min,,1.0,1.0,2.366189,0.011515,1.0,1.0,35.941755,0.0,1.0,,,0.0,0.0,0.0
25%,,6.0,8.0,13.025597,15.276611,7.0,10.0,68.278054,2.0,3.0,,,1.0,1.0,0.0
50%,,12.0,15.0,14.979228,37.578818,13.0,12.0,75.126061,3.0,4.0,,,2.0,4.0,1.0
75%,,18.0,22.0,16.99534,75.5842,19.0,15.0,81.718976,4.0,5.0,,,3.0,6.0,1.0


In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 15 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   user_id                            10000 non-null  object 
 1   subscription_duration              10000 non-null  int64  
 2   recent_login_time                  10000 non-null  int64  
 3   average_login_time                 10000 non-null  float64
 4   average_time_per_learning_session  10000 non-null  float64
 5   monthly_active_learning_days       10000 non-null  int64  
 6   total_completed_courses            10000 non-null  int64  
 7   recent_learning_achievement        10000 non-null  float64
 8   abandoned_learning_sessions        10000 non-null  int64  
 9   community_engagement_level         10000 non-null  int64  
 10  preferred_difficulty_level         10000 non-null  object 
 11  subscription_type                  10000 non-null  obje

# 결측치 확인
non-null 이 모두 10000 개로 결측치 없음

Unnamed: 0,user_id,subscription_duration,recent_login_time,average_login_time,average_time_per_learning_session,monthly_active_learning_days,total_completed_courses,recent_learning_achievement,abandoned_learning_sessions,community_engagement_level,preferred_difficulty_level,subscription_type,customer_inquiry_history,payment_pattern,target
0,b919c29d,13,14,14.946163,8.427187,18,16,68.360455,3,4,Low,Basic,4,5,0
1,a0a60abb,16,18,18.453224,72.646087,16,13,97.567322,2,3,Medium,Basic,1,6,1
2,b9f171ae,22,1,16.195228,21.774492,13,14,94.358763,3,4,Medium,Premium,0,7,1
3,5dc0ba8b,1,19,17.628656,42.659066,19,18,70.153228,0,3,Low,Basic,1,0,1
4,65c83654,4,5,21.390656,30.744287,19,10,81.917908,2,4,Medium,Basic,3,0,1


In [41]:
df["user_id"].sort_values()
df.sort_values("user_id")

Unnamed: 0,user_id,subscription_duration,recent_login_time,average_login_time,average_time_per_learning_session,monthly_active_learning_days,total_completed_courses,recent_learning_achievement,abandoned_learning_sessions,community_engagement_level,preferred_difficulty_level,subscription_type,customer_inquiry_history,payment_pattern,target
8254,00030dc2,18,28,19.907622,11.373221,10,15,61.765132,2,5,Low,Premium,2,3,0
1061,00058702,12,28,14.201342,25.325044,10,13,84.676719,8,5,Medium,Premium,0,6,1
8486,00076619,3,28,13.692835,6.452196,19,17,78.995991,4,2,High,Basic,2,6,1
3455,000a7fac,10,29,16.608599,94.417871,4,17,75.712102,4,5,Low,Premium,2,3,0
3865,00109fa1,11,24,21.025350,5.188833,19,12,73.553634,4,5,High,Basic,0,6,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6102,ffcca840,19,2,15.904005,86.440590,10,14,74.699637,1,5,Low,Premium,3,3,0
8154,ffe5da30,12,12,7.324985,79.807193,15,15,70.224840,3,5,Low,Basic,7,7,1
5181,fff20cbb,6,15,12.768458,48.325353,10,12,69.129113,7,4,Low,Basic,2,5,0
5659,fff3144f,10,1,12.467311,5.454073,10,15,55.267751,5,4,Medium,Premium,2,0,1


In [None]:
# 전체 데이터 추측
* 지난 2년간의 데이터 (이번달 가입자 : 1, 가장 오래된 가입자: 23)


# user_id
* 8개 문자열 : 순서대로 생성 되었을 가능성 있음
* 하나씩 되어있는 것 각각 다른 유저 

# recent_login_time
* 사용자가 마지막으로 로그인한 시간 (일)
* 최소 1 : 어제일 가능성 있음
* 최대 29 : 한달간의 데이터로 보임
* 평균 15.013200 , std : 8.362573
* 각각의 분포는 크게 차이 나지 않는다.

# average_login_time
* 사용자의 일반적인 로그인 시간
* 최소 2.366189 최대 26.998490
* 평균 14.994076 , std 3.001869

In [220]:
df['average_login_time'].sort_values()

2434     2.366189
4771     3.375170
6469     3.483285
3838     3.636424
1968     3.970000
          ...    
3255    25.408557
4434    25.815833
8609    26.125596
6025    26.284396
3560    26.998490
Name: average_login_time, Length: 10000, dtype: float64

# subscription_duration 
* 사용자가 서비스에 가입한 기간 (월)
* 최소 1 : 이번달 가입자 또는 저번달 가입자
* 최대 23 : 2년간의 데이터로 보여서 저번달 가입자 까지 일 가능성 있음
* 각각의 분포는 크게 차이 나지 않는다.
* 평균 : 11.897400 , std : 6.600896

# subscription_type
* ['Basic', 'Premium']
* Basic 이 더 많음
* Basic : 5979, 
Premium :   4021

# preferred_difficulty_level
* 선호하는 난이도
* ['Low', 'Medium', 'High']
* 쉬울수록 더 좋아한다.
* Low : 4992, 
Medium:  300, 
Hi :   2000

# payment_pattern
* 사용자의 지난 3개월 간의 결제 패턴을 10진수로 표현한 값.
  * 7: 3개월 모두 결제함
  * 6: 첫 2개월은 결제했으나 마지막 달에는 결제하지 않음
  * 5: 첫 달과 마지막 달에 결제함
  * 4: 첫 달에만 결제함
  * 3: 마지막 2개월에 결제함
  * 2: 가운데 달에만 결제함
  * 1: 마지막 달에만 결제함
  * 0: 3개월 동안 결제하지 않음
* 분포가 거의 비슷하다.

# community_engagement_level
* 커뮤니티 참여도
* [4, 3, 2, 5, 1]
* 참여도가 올라갈 수록 사람이 많다

customer_inquiry_history
* 고객 문의
* [ 0,  1,  2,  3,  4,  5,  6,  7,  8, 10]
* 고객 문의가 1회가 제일많고 2회 순으로 점점줄어든다.

# target
* 사용자가 다음 달에도 구독을 계속할지 (1) 또는 취소할지 (0)를 나타냄
* 1 :   6199, 
0:   3801

# abandoned_learning_sessions
* 중단된 학습 세션 수
* [ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]
* 2회에서 빈도 가장 높다. 2226 평균 : 3.043600 , std : 1.755052 

# recent_learning_achievement
* 최근 학습 성취도
* 평균 : 75.029513 , std : 9.968529
* 최대가 100 을 넘는 것으로 보아 이상치인지 확인 필요

In [181]:
#df[df['recent_learning_achievement'] > 100]

# total_completed_courses
* 완료한 총 코스 수
* [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27
* 12    1105 에서 제일 큼]

In [192]:
np.sort(df['total_completed_courses'].unique())
df['total_completed_courses'].value_counts().sort_index()

total_completed_courses
1        1
2       10
3       23
4       60
5      155
6      238
7      442
8      599
9      806
10     944
11    1064
12    1105
13    1023
14     936
15     783
16     563
17     471
18     326
19     190
20     115
21      62
22      30
23      27
24      12
25       7
26       5
27       3
Name: count, dtype: int64

# monthly_active_learning_days
* 월간 활동적인 학습 일수
* [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24]

In [204]:
np.sort(df['monthly_active_learning_days'].unique())
df['monthly_active_learning_days'].value_counts().sort_index()

monthly_active_learning_days
1     395
2     397
3     412
4     446
5     423
6     406
7     422
8     452
9     415
10    435
11    368
12    423
13    398
14    414
15    420
16    389
17    433
18    401
19    428
20    447
21    416
22    405
23    396
24    459
Name: count, dtype: int64

# average_time_per_learning_session
* 각 학습 세션에 소요된 평균 시간 (분)
* 0 부터 503분까지
* 평균 54.917720 , std : 56.024310

In [216]:
df['average_time_per_learning_session'].sort_values()

5303      0.011515
6364      0.012562
7869      0.013535
4281      0.017473
1522      0.029555
           ...    
1764    444.324058
2593    447.095844
9410    470.289498
472     490.233443
4657    503.372616
Name: average_time_per_learning_session, Length: 10000, dtype: float64

In [80]:
df['community_engagement_level'].unique()
df['community_engagement_level'].value_counts()

community_engagement_level
5    4564
4    2070
3    1588
2    1219
1     559
Name: count, dtype: int64

In [104]:
df['preferred_difficulty_level'].unique()
df['preferred_difficulty_level'].value_counts()


preferred_difficulty_level
Low       4992
Medium    3008
High      2000
Name: count, dtype: int64

In [116]:
df['subscription_type'].unique()
df['subscription_type'].value_counts()

subscription_type
Basic      5979
Premium    4021
Name: count, dtype: int64

In [125]:
df['subscription_duration'].sort_values()
df['subscription_duration'].value_counts().sort_index()

subscription_duration
1     436
2     443
3     408
4     475
5     424
6     471
7     432
8     438
9     440
10    448
11    428
12    461
13    437
14    418
15    408
16    448
17    429
18    464
19    423
20    412
21    433
22    414
23    410
Name: count, dtype: int64

In [127]:
df['recent_login_time'].sort_values()
df['recent_login_time'].value_counts().sort_index()

recent_login_time
1     347
2     350
3     349
4     332
5     355
6     362
7     322
8     322
9     350
10    335
11    306
12    365
13    363
14    366
15    325
16    347
17    354
18    336
19    380
20    362
21    333
22    349
23    338
24    328
25    323
26    359
27    370
28    313
29    359
Name: count, dtype: int64

In [110]:
df['average_login_time'].sort_values()

2434     2.366189
4771     3.375170
6469     3.483285
3838     3.636424
1968     3.970000
          ...    
3255    25.408557
4434    25.815833
8609    26.125596
6025    26.284396
3560    26.998490
Name: average_login_time, Length: 10000, dtype: float64

In [108]:
df['payment_pattern'].unique()
df['payment_pattern'].value_counts()

payment_pattern
1    1285
7    1284
0    1275
6    1268
5    1238
3    1230
4    1214
2    1206
Name: count, dtype: int64

In [142]:
df['customer_inquiry_history'].unique()
df['customer_inquiry_history'].value_counts().sort_index()

customer_inquiry_history
0     1376
1     2668
2     2645
3     1851
4      917
5      385
6      117
7       31
8        9
10       1
Name: count, dtype: int64

In [147]:
df['target'].unique()
df['target'].value_counts()

target
1    6199
0    3801
Name: count, dtype: int64

In [169]:
np.sort(df['abandoned_learning_sessions'].unique())
df['abandoned_learning_sessions'].value_counts().sort_index()


abandoned_learning_sessions
0      464
1     1485
2     2226
3     2195
4     1704
5     1026
6      530
7      237
8       91
9       27
10       9
11       4
12       2
Name: count, dtype: int64