# DA Mini Project
* 주제 : 온라인 학습 플랫폼 사용자 행동 패턴 분석
* 개요 :  

이번 프로젝트는 학습 서비스를 이용하는 독자들 중 **누가 서비스 구독을 연장**할지 예측하기 위한 사전 파악에 초점을 맞추고 있습니다. 우리의 **목표는 유저들의 학습 습관, 선호도, 이용 행태 등 다양한 측면을 면밀히 분석**하는 것입니다.


이를 위해, 우리는 유저들의 학습 패턴, 서비스 이용 시간, 콘텐츠에 대한 반응, 그리고 이들이 얼마나 자주 서비스를 이용하는지 등 다양한 데이터를 수집하고 분석할 계획입니다. 이 데이터는 유저들이 서비스에 얼마나 만족하고 있는지, 어떤 요소들이 그들의 구독 결정에 영향을 미치는지 이해하는 데 중요한 역할을 할 것입니다.  

* 데이터셋 : mini.csv
    * 메타데이터
        * user_id: 사용자의 고유 식별자
        * subscription_duration: 사용자가 서비스에 가입한 기간 (월)
        * recent_login_time: 사용자가 마지막으로 로그인한 시간 (일)
        * average_login_time:  사용자의 일반적인 로그인 시간
        * average_time_per_learning_session: 각 학습 세션에 소요된 평균 시간 (분)
        * monthly_active_learning_days: 월간 활동적인 학습 일수
        * total_completed_courses: 완료한 총 코스 수
        * recent_learning_achievement: 최근 학습 성취도
        * abandoned_learning_sessions: 중단된 학습 세션 수
        * community_engagement_level: 커뮤니티 참여도
        * preferred_difficulty_level: 선호하는 난이도
        * subscription_type: 구독 유형
        * customer_inquiry_history: 고객 문의 이력
        * payment_pattern : 사용자의 지난 3개월 간의 결제 패턴을 10진수로 표현한 값.
          - 7: 3개월 모두 결제함
          - 6: 첫 2개월은 결제했으나 마지막 달에는 결제하지 않음
          - 5: 첫 달과 마지막 달에 결제함
          - 4: 첫 달에만 결제함
          - 3: 마지막 2개월에 결제함
          - 2: 가운데 달에만 결제함
          - 1: 마지막 달에만 결제함
          - 0: 3개월 동안 결제하지 않음
        * target: 사용자가 다음 달에도 구독을 계속할지 (1) 또는 취소할지 (0)를 나타냄

In [104]:
import pandas as pd

In [105]:
df = pd.read_table('data/mini.csv',sep=',')

In [106]:
df

Unnamed: 0,user_id,subscription_duration,recent_login_time,average_login_time,average_time_per_learning_session,monthly_active_learning_days,total_completed_courses,recent_learning_achievement,abandoned_learning_sessions,community_engagement_level,preferred_difficulty_level,subscription_type,customer_inquiry_history,payment_pattern,target
0,b919c29d,13,14,14.946163,8.427187,18,16,68.360455,3,4,Low,Basic,4,5,0
1,a0a60abb,16,18,18.453224,72.646087,16,13,97.567322,2,3,Medium,Basic,1,6,1
2,b9f171ae,22,1,16.195228,21.774492,13,14,94.358763,3,4,Medium,Premium,0,7,1
3,5dc0ba8b,1,19,17.628656,42.659066,19,18,70.153228,0,3,Low,Basic,1,0,1
4,65c83654,4,5,21.390656,30.744287,19,10,81.917908,2,4,Medium,Basic,3,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,ae6b76bc,22,29,14.727623,84.053558,18,16,64.966803,2,5,Low,Premium,1,1,1
9996,24588752,10,11,19.374054,45.464833,9,8,82.750244,3,3,Medium,Basic,2,7,1
9997,e4622a54,7,27,18.240978,127.302411,24,14,81.567839,3,5,High,Basic,1,6,1
9998,e07fbad9,11,7,18.783800,5.297234,10,10,89.885656,4,5,Low,Basic,2,0,1


In [107]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 15 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   user_id                            10000 non-null  object 
 1   subscription_duration              10000 non-null  int64  
 2   recent_login_time                  10000 non-null  int64  
 3   average_login_time                 10000 non-null  float64
 4   average_time_per_learning_session  10000 non-null  float64
 5   monthly_active_learning_days       10000 non-null  int64  
 6   total_completed_courses            10000 non-null  int64  
 7   recent_learning_achievement        10000 non-null  float64
 8   abandoned_learning_sessions        10000 non-null  int64  
 9   community_engagement_level         10000 non-null  int64  
 10  preferred_difficulty_level         10000 non-null  object 
 11  subscription_type                  10000 non-null  obje

In [108]:
df.describe(include='all')

Unnamed: 0,user_id,subscription_duration,recent_login_time,average_login_time,average_time_per_learning_session,monthly_active_learning_days,total_completed_courses,recent_learning_achievement,abandoned_learning_sessions,community_engagement_level,preferred_difficulty_level,subscription_type,customer_inquiry_history,payment_pattern,target
count,10000,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000,10000,10000.0,10000.0,10000.0
unique,10000,,,,,,,,,,3,2,,,
top,b919c29d,,,,,,,,,,Low,Basic,,,
freq,1,,,,,,,,,,4992,5979,,,
mean,,11.8974,15.0132,14.994076,54.91772,12.5454,12.2275,75.029513,3.0436,3.8861,,,2.0105,3.5029,0.6199
std,,6.600896,8.362573,3.001869,56.02431,6.932239,3.634125,9.968529,1.755052,1.262175,,,1.420983,2.311261,0.485435
min,,1.0,1.0,2.366189,0.011515,1.0,1.0,35.941755,0.0,1.0,,,0.0,0.0,0.0
25%,,6.0,8.0,13.025597,15.276611,7.0,10.0,68.278054,2.0,3.0,,,1.0,1.0,0.0
50%,,12.0,15.0,14.979228,37.578818,13.0,12.0,75.126061,3.0,4.0,,,2.0,4.0,1.0
75%,,18.0,22.0,16.99534,75.5842,19.0,15.0,81.718976,4.0,5.0,,,3.0,6.0,1.0


## 알 수 있는 것

- user는 총 10,000명이다.
- 전체 가입기간의 평균은 11.89개월이다.
- 전체 가입기간의
    1. 최소값이 1개월인거 보니, 1개월 단위 구독으로 유추할 수 있다. 
    2. 최댓값이 23개월인거 보니, 사용자 중 가장 긴 구독기간은 23개월이다.
- 사용자가 마지막으로 로그인한 시간(일)의 
    1. 최댓값이 29인것을 보니, 
        1) 1-29일가 1개월 단위이며,
        2) 사용자가 매월 구독을 한 후, 마지막 로그인 날짜가 언제인지 알 수 있다.
        3) 2)번 만으로는 유추가 어려우며, 
           사용자별 '월간 활동적 학습 일수'와 '마지막 로그인 날짜'를 함께 보면 사용자의 학습패턴을 알수있다. 
- 사용자의 평균 로그인 시간의 최솟값은 2.36시간이며, 최댓값은 26.99시간이다.
- 학습에 소요된 시간 평균 시간의 
    1) 최댓값은 503분이 소요된 사용자가 있으며,
    2) 최솟값은 1분 조차도 듣지 않은 사용자가 있다. 
    3) 평균적으로 54.91분 정도 소요된다.
    4) 분포도, Qr 그래프를 보면 자세히 알수있다.
- 월간 활동적인 학습 일수의 
    1) 최댓값은 24일이며,
    2) 최솟값은 1일이다.
    **3) 평균값은 12.54일이다.**
- 완료한 총 코스 수의
    1) 최댓값은 27개이며, 
    2) 최솟값은 1개이며,
    3) 평균값은 12개 정도이다.
- 최근 학습 성취도의
    1) 최댓값은 122 ??
    2) 최솟값은 35.94 ??  
    **3) 평균값은 75 ??**
- 중단된 학습 세션 수의
    1) 최댓값은 12개
    2) 최솟값은 0개 -> 중단된 학습 세션 수가 없다. 모두 최소 1개의 학습세션을 들었다!
    3) 평균값은 3개 -> 평균적으로 3개정도의 학습세션을 중단한다. 
- 커뮤니티 참여도 (0~5)
    1) 최댓값은 5
    2) 최솟값은 1  
   **3) 평균값은 3.88 **
- 선호하는 난이도 중 (Low, mid, high)
    1)  Low(49.92%)가 4992명으로 가장 많다. 
- 구독 유형 (basic, premium)
    1) Basic(59.79%)이 5979명으로 프리미엄보다 1958명 더 많다. 
- 고객 문의 이력
    1) 최댓값은 10개
    2) 최솟값은 0개
    3) 평균값은 2개
- 사용자의 3개월간의 결제 패턴
    1) 최댓값은 7 (3개월 모두 결제한 사람)
    2) 최솟값은 0 (3개월동안 결제하지 않은 사람)
    3) 평균값은 3.50 ->'마지막 2개월애 결제'한 사람이 많음
- 다음달 구독연장 여부 (0:구독취소,1:구독)
    1) 평균값은 0.6 -> '다음달에 구독할 사람'이 조금 더 많음

## 목표 
"어떤 사용자"가 구독을 연장할까?  

## 미션 
미션 1. 콘텐츠의 만족도가 높은 사용자들이 구독을 연장하지 않을까?  
미션 2. 어떤 사용자가 다음달에도 구독을 할까?  

### 미션 1. 콘텐츠의 만족도가 높은 사용자들이 구독을 연장하지 않을까?
- 가설 :    
    1) 월간 활동적인 학습 일수(monthly_active_learning_days)   
    2) 커뮤니티 참여도(community_engagement_level) 가 평균보다 높은 사용자들이  
       콘텐츠 만족도가 높은 사람들일 것이고, -> 구독을 연장했을 것이다.
       
       
- 분석 결과 : 

In [109]:
df_A = df[['monthly_active_learning_days', 'community_engagement_level', 'target']]
df_A

Unnamed: 0,monthly_active_learning_days,community_engagement_level,target
0,18,4,0
1,16,3,1
2,13,4,1
3,19,3,1
4,19,4,1
...,...,...,...
9995,18,5,1
9996,9,3,1
9997,24,5,1
9998,10,5,1


In [110]:
# 월간 활동적인 학습 일수의 평균(반올림한 값)
round(df_A['monthly_active_learning_days'].mean())

13

In [111]:
# 커뮤니티 참여도의 평균(정수화한 값)
int(df['community_engagement_level'].mean())

3

In [112]:
# 월간 활동적인 학습 일수의 평균(13) 이상인 유저
df_M=df_A[df_A['monthly_active_learning_days'] >= 13]
df_M

Unnamed: 0,monthly_active_learning_days,community_engagement_level,target
0,18,4,0
1,16,3,1
2,13,4,1
3,19,3,1
4,19,4,1
...,...,...,...
9987,14,5,0
9988,18,5,1
9993,14,5,1
9995,18,5,1


In [140]:
# 월간 활동적인 학습 일수의 평균(13) 이상인 유저 중, 커뮤니티 참여도의 평균(3)이상인 유저
df_C = df_M[df_M['community_engagement_level'] >= 3]
df_C

Unnamed: 0,monthly_active_learning_days,community_engagement_level,target
0,18,4,0
1,16,3,1
2,13,4,1
3,19,3,1
4,19,4,1
...,...,...,...
9987,14,5,0
9988,18,5,1
9993,14,5,1
9995,18,5,1


In [141]:
#df_T=df_C.groupby("target").count()
#df_T

Unnamed: 0_level_0,monthly_active_learning_days,community_engagement_level
target,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1563,1563
1,2526,2526


In [138]:
df_Total = df_C.target.value_counts()
df_Total

target
1    2526
0    1563
Name: count, dtype: int64

### 데이터 시각화

In [145]:
import matplotlib.pyplot as plt

In [144]:
df_Total = df_Total.target.value_counts()
df_Total.plot.pie(autopct='f%')
plt.title("월 활성 수업일수와 커뮤니티 참여도가 각각 평균 이상인 사용자들의 재구독 비율")
# plt.axis('equal')
plt.show()

AttributeError: 'Series' object has no attribute 'target'

In [42]:
def select_rows(df):
    return df.target > 0

In [43]:
select_rows(df)

0       False
1        True
2        True
3        True
4        True
        ...  
9995     True
9996     True
9997     True
9998     True
9999    False
Name: target, Length: 10000, dtype: bool

In [50]:
df_target1=df.loc[select_rows(df)]
df_target1

Unnamed: 0,user_id,subscription_duration,recent_login_time,average_login_time,average_time_per_learning_session,monthly_active_learning_days,total_completed_courses,recent_learning_achievement,abandoned_learning_sessions,community_engagement_level,preferred_difficulty_level,subscription_type,customer_inquiry_history,payment_pattern,target
1,a0a60abb,16,18,18.453224,72.646087,16,13,97.567322,2,3,Medium,Basic,1,6,1
2,b9f171ae,22,1,16.195228,21.774492,13,14,94.358763,3,4,Medium,Premium,0,7,1
3,5dc0ba8b,1,19,17.628656,42.659066,19,18,70.153228,0,3,Low,Basic,1,0,1
4,65c83654,4,5,21.390656,30.744287,19,10,81.917908,2,4,Medium,Basic,3,0,1
6,682ca511,8,23,10.629897,116.455949,12,10,58.708390,0,2,Low,Basic,0,6,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9994,9ee4e40c,11,6,11.187836,88.757610,6,9,77.335911,5,4,High,Basic,1,4,1
9995,ae6b76bc,22,29,14.727623,84.053558,18,16,64.966803,2,5,Low,Premium,1,1,1
9996,24588752,10,11,19.374054,45.464833,9,8,82.750244,3,3,Medium,Basic,2,7,1
9997,e4622a54,7,27,18.240978,127.302411,24,14,81.567839,3,5,High,Basic,1,6,1


In [54]:
df_target1_monthly_active_learning_days=df_target1["monthly_active_learning_days"]
print (df_target1_monthly_active_learning_days)

1       16
2       13
3       19
4       19
6       12
        ..
9994     6
9995    18
9996     9
9997    24
9998    10
Name: monthly_active_learning_days, Length: 6199, dtype: int64
