# DA Mini Project
* 주제 : 온라인 학습 플랫폼 사용자 행동 패턴 분석
* 개요 :
```
이번 프로젝트는 학습 서비스를 이용하는 독자들 중 누가 서비스 구독을 연장할지 예측하기 위한 사전 파악에 초점을 맞추고 있습니다. 우리의 목표는 유저들의 학습 습관, 선호도, 이용 행태 등 다양한 측면을 면밀히 분석하는 것입니다.


이를 위해, 우리는 유저들의 학습 패턴, 서비스 이용 시간, 콘텐츠에 대한 반응, 그리고 이들이 얼마나 자주 서비스를 이용하는지 등 다양한 데이터를 수집하고 분석할 계획입니다. 이 데이터는 유저들이 서비스에 얼마나 만족하고 있는지, 어떤 요소들이 그들의 구독 결정에 영향을 미치는지 이해하는 데 중요한 역할을 할 것입니다.
```
* 데이터셋 : mini.csv
    * 메타데이터
        * user_id: 사용자의 고유 식별자
        * subscription_duration: 사용자가 서비스에 가입한 기간 (월)
        * recent_login_time: 사용자가 마지막으로 로그인한 시간 (일)
        * average_login_time:  사용자의 일반적인 로그인 시간
        * average_time_per_learning_session: 각 학습 세션에 소요된 평균 시간 (분)
        * monthly_active_learning_days: 월간 활동적인 학습 일수
        * total_completed_courses: 완료한 총 코스 수
        * recent_learning_achievement: 최근 학습 성취도
        * abandoned_learning_sessions: 중단된 학습 세션 수
        * community_engagement_level: 커뮤니티 참여도
        * preferred_difficulty_level: 선호하는 난이도
        * subscription_type: 구독 유형
        * customer_inquiry_history: 고객 문의 이력
        * payment_pattern : 사용자의 지난 3개월 간의 결제 패턴을 10진수로 표현한 값.
          - 7: 3개월 모두 결제함
          - 6: 첫 2개월은 결제했으나 마지막 달에는 결제하지 않음
          - 5: 첫 달과 마지막 달에 결제함
          - 4: 첫 달에만 결제함
          - 3: 마지막 2개월에 결제함
          - 2: 가운데 달에만 결제함
          - 1: 마지막 달에만 결제함
          - 0: 3개월 동안 결제하지 않음
        * target: 사용자가 다음 달에도 구독을 계속할지 (1) 또는 취소할지 (0)를 나타냄

# 데이터 분석의 목적
WHO, HOW, WHY(REASON) -> SO WHAT? (INSHIGHT)

1. "누가" 서비스 구독을 연장할지 예측
* 그렇다면 그 이유는 무엇인지? 원인 분석
* 연장을 안한다면? (누가, 왜) 

2. 서비스에 "얼마나" 만족을 하고 있는지
* 만족을 한다면 "왜" 만족을 하는지
* 전체 평균 만족도
* 고객 특성에 따른 만족도 분석

3. 서비스에 만족하지 X 사람은?
* 누구인지 - 특성 파악
* "왜" 불만족 하는지

3. 어떤 요소가 구독 결정에 영향을 미치는지
* 구독을 하는 사람의 "특징"은?
* 구독을 하는 "이유"는 무엇인가
* 구독을 "하는 이유"가 "안하는 이유"와 반대되는지

# 분류 값 정리

1. preferred_difficulty_level: 선호하는 난이도
* LOW / MEDIUM / HIGH

2. subscription_type: 구독 유형
* BASIC / PREMIUM
  
3. payment_pattern : 사용자의 지난 3개월 간의 결제 패턴을 10진수로 표현한 값.결제하지 않음


# 변수 값 정리
* 유저 ID
* 가입한 기간 (월)
* 마지막 로그인 시간 (일)
* 일반적인 로그인 시간
* 각 세션 평균 학습 시간 (분)
* 월간 활동적인 학습 일수
* 완료 코스
* 최근 학습 성취도
* 중단된 학습 세션 수
* 커뮤니티 참여도
* 선호하는 난이도
* 구독 유형
* 고객 문의 이력
* 사용자의 지난 3개월 간의 결제 패턴
* 구독 여부

# 설립 가능한 가설

1. 평균 학습 기간이 짧을 수록 구독 연장 가능성이 높다
* 근거 : 학습 기간이 길다는 것은 비정상적 학습을 하고 있을 가능성이 있기 때문 (영상 플레이만 해두고 참여 X)

2. 활동적인 학습 일수와 구독 연장간의 상관관계
* 근거 : 활동적인 학습을 한다는 것은 수업에 대한 몰입도가 높다는 것으로 판단 가능

3. 완료 코스와 구독 연장장간의 상관관계
* 근거 : 수업에 대한 몰입도가 높다는 것으로 판단

4. 최근 학습 성취도와 구독 연장간의 상관관계
* 근거 : 구독 결제 전 학습 성취도가 높을 수록 구독을 할 가능성이 높기 때문
* 결제 방식과도 연관해서 분석 가능

5. 커뮤니티 참여도 <-> 고객 문의 이력 과 구독 연장간의 관계
* 커뮤니티 참여도 : 학습에 대한 재미 여부
* 고객 문의 : 학습 시 불편한 사항 발생

6. 구독 유형과 결제 패턴에 따른 구독 연장

# 데이터 로드 및 전처리

In [1]:
import pandas as pd
all_data = pd.read_table('data/mini.csv',sep=',')

In [3]:
all_data.head(10)

Unnamed: 0,user_id,subscription_duration,recent_login_time,average_login_time,average_time_per_learning_session,monthly_active_learning_days,total_completed_courses,recent_learning_achievement,abandoned_learning_sessions,community_engagement_level,preferred_difficulty_level,subscription_type,customer_inquiry_history,payment_pattern,target
0,b919c29d,13,14,14.946163,8.427187,18,16,68.360455,3,4,Low,Basic,4,5,0
1,a0a60abb,16,18,18.453224,72.646087,16,13,97.567322,2,3,Medium,Basic,1,6,1
2,b9f171ae,22,1,16.195228,21.774492,13,14,94.358763,3,4,Medium,Premium,0,7,1
3,5dc0ba8b,1,19,17.628656,42.659066,19,18,70.153228,0,3,Low,Basic,1,0,1
4,65c83654,4,5,21.390656,30.744287,19,10,81.917908,2,4,Medium,Basic,3,0,1
5,b7586b82,4,4,17.274007,34.034189,21,8,74.371028,2,4,High,Basic,5,7,0
6,682ca511,8,23,10.629897,116.455949,12,10,58.70839,0,2,Low,Basic,0,6,1
7,8c948022,10,20,14.751713,67.821393,10,16,88.567777,3,5,Low,Premium,1,1,1
8,9e6713d2,20,4,12.624582,37.38421,8,8,63.624395,4,4,High,Basic,0,0,1
9,0eac44aa,22,8,10.545536,18.696273,5,10,57.646992,5,4,Medium,Basic,4,7,1


In [6]:
all_data.tail(10)

Unnamed: 0,user_id,subscription_duration,recent_login_time,average_login_time,average_time_per_learning_session,monthly_active_learning_days,total_completed_courses,recent_learning_achievement,abandoned_learning_sessions,community_engagement_level,preferred_difficulty_level,subscription_type,customer_inquiry_history,payment_pattern,target
9990,365dc677,22,20,16.104762,33.315978,11,17,55.935378,2,5,Low,Premium,2,5,1
9991,6ab018ed,12,25,12.730692,58.407028,2,8,64.614196,1,3,High,Basic,3,6,1
9992,5bb80449,19,4,13.105111,100.63034,1,12,82.762566,5,5,Low,Premium,1,7,1
9993,1d959e91,7,29,16.16519,84.130016,14,14,78.34838,4,5,Low,Premium,1,6,1
9994,9ee4e40c,11,6,11.187836,88.75761,6,9,77.335911,5,4,High,Basic,1,4,1
9995,ae6b76bc,22,29,14.727623,84.053558,18,16,64.966803,2,5,Low,Premium,1,1,1
9996,24588752,10,11,19.374054,45.464833,9,8,82.750244,3,3,Medium,Basic,2,7,1
9997,e4622a54,7,27,18.240978,127.302411,24,14,81.567839,3,5,High,Basic,1,6,1
9998,e07fbad9,11,7,18.7838,5.297234,10,10,89.885656,4,5,Low,Basic,2,0,1
9999,e12dcb55,10,5,13.07323,28.120031,3,13,64.811297,4,5,Low,Premium,0,3,0
