In [4]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random

# 데이터 생성용 시드 고정
np.random.seed(0)
random.seed(0)

# 1. courses_df 생성
course_ids = [f"C{str(i).zfill(3)}" for i in range(1, 21)]
course_names = [f"Course_{i}" for i in range(1, 21)]
categories = np.random.choice(["Data Science", "Web Development", "Design", "Business"], 20)
launch_dates = [datetime(2022, np.random.randint(1, 13), np.random.randint(1, 29)) for _ in range(20)]

df_cor = pd.DataFrame({
    "Course ID": course_ids,
    "Course Name": course_names,
    "Category": categories,
    "Launch Date": launch_dates
})

# 2. enrollments_df 생성
user_ids = [f"U{str(i).zfill(3)}" for i in range(1, 101)]
course_enrollments = np.random.choice(course_ids, 200)
enrollment_dates = [datetime(2023, np.random.randint(1, 13), np.random.randint(1, 29)) for _ in range(200)]
completion_status = np.random.choice(["Completed", "In Progress", "Dropped"], 200, p=[0.5, 0.3, 0.2])

df_enr = pd.DataFrame({
    "User ID": np.random.choice(user_ids, 200),
    "Course ID": course_enrollments,
    "Enrollment Date": enrollment_dates,
    "Completion Status": completion_status
})

# 데이터 출력 예시
print("Courses DataFrame:\n", courses_df.head())
print("\nEnrollments DataFrame:\n", enrollments_df.head())


Courses DataFrame:
   Course ID Course Name         Category Launch Date
0      C001    Course_1     Data Science  2022-07-08
1      C002    Course_2         Business  2022-08-15
2      C003    Course_3  Web Development  2022-09-18
3      C004    Course_4     Data Science  2022-06-26
4      C005    Course_5         Business  2022-09-10

Enrollments DataFrame:
   User ID Course ID Enrollment Date Completion Status
0    U020      C005      2023-05-03           Dropped
1    U023      C006      2023-06-06         Completed
2    U012      C007      2023-06-03         Completed
3    U012      C009      2023-12-22           Dropped
4    U034      C018      2023-08-08       In Progress


이번엔 **온라인 교육 플랫폼**을 주제로 다양한 데이터 처리 및 분석 연습을 위한 문제를 구성해보겠습니다. 두 개의 데이터프레임을 사용하여, 결합과 그룹화 등을 통해 요구사항을 해결하는 연습 문제입니다.

### 데이터 설명

1. **첫 번째 테이블**: `courses_df`
   - **Course ID**: 강의 고유 ID
   - **Course Name**: 강의 이름
   - **Category**: 강의 카테고리 (예: Data Science, Web Development 등)
   - **Launch Date**: 강의가 시작된 날짜

2. **두 번째 테이블**: `enrollments_df`
   - **User ID**: 사용자 고유 ID
   - **Course ID**: 수강한 강의 ID (각 사용자별 여러 강의 수강 가능)
   - **Enrollment Date**: 수강한 날짜
   - **Completion Status**: 수료 여부 (예: Completed, In Progress, Dropped)

---

### 문제 1: 카테고리별 월평균 수강 등록 수 계산 및 정렬

- **설명**: `courses_df`와 `enrollments_df`를 결합하여 각 강의의 카테고리별로 월평균 수강 등록 수를 계산하세요.
- **요구사항**: 
  - `Course ID`를 기준으로 두 테이블을 결합합니다.
  - 월 단위로 그룹화하여 각 카테고리별 수강 등록 수의 평균을 계산한 후, **오름차순으로 정렬**합니다.
  - 최종 결과는 **카테고리(Category), 월평균 등록 수(Avg Monthly Enrollments)**tegory), 평균 수강 기간(Average Duration)**으로 구성된 데이터프레임을 출력하세요.

---

In [5]:
df_cor.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Course ID    20 non-null     object        
 1   Course Name  20 non-null     object        
 2   Category     20 non-null     object        
 3   Launch Date  20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), object(3)
memory usage: 772.0+ bytes


In [12]:
df_merge = pd.merge(df_cor, df_enr, on="Course ID", how="left")
df_merge


Unnamed: 0,Course ID,Course Name,Category,Launch Date,User ID,Enrollment Date,Completion Status
0,C001,Course_1,Data Science,2022-07-08,U039,2023-09-21,Completed
1,C001,Course_1,Data Science,2022-07-08,U082,2023-02-28,Completed
2,C001,Course_1,Data Science,2022-07-08,U071,2023-10-19,In Progress
3,C001,Course_1,Data Science,2022-07-08,U012,2023-07-08,Completed
4,C001,Course_1,Data Science,2022-07-08,U072,2023-01-20,Dropped
...,...,...,...,...,...,...,...
195,C020,Course_20,Web Development,2022-01-01,U052,2023-05-05,Dropped
196,C020,Course_20,Web Development,2022-01-01,U058,2023-04-13,Completed
197,C020,Course_20,Web Development,2022-01-01,U060,2023-04-22,Completed
198,C020,Course_20,Web Development,2022-01-01,U045,2023-11-09,Completed


In [43]:
#월 단위로 그룹화하여 각 카테고리별 수강 등록 수의 평균을 계산한 후, 오름차순으로 정렬합니다.
#최종 결과는 **카테고리(Category), 월평균 등록 수(Avg Monthly Enrollments)**tegory), 평균 수강 기간(Average Duration)**으로 구성된 데이터프레임을 출력하세요.
df_cate_enroll = df_merge.groupby(["Category", df_merge["Enrollment Date"].dt.month]).size().reset_index()
df_result = df_cate_enroll.groupby("Category").mean().reset_index().sort_values(by=0)
df_result.drop(["Enrollment Date"], axis=1,inplace=True)
df_result = df_result.rename(columns={0: "Avg Monthly Enrollments"})
df_result.reset_index(drop=True)

Unnamed: 0,Category,Avg Monthly Enrollments
0,Design,2.75
1,Web Development,3.5
2,Business,5.0
3,Data Science,5.416667


---

### 문제 2: 카테고리별 수료율 계산 및 내림차순 정렬

- **설명**: `Completion Status`가 **Completed**인 경우를 기준으로 카테고리별 수료율을 계산하세요.
- **요구사항**:
  - `Course ID`를 기준으로 `courses_df`와 `enrollments_df`를 결합합니다.
  - 각 카테고리별로 수료율(Completed 비율)을 계산하고, 수료율이 높은 순서대로 정렬합니다.
  - 최종 결과는 **카테고리(Category), 수료율(Completion Rate)**로 구성된 데이터프레임을 출력하세요.

---

In [44]:
df_merge.head()

Unnamed: 0,Course ID,Course Name,Category,Launch Date,User ID,Enrollment Date,Completion Status
0,C001,Course_1,Data Science,2022-07-08,U039,2023-09-21,Completed
1,C001,Course_1,Data Science,2022-07-08,U082,2023-02-28,Completed
2,C001,Course_1,Data Science,2022-07-08,U071,2023-10-19,In Progress
3,C001,Course_1,Data Science,2022-07-08,U012,2023-07-08,Completed
4,C001,Course_1,Data Science,2022-07-08,U072,2023-01-20,Dropped


In [117]:
df_cor_complete = df_merge.groupby(["Category", "Completion Status"]).size().reset_index()
completed = df_cor_complete[df_cor_complete["Completion Status"] == "Completed"].groupby("Category").sum().drop("Completion Status", axis=1)
total = df_cor_complete.groupby("Category").sum().drop("Completion Status", axis=1)
result = (completed / total).reset_index().rename(columns={0: "Completion Rate"})
result

Unnamed: 0,Category,Completion Rate
0,Business,0.416667
1,Data Science,0.584615
2,Design,0.393939
3,Web Development,0.52381


---

### 문제 3: 월별 신규 사용자 수 계산

- **설명**: `enrollments_df`의 `Enrollment Date`를 사용하여 **월별 신규 사용자 수**를 계산하세요.
- **요구사항**:
  - `User ID`와 `Enrollment Date`를 사용하여 월별로 수강을 처음 등록한 사용자 수를 계산합니다.
  - 최종 결과는 **연도-월(YearMonth), 신규 사용자 수(New Users)**를 포함하는 데이터프레임으로 정렬하세요.


In [125]:
df_enr.groupby(df_enr["Enrollment Date"].dt.to_period("M"))["User ID"].size().reset_index(name="New Users")

Unnamed: 0,Enrollment Date,New Users
0,2023-01,13
1,2023-02,19
2,2023-03,11
3,2023-04,22
4,2023-05,11
5,2023-06,23
6,2023-07,18
7,2023-08,14
8,2023-09,17
9,2023-10,16


---

### 문제 4: 인기 있는 강의 Top 5 선정

- **설명**: 전체 수강 등록 수 기준으로 가장 인기 있는 강의 **상위 5개**를 선정하세요.
- **요구사항**:
  - `enrollments_df`에서 `Course ID`를 기준으로 각 강의의 등록 수를 집계합니다.
  - 등록 수가 많은 순으로 상위 5개의 강의를 선정하고, 강의 이름과 등록 수를 포함하여 정렬합니다.
  - 최종 결과는 **강의 이름(Course Name), 등록 수(Enrollments)**로 구성된 데이터프레임을 출력하세요.


In [126]:
df_enr.head()

Unnamed: 0,User ID,Course ID,Enrollment Date,Completion Status
0,U020,C005,2023-05-03,Dropped
1,U023,C006,2023-06-06,Completed
2,U012,C007,2023-06-03,Completed
3,U012,C009,2023-12-22,Dropped
4,U034,C018,2023-08-08,In Progress


In [135]:
print(len(df_cor))
df_cor.head()

20


Unnamed: 0,Course ID,Course Name,Category,Launch Date
0,C001,Course_1,Data Science,2022-07-08
1,C002,Course_2,Business,2022-08-15
2,C003,Course_3,Web Development,2022-09-18
3,C004,Course_4,Data Science,2022-06-26
4,C005,Course_5,Business,2022-09-10


In [159]:
df_cor[df_cor["Course ID"]=="C002"]["Course Name"].values[0]

'Course_2'

In [176]:
df_result = df_enr.groupby("Course ID").size().sort_values(ascending=False)[:5].reset_index(name="Enrollments")
df_m = pd.merge(df_result, df_cor[["Course ID", "Course Name"]], on="Course ID", how="left")
df_m
df_m.info()
# df_result["Course Name"] = df_result["Course ID"].apply(lambda x : df_cor[df_cor["Course ID"]==x]["Course Name"].values[0])
# df_result

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Course ID    5 non-null      object
 1   Enrollments  5 non-null      int64 
 2   Course Name  5 non-null      object
dtypes: int64(1), object(2)
memory usage: 252.0+ bytes


---

### 문제 5: 카테고리별 평균 수강 기간 계산

- **설명**: `Completion Status`가 **Completed**인 강의를 대상으로, 카테고리별 평균 수강 기간을 계산하세요.
- **요구사항**:
  - `Completion Status`가 **Completed**인 경우에 대해 수강 기간을 계산합니다.
  - 수강 기간은 `Enrollment Date`에서 강의별 종료일까지의 일수로 계산합니다.
  - 최종 결과는 **카테고리(Category), 평균 수강 기간(Average Duration)**으로 구성된 데이터프레임을 출력하세요.

---

In [166]:
df_merge.head()

Unnamed: 0,Course ID,Course Name,Category,Launch Date,User ID,Enrollment Date,Completion Status
0,C001,Course_1,Data Science,2022-07-08,U039,2023-09-21,Completed
1,C001,Course_1,Data Science,2022-07-08,U082,2023-02-28,Completed
2,C001,Course_1,Data Science,2022-07-08,U071,2023-10-19,In Progress
3,C001,Course_1,Data Science,2022-07-08,U012,2023-07-08,Completed
4,C001,Course_1,Data Science,2022-07-08,U072,2023-01-20,Dropped


In [182]:
# Completed인 경우에만을 추출
df_completed = df_merge[df_merge["Completion Status"] == "Completed"]
df_completed["Duration"] = (df_completed["Enrollment Date"] - df_completed["Launch Date"]).dt.days
result = df_completed.groupby("Category")["Duration"].mean().round(2)
result.reset_index(name="Average Duration")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_completed["Duration"] = (df_completed["Enrollment Date"] - df_completed["Launch Date"]).dt.days


Unnamed: 0,Category,Average Duration
0,Business,415.52
1,Data Science,331.24
2,Design,348.62
3,Web Development,466.05
