In [None]:
import pandas as pd

# 데이터 불러오기
df = pd.read_csv("Courses.csv") 

# course_id별 코스명 딕셔너리 정의
course_name_map = {
    "HarvardX/CB22x/2013_Spring": "The Ancient Greek Hero",
    "HarvardX/CS50x/2012": "Introduction to Computer Science",
    "HarvardX/ER22x/2013_Spring": "Justice",
    "HarvardX/PH207x/2012_Fall": "Health in Numbers: Quantitative Methods in Clinical & Public Health Research",
    "HarvardX/PH278x/2013_Spring": "Human Health and Global Environmental Change",
    "MITx/6.002x/2012_Fall": "Circuits and Electronics",
    "MITx/6.002x/2013_Spring": "Circuits and Electronics",
    "MITx/14.73x/2013_Spring": "The Challenges of Global Poverty",
    "MITx/2.01x/2013_Spring": "Elements of Structures",
    "MITx/3.091x/2012_Fall": "Introduction to Solid State Chemistry",
    "MITx/3.091x/2013_Spring": "Introduction to Solid State Chemistry",
    "MITx/6.00x/2012_Fall": "Introduction to Computer Science and Programming",
    "MITx/6.00x/2013_Spring": "Introduction to Computer Science and Programming",
    "MITx/7.00x/2013_Spring": "Introduction to Biology - The Secret of Life",
    "MITx/8.02x/2013_Spring": "Physics II: Electricity and Magnetism",
    "MITx/8.MReV/2013_Summer": "Mechanics ReView"
}

# course_name 컬럼 추가
df["course_name"] = df["course_id"].map(course_name_map)

# 불필요한 컬럼 제거
columns_to_drop = ['index', 'Random', 'registered', 'roles']
df.drop(columns=columns_to_drop, inplace=True)

# 수치형 컬럼의 결측값을 0으로 대체
numeric_cols = ['grade', 'nevents', 'ndays_act', 'nplay_video', 'nchapters', 'nforum_posts']
df[numeric_cols] = df[numeric_cols].fillna(0)

# 'yob'는 숫자형으로 변환 ('Unknown' 등은 NaN으로 처리)
df['YoB'] = pd.to_numeric(df['YoB'], errors='coerce')

# 소수점 제거 → 정수형(Int64)으로 변환 (NaN 허용)
df['YoB'] = df['YoB'].astype('Int64')

# 범주형 컬럼의 결측값을 'Unknown'으로 대체
categorical_cols = ['LoE_DI', 'gender', 'final_cc_cname_DI']
df[categorical_cols] = df[categorical_cols].fillna('Unknown')

# 날짜형 컬럼 변환
df['start_time_DI'] = pd.to_datetime(df['start_time_DI'], errors='coerce')
df['last_event_DI'] = pd.to_datetime(df['last_event_DI'], errors='coerce')


# 파생 변수 생성: 학습 지속 기간 (일수)
df['learning_days'] = (df['last_event_DI'] - df['start_time_DI']).dt.days
df['learning_days'] = df['learning_days'].astype('Int64')


# 컬럼명 소문자로 변환 + 일부 이름 정리
df.columns = [col.lower() for col in df.columns]
df.rename(columns={
    'userid_di': 'user_id',
    'final_cc_cname_di': 'country',
    'loe_di': 'education',
    'start_time_di': 'start_time',
    'last_event_di': 'last_event'
}, inplace=True)

# 전처리 결과 저장
df.to_csv("courses_preprocessed.csv", index=False)
