In [1]:
import pandas as pd

In [4]:
courses = pd.read_csv('./data/courses.csv')
assessments = pd.read_csv('./data/assessments.csv')
vle = pd.read_csv('./data/vle.csv')
studentInfo = pd.read_csv('./data/studentInfo.csv')
studentRegistration = pd.read_csv('./data/studentRegistration.csv')
studentAssessment = pd.read_csv('./data/studentAssessment.csv')
studentVle = pd.read_csv('./data/studentVle.csv')

## 테이블 데이터 확인

### COURSES

In [5]:
courses.head()

Unnamed: 0,code_module,code_presentation,module_presentation_length
0,AAA,2013J,268
1,AAA,2014J,269
2,BBB,2013J,268
3,BBB,2014J,262
4,BBB,2013B,240


courses 데이터에서는 시작 학기에따라 B(2월 시작), J(10월 시작)를 code_presentation에 붙인다.\
같은 강좌라도 학기별로 구조나 세부 내용이 다를 수 있기 때문에 따로 분리해서 봐야하는데,\
code_module이 CCC, EEE, GGG인 코스의 경우 이전 기수 B, J 수강 내역이 없는 데이터로 이루어져 있다.

In [16]:
courses[courses['code_module'] == 'CCC']

Unnamed: 0,code_module,code_presentation,module_presentation_length
6,CCC,2014J,269
7,CCC,2014B,241


### ASSESSMENTS

강좌마다 학기별로 나간 과제에 대한 정보.\
모든 강좌는 몇가지 과제 후 기말 시험을 치르게 된다.

- **date** : 제출일. module-presentation이 시작된 날짜 기준 0일 부터 시작. 기말고사의 date 값이 결측치일 경우 presentation의 마지막 week임.
- **weight** : 과제 비율. Exam은 과제와 별개로 다뤄지기 때문에 100%로 표기된다. Exam 이외의 assessments의 weight를 모두 합하면 100%가 됨.
- **assessment_type** : 
    - Tutor Marked Assessment (TMA)
    - Computer Marked Assessment (CMA)
    - Final Exam (Exam)

In [6]:
assessments.head()

Unnamed: 0,code_module,code_presentation,id_assessment,assessment_type,date,weight
0,AAA,2013J,1752,TMA,19.0,10.0
1,AAA,2013J,1753,TMA,54.0,20.0
2,AAA,2013J,1754,TMA,117.0,20.0
3,AAA,2013J,1755,TMA,166.0,20.0
4,AAA,2013J,1756,TMA,215.0,30.0


### VLE

온라인 학습 환경의 html page, pdf 파일 등의 정보. 리소스? 학습용 meterial.

- **week_from ~ week_to** : 몇주부터 몇주까지 해당 meterials를 학습하도록 설계되어있는지.

In [7]:
vle.head()

Unnamed: 0,id_site,code_module,code_presentation,activity_type,week_from,week_to
0,546943,AAA,2013J,resource,,
1,546712,AAA,2013J,oucontent,,
2,546998,AAA,2013J,resource,,
3,546888,AAA,2013J,url,,
4,547035,AAA,2013J,resource,,


In [20]:
vle[vle['week_from'].notna()].head()

Unnamed: 0,id_site,code_module,code_presentation,activity_type,week_from,week_to
113,546732,AAA,2013J,oucontent,2.0,2.0
198,546719,AAA,2013J,oucontent,1.0,1.0
210,546681,AAA,2013J,oucontent,1.0,1.0
264,877040,AAA,2014J,oucontent,2.0,2.0
323,877045,AAA,2014J,oucontent,1.0,1.0


### studentInfo

- **imd_band** : 지역별 결핍(빈곤) 지수. 소득, 고용, 교육, 건강, 범죄 등으로 계산됨.\
https://en.wikipedia.org/wiki/Multiple_deprivation_index

In [21]:
studentInfo.head()

Unnamed: 0,code_module,code_presentation,id_student,gender,region,highest_education,imd_band,age_band,num_of_prev_attempts,studied_credits,disability,final_result
0,AAA,2013J,11391,M,East Anglian Region,HE Qualification,90-100%,55<=,0,240,N,Pass
1,AAA,2013J,28400,F,Scotland,HE Qualification,20-30%,35-55,0,60,N,Pass
2,AAA,2013J,30268,F,North Western Region,A Level or Equivalent,30-40%,35-55,0,60,Y,Withdrawn
3,AAA,2013J,31604,F,South East Region,A Level or Equivalent,50-60%,35-55,0,60,N,Pass
4,AAA,2013J,32885,F,West Midlands Region,Lower Than A Level,50-60%,0-35,0,60,N,Pass


### studentRegistration

module-presentation 등록 데이터. module-presentation이 시작된 시점과 연관이 있다.

- **date_registration** : 등록일자. -30인 경우 해당 수강생이 module-presentation이 시작되기 30일 전에 등록한 것.
- **date_unregistration** : 수강취소를 한 경우 기록됨. 12인 경우 module-presentation이 시작된 후 12일 후에 등록 취소한 것. 빈값일 경우 수강을 끝까지 잘 마친 것.

date_unregistration이 빈 값이 아닐 경우 studentInfo.csv의 final_result 컬럼이 'Withdrawal'로 표기됨.

In [22]:
studentRegistration.head()

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration
0,AAA,2013J,11391,-159.0,
1,AAA,2013J,28400,-53.0,
2,AAA,2013J,30268,-92.0,12.0
3,AAA,2013J,31604,-52.0,
4,AAA,2013J,32885,-176.0,


In [24]:
studentRegistration[studentRegistration['date_unregistration'].notna()].head()

Unnamed: 0,code_module,code_presentation,id_student,date_registration,date_unregistration
2,AAA,2013J,30268,-92.0,12.0
15,AAA,2013J,65002,-180.0,96.0
22,AAA,2013J,94961,-170.0,72.0
29,AAA,2013J,106247,5.0,175.0
41,AAA,2013J,129955,-197.0,135.0


### studentAssessment

과제 제출 현황.과제를 제출 안한 경우 기록되지 않는다.\
만약 과제 결과가 시스템에서 누락될 경우 기말고사 제출내역은 기록되지 않음.

- **date_submitted** : module-presentation 시작 날짜 기준, 제출일.
- **is_banked** :  a status flag indicating that the assessment result has been transferred from a previous presentation.(이전 presentation과 연관성이 있는지?)
- **score** : 0 ~ 100 사이의 값. 40보다 작을 경우 Fail.

In [25]:
studentAssessment.head()

Unnamed: 0,id_assessment,id_student,date_submitted,is_banked,score
0,1752,11391,18,0,78.0
1,1752,28400,22,0,70.0
2,1752,31604,17,0,72.0
3,1752,32885,26,0,69.0
4,1752,38053,19,0,79.0


### studentVle

학생들이 VLE와 상호작용한 데이터.

- **id_site** : VLE meterial id.
- **date** : module-presentation 시작 날짜 기준, 이벤트 날짜.
- **sum_click** : 해당 날짜에 있었던 클릭 수 집계.

In [26]:
studentVle.head()

Unnamed: 0,code_module,code_presentation,id_student,id_site,date,sum_click
0,AAA,2013J,28400,546652,-10,4
1,AAA,2013J,28400,546652,-10,1
2,AAA,2013J,28400,546652,-10,1
3,AAA,2013J,28400,546614,-10,11
4,AAA,2013J,28400,546714,-10,1
