# Setup CoLab environment (optinal)

In [None]:
# 掛載使用者的Google雲端硬碟 (drive/MyDrive) 到 Colab 的工作磁碟
from google.colab import drive
drive.mount('/content/drive')

[Mount Google Drive to Colab](https://raw.githubusercontent.com/mingfujacky/Lecture-Python/9b438a513a1f05d24d8586906f1448a59149d497/files/image/mount_google_drive.png)

# Import Library

In [None]:
import pandas as pd
from pathlib import Path

# Load File

In [None]:
# Via URL to load 學測分數 dataset (https://bitly.com/gradescsv)
df = pd.read_csv('https://bitly.com/gradescsv')
df.head()

In [None]:
# Locate local file to load 學測分數 dataset
target_csv_path = Path.cwd() / '..' / 'files' / 'csv' / 'grades.csv'
df = pd.read_csv(target_csv_path)
df.head()

# Understand data

In [None]:
df.shape
df.dtypes
df.head(3)
df.tail(2)
df.describe() # 統計敘述

In [None]:
# 學科間的相關性
# R值相關程度之高低，在正負0.3之間（即0.3至-0.3之間）稱為低度相關；
# 在正負0.3-0.6之間（即指介於0.3至0.6，-0.3至-0.6之間）稱為中度相關；
# 而在正負0.6至0.9之間（即指在0.6至0.9，-0.6至-0.9之間）則稱為高度相關；
# 若是R值為正負1，即表示完全相關。
df[['國文', '英文', '數學', '自然', '社會']].corr()
df[['國文', '英文']].corr()


# 國文分數的分析

In [None]:
df['國文']                          # display the '國文' column
print('Mean: ', df['國文'].mean())  # 國文平均
print('STD: ', df['國文'].std())    # 國文標準差
df['國文'].plot(kind='hist', bins=15) # 國文成績直方圖

# 錄取十名學生
- 依主科加權(數學 * 1.5 + 英文 *1.5)排序
- 同主科加權者，依總級分排序

In [None]:
# 計算新增欄位值
df['主科加權'] = df['數學'] * 1.5 + df['英文']*1.5
df['總級分'] = df['國文'] + df['英文'] + df['數學'] + df['自然'] + df['社會']
df.head(10)


In [None]:
# 排序
df.sort_values(by = ['主科加權', '總級分'], ascending=False).head(10)