# 学業成績の分析

<div name="html-admonition" style="font-size: 0.8em">
<input type="button" onclick="location.href='https://translate.google.com/translate?hl=&sl=ja&tl=en&u='+window.location;" value="Google translation" style="color:#ffffff;background-color:#008080; height:25px" onmouseover="this.style.background='#99ccff'" onmouseout="this.style.background='#008080'"/> in English or the language of your choice.
</div><br>

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from see import see

授業の成績（優秀良可不可）とGP（Grade Point）を使った成績の分析を行う。成績表のコピーは神戸大学の「うりぼーネット」を用いる例を考えるが、Web上で成績表が表示されるのであればコードを少し修正するだけで分析が行えるであろう。

## データの読み込み

### 学生

「うりぼー」→ 成績修得情報　→　成績表を選択しコピー

In [None]:
#ーーーーー dfに成績表を割り当てる ーーーーー

# df = pd.read_clipboard()
# df.head()

In [None]:
#ーーーーー csvに保存 ーーーーー

# df.to_csv('成績表20200708.csv')

In [None]:
#ーーーーー 保存先のフォルダの確認 ーーーーー

# %pwd

### 例

例のファイルを使う場合。

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/Haruyama-KobeU/Py4Basics/master/data/data_for_mark.csv')
df

## 列の内容の確認

ステップ１：列のラベルの表示

In [None]:
col = df.columns
col

In [None]:
for c in col:
    print(c)

ステップ２：それぞれの列の要素の種類を表示方法

In [None]:
df['区分'].unique()

スッテプ３：スッテプ１と２を同時に

In [None]:
for c in col[1:]:      # Noの列を除外
    x = df[c].unique()
    print(c, x)

## `DataFrame`の作成

In [None]:
cond1 = ( df['区分']=='全学共通授業科目' )
cond2 = ( df['区分']=='高度教養科目' )
cond1or2 = ( cond1 | cond2)
cond3 = ( df['区分']=='専門科目' )

df_other = df.loc[cond1or2,:]
df_econ = df.loc[cond3,:]

In [None]:
len(df),len(df_other),len(df_econ)

全角文字を使わない方法

In [None]:
kubun = df.loc[:,col[1]]

kubun_arr = kubun.unique()
kubun_arr

In [None]:
cond1 = ( kubun==kubun_arr[0] )
cond2 = ( kubun==kubun_arr[1] )
cond1or2 = ( cond1 | cond2)
cond3 = ( kubun==kubun_arr[2] )

df_other = df.loc[cond1or2,:]
df_econ = df.loc[cond3,:]

In [None]:
len(df),len(df_other),len(df_econ)

## 全科目

### `f-string`

`f-string`を使うと文字列の`{}`の中の変数を評価して表示することが可能となる。

In [None]:
x='春山'
print(f'私は{x}ゼミに所属しています。')

In [None]:
l = [1,2,3]
print(f'合計は{sum(l)}です。')

### 優・秀・良・可・不可などの数

#### 簡単な方法

`value_counts()`を使うと簡単になる。

In [None]:
df.loc[:,'評語'].value_counts()

#### 表示を整理したい場合

評語の種類

In [None]:
m = df.loc[:,'評語'].unique()
m

In [None]:
mark = [m[2],m[3],m[4],m[1],m[0],m[-1],m[-2],m[-3]]
mark

In [None]:
for m in mark:
    print(m)

print('-'*7,'\n合計')

In [None]:
lst = []

for m in mark:
    
    cond = ( df['評語']==m )
    df0 = df.loc[cond,:]
    no = len(df0)
    lst.append(no)

lst

In [None]:
lst = []

for m in mark:
    
    cond = ( df['評語']==m )
    df0 = df.loc[cond,:]
    no = len(df0)
    lst.append(no)
    
    print(m, no)

print('-'*7,'\n合計',sum(lst))

### 優・秀・良・可・不可などの％

#### 簡単な方法

In [None]:
(
    100*df.loc[:,'評語'].value_counts(normalize=True)
).round(1)

#### 表示を整理したい場合

％だけを表示する。

In [None]:
lst = []

for m in mark:
    
    cond = ( df['評語']==m )
    df0 = df.loc[cond,:]
    percent = 100 * len(df0) / len(df)
    lst.append(percent)

lst

％と評語も表示する。

In [None]:
lst = []

for m in mark:

    cond = ( df['評語']==m )
    df0 = df.loc[cond,:]
    percent = 100 * len(df0) / len(df)
    lst.append(percent)
    
    print(f'{m}: {percent}')
    
print('-'*30,f'\n合計: {sum(lst)}')

小数点の表示を調整する。

In [None]:
lst = []

for m in mark:

    cond = ( df['評語']==m )
    df0 = df.loc[cond,:]
    percent = 100 * len(df0) / len(df)
    lst.append(percent)

    print(f'{m} {percent:.1f}')   # 小数点第ー位まで表示
    
print('-'*10,f'\n合計: {sum(lst):.0f}')  # 小数点は表示しない

`%`を追加し，表示も揃える。

In [None]:
lst = []

for m in mark:

    cond = ( df['評語']==m )
    df0 = df.loc[cond,:]
    percent = 100 * len(df0) / len(df)
    lst.append(percent)

    print(f'{m:\u3000<2}{percent:>5.1f}')  # ここを修正
    
print('-'*10,f'\n合計: {sum(lst):.0f}')

ここで「秀」など全角を使っているので`\u3000`が必要となる。

## 全学共通授業科目

### 数

In [None]:
df_other.loc[:,'評語'].value_counts()

In [None]:
lst = []

for m in mark:
    
    cond = ( df_other['評語']==m )
    df0 = df_other.loc[cond,:]
    no = len(df0)
    lst.append(no)
    
    print(m,no)
    
print('-'*10,f'\n合計 {sum(lst)}')

### 割合

In [None]:
(
    100 * df_other.loc[:,'評語'].value_counts(normalize=True)
).round(1)

In [None]:
lst = []

for m in mark:
    
    cond = ( df_other['評語']==m )
    df0 = df_other.loc[cond,:]
    percent = 100 * len(df0) / len(df_other)
    lst.append(percent)
    
    print(f'{m} {percent:.1f}')
    
print('-'*10,f'\n合計 {sum(lst):.0f}')

## 専門科目

In [None]:
df_econ.loc[:,'評語'].value_counts()

In [None]:
lst = []

for m in mark:
    
    cond = ( df_econ['評語']==m )
    df0 = df_econ.loc[cond,:]
    no = len(df0)
    lst.append(no)
    
    print(m,no)
    
print('-'*10,f'\n合計 {sum(lst)}')

In [None]:
(
    100 * df_econ.loc[:,'評語'].value_counts(normalize=True)
).round(1)

In [None]:
lst = []

for m in mark:
    
    cond = ( df_econ['評語']==m )
    df0 = df_econ.loc[cond,:]
    percent = 100 * len(df0) / len(df_econ)
    lst.append(percent)
    
    print(f'{m} {percent:.1f}')
    
print('-'*10, f'\n合計 {sum(lst):.0f}')

## GPAの推移

### 「科目GP」で記号がある行の削除

科目GPの要素の種類

In [None]:
df.loc[:,'科目GP'].unique()

全て文字列となっているので，`-`と`*`の記号が含まれない行だけから構成される`DataFrame`を作成する。

後で「科目GP」のデータ型を変更する際に警告がでないようにメソッド`.copy()`を使い`DataFrame`のコピーを作成する。

In [None]:
gpa = df.query("科目GP not in ['-', '*']").copy()
gpa.head()

In [None]:
gpa['科目GP'].unique()

データ型は`object`（文字列）のままである。

属性`.dtypes`を使って確認することもできる。

In [None]:
gpa['科目GP'].dtypes

`O`は`object`。

### 「科目GP」を浮動小数点に変更

科目GPは`object`（文字列）となっているので，メソッド`astype()`を使って`float`に変換する。

In [None]:
gpa['科目GP'] = gpa['科目GP'].astype(float)

In [None]:
gpa.dtypes

### 図示：毎年

#### `groupby`

`groupby`は`DataFrame`や`Series`をグループ化し，グループ内の計算を簡単に行うことができる便利なメソッドである。「修得年度」でグループ化し，平均を計算する。

In [None]:
two_vars = ['単位数','科目GP']

In [None]:
gpa_grouped = gpa.groupby('修得年度')
gpa_mean = gpa_grouped[two_vars].mean()
gpa_mean

* `gpa_grouped`は`DetaFrame`ではないので注意しよう。
* `gpa_grouped`には`median()`，`std()`，`var()`，`min()`，`max()`などが使える。その他の属性・メソッドを確認。

#### 図示

方法１：横軸に文字列を使う

`gpa_mean.index`を確認する。

In [None]:
gpa_mean.index

これを使い横軸に使う文字列を作成する。

In [None]:
yr = [str(i) for i in gpa_mean.index]
yr

In [None]:
plt.plot(yr,gpa_mean['科目GP'], 'o-')
pass

方法２：`plt.xticks()`を使って

横軸を調整するために，`gpa_mean`のインデックスを確認。

In [None]:
yr = gpa_mean.index
yr

`xticks()`を使って横軸の表示を指定する。

In [None]:
plt.plot('科目GP', 'o-', data=gpa_mean)
plt.xticks(yr)
pass

### 図示：前期後期毎

#### 「修得学期」の英語化

「修得学期」の要素が日本語だと警告が出るため，メソッド`.replace()`を使って英語に変換する。`replace()`の引数は辞書で指定する。
* キー：変更する対象の数値や文字列
* 値：変更後の数値や文字列

In [None]:
gpa['修得学期'] = gpa['修得学期'].replace({'前期':'1','後期':'2'})
gpa.head()

#### `groupby`

「修得年度」と「修得学期」でグループ化する。

In [None]:
gpa_grouped = gpa.groupby(['修得年度','修得学期'])
gpa_mean = gpa_grouped[two_vars].mean()
gpa_mean

#### 図示

横軸に文字列を使う。まず`gpa_mean`のインデックスを確認する。

In [None]:
gpa_mean.index

これを使い横軸に使う文字列を作成する。

In [None]:
yr_half = [str(i[0])+'-'+str(i[1]) for i in gpa_mean.index]
yr_half

In [None]:
plt.plot(yr_half, gpa_mean['科目GP'], marker='o')
pass