# プロジェクト
## はじめに
ある単語が文書に含まれているか否かを表すベクトルで文書を表現することを文書のbag-of-wordsモデルと呼びます。以下の2つの授業名ぞれぞれを文書とみなして、bag-of-wordsモデルで表現することを考えてみましょう。

- Pythonプログラミング
- プログラミング入門

ここでは、単純にベクトルは、Python, プログラミング, 入門、の3つの単語を含むか否かで表されるものとします。この時、それぞれの授業名は以下のようなベクトルで表現できます。

- Pythonプログラミング: $\vec{a}=(1, 1, 0)$
- プログラミング入門: $\vec{b}=(0, 1, 1)$

例えば、7-1の予習課題で学んだcos類似度を用いることで、以下のようにベクトルの内積を元に授業名の間の類似度を計算することができます。

$\vec{a}\cdot\vec{b}/(\|\vec{a}\|\|\vec{b}\|) = (1*0+1*1+0*1)/(\sqrt{2}\sqrt{2})$=0.5

## 基礎
このプロジェクトでは、これまでに学んで来た内容を応用して、簡易授業検索システムを作成します。検索システムは以下の関数search_course()として実装し、関数は以下の仕様を満たすこととします。

```Python
def search_course(title, lecturer):
        pass                  
results=search_course("統計的機械学習","杉山　将") 
results                  
```
- 関数は2つの引数を持ち、第1引数は授業名、第2引数は講師名、をそれぞれ日本語文字列で受け取ります。講師名の姓と名の間には全角空白を挿入してください。
    - 関数内では、授業名、講師名の空白を全角空白で扱うため、もし授業名、講師名が半角空白を含む場合はそれらを\u3000'（全角空白）で置き換えます。
- 授業データを含むJSONファイル, 'catalog-2018.json', を読み込み、第6回で作成したutasモジュールを用いてすべての授業のデータをUTCourseオブジェクトとして保持します。
- 各UTCourseオブジェクトの属性,  'title_j', 'Title', 'Schedule', の値を元に以下の授業ベクトルを作成します 。
    - 授業ベクトルはNumPyの配列とする
    - 授業ベクトルはキーワードリストのcsvファイル, 'course_keyword_list.csv', のキーワードの語彙数と同じ要素数を持つ
    - 属性,  'title_j', 'Title', 'Schedule', のいずれかの値にキーワードが含まれていれば、授業ベクトルの要素のうち、そのキーワードに対応する要素の値を1とし、含まれていなければ値は0とする
       - 属性, 'Title',  'Schedule', がないUTCourseオブジェクトがあるので注意してください    
- 引数で受け取った授業名と講師名が両方とも一致するUTCourseオブジェクトの授業ベクトルを入力の授業ベクトルとします。
    - 授業名と講師名が両方とも一致するUTCourseオブジェクトが複数ある場合はいずれか1つを選択して入力の授業ベクトルとしてください。
- cos類似度を用いて、入力の授業ベクトルと各授業のベクトルとの類似度を計算します。
- 上記の計算結果を元に、入力授業と類似した授業の授業名, 講師名, 開講学部名, 類似度を各列として検索結果をpandasのデータフレームオブジェクトとして作成します。列名は以下のように指定してください。
```Python
title, lecturer, department, similarity
...
```
- 検索結果を類似度の降順にしてデータフレームオブジェクトとして返します。
    - 類似度が0の授業は検索結果に含めません。
    - 入力の授業は検索結果に含めません。
    - 引数で受け取った授業名と講師名に一致する授業がない場合、または、入力の授業との類似度が正数であるような授業がない場合、は空のデータフレームオブジェクトを返します。

以下を参考にしながら、各関数と関数search_course()を完成させてください。
```Python
import csv
import json
import numpy as np
import pandas as pd
import utas

def utcourses():
    with open("catalog-2018.json", "r", encoding="utf-8") as f:
        return [utas.UTCourse(d) for d in json.load(f)] 

def keywords():
    with open('course_keyword_list.csv', 'r',  encoding="utf-8") as csvf:
        return [row[0] for row in csv.reader(csvf)]

def find_course(title, lecturer, utcs):
    # 入力:
        # 第1引数:授業名の文字列, 第2引数:講師名の文字列, 第3引数:'catalog-2018.json'に含まれるすべての授業のUTCourseオブジェクトのリスト
    # 出力:
        # 入力の授業名と講師名にマッチするUTCourseオブジェクトを返す 
            # マッチするUTCourseオブジェクトが複数ある場合はいずれか1つを選択して返す
        # マッチするUTCourseオブジェクトがなければNoneを返す       

def course_vectorizer(utc, kwlist):
    # 入力:
        # 第1引数:UTCourseオブジェクト, 第2引数:'course_keyword_list.csv'に含まれるキーワードのリスト
    # 出力:
        # UTCourseオブジェクトの属性, 'title_j', 'Title', 'Schedule', の値を元に授業のベクトルをNumPyの配列として返す
            # 授業ベクトルは、キーワードリストの語彙数と同じ要素数を持つ
            # 属性, 'title_j', 'Title', 'Schedule', のいずれかの値にキーワードが含まれていれば、授業ベクトルの要素のうち、
            # そのキーワードに対応する要素の値を1とし、含まれていなければ値は0とする

def search_course(title, lecturer):
    # 入力にマッチする授業のUTCourseオブジェクトを探す
    utcs = utcourses()    
    input_course =find_course(title, lecturer, utcs)  

    kwlist=keywords()
    # すべてのUTCourseオブジェクトから各授業のベクトルを作成
    # 以下は入力の授業ベクトルの作成例
    input_vec = course_vectorizer(input_course, kwlist)
    
    # 入力の授業ベクトルと各授業のベクトルとの類似度を計算
    
    # 入力授業と類似した授業の授業名, 講師名, 開講学部名, 類似度を各列として検索結果をpandasのデータフレームオブジェクトとして作成
        # データフレームの列：title, lecturer, department, similarity    

    # 検索結果を類似度の降順にしてデータフレームオブジェクトとして返す
    
```

In [1]:
import csv
import json
import numpy as np
import pandas as pd
import utas
import math 
def utcourses():
    with open("catalog-2018.json", "r", encoding="utf-8") as f:
        return [utas.UTCourse(d) for d in json.load(f)] 
def keywords():
    with open('course_keyword_list.csv', 'r',  encoding="utf-8") as csvf:
        return [row[0] for row in csv.reader(csvf)]
def find_course(title, lecturer, utcs):   
    for utc in utcs:
        if title==utc.title_j and lecturer==utc.name_j:
            return utc
    return None
def course_vectorizer(utc, kwlist):
    myvec=np.array([0]*len(kwlist))
    for kwindex in range(len(kwlist)):
        kw=kwlist[kwindex]
        if kw in utc.title_j or (hasattr(utc,'Title') and kw in utc.Title) or (hasattr(utc,'Schedule')and kw in utc.Schedule):
            myvec[kwindex]=1
    return myvec
           
def search_course(title, lecturer):
    utcs=utcourses()
    input_course=find_course(title,lecturer,utcs)
    if input_course is None:
        return np.array([])
    kwlist=keywords()
    input_vec=course_vectorizer(input_course,kwlist)
    input_norm=math.sqrt((input_vec**2).sum())
 #   print(input_norm)
    results=[]
    for utc in utcs:
        target_vec=course_vectorizer(utc,kwlist)
        inner_product=(input_vec*target_vec).sum()
        target_norm=math.sqrt((target_vec**2).sum())
        sim=inner_product/(target_norm*input_norm)
        if sim>0:
            results.append([utc.title_j,utc.name_j,utc.department_j,sim])
    d=pd.DataFrame(results,columns=['title','lecturer','department','similarity'])
    return d.sort_values('similarity',ascending=False)
#    print(input_course.name_j,input_course.title_j)
#    import sys
#    sys.exit()
search_course('機械学習の数理','山西　健司')

Unnamed: 0,title,lecturer,department,similarity
2167,機械学習の数理,山西　健司,工学部,1.000000
2214,確率・統計,木下　裕介,工学部,0.466900
2136,数理計画と最適化I,淺間　一,工学部,0.454003
2199,生体情報論,田中　剛平,工学部,0.448600
3948,生体情報論,田中　剛平,理学部,0.448600
2155,算法数理工学,定兼　邦彦,工学部,0.448600
2447,数理手法VII,北川　源四郎,工学部,0.446910
2044,応用データ解析,白山　晋,工学部,0.434783
2062,数理計画と最適化１,鈴木　克幸,工学部,0.433736
1618,保険,森本　祐司,経済学部,0.428597


## 応用
関数search_course()を改良して簡易授業検索システムを独自の関数my_search_course()で実装してください。また、関数のコードと併せて改良の工夫点を説明してください。説明はMarkdownセルを追加して記入してください。

改良の観点の例：
- 授業ベクトルの重み付けの改良
- 授業ベクトル間の類似度、距離尺度の改良
- 英語に対応した検索
- UTCourseオブジェクトの,  'title_j', 'Title', 'Schedule', の他の属性を含めた検索
- UTCourseオブジェクトの,  'title_j', 'Title', 'Schedule', の他の属性を含めた検索結果の統計量の集計と可視化
- データ構造・処理を工夫して処理速度を上げる
- 授業ベクトルのクラスタリングによる検索結果の可視化
- 授業行列（授業行xキーワード列）の行列分解による授業ベクトルの次元削減と検索結果の可視化

など


In [8]:
def my_search_course():
    pass

- どのような改良をしたか
    - 関数search_course()にどのような改良・機能追加拡張を行ったか説明すること
- その改良を実現するためのコードの手続きの説明
    - セルで"Esc+l"により行番号を表示できるので、コードの要点となる行を参照して説明すること
- その改良を実現するためのコードにどのような工夫をしたか
    - データ構造、アルゴリズム、計算処理、コードの構造、モジュールの利用など