# プロジェクト
## はじめに
ある単語が文書に含まれているか否かを表すベクトルで文書を表現することを文書のbag-of-wordsモデルと呼びます。以下の2つの授業名ぞれぞれを文書とみなして、bag-of-wordsモデルで表現することを考えてみましょう。

- Pythonプログラミング
- プログラミング入門

ここでは、単純にベクトルは、Python, プログラミング, 入門、の3つの単語を含むか否かで表されるものとします。この時、それぞれの授業名は以下のようなベクトルで表現できます。

- Pythonプログラミング: $\vec{a}=(1, 1, 0)$
- プログラミング入門: $\vec{b}=(0, 1, 1)$

例えば、7-1の予習課題で学んだcos類似度を用いることで、以下のようにベクトルの内積を元に授業名の間の類似度を計算することができます。

$\vec{a}\cdot\vec{b}/(\|\vec{a}\|\|\vec{b}\|) = (1*0+1*1+0*1)/(\sqrt{2}\sqrt{2})$=0.5

## 基礎
このプロジェクトでは、これまでに学んで来た内容を応用して、簡易授業検索システムを作成します。検索システムは以下の関数search_course()として実装し、関数は以下の仕様を満たすこととします。

```Python
def search_course(title, lecturer):
        pass                  
results=search_course("統計的機械学習","杉山　将") 
results                  
```
- 関数は2つの引数を持ち、第1引数は授業名、第2引数は講師名、をそれぞれ日本語文字列で受け取ります。講師名の姓と名の間には全角空白を挿入してください。
    - 関数内では、授業名、講師名の空白を全角空白で扱うため、もし授業名、講師名が半角空白を含む場合はそれらを\u3000'（全角空白）で置き換えます。
- 授業データを含むJSONファイル, 'catalog-2018.json', を読み込み、第6回で作成したutasモジュールを用いてすべての授業のデータをUTCourseオブジェクトとして保持します。
- 各UTCourseオブジェクトの属性,  'title_j', 'Title', 'Schedule', の値を元に以下の授業ベクトルを作成します 。
    - 授業ベクトルはNumPyの配列とする
    - 授業ベクトルはキーワードリストのcsvファイル, 'course_keyword_list.csv', のキーワードの語彙数と同じ要素数を持つ
    - 属性,  'title_j', 'Title', 'Schedule', のいずれかの値にキーワードが含まれていれば、授業ベクトルの要素のうち、そのキーワードに対応する要素の値を1とし、含まれていなければ値は0とする
       - 属性, 'Title',  'Schedule', がないUTCourseオブジェクトがあるので注意してください    
- 引数で受け取った授業名と講師名が両方とも一致するUTCourseオブジェクトの授業ベクトルを入力の授業ベクトルとします。
    - 授業名と講師名が両方とも一致するUTCourseオブジェクトが複数ある場合はいずれか1つを選択して入力の授業ベクトルとしてください。
- cos類似度を用いて、入力の授業ベクトルと各授業のベクトルとの類似度を計算します。
- 上記の計算結果を元に、入力授業と類似した授業の授業名, 講師名, 開講学部名, 類似度を各列として検索結果をpandasのデータフレームオブジェクトとして作成します。列名は以下のように指定してください。
```Python
title, lecturer, department, similarity
...
```
- 検索結果を類似度の降順にしてデータフレームオブジェクトとして返します。
    - 類似度が0の授業は検索結果に含めません。
    - 入力の授業は検索結果に含めません。
    - 引数で受け取った授業名と講師名に一致する授業がない場合、または、入力の授業との類似度が正数であるような授業がない場合、は空のデータフレームオブジェクトを返します。

以下を参考にしながら、各関数と関数search_course()を完成させてください。
```Python
import csv
import json
import numpy as np
import pandas as pd
import utas

def utcourses():
    with open("catalog-2018.json", "r", encoding="utf-8") as f:
        return [utas.UTCourse(d) for d in json.load(f)] 

def keywords():
    with open('course_keyword_list.csv', 'r',  encoding="utf-8") as csvf:
        return [row[0] for row in csv.reader(csvf)]

def find_course(title, lecturer, utcs):
    # 入力:
        # 第1引数:授業名の文字列, 第2引数:講師名の文字列, 第3引数:'catalog-2018.json'に含まれるすべての授業のUTCourseオブジェクトのリスト
    # 出力:
        # 入力の授業名と講師名にマッチするUTCourseオブジェクトを返す 
            # マッチするUTCourseオブジェクトが複数ある場合はいずれか1つを選択して返す
        # マッチするUTCourseオブジェクトがなければNoneを返す       

def course_vectorizer(utc, kwlist):
    # 入力:
        # 第1引数:UTCourseオブジェクト, 第2引数:'course_keyword_list.csv'に含まれるキーワードのリスト
    # 出力:
        # UTCourseオブジェクトの属性, 'title_j', 'Title', 'Schedule', の値を元に授業のベクトルをNumPyの配列として返す
            # 授業ベクトルは、キーワードリストの語彙数と同じ要素数を持つ
            # 属性, 'title_j', 'Title', 'Schedule', のいずれかの値にキーワードが含まれていれば、授業ベクトルの要素のうち、
            # そのキーワードに対応する要素の値を1とし、含まれていなければ値は0とする

def search_course(title, lecturer):
    # 入力にマッチする授業のUTCourseオブジェクトを探す
    utcs = utcourses()    
    input_course =find_course(title, lecturer, utcs)  

    kwlist=keywords()
    # すべてのUTCourseオブジェクトから各授業のベクトルを作成
    # 以下は入力の授業ベクトルの作成例
    input_vec = course_vectorizer(input_course, kwlist)
    
    # 入力の授業ベクトルと各授業のベクトルとの類似度を計算
    
    # 入力授業と類似した授業の授業名, 講師名, 開講学部名, 類似度を各列として検索結果をpandasのデータフレームオブジェクトとして作成
        # データフレームの列：title, lecturer, department, similarity    

    # 検索結果を類似度の降順にしてデータフレームオブジェクトとして返す
    
```

In [230]:
import csv
import json
import numpy as np
import pandas as pd
import utas
import math
#import cos_sim

def utcourses():
    with open("catalog-2018.json", "r", encoding="utf-8") as f:
        return [utas.UTCourse(d) for d in json.load(f)] 

def keywords():
    with open('course_keyword_list.csv', 'r',  encoding="utf-8") as csvf:
        return [row[0] for row in csv.reader(csvf)]

def find_course(title, lecturer, utcs):
    lecturer=lecturer.replace(" ","\u3000") #半角があったら全角に変換
    for utc in utcs:
        if title==utc.title_j and lecturer==utc.name_j:
            return utc
    return None

def course_vectorizer(utc, kwlist):
    v=[]
    for k in kwlist:
        if k in utc.title_j:
            v.append(1)
        elif hasattr(utc,"Title") and k in utc.Title:
            v.append(1)
        elif hasattr(utc,"Schedule") and k in utc.Schedule:
            v.append(1)
        else:
            v.append(0)
    vec=np.array(v)
    #print(vec)
    #print(len(vec))
    return vec

def cos_sim(x,y):
    xi2=0
    yi2=0
    xiyi=0
    for n in range(len(x)):
        xi2+=x[n]**2
        yi2+=y[n]**2
        xiyi+=x[n]*y[n]      
    return xiyi/(math.sqrt(xi2*yi2))

def search_course(title, lecturer):
    utcs = utcourses()    #リスト
    #print(len(utcs)) #4909
    input_course =find_course(title, lecturer, utcs)  
    kwlist=keywords()
    
    if input_course==None:
        return pd.DataFrame()
    else:
        input_vec = course_vectorizer(input_course, kwlist)
        #print(input_vec) 
        #print(len(input_vec)) #1804

        vecs=[]
        for utc in utcs:
            if utc!=input_course:
                vecs.append(course_vectorizer(utc,kwlist))
        #print(len(vecs)) #4909
        #print(len(vecs[0])) #1804
        #print(vecs)

        similarity=[]
        for vec in vecs:
            similarity.append(cos_sim(input_vec,vec))
        #print(similarity)
        #print(len(similarity)) #4909

        title=[]
        lecturer=[]
        department=[]
        for utc in utcs:
            if utc!=input_course:
                title.append(utc.title_j)
                lecturer.append(utc.name_j)
                department.append(utc.department_j)
        #print(len(title))#4909
        
        d=pd.DataFrame() #データフレームの作成
        d["title"]=title
        d["lecturer"]=lecturer
        d["department"]=department
        d["similarity"]=similarity

        sorted_d=d.sort_values("similarity", ascending=False)   #降順にソート
        new_d=sorted_d[sorted_d["similarity"]>0]    #similarityが0のものや正数が一つもないときを除く

        return new_d
    

In [231]:
results=search_course("統計的機械学習","杉山 将") 
results

Unnamed: 0,title,lecturer,department,similarity
2653,統計的機械学習,鶴岡　慶雅,工学部,0.733799
1634,演習（大森）,大森　裕浩,経済学部,0.372104
2302,機械学習の数理,山西　健司,工学部,0.368037
4266,知能システム論,杉山　将,理学部,0.330759
1925,統計学II,久保川　達也,法学部,0.326860
2355,確率・統計,木下　裕介,工学部,0.323575
2293,知能機械情報学,國吉　康夫,工学部,0.320256
1971,教育調査分析法,朴澤　泰男,教育学部,0.318142
4236,数理科学続論I,村田　昇,理学部,0.314945
409,統計学II,金澤　雄一郎,教養学部,0.314945


In [232]:
n='杉山 将'
n=n.replace(' ','\u3000')
print(n)



杉山　将


## 応用
関数search_course()を改良して簡易授業検索システムを独自の関数my_search_course()で実装してください。また、関数のコードと併せて改良の工夫点を説明してください。説明はMarkdownセルを追加して記入してください。

改良の観点の例：
- 授業ベクトルの重み付けの改良
- 授業ベクトル間の類似度、距離尺度の改良
- 英語に対応した検索
- UTCourseオブジェクトの,  'title_j', 'Title', 'Schedule', の他の属性を含めた検索
- UTCourseオブジェクトの,  'title_j', 'Title', 'Schedule', の他の属性を含めた検索結果の統計量の集計と可視化
- データ構造・処理を工夫して処理速度を上げる
- 授業ベクトルのクラスタリングによる検索結果の可視化
- 授業行列（授業行xキーワード列）の行列分解による授業ベクトルの次元削減と検索結果の可視化

など


- どのような改良をしたか
    - 関数search_course()にどのような改良・機能追加拡張を行ったか説明すること
- その改良を実現するためのコードの手続きの説明
    - セルで"Esc+l"により行番号を表示できるので、コードの要点となる行を参照して説明すること
- その改良を実現するためのコードにどのような工夫をしたか
    - データ構造、アルゴリズム、計算処理、コードの構造、モジュールの利用など