In [5]:
import pickle
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.linear_model import Ridge
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold

mm = preprocessing.MinMaxScaler()

filename = "./data/hangout.csv"
data = pd.read_csv(filename, index_col=0)
data.iloc[:,:] = mm.fit_transform(data)

covid_file = "./data/covid_risk.csv"
risk_data = pd.read_csv(covid_file, index_col=0)
risk_data.iloc[:,:] = mm.fit_transform(risk_data)

------------------------------------------------

## コロナ危険度予測モデル

In [7]:
X = risk_data.iloc[:,0:3]
y = risk_data.iloc[:,3]
X.iloc[51:,0:3]

Unnamed: 0_level_0,物を共有する,室外?室内?,過疎?密集?
11段階評価,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
動画視聴,0.0,1.0,0.0
麻雀,1.0,1.0,0.5
図書館,0.8,1.0,0.4
カフェ・喫茶店,0.0,1.0,0.3
ラフティング,0.4,0.0,0.6
パラグライダー,0.1,0.0,0.0
バンジージャンプ,0.2,0.0,0.2
スキューバダイビング,0.4,0.0,0.0
パチンコ・パチスロ,0.9,1.0,0.8
カメラ,0.0,0.5,0.1


In [4]:
kfold = KFold(n_splits=5)
scores = cross_val_score(clf, X, y, cv=kfold)
print(np.sum(scores))

3.213936563012778


In [2]:
X = risk_data.iloc[:,0:3]
y = risk_data.iloc[:,3]
clf = Ridge(alpha=0.2)
clf.fit(X, y)

with open('covid_risk.pickle', 'wb') as f:
    pickle.dump(clf, f)

In [8]:
pred = clf.predict(risk_data.iloc[:,0:3])
pred_st = []
for i, risk in enumerate(pred):
    if risk < 0.2 :
        pred_st.append(5)
    elif 0.2 <= risk < 0.4:
        pred_st.append(4)
    elif 0.4 <= risk < 0.6:
        pred_st.append(3)
    elif 0.6 <= risk < 0.8:
        pred_st.append(2)
    elif 0.8 <= risk:
        pred_st.append(1)
print(np.array(pred_st))

[4 3 4 5 4 5 2 3 2 1 2 1 2 3 1 2 2 2 3 1 1 2 3 2 4 2 2 3 4 4 2 3 3 2 5 2 3
 5 1 3 3 3 2 1 3 4 3 5 5 2 2]


In [9]:
y_st = []
for i, risk in enumerate(y):
    if risk < 0.2 :
        y_st.append(5)
    elif 0.2 <= risk < 0.4:
        y_st.append(4)
    elif 0.4 <= risk < 0.6:
        y_st.append(3)
    elif 0.6 <= risk < 0.8:
        y_st.append(2)
    elif 0.8 <= risk:
        y_st.append(1)
print(np.array(y_st))

[5 1 5 5 5 5 3 4 1 1 1 1 2 4 1 2 3 3 4 1 1 2 4 4 4 2 1 3 4 4 1 2 3 1 4 2 3
 5 1 2 3 2 3 1 4 4 3 5 5 2 1]


In [153]:
np.sum(np.abs(np.array(pred_st) - np.array(y_st)))

26

In [8]:
with open('covid_risk.pickle', 'rb') as f:
    covid = pickle.load(f)

In [9]:
a = covid.predict(X.iloc[51:,0:3])
pred_st = []
for i, risk in enumerate(a):
    if risk < 0.2 :
        pred_st.append(5)
    elif 0.2 <= risk < 0.4:
        pred_st.append(4)
    elif 0.4 <= risk < 0.6:
        pred_st.append(3)
    elif 0.6 <= risk < 0.8:
        pred_st.append(2)
    elif 0.8 <= risk:
        pred_st.append(1)
print(np.array(pred_st))

[5 1 2 4 3 5 5 5 1 5 5 5 5 3 3 4 5 3 5]


----------------------------------------------------------------

## 長期トレンドモデル

In [5]:
for i in range(30):
    rand = np.random.randint(0, len(data))
    print(data.index[rand])

ヨガ教室
カラオケ
映画館
演劇・ミュージカル・ショー
料理
飲み歩き
キャンプ・グランピング
動物園
陶芸・ガラス・手作り体験
花火大会
ビリヤード
動物園
ボードゲーム
陶芸・ガラス・手作り体験
ハイキング
映画館
お祭り
プラネタリウム
天体観測
フルーツ狩り
カラオケ
筋トレ・ジム
フルーツ狩り
遊園地・テーマパーク
キャンプ・グランピング
アニマルカフェ
花火大会
フルーツ狩り
ビリヤード
ハイキング


In [6]:
user = data.loc[["ショッピング","魚市場","日帰り温泉","トレッキング","ゲームセンター"]]
user

Unnamed: 0,アゴン(競争を伴う遊び),アレア(運やかけを伴う遊び),ミミクリ(真似・模倣を伴う遊び),イリンクス(目眩やスリルを伴う遊び)
ショッピング,0.0,0.0,0.4,0.0
魚市場,0.0,0.0,0.0,0.3
日帰り温泉,0.0,0.0,0.0,0.3
トレッキング,0.0,0.4,0.0,0.8
ゲームセンター,0.1,0.7,0.0,0.1


In [7]:
user_lterm = user.mean(axis=0)

In [8]:
user_lterm

アゴン(競争を伴う遊び)          0.02
アレア(運やかけを伴う遊び)        0.22
ミミクリ(真似・模倣を伴う遊び)      0.08
イリンクス(目眩やスリルを伴う遊び)    0.30
dtype: float64

In [9]:
result = np.linalg.norm(data - user_lterm, axis=1)
result

array([0.65817931, 0.30854497, 0.28142495, 0.21725561, 0.46389654,
       0.7383766 , 0.95561499, 0.38105118, 1.1023611 , 0.53216539,
       0.93338095, 0.77923039, 0.32741411, 0.99156442, 0.76889531,
       0.24738634, 0.72332565, 0.90066642, 0.48497423, 0.45738387,
       0.46604721, 0.38105118, 0.77537088, 0.81067873, 0.25534291,
       0.2349468 , 0.30854497, 0.13114877, 0.2349468 , 0.1979899 ,
       0.2349468 , 0.2349468 , 0.2349468 , 1.0959927 , 0.83976187,
       0.30854497, 0.4014972 , 0.63968742, 0.77923039, 0.65817931,
       0.27055499, 0.59933296, 0.49112117, 0.31176915, 0.66573268,
       0.66573268, 0.30854497, 0.38105118, 0.53777319, 0.73157365,
       1.00856333])

In [10]:
rank = np.argsort(result)
rank

array([27, 29,  3, 25, 28, 32, 30, 31, 15, 24, 40,  2,  1, 26, 35, 46, 43,
       12,  7, 21, 47, 36, 19,  4, 20, 18, 42,  9, 48, 41, 37, 39,  0, 44,
       45, 16, 49,  5, 14, 22, 38, 11, 23, 34, 17, 10,  6, 13, 50, 33,  8])

In [11]:
print("おすすめ度No.1 >> {}".format(data.iloc[rank[0]].name))
print("おすすめ度No.2 >> {}".format(data.iloc[rank[1]].name))
print("おすすめ度No.3 >> {}".format(data.iloc[rank[2]].name))
print("おすすめ度No.4 >> {}".format(data.iloc[rank[3]].name))
print("おすすめ度No.5 >> {}".format(data.iloc[rank[4]].name))

おすすめ度No.1 >> 日帰りツアー
おすすめ度No.2 >> フルーツ狩り
おすすめ度No.3 >> ハイキング
おすすめ度No.4 >> 日帰り温泉
おすすめ度No.5 >> 食べ歩き


----------------------------------------------------------------

## 短期トレンドモデル

Question1: 非日常を体験したいですか?  
0:したくない  …  4:したい

Question2: ゆったりのんびり遊びたいですか? エキサイティングな遊びをしたいですか?  
0:ゆったりのんびり  …  4:エキサイティング

In [12]:
q1 = (3 * 25) / 100
q2 = (3 * 25) / 100

アゴンの上昇 = q1が低 + q2が高  
アレアの上昇 = q1が低 + q2が低  
ミミクリの上昇 = q1が高 + q2が低  
イリンクスの上昇 = q1が高 + q2が高

In [13]:
alpha = 0.75

agon    = alpha * user_lterm[0] + (1 - alpha) * 0.5 * ((1-q1) + q2)
alea    = alpha * user_lterm[1] + (1 - alpha) * 0.5 * ((1-q1) + (1-q2))
mimicry = alpha * user_lterm[2] + (1 - alpha) * 0.5 * (q1 + (1-q2))
ilinx   = alpha * user_lterm[3] + (1 - alpha) * 0.5 * (q1 + q2)

In [14]:
user_sterm = user_lterm.copy()
user_sterm.loc["アゴン(競争を伴う遊び)"] = agon
user_sterm.loc["アレア(運やかけを伴う遊び)"] = alea
user_sterm.loc["ミミクリ(真似・模倣を伴う遊び)"] = mimicry
user_sterm.loc["イリンクス(目眩やスリルを伴う遊び)"] = ilinx

In [15]:
user_lterm

アゴン(競争を伴う遊び)          0.02
アレア(運やかけを伴う遊び)        0.22
ミミクリ(真似・模倣を伴う遊び)      0.08
イリンクス(目眩やスリルを伴う遊び)    0.30
dtype: float64

In [16]:
user_sterm

アゴン(競争を伴う遊び)          0.1400
アレア(運やかけを伴う遊び)        0.2275
ミミクリ(真似・模倣を伴う遊び)      0.1850
イリンクス(目眩やスリルを伴う遊び)    0.4125
dtype: float64

In [17]:
result = np.linalg.norm(data - user_sterm, axis=1)
result

array([0.64555209, 0.3365078 , 0.30205546, 0.39017624, 0.43386346,
       0.67136987, 0.81959594, 0.37514997, 1.00783803, 0.59727506,
       0.88472453, 0.75480958, 0.36019092, 0.90787527, 0.6929917 ,
       0.40955769, 0.71185497, 0.86760446, 0.41320394, 0.44579984,
       0.50471527, 0.48035143, 0.7367072 , 0.78723408, 0.38824928,
       0.3438568 , 0.4508187 , 0.23396047, 0.3438568 , 0.31022169,
       0.3438568 , 0.3438568 , 0.3438568 , 1.04054673, 0.90594564,
       0.4508187 , 0.40340736, 0.6432243 , 0.67619339, 0.5909632 ,
       0.3416687 , 0.50123597, 0.53641169, 0.36706607, 0.61784909,
       0.58029088, 0.4508187 , 0.52510713, 0.48346406, 0.64088806,
       0.91089928])

In [18]:
rank = np.argsort(result)
rank

array([27,  2, 29,  1, 40, 32, 31, 30, 28, 25, 12, 43,  7, 24,  3, 36, 15,
       18,  4, 19, 26, 46, 35, 21, 48, 41, 20, 47, 42, 45, 39,  9, 44, 49,
       37,  0,  5, 38, 14, 16, 22, 11, 23,  6, 17, 10, 34, 13, 50,  8, 33])

In [19]:
print("おすすめ度No.1 >> {}".format(data.iloc[rank[0]].name))
print("おすすめ度No.2 >> {}".format(data.iloc[rank[1]].name))
print("おすすめ度No.3 >> {}".format(data.iloc[rank[2]].name))
print("おすすめ度No.4 >> {}".format(data.iloc[rank[3]].name))
print("おすすめ度No.5 >> {}".format(data.iloc[rank[4]].name))

おすすめ度No.1 >> 日帰りツアー
おすすめ度No.2 >> 天体観測
おすすめ度No.3 >> フルーツ狩り
おすすめ度No.4 >> BBQ
おすすめ度No.5 >> 博物館・美術館
