### Comments
 - 一部の質問を除いて、無回答がでないような構造の質問にするべき
 - はじめに、「生協」、「学食」、「パンショップ」がそれぞれ具体的に何を指しているかを説明すべき
 - 回答者が内容を追いやすい構造にすべき
 - 学食についての質問セクション
   - 「学食の利用頻度は？」→「なぜ利用する／しない？」→「どの時間帯に利用する？」→「何人で利用する？」→「よく選ぶメニューは？」
   - 「学食の良い点／悪い点は？」→「学食の印象は？」
   - 「西学食と東学食のどちらが好き？（両方好き／嫌いの選択肢も）」→「なぜ？」
 - パンショップについての質問セクション
   - 「パンショップの利用頻度は？」→「パンはどこで食べる？」
 - 学食とパンショップの比較についての質問セクション
   - 「学食とパンショップのどちらが好き？（両方好き／嫌いの選択肢も）」→「なぜ？」
 - 生協アプリについての質問セクション
   - 「生協アプリ使ってる？」→「なぜ？」→「（利用している人に対し）入金方法は？」→「ほしい機能は？」

### Preparation

In [10]:
# import libraries
import pandas as pd
from pandas import DataFrame
import matplotlib.pyplot as plt

In [11]:
# choose a file and read it as a dataframe
df = pd.read_csv("forms_0620.csv", encoding="utf-8")

In [12]:
# modify column names

# f2_no3: face-to-face class at 2nd and no class at 3rd
# no2_f3: no class at 2nd and face-to-face class at 3rd
# f2_f3: face-to-face class at 2nd and 3rd
columns = ["timestamp", 
           "grade", 
           "faculty", 
           "sex", 
           "living", 
           "f2_no3", 
           "no2_f3", 
           "f2_f3", 
           "frequency_c", 
           "average_payment", 
           "when_to_use", 
           "n_of_people", 
           "reasons_for_using_c", 
           "reasons_for_not_using_c", 
           "frequently_chose_menu", 
           "good_points_of_c", 
           "bad_points_of_c", 
           "impression_of_c", 
           "frequency_b", 
           "preference_b_vs_c", 
           "where_to_eat_b", 
           "preference_e_vs_w", 
           "reasons_e_vs_w", 
           "using_app", 
           "reasons_for_using_app", 
           "how_to_deposit", 
           "reasons_for_not_using_app", 
           "desirable_features"]

df1 = df.set_axis(columns, axis="columns", copy=True)
df2 = df1.drop(columns="timestamp")

In [13]:
df2.head()

Unnamed: 0,grade,faculty,sex,living,f2_no3,no2_f3,f2_f3,frequency_c,average_payment,when_to_use,...,frequency_b,preference_b_vs_c,where_to_eat_b,preference_e_vs_w,reasons_e_vs_w,using_app,reasons_for_using_app,how_to_deposit,reasons_for_not_using_app,desirable_features
0,学部3年,商学部,男性,一人暮らし（自炊をする）,なし,なし,なし,0回,500円〜800円,利用しない,...,週０回,パンショップ,次の授業の教室,西学食,立地,いいえ,,,"入金が面倒だから, 使用が面倒だから, 利用価値を感じないから",事前注文
1,学部4年,商学部,男性,一人暮らし（自炊をしない）,なし,週１回,なし,0回,利用しない,利用しない,...,週０回,どちらも好きではない,学食内の席,どちらも好きではない,,はい,支払いが便利,クレカ入金（自分のお金）,利用している,事前注文
2,学部3年,商学部,男性,実家暮らし,なし,週２回,なし,0回,500円〜800円,"11:30~11:45, 11:45~12:00, 12:00~12:15, 12:15~1...",...,週０回,学食,学食内の席,東学食,メニュー数が多い,いいえ,,,利用価値を感じないから,クーポンの配布
3,学部3年,商学部,男性,一人暮らし（自炊をする）,なし,週１回,なし,２〜３回,300円〜500円,"12:45~13:00, 夜営業",...,週１回,学食,その他教室,東学食,"席数が多い, メニュー数が多い, 混んでいない気がする, 雰囲気",いいえ,,,使用方法を知らないから,クーポンの配布
4,学部2年,社会学部,女性,実家暮らし,なし,週２回,週１回,１回,300円〜500円,"パンショップのみ利用, 12:00~12:15, 12:15~12:30",...,週２〜３回,パンショップ,次の授業の教室,東学食,"席数が多い, メニュー数が多い",いいえ,,,入金が面倒だから,クーポンの配布


In [14]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96 entries, 0 to 95
Data columns (total 27 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   grade                      96 non-null     object
 1   faculty                    96 non-null     object
 2   sex                        96 non-null     object
 3   living                     96 non-null     object
 4   f2_no3                     96 non-null     object
 5   no2_f3                     96 non-null     object
 6   f2_f3                      96 non-null     object
 7   frequency_c                96 non-null     object
 8   average_payment            96 non-null     object
 9   when_to_use                96 non-null     object
 10  n_of_people                96 non-null     object
 11  reasons_for_using_c        96 non-null     object
 12  reasons_for_not_using_c    96 non-null     object
 13  frequently_chose_menu      96 non-null     object
 14  good_points_

### Define functions

In [15]:
def modify_values_dummy(df: DataFrame, column_name: str, original_values: list, new_values: list):
    r, _ = df.shape
    result = [[0] * len(original_values) for _ in range(r)]
    for i in range(r):
        value = df[column_name][i]
        idx = original_values.index(value)
        result[i][idx] = 1
    df_result = pd.DataFrame(data=result, columns=new_values)
    return df_result

In [16]:
def modify_values_dummies(df: DataFrame, column_name: str, original_values: list, new_values: list):
    r, _ = df.shape
    result = [[0] * len(original_values) for _ in range(r)]
    for i in range(r):
        values = df[column_name][i].split(", ")
        for value in values:
            idx = original_values.index(value)
            result[i][idx] = 1
    df_result = pd.DataFrame(data=result, columns=new_values)
    return df_result

In [17]:
def modify_values_ordinal_scale(df: DataFrame, column_name: str, original_values: list):
    r, _ = df.shape
    result = [0] * r
    for i in range(r):
        value = df[column_name][i]
        result[i] = original_values.index(value)
    df_result = pd.DataFrame(data=result, columns=[column_name])
    return df_result

### grade（回答必須）

In [18]:
print(set(df2["grade"]))

{'学部4年', '院生', '学部2年', '学部3年', '学部1年'}


In [19]:
# modify grade 
original = ["学部1年", "学部2年", "学部3年", "学部4年", "院生"]
# Grad: graduate
new = ["B1", "B2", "B3", "B4", "Grad"]
df_grade = modify_values_dummy(df2, "grade", original, new)
df_grade.head()

Unnamed: 0,B1,B2,B3,B4,Grad
0,0,0,1,0,0
1,0,0,0,1,0
2,0,0,1,0,0
3,0,0,1,0,0
4,0,1,0,0,0


In [None]:
# 院生どうする問題

### faculty（回答必須）

In [20]:
print(set(df2["faculty"]))

{'商学部', '大学院', '経済学部', 'ソーシャル・データ・サイエンス学部', '法学部', '社会学部'}


In [21]:
# modify faculty
original = ["商学部", "経済学部", "法学部", "社会学部", "ソーシャル・データ・サイエンス学部", "大学院"]
new = ["Com", "Econ", "Law", "Soc", "SDS", "Grad"]
df_faculty = modify_values_dummy(df2, "faculty", original, new)
df_faculty.head()

Unnamed: 0,Com,Econ,Law,Soc,SDS,Grad
0,1,0,0,0,0,0
1,1,0,0,0,0,0
2,1,0,0,0,0,0
3,1,0,0,0,0,0
4,0,0,0,1,0,0


In [None]:
# 院生どうする問題

### sex（回答必須）

In [22]:
print(set(df2["sex"]))

{'女性', '男性'}


In [23]:
# modify sex
original = ["女性", "男性"]
new = ["female", "male"]
df_sex = modify_values_dummy(df2, "sex", original, new)
df_sex.head()

Unnamed: 0,f,m
0,0,1
1,0,1
2,0,1
3,0,1
4,1,0


### living（回答必須）

In [24]:
print(set(df2["living"]))

{'一人暮らし（自炊をする）', '寮暮らし（食事が出る）', '実家暮らし', '一人暮らし（自炊をしない）', '寮暮らし（食事が出ない）'}


In [25]:
# modify living
original = ["実家暮らし", "一人暮らし（自炊をする）", "一人暮らし（自炊をしない）", "寮暮らし（食事が出る）", "寮暮らし（食事が出ない）"]
# LP: Living with parents
# LM_c: Living by Myself (cooking)
# LM_not_c Living by Myself (not cooking)
# D_m: Dormitory (meal)
# D_no_m) : Dormitory (no meal)
new = ["LP", "LM_c", "LM_not_c", "D_m", "D_no_m"]
df_living = modify_values_dummy(df2, "living", original, new)
df_living.head()

Unnamed: 0,LP,LM_c,LM_not_c,D_m,D_no_m
0,0,1,0,0,0
1,0,0,1,0,0
2,1,0,0,0,0
3,0,1,0,0,0
4,1,0,0,0,0


### f2_no3, no2_f3, f2_f3（いずれも回答必須）

In [26]:
print(set(df2["f2_no3"]))

{'週２回', 'なし', '週１回', '週５回', '週３回'}


In [27]:
print(set(df2["no2_f3"]))

{'週１回', '週２回', '週３回', 'なし'}


In [28]:
print(set(df2["f2_f3"]))

{'週２回', 'なし', '週１回', '週４回', '週５回', '週３回'}


In [29]:
# modify f2_no3, no2_f3, f2_f3
r, _ = df2.shape
original = ["なし", "週１回", "週２回", "週３回", "週４回", "週５回"]
column_names = ["f2_no3", "no2_f3", "f2_f3"]
result = [[0] * 3 for _ in range(r)]
for i in range(r):
    for j in range(4, 7):
        result[i][j - 4] = original.index(df2.iloc[i, j])
df_class = pd.DataFrame(data=result, columns=column_names)
df_class.head()

Unnamed: 0,f2_no3,no2_f3,f2_f3
0,0,0,0
1,0,1,0
2,0,2,0
3,0,1,0
4,0,2,1


### frequency_c（回答必須）

In [30]:
print(set(df2["frequency_c"]))

{'４回以上', '２〜３回', '0回', '１回'}


In [31]:
# modify frequency_c
# ordinal scale
original = ["0回", "１回", "２〜３回", "４回以上"]
df_frequency_c = modify_values_ordinal_scale(df2, "frequency_c", original)
df_frequency_c.head()

Unnamed: 0,frequency_c
0,0
1,0
2,0
3,2
4,1


### average_payment（回答必須）

In [32]:
print(set(df2["average_payment"]))

{'800円〜1000円', '500円〜800円', '1000円〜', '〜300円', '利用しない', '300円〜500円'}


In [33]:
# modify average_payment
# ordinal scale
original = ["利用しない", "〜300円", "300円〜500円", "500円〜800円", "800円〜1000円", "1000円〜"]
df_average_payment = modify_values_ordinal_scale(df2, "average_payment", original)
df_average_payment.head()

Unnamed: 0,average_payment
0,3
1,0
2,3
3,2
4,2


### when_to_use（回答必須）

 - 西食堂は11:00~14:00, 17:30~19:30
 - 東食堂は11:30~13:30
 - 15分ごとに答えさせる意味はないかも（回答が面倒くさくなるので、適当に答える人が増える可能性も高まる）
 - また、ここでパンショップについて聞く必要はないかも
 - 「利用しない」、「~12:30」、「12:30~13:15」、「13:15~14:00」、「夜間営業」という区分で良いのでは

In [34]:
tmp1 = list(df2["when_to_use"])
unique_values = set()
for times in tmp1:
    tmp3 = set(times.split(", "))
    unique_values = unique_values | tmp3
unique_values

{'11:30~11:45',
 '11:45~12:00',
 '12:00~12:15',
 '12:15~12:30',
 '12:30~12:45',
 '12:45~13:00',
 '13:00~13:15',
 '13:15~13:30',
 '13:30~13:45',
 '13:45~14:00',
 '14:00~14:15',
 '14:15~14:30',
 'パンショップのみ利用',
 '利用しない',
 '夜営業'}

In [35]:
# modify when_to_use
original = ['11:30~11:45',
            '11:45~12:00',
            '12:00~12:15',
            '12:15~12:30',
            '12:30~12:45',
            '12:45~13:00',
            '13:00~13:15',
            '13:15~13:30',
            '13:30~13:45',
            '13:45~14:00',
            '14:00~14:15',
            '14:15~14:30',
            'パンショップのみ利用',
            '利用しない',
            '夜営業']
new = ['11:30~11:45',
       '11:45~12:00',
       '12:00~12:15',
       '12:15~12:30',
       '12:30~12:45',
       '12:45~13:00',
       '13:00~13:15',
       '13:15~13:30',
       '13:30~13:45',
       '13:45~14:00',
       '14:00~14:15',
       '14:15~14:30',
       'bakery_only',
       'not_using',
       'night']
df_when_to_use = modify_values_dummies(df2, "when_to_use", original, new)
df_when_to_use.head()

Unnamed: 0,11:30~11:45,11:45~12:00,12:00~12:15,12:15~12:30,12:30~12:45,12:45~13:00,13:00~13:15,13:15~13:30,13:30~13:45,13:45~14:00,14:00~14:15,14:15~14:30,bakery_only,not_using,night
0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0
1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0
2,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1
4,0,0,1,1,0,0,0,0,0,0,0,0,1,0,0


### n_of_people（回答必須）

 - 「利用しない」の選択肢を用意すべき？

In [36]:
print(set(df2["n_of_people"]))

{'1人', '利用しない', '4人以上', '2～3人'}


In [37]:
# modify #_of_people
# oridinal scale
original = ['利用しない', '1人', '2～3人', '4人以上']
df_n_of_people = modify_values_ordinal_scale(df2, "n_of_people", original)
df_n_of_people.head()

Unnamed: 0,n_of_people
0,2
1,2
2,2
3,2
4,2


### reasons_for_using_c（回答必須）

In [38]:
tmp1 = list(df2["reasons_for_using_c"])
unique_values = set()
for values in tmp1:
    tmp3 = set(values.split(", "))
    unique_values = unique_values | tmp3
unique_values

{'',
 '人間関係の構築のため',
 '他の人が行きたいと言うから',
 '価格が安いから',
 '利用していない',
 '友人に誘われるから',
 '友達と行くのに1番誘いやすいから',
 '友達と食べたいから',
 '大学の外に行かなくていいので',
 '大学内でご飯を食べる場所が生協しかないから。',
 '学食なら親が費用を負担してくれるから',
 '手っ取り早く量を食べれる',
 '授業の教室に近いから\u3000友達と合流しやすいから',
 '支払いが便利だから',
 '時間の節約になるから',
 '栄養バランスが良いから',
 '近いから',
 '食べたことのないメニューが出ることがあるから。'}

In [39]:
# modify reasons_for_using_c
original = ['',
            '人間関係の構築のため',
            '他の人が行きたいと言うから',
            '価格が安いから',
            '利用していない',
            '友人に誘われるから',
            '友達と行くのに1番誘いやすいから',
            '友達と食べたいから',
            '大学の外に行かなくていいので',
            '大学内でご飯を食べる場所が生協しかないから。',
            '学食なら親が費用を負担してくれるから',
            '手っ取り早く量を食べれる',
            '授業の教室に近いから\u3000友達と合流しやすいから',
            '支払いが便利だから',
            '時間の節約になるから',
            '栄養バランスが良いから',
            '近いから',
            '食べたことのないメニューが出ることがあるから。']
new = ["価格が安いから", 
       "栄養バランスが良いから", 
       "時間の節約になるから", 
       "支払いが便利だから", 
       "人間関係のため", 
       "近いから", 
       "メニュー", 
       "生協しかないから", 
       "学食だと親が費用負担するから", 
       "量が多いから", 
       "利用していない"]
original_to_new_idxs = [[], [4], [4], [0], [10], [4], [4], [4], [2, 5], [7], [8], [2, 9], [4, 5], [3], [2], [1], [5], [6]]
result = [[0] * len(new) for _ in range(r)]
for i in range(r):
    values = df2["reasons_for_using_c"][i].split(", ")
    for value in values:
        idx = original.index(value)
        new_idxs = original_to_new_idxs[idx]
        for j in new_idxs:
            result[i][j] = 1
df_reasons_for_using_c = pd.DataFrame(data=result, columns=new)
df_reasons_for_using_c.head()

Unnamed: 0,価格が安いから,栄養バランスが良いから,時間の節約になるから,支払いが便利だから,人間関係のため,近いから,メニュー,生協しかないから,学食だと親が費用負担するから,量が多いから,利用していない
0,1,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,1
2,0,1,1,0,0,0,0,0,0,0,0
3,0,0,1,0,1,0,0,0,0,0,0
4,1,0,0,0,0,0,0,0,0,0,0


In [80]:
df_reasons_for_using_c.sum()

価格が安いから           36
栄養バランスが良いから       19
時間の節約になるから        59
支払いが便利だから         10
人間関係のため            6
近いから               4
メニュー               1
生協しかないから           1
学食だと親が費用負担するから     1
量が多いから             1
利用していない           13
dtype: int64


In [82]:
# 「食べたことのないメニューが出ることがあるから。」
# 「大学内でご飯を食べる場所が生協しかないから。」
# 「学食なら親が費用を負担してくれるから」
# 「手っ取り早く量を食べれる」
# これらはそれぞれ1人しか回答していないので除外する
# ただし、意見としては貴重なのでここに記しておく
df_reasons_for_using_c.drop(columns=["メニュー", "生協しかないから", "学食だと親が費用負担するから", "量が多いから"], inplace=True)
df_reasons_for_using_c.head()

Unnamed: 0,価格が安いから,栄養バランスが良いから,時間の節約になるから,支払いが便利だから,人間関係のため,近いから,利用していない
0,1,0,0,0,0,0,0
1,0,0,0,0,0,0,1
2,0,1,1,0,0,0,0
3,0,0,1,0,1,0,0
4,1,0,0,0,0,0,0


### reasons_for_not_using_c（回答必須）

In [40]:
tmp1 = list(df2["reasons_for_not_using_c"])
unique_values = set()
for values in tmp1:
    tmp3 = set(values.split(", "))
    unique_values = unique_values | tmp3
unique_values

{'下宿まで5分程度で家に帰って作り置きなどを食べる方がコストパフォーマンスが良いように感じる。学食(生協？)は値上げをしないようがんばっていることは伝わるものの、私が体育会ということもあり1メニューでは空腹を満たしきれないのであまり積極的に使おうとは思わない。',
 '人がたくさんいて、落ち着かない',
 '利用している',
 '利用しない理由はない',
 '利用する必要がない。',
 '外食やコンビニを好むから',
 '家に帰りたいから',
 '家のご飯の方が安くて美味しい',
 '家帰って食べた方が節約になる',
 '座席が確保しにくいから',
 '混雑していて、並ぶのが嫌',
 '清潔感がないから',
 '自炊や外食の方が、コストや質の点で妥当感がある。',
 '食堂の値段がたかいから',
 '高いしさほど美味しくない',
 '高価であるため'}

In [85]:
# コスパが良い = 味の割に価格が安い
# コスパが悪い = 味の割に価格が高い = おいしくない + 価格が高い
original = ['下宿まで5分程度で家に帰って作り置きなどを食べる方がコストパフォーマンスが良いように感じる。学食(生協？)は値上げをしないようがんばっていることは伝わるものの、私が体育会ということもあり1メニューでは空腹を満たしきれないのであまり積極的に使おうとは思わない。',
            '人がたくさんいて、落ち着かない',
            '利用している',
            '利用しない理由はない',
            '利用する必要がない。',
            '外食やコンビニを好むから',
            '家に帰りたいから',
            '家のご飯の方が安くて美味しい',
            '家帰って食べた方が節約になる',
            '座席が確保しにくいから',
            '混雑していて、並ぶのが嫌',
            '清潔感がないから',
            '自炊や外食の方が、コストや質の点で妥当感がある。',
            '食堂の値段がたかいから',
            '高いしさほど美味しくない',
            '高価であるため']
new = ["混雑していて落ち着かないから", 
       "混雑していて並ぶのが嫌", 
       "座席が確保しにくいから", 
       "清潔感がないから", 
       "外食やコンビニを好むから", 
       "量が少ないから", 
       "家に帰りたいから", 
       "値段が高いから", 
       "おいしくないから",  
       "利用する必要がないから", 
       "利用している"]
original_to_new_idxs = [[5, 7, 8], [0], [10], [10], [9], [4], [6], [7, 8], [7], [2], [1], [3], [7, 8], [7], [7, 8], [7]]
result = [[0] * len(new) for _ in range(r)]
for i in range(r):
    values = df2["reasons_for_not_using_c"][i].split(", ")
    for value in values:
        idx = original.index(value)
        new_idxs = original_to_new_idxs[idx]
        for j in new_idxs:
            result[i][j] = 1
df_reasons_for_not_using_c = pd.DataFrame(data=result, columns=new)
df_reasons_for_not_using_c.tail()

Unnamed: 0,混雑していて落ち着かないから,混雑していて並ぶのが嫌,座席が確保しにくいから,清潔感がないから,外食やコンビニを好むから,量が少ないから,家に帰りたいから,値段が高いから,おいしくないから,利用する必要がないから,利用している
91,0,0,0,0,0,0,0,0,0,0,1
92,0,0,0,0,0,0,0,0,0,0,1
93,1,1,1,0,0,0,0,0,0,0,0
94,1,1,1,0,0,0,0,0,0,0,0
95,1,0,0,0,0,0,0,0,0,0,0


In [86]:
df_reasons_for_not_using_c.sum()

混雑していて落ち着かないから    21
混雑していて並ぶのが嫌       41
座席が確保しにくいから       28
清潔感がないから           3
外食やコンビニを好むから      11
量が少ないから            1
家に帰りたいから           1
値段が高いから            7
おいしくないから           4
利用する必要がないから        1
利用している            39
dtype: int64

In [88]:
# 「体育会系の私にとっては、1メニューでは空腹を満たしきれない」= 「量が少ないから」
# 「家に帰りたいから」
# 「利用する必要がないから」
# 上記の3つはそれぞれ1人しか回答していないので除外する
# ただし、意見としては貴重なのでここに記しておく
df_reasons_for_not_using_c.drop(columns=["量が少ないから", "家に帰りたいから", "利用する必要がないから"], inplace=True)
df_reasons_for_not_using_c.head()

Unnamed: 0,混雑していて落ち着かないから,混雑していて並ぶのが嫌,座席が確保しにくいから,清潔感がないから,外食やコンビニを好むから,値段が高いから,おいしくないから,利用している
0,0,0,0,0,1,0,0,0
1,1,0,0,0,0,0,0,0
2,0,0,0,0,1,0,0,0
3,0,0,1,0,0,0,0,0
4,1,0,0,0,0,0,0,0


### frequently_chose_menu（回答必須）

In [42]:
tmp1 = list(df2["frequently_chose_menu"])
unique_values = set()
for values in tmp1:
    tmp3 = set(values.split(", "))
    unique_values = unique_values | tmp3
unique_values

{'おかず', 'パン', '丼もの（カレー含む）', '利用しない', '小鉢', '麺類'}

In [43]:
original = new = ['おかず', 'パン', '丼もの（カレー含む）', '小鉢', '麺類', '利用しない']
df_frequently_chose_menu = modify_values_dummies(df2, "frequently_chose_menu", original, new)
df_frequently_chose_menu.head()

Unnamed: 0,おかず,パン,丼もの（カレー含む）,小鉢,麺類,利用しない
0,1,0,1,0,0,0
1,0,0,0,0,0,1
2,0,0,0,0,1,0
3,1,0,0,0,0,0
4,1,1,0,1,0,0


### good_points_of_c（回答必須でない）

 - 「好きな点はない」という選択肢を加え、回答必須にすべき

In [44]:
tmp1 = list(df2["good_points_of_c"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

nan is included


{'パンが美味しい', 'メニューのバリエーションが豊富', '利用しない', '安い', '支払いが便利', '近い'}

In [45]:
original = new = ['パンが美味しい', 'メニューのバリエーションが豊富', '安い', '支払いが便利', '近い', '利用しない']

result = [[0] * len(new) for _ in range(r)]
for i in range(r):
    values = df2["good_points_of_c"][i]
    if pd.isnull(values):
        pass
    else:
        values = values.split(", ")
        for value in values:
            idx = original.index(value)
            result[i][idx] = 1
df_good_points_of_c = pd.DataFrame(data=result, columns=new)
df_good_points_of_c.tail()

Unnamed: 0,パンが美味しい,メニューのバリエーションが豊富,安い,支払いが便利,近い,利用しない
91,0,0,0,0,1,0
92,0,0,1,1,1,0
93,0,0,0,0,1,0
94,0,0,0,0,1,0
95,0,0,0,0,1,0


In [90]:
df_good_points_of_c.sum()

パンが美味しい             1
メニューのバリエーションが豊富    13
安い                 33
支払いが便利             10
近い                 69
利用しない               1
dtype: int64

In [98]:
# 「パンが美味しい」
# 「利用しない」
# 上記2つは1人ずつしか回答していないので除外する
# また、無回答者の多くが学食を利用しない人であった
# 「好きな点はない」という選択肢を用意すべき
df_good_points_of_c.drop(columns=["パンが美味しい", "利用しない"], inplace=True)
df_good_points_of_c.head()

Unnamed: 0,メニューのバリエーションが豊富,安い,支払いが便利,近い
0,0,1,0,1
1,0,1,0,0
2,0,0,0,1
3,0,0,0,1
4,0,1,0,0


### bad_points_of_c（回答必須）

 - 「嫌いな点はない」という選択肢を加えた方が良いかも

In [46]:
tmp1 = list(df2["bad_points_of_c"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

{'インテリアがいまいち',
 'メニュー内容',
 '並ぶのが嫌、時間がかかる',
 '人がたくさんいて、落ち着かない',
 '価格が高い',
 '価格が高いというより、無理して値下げするなら普通の価格でお腹いっぱい食べたいです。',
 '利用しない',
 '動線が悪い',
 '座席が少ない'}

In [62]:
original = ['人がたくさんいて、落ち着かない', 
            '並ぶのが嫌、時間がかかる', 
            '価格が高い', 
            '動線が悪い', 
            '座席が少ない', 
            'インテリアがいまいち',
            '価格が高いというより、無理して値下げするなら普通の価格でお腹いっぱい食べたいです。', 
            'メニュー内容',
            '利用しない']
new = ["混雑していて落ち着かない", 
       "長時間並ぶのが嫌", 
       "価格が高い", 
       "動線が悪い", 
       "座席が少ない", 
       "内装がいまいち", 
       "量が少ない", 
       "メニューが良くない", 
       "利用しない"]
df_bad_points_of_c = modify_values_dummies(df2, "bad_points_of_c", original, new)
df_bad_points_of_c.head()

Unnamed: 0,混雑していて落ち着かない,長時間並ぶのが嫌,価格が高い,動線が悪い,座席が少ない,内装がいまいち,量が少ない,メニューが良くない,利用しない
0,1,1,0,0,0,0,0,0,0
1,1,0,0,0,1,0,0,0,0
2,0,0,1,0,0,0,0,0,0
3,1,0,0,0,0,0,0,0,0
4,1,1,0,0,0,0,0,0,0


In [91]:
df_bad_points_of_c.sum()

混雑していて落ち着かない    49
長時間並ぶのが嫌        70
価格が高い           32
動線が悪い           32
座席が少ない          41
内装がいまいち          1
量が少ない            1
メニューが良くない        1
利用しない            1
dtype: int64

In [92]:
# 「内装がいまいち」
# 「価格が高いというより、無理して値下げするなら普通の価格でお腹いっぱい食べたいです。」=「量が少ない」
# 「メニューが良くない」
# 「利用しない」
# 上記4つは1人ずつしか回答していないので除外する
# ただし、貴重な意見であるため、ここに記しておく
df_bad_points_of_c.drop(columns=["内装がいまいち", "量が少ない", "メニューが良くない", "利用しない"], inplace=True)
df_bad_points_of_c.head()

Unnamed: 0,混雑していて落ち着かない,長時間並ぶのが嫌,価格が高い,動線が悪い,座席が少ない
0,1,1,0,0,0
1,1,0,0,0,1
2,0,0,1,0,0
3,1,0,0,0,0
4,1,1,0,0,0


### impression_of_c（回答必須）

In [48]:
set(df2["impression_of_c"])

{'1年生',
 '2限と3限の間がかなり混んでいて、授業に間に合わない',
 '2限終わりに行くと超混雑してる',
 'あまり味が良くない',
 'いつも同じメニューしかない。',
 'いつも混んでいる',
 'いろんな人と会うため落ち着かない',
 'うるさい、さほどおいしくない',
 'ごみごみしている',
 'せまい',
 'たくさん食べようと思ったら高い',
 'たのしい',
 'ちょっとコスパ悪い',
 'ちょっと高い\n美味しい',
 'なし',
 'なんだかんだお金がかかる',
 'やすい',
 'カス',
 'カレー大があんまり大きくない',
 'コスパが悪い',
 'スピーディーに提供される高くはない食事',
 'バンバンジー豆腐がおいしい。',
 'レジに並ぶ時間が長い。今年度になってさらに混雑している。',
 'ローコストローリターン',
 '並びが酷すぎる、特に麺類は改善しない理由がわからない',
 '人が多い',
 '人が多い、うるさい、落ち着かない、知り合いと会う、そこまで安くもない',
 '人が多い、わざわざ混んでるのにばしPay専用レーンを作ったせいでよりレジが混むようになって不愉快',
 '人が多い、メニューのバリエーションが少ない、小皿をつけると意外と値段が高い、麺類並びがち',
 '他の大学よりはメニュー（味含む）、値段で劣るが一般の飲食店よりはコスパは良いか。',
 '他の選択肢があまりないから、利用している人が多いイメージ。',
 '価格ほど美味しくない。パンショップやコンビニに行くか、もう少しお金を出して駅周辺のチェーン店を利用することが多い。',
 '便利',
 '友達と行きやすい',
 '味が濃いめ。',
 '商品のレパートリーが少ない',
 '営業時間が短い',
 '多く食べようとするとコスパが悪い、混んでるからタイパも悪い、それなら外の定食屋さんに行く方がマシ\n',
 '大人数のグループがうるさく牛耳っている',
 '大学にあるから使ってるイメージ',
 '大学らしい',
 '大衆食堂',
 '学校の食堂',
 '学生の集まる場所兼食堂',
 '学生向けの大盛りで安いご飯の提供',
 '安い',
 '安い。特に小鉢。期間限定のものは少し割高の印象。',
 '安い！',
 '安くてある程度美味しいが、昼時には混雑

In [49]:
# sentiment analysis
# label付け

### frequency_b（回答必須）

In [50]:
print(set(df2["frequency_b"]))

{'月2〜3回', '週２〜３回', '週１回', '週０回', '週４回以上', '月1回程度。部活後にアイス食べたりはしちゃいます。'}


In [51]:
original = ['週０回', 
            '月1回程度。部活後にアイス食べたりはしちゃいます。', 
            '月2〜3回', 
            '週１回', 
            '週２〜３回', 
            '週４回以上']
df_freqency_b = modify_values_ordinal_scale(df2, "frequency_b", original)
df_freqency_b.head()

Unnamed: 0,frequency_b
0,0
1,0
2,0
3,3
4,4


### preference_b_vs_c（回答必須）

In [52]:
print(set(df2["preference_b_vs_c"]))

{'学食', 'どちらも好きではない', 'パンショップ', '好き嫌い無くどちらも利用する'}


In [53]:
original = ['パンショップ', '学食', 'どちらも好きではない', '好き嫌い無くどちらも利用する']
columns = ["prefer_coop", "prefer_bakery"]
result = [[0] * 2 for _ in range(r)]
for i in range(r):
    value = df2["preference_b_vs_c"][i]
    if value == 'パンショップ':
        result[i][1] = 1
    elif value == '学食':
        result[i][0] = 1
    elif value == '好き嫌い無くどちらも利用する':
        result[i][0] = [1, 1]
df_preference_b_vs_c = pd.DataFrame(data=result, columns=columns)
df_preference_b_vs_c.head()

Unnamed: 0,prefer_coop,prefer_bakery
0,0,1
1,0,0
2,1,0
3,1,0
4,0,1


### where_to_eat_b（回答必須でない）

In [54]:
print(set(df2["where_to_eat_b"]))

{'次の授業の教室', 'その他教室', '買わない', '外のベンチ', '研究室', '学食内の席', '部室', '利用しない', '食べ歩き', nan}


In [93]:
df_tmp = pd.get_dummies(df2["where_to_eat_b"], dtype=int)
df_tmp.head()

Unnamed: 0,その他教室,利用しない,外のベンチ,学食内の席,次の授業の教室,研究室,買わない,部室,食べ歩き
0,0,0,0,0,1,0,0,0,0
1,0,0,0,1,0,0,0,0,0
2,0,0,0,1,0,0,0,0,0
3,1,0,0,0,0,0,0,0,0
4,0,0,0,0,1,0,0,0,0


In [94]:
df_tmp.sum()

その他教室      12
利用しない       1
外のベンチ       8
学食内の席      31
次の授業の教室    19
研究室         1
買わない        1
部室          8
食べ歩き        1
dtype: int64

In [None]:
# 「次の授業の教室」=「その他の教室」=「研究室」=「教室」として扱う
# 「外のベンチ」=「食べ歩き」=「外」として扱う
# 無回答 =「買わない」=「利用しない」として扱う

original = ['次の授業の教室', 'その他教室', '買わない', '外のベンチ', '研究室', '学食内の席', '部室', '利用しない', '食べ歩き']
new = ["学食内", "教室", "部室", "外", "研究室"]

### preference_e_vs_w（回答必須）

In [55]:
print(set(df2["preference_e_vs_w"]))

{'東学食', 'どちらも好き。', 'どちらも好きではない', '西学食'}


### reasons_e_vs_w（回答必須でない）

In [56]:
tmp1 = list(df2["reasons_e_vs_w"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

nan is included


{'パンが充実しているから。',
 'パンショップでしか学食(生協)を利用しないため。',
 'メニュー数が多い',
 '売店が充実している',
 '席数が多い',
 '東は片付けが楽',
 '混んでいない気がする',
 '片付けが楽',
 '生協があるから',
 '立地',
 '西生協はパンの種類が多いから。',
 '雰囲気'}

### using_app（回答必須）

In [57]:
print(set(df2["using_app"]))

{'いいえ', 'はい'}


### reasons_for_using_app（回答必須でない）

In [58]:
tmp1 = list(df2["reasons_for_using_app"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

nan is included


{'ポイントが貯まる',
 '学食ペイの残金を他で使えないから。',
 '専用レジを利用し、迅速に会計を済ませたい',
 '支払いが便利',
 '教科書販売のときに利用することの方が多いです。'}

### how_to_deposit（回答必須でない）

In [59]:
print(set(df2["how_to_deposit"]))

{'生協レジでチャージ（自分のお金）', '入学した時にチャージしただけ', 'クレカ入金（親のお金）', 'コンビニ入金（自分のお金）', 'アプリ導入時に学食カード？の残金を移行したのが残っているため使っている。使い切ったら使用しないと思う。', '生協レジでチャージ（親のお金）', 'コンビニ入金（親のお金）', 'クレカ入金（自分のお金）', nan}


### reasons_for_not_using_app（回答必須）

In [60]:
tmp1 = list(df2["reasons_for_not_using_app"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

{'',
 '使用が面倒だから',
 '使用方法を知らないから',
 '入金が面倒だから',
 '利用している',
 '利用価値を感じないから',
 '存在を知らないから',
 '学食を利用しないから'}

### desirable_features（回答必須でない）

In [61]:
tmp1 = list(df2["desirable_features"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

nan is included


{'アプリの軽さ。',
 'クレカとの紐付け',
 'クーポンの配布',
 'ドーナツ情報。ミスドは1週間前にアプリでも通知してほしいです',
 '事前注文',
 '席から頼めたら便利。入金もっと簡単にして欲しいです🥺。(クレカ情報の記憶など)',
 '混雑状況の確認'}