### Comments

 - 一部の質問を除いて、無回答がでないような構造の質問にした方が良いかも
   - 各質問ごとに処理が微妙に異なり、煩雑になってしまう
 - はじめに、「生協」「学食」「パンショップ」がそれぞれ具体的に何を指しているかを説明したほうが良いかも
   - ここの認識が回答者の間で一致していないと正確なアンケートにならない
 - 回答者が内容を追いやすい構造にすべき
 - 学食についての質問セクション
   - 「学食の利用頻度は？」→「なぜ利用する／しない？」→「どの時間帯に利用する？」→「何人で利用する？」→「よく選ぶメニューは？」
   - 「学食の良い点／悪い点は？」→「学食の印象は？」
   - 「西学食と東学食のどちらが好き？（両方好き／嫌いの選択肢も）」→「なぜ？」
 - パンショップについての質問セクション
   - 「パンショップの利用頻度は？」→「パンはどこで食べる？」
 - 学食とパンショップの比較についての質問セクション
   - 「学食とパンショップのどちらが好き？（両方好き／嫌いの選択肢も）」→「なぜ？」
 - 生協アプリについての質問セクション
   - 「生協アプリ使ってる？」→「なぜ？」→「（利用している人に対し）入金方法は？」→「ほしい機能は？」

### Preparation

In [1]:
# import libraries
import pandas as pd
from pandas import DataFrame
import matplotlib.pyplot as plt

In [2]:
# choose a file and read it as a dataframe
df = pd.read_csv("forms_0620.csv", encoding="utf-8")

In [3]:
# modify column names

# f2_no3: face-to-face class at 2nd and no class at 3rd
# no2_f3: no class at 2nd and face-to-face class at 3rd
# f2_f3: face-to-face class at 2nd and 3rd
columns = ["timestamp", 
           "grade", 
           "faculty", 
           "sex", 
           "living", 
           "f2_no3", 
           "no2_f3", 
           "f2_f3", 
           "frequency_c", 
           "average_payment", 
           "when_to_use", 
           "n_of_people", 
           "reasons_for_using_c", 
           "reasons_for_not_using_c", 
           "frequently_chose_menu", 
           "good_points_of_c", 
           "bad_points_of_c", 
           "impression_of_c", 
           "frequency_b", 
           "preference_b_vs_c", 
           "where_to_eat_b", 
           "preference_e_vs_w", 
           "reasons_e_vs_w", 
           "using_app", 
           "reasons_for_using_app", 
           "how_to_deposit", 
           "reasons_for_not_using_app", 
           "desirable_features"]
df1 = df.set_axis(columns, axis="columns", copy=True)
df2 = df1.drop(columns="timestamp")

In [4]:
df2.head()

Unnamed: 0,grade,faculty,sex,living,f2_no3,no2_f3,f2_f3,frequency_c,average_payment,when_to_use,...,frequency_b,preference_b_vs_c,where_to_eat_b,preference_e_vs_w,reasons_e_vs_w,using_app,reasons_for_using_app,how_to_deposit,reasons_for_not_using_app,desirable_features
0,学部3年,商学部,男性,一人暮らし（自炊をする）,なし,なし,なし,0回,500円〜800円,利用しない,...,週０回,パンショップ,次の授業の教室,西学食,立地,いいえ,,,"入金が面倒だから, 使用が面倒だから, 利用価値を感じないから",事前注文
1,学部4年,商学部,男性,一人暮らし（自炊をしない）,なし,週１回,なし,0回,利用しない,利用しない,...,週０回,どちらも好きではない,学食内の席,どちらも好きではない,,はい,支払いが便利,クレカ入金（自分のお金）,利用している,事前注文
2,学部3年,商学部,男性,実家暮らし,なし,週２回,なし,0回,500円〜800円,"11:30~11:45, 11:45~12:00, 12:00~12:15, 12:15~1...",...,週０回,学食,学食内の席,東学食,メニュー数が多い,いいえ,,,利用価値を感じないから,クーポンの配布
3,学部3年,商学部,男性,一人暮らし（自炊をする）,なし,週１回,なし,２〜３回,300円〜500円,"12:45~13:00, 夜営業",...,週１回,学食,その他教室,東学食,"席数が多い, メニュー数が多い, 混んでいない気がする, 雰囲気",いいえ,,,使用方法を知らないから,クーポンの配布
4,学部2年,社会学部,女性,実家暮らし,なし,週２回,週１回,１回,300円〜500円,"パンショップのみ利用, 12:00~12:15, 12:15~12:30",...,週２〜３回,パンショップ,次の授業の教室,東学食,"席数が多い, メニュー数が多い",いいえ,,,入金が面倒だから,クーポンの配布


In [5]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96 entries, 0 to 95
Data columns (total 27 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   grade                      96 non-null     object
 1   faculty                    96 non-null     object
 2   sex                        96 non-null     object
 3   living                     96 non-null     object
 4   f2_no3                     96 non-null     object
 5   no2_f3                     96 non-null     object
 6   f2_f3                      96 non-null     object
 7   frequency_c                96 non-null     object
 8   average_payment            96 non-null     object
 9   when_to_use                96 non-null     object
 10  n_of_people                96 non-null     object
 11  reasons_for_using_c        96 non-null     object
 12  reasons_for_not_using_c    96 non-null     object
 13  frequently_chose_menu      96 non-null     object
 14  good_points_

### Define functions

In [13]:
def modify_values_dummy(df: DataFrame, column_name: str, original_values: list, new_values: list):
    r, _ = df.shape
    result = [[0] * len(original_values) for _ in range(r)]
    for i in range(r):
        value = df[column_name][i]
        idx = original_values.index(value)
        result[i][idx] = 1
    df_result = pd.DataFrame(data=result, columns=new_values)
    return df_result

In [14]:
def modify_values_dummies(df: DataFrame, column_name: str, original_values: list, new_values: list):
    r, _ = df.shape
    result = [[0] * len(original_values) for _ in range(r)]
    for i in range(r):
        values = df[column_name][i].split(", ")
        for value in values:
            idx = original_values.index(value)
            result[i][idx] = 1
    df_result = pd.DataFrame(data=result, columns=new_values)
    return df_result

In [15]:
def modify_values_ordinal_scale(df: DataFrame, column_name: str, original_values: list):
    r, _ = df.shape
    result = [0] * r
    for i in range(r):
        value = df[column_name][i]
        result[i] = original_values.index(value)
    df_result = pd.DataFrame(data=result, columns=[column_name])
    return df_result

## 基本情報

### 1. grade（回答必須）

In [6]:
print(set(df2["grade"]))

{'学部4年', '院生', '学部3年', '学部1年', '学部2年'}


In [16]:
original = ['学部1年', '学部2年', '学部3年', '学部4年', '院生']
new = ["Q1_B1", 
       "Q1_B2", 
       "Q1_B3", 
       "Q1_B4",  
       "Q1_Master"]
df_grade = modify_values_dummy(df2, "grade", original, new)
df_grade

Unnamed: 0,Q1_B1,Q1_B2,Q1_B3,Q1_B4,Q1_Master
0,0,0,1,0,0
1,0,0,0,1,0
2,0,0,1,0,0
3,0,0,1,0,0
4,0,1,0,0,0
...,...,...,...,...,...
91,0,0,1,0,0
92,0,0,1,0,0
93,0,0,0,1,0
94,0,0,1,0,0


In [17]:
df_grade.sum()

Q1_B1         7
Q1_B2        45
Q1_B3        28
Q1_B4        15
Q1_Master     1
dtype: int64

### 2_faculty（回答必須）

In [74]:
print(set(df2["faculty"]))

{'法学部', '社会学部', 'ソーシャル・データ・サイエンス学部', '大学院', '商学部', '経済学部'}


In [75]:
# modify faculty
original = ["商学部", "経済学部", "法学部", "社会学部", "ソーシャル・データ・サイエンス学部", "大学院"]
new = ["Q2_Com", 
       "Q2_Econ", 
       "Q2_Law", 
       "Q2_Soc", 
       "Q2_SDS", 
       "Q2_Grad"]
df_faculty = modify_values_dummy(df2, "faculty", original, new)
df_faculty

Unnamed: 0,Q2_Com,Q2_Econ,Q2_Law,Q2_Soc,Q2_SDS,Q2_Grad
0,1,0,0,0,0,0
1,1,0,0,0,0,0
2,1,0,0,0,0,0
3,1,0,0,0,0,0
4,0,0,0,1,0,0
...,...,...,...,...,...,...
91,1,0,0,0,0,0
92,1,0,0,0,0,0
93,1,0,0,0,0,0
94,1,0,0,0,0,0


In [76]:
df_faculty.sum()

Q2_Com     45
Q2_Econ    18
Q2_Law      7
Q2_Soc     21
Q2_SDS      4
Q2_Grad     1
dtype: int64

### 3. sex（回答必須）

In [77]:
print(set(df2["sex"]))

{'女性', '男性'}


In [78]:
# modify sex
original = ["女性", "男性"]
new = ["female", "male"]
df_sex = modify_values_dummy(df2, "sex", original, new)
df_sex

Unnamed: 0,female,male
0,0,1
1,0,1
2,0,1
3,0,1
4,1,0
...,...,...
91,0,1
92,0,1
93,1,0
94,1,0


In [79]:
df_sex.drop(columns=["male"], inplace=True)
df_sex = df_sex.set_axis(labels=["Q3_sex"], axis="columns")
df_sex

Unnamed: 0,Q3_sex
0,0
1,0
2,0
3,0
4,1
...,...
91,0
92,0
93,1
94,1


In [80]:
# number of female
df_sex.sum()

Q3_sex    34
dtype: int64

### 4. living（回答必須）

In [81]:
print(set(df2["living"]))

{'寮暮らし（食事が出る）', '寮暮らし（食事が出ない）', '一人暮らし（自炊をする）', '実家暮らし', '一人暮らし（自炊をしない）'}


In [82]:
df_living = pd.get_dummies(df2["living"], dtype=int)
df_living = df_living.set_axis(["Q4_1人暮らし（自炊あり）", 
                                "Q4_1人暮らし（自炊なし）", 
                                "Q4_実家", 
                                "Q4_寮（食事あり）", 
                                "Q4_寮（食事なし）"], axis="columns")
df_living

Unnamed: 0,Q4_1人暮らし（自炊あり）,Q4_1人暮らし（自炊なし）,Q4_実家,Q4_寮（食事あり）,Q4_寮（食事なし）
0,0,1,0,0,0
1,1,0,0,0,0
2,0,0,1,0,0
3,0,1,0,0,0
4,0,0,1,0,0
...,...,...,...,...,...
91,1,0,0,0,0
92,0,0,1,0,0
93,0,0,1,0,0
94,0,0,1,0,0


In [83]:
df_living.sum()

Q4_1人暮らし（自炊あり）     8
Q4_1人暮らし（自炊なし）    23
Q4_実家             61
Q4_寮（食事あり）         2
Q4_寮（食事なし）         2
dtype: int64

### 5~7. f2_no3, no2_f3, f2_f3（いずれも回答必須）

In [84]:
print(set(df2["f2_no3"]))

{'週５回', '週２回', 'なし', '週１回', '週３回'}


In [85]:
print(set(df2["no2_f3"]))

{'週１回', '週３回', 'なし', '週２回'}


In [86]:
print(set(df2["f2_f3"]))

{'週５回', '週２回', 'なし', '週４回', '週１回', '週３回'}


In [87]:
# modify f2_no3, no2_f3, f2_f3
r, _ = df2.shape
original = ["なし", "週１回", "週２回", "週３回", "週４回", "週５回"]
column_names = ["Q5_f2_no3", 
                "Q6_no2_f3", 
                "Q7_f2_f3"]
result = [[0] * 3 for _ in range(r)]
for i in range(r):
    for j in range(4, 7):
        result[i][j - 4] = original.index(df2.iloc[i, j])
df_class = pd.DataFrame(data=result, columns=column_names)
df_class

Unnamed: 0,Q5_f2_no3,Q6_no2_f3,Q7_f2_f3
0,0,0,0
1,0,1,0
2,0,2,0
3,0,1,0
4,0,2,1
...,...,...,...
91,3,1,0
92,0,1,0
93,0,2,1
94,1,1,1


In [88]:
df_class.sum()

Q5_f2_no3    94
Q6_no2_f3    80
Q7_f2_f3     84
dtype: int64

## 生協

### 8. frequency_c（回答必須）

 - もう少し細かく選択肢を用意したほうが良いかも？
 - 「1週間での平均的な利用回数は？」という聞き方の方が良い？
 - 「利用しない」、「利用しないわけではないが平均では週1回未満」、「週1回」、「週2回」、「週3回」、「週4回」、「週5回以上」

In [89]:
print(set(df2["frequency_c"]))

{'0回', '２〜３回', '４回以上', '１回'}


In [90]:
# modify frequency_c
# ordinal scale
original = ["0回", "１回", "２〜３回", "４回以上"]
df_frequency_c = modify_values_ordinal_scale(df2, "frequency_c", original)
df_frequency_c = df_frequency_c.set_axis(["Q8_frequency_c"], axis="columns")
df_frequency_c

Unnamed: 0,Q8_frequency_c
0,0
1,0
2,0
3,2
4,1
...,...
91,2
92,2
93,0
94,1


In [91]:
for i in range(4):
    print(f"{i}: {len(df_frequency_c.query(f'Q8_frequency_c == {i}'))}")

0: 23
1: 32
2: 27
3: 14


In [92]:
df_frequency_c.mean()

Q8_frequency_c    1.333333
dtype: float64

### 9. average_payment（回答必須）

 - 「利用しない」、「0円より高く500円未満」、「500円以上1000円未満」、「1000円以上」だと粗すぎるか...

In [93]:
print(set(df2["average_payment"]))

{'利用しない', '300円〜500円', '1000円〜', '500円〜800円', '800円〜1000円', '〜300円'}


In [94]:
# modify average_payment
# ordinal scale
original = ["利用しない", "〜300円", "300円〜500円", "500円〜800円", "800円〜1000円", "1000円〜"]
df_average_payment = modify_values_ordinal_scale(df2, "average_payment", original)
df_average_payment = df_average_payment.set_axis(["Q9_average_payment"], axis="columns")
df_average_payment

Unnamed: 0,Q9_average_payment
0,3
1,0
2,3
3,2
4,2
...,...
91,3
92,2
93,0
94,2


In [95]:
for i in range(6):
    print(f"{i}: {len(df_average_payment.query(f'Q9_average_payment == {i}'))}")

0: 14
1: 6
2: 34
3: 32
4: 6
5: 4


In [96]:
df_average_payment.mean()

Q9_average_payment    2.229167
dtype: float64

### 10. when_to_use（複数回答・回答必須）

 - 西食堂の営業時間は11:00~14:00, 17:30~19:30
 - 東食堂の営業時間は11:30~13:30
 - 15分ごとはちょっと細かすぎるかも（回答が面倒になって適当に答える人が増える可能性も）
 - ここでパンショップについては聞かなくてよいかも
   - あとでパンショップについて聞くから
 - 「利用しない」、「~12:30」、「12:30~13:15」、「13:15~14:00」、「夜間営業」

In [97]:
tmp1 = list(df2["when_to_use"])
unique_values = set()
for times in tmp1:
    tmp3 = set(times.split(", "))
    unique_values = unique_values | tmp3
unique_values

{'11:30~11:45',
 '11:45~12:00',
 '12:00~12:15',
 '12:15~12:30',
 '12:30~12:45',
 '12:45~13:00',
 '13:00~13:15',
 '13:15~13:30',
 '13:30~13:45',
 '13:45~14:00',
 '14:00~14:15',
 '14:15~14:30',
 'パンショップのみ利用',
 '利用しない',
 '夜営業'}

In [98]:
# modify when_to_use
original = ['11:30~11:45',
            '11:45~12:00',
            '12:00~12:15',
            '12:15~12:30',
            '12:30~12:45',
            '12:45~13:00',
            '13:00~13:15',
            '13:15~13:30',
            '13:30~13:45',
            '13:45~14:00',
            '14:00~14:15',
            '14:15~14:30',
            'パンショップのみ利用',
            '利用しない',
            '夜営業']
new = ['Q10_11:30~11:45',
       'Q10_11:45~12:00',
       'Q10_12:00~12:15',
       'Q10_12:15~12:30',
       'Q10_12:30~12:45',
       'Q10_12:45~13:00',
       'Q10_13:00~13:15',
       'Q10_13:15~13:30',
       'Q10_13:30~13:45',
       'Q10_13:45~14:00',
       'Q10_14:00~14:15',
       'Q10_14:15~14:30',
       'Q10_bakery_only',
       'Q10_not_using',
       'Q10_night']
df_when_to_use = modify_values_dummies(df2, "when_to_use", original, new)
df_when_to_use.drop(columns=["Q10_bakery_only", 
                             "Q10_not_using"], inplace=True)
df_when_to_use

Unnamed: 0,Q10_11:30~11:45,Q10_11:45~12:00,Q10_12:00~12:15,Q10_12:15~12:30,Q10_12:30~12:45,Q10_12:45~13:00,Q10_13:00~13:15,Q10_13:15~13:30,Q10_13:30~13:45,Q10_13:45~14:00,Q10_14:00~14:15,Q10_14:15~14:30,Q10_night
0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,0,0,0
2,1,1,1,1,1,0,0,0,0,0,0,0,0
3,0,0,0,0,0,1,0,0,0,0,0,0,1
4,0,0,1,1,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
91,0,0,0,0,1,1,1,1,1,0,0,0,0
92,0,0,1,1,1,0,0,0,0,0,0,0,0
93,0,0,0,0,0,0,0,0,0,0,0,0,0
94,0,0,0,0,1,1,0,0,0,0,0,0,0


In [99]:
df_when_to_use.sum()

Q10_11:30~11:45    12
Q10_11:45~12:00    15
Q10_12:00~12:15    19
Q10_12:15~12:30    32
Q10_12:30~12:45    59
Q10_12:45~13:00    52
Q10_13:00~13:15    34
Q10_13:15~13:30    11
Q10_13:30~13:45     9
Q10_13:45~14:00     6
Q10_14:00~14:15     3
Q10_14:15~14:30     2
Q10_night           1
dtype: int64

### 11. n_of_people（回答必須）

 - 「利用しない」の選択肢を用意すべきかも

In [100]:
print(set(df2["n_of_people"]))

{'4人以上', '利用しない', '1人', '2～3人'}


In [101]:
# modify n_of_people
# oridinal scale
original = ['利用しない', '1人', '2～3人', '4人以上']
df_n_of_people = modify_values_ordinal_scale(df2, "n_of_people", original)
df_n_of_people = df_n_of_people.set_axis(["Q11_n_of_people"], axis="columns")
df_n_of_people

Unnamed: 0,Q11_n_of_people
0,2
1,2
2,2
3,2
4,2
...,...
91,1
92,1
93,1
94,1


In [102]:
for i in range(4):
    print(f"{i}: {len(df_n_of_people.query(f'Q11_n_of_people == {i}'))}")

0: 4
1: 23
2: 56
3: 13


In [103]:
df_n_of_people.mean()

Q11_n_of_people    1.8125
dtype: float64

### 12. reasons_for_using_c（複数回答・回答必須）

 - 「その他」の選択肢をわざわざ選んでおきながら何も記述しない輩がいる...

In [104]:
tmp1 = list(df2["reasons_for_using_c"])
unique_values = set()
for values in tmp1:
    tmp3 = set(values.split(", "))
    unique_values = unique_values | tmp3
unique_values

{'',
 '人間関係の構築のため',
 '他の人が行きたいと言うから',
 '価格が安いから',
 '利用していない',
 '友人に誘われるから',
 '友達と行くのに1番誘いやすいから',
 '友達と食べたいから',
 '大学の外に行かなくていいので',
 '大学内でご飯を食べる場所が生協しかないから。',
 '学食なら親が費用を負担してくれるから',
 '手っ取り早く量を食べれる',
 '授業の教室に近いから\u3000友達と合流しやすいから',
 '支払いが便利だから',
 '時間の節約になるから',
 '栄養バランスが良いから',
 '近いから',
 '食べたことのないメニューが出ることがあるから。'}

In [105]:
# modify reasons_for_using_c
original = ['',
            '人間関係の構築のため',
            '他の人が行きたいと言うから',
            '価格が安いから',
            '利用していない',
            '友人に誘われるから',
            '友達と行くのに1番誘いやすいから',
            '友達と食べたいから',
            '大学の外に行かなくていいので',
            '大学内でご飯を食べる場所が生協しかないから。',
            '学食なら親が費用を負担してくれるから',
            '手っ取り早く量を食べれる',
            '授業の教室に近いから\u3000友達と合流しやすいから',
            '支払いが便利だから',
            '時間の節約になるから',
            '栄養バランスが良いから',
            '近いから',
            '食べたことのないメニューが出ることがあるから。']
new = ["Q12_価格が安いから", 
       "Q12_栄養バランスが良いから", 
       "Q12_時間の節約になるから", 
       "Q12_支払いが便利だから", 
       "Q12_人間関係のため", 
       "Q12_近いから", 
       "Q12_メニュー", 
       "Q12_生協しかないから", 
       "Q12_学食だと親が費用負担するから", 
       "Q12_量が多いから", 
       "Q12_利用していない"]
original_to_new_idxs = [[], [4], [4], [0], [10], [4], [4], [4], [2, 5], [7], [8], [2, 9], [4, 5], [3], [2], [1], [5], [6]]
result = [[0] * len(new) for _ in range(r)]
for i in range(r):
    values = df2["reasons_for_using_c"][i].split(", ")
    for value in values:
        idx = original.index(value)
        new_idxs = original_to_new_idxs[idx]
        for j in new_idxs:
            result[i][j] = 1
df_reasons_for_using_c = pd.DataFrame(data=result, columns=new)
# 利用する理由が知りたいので、「利用していない」のcolumnは取り除く
df_reasons_for_using_c.drop(columns=["Q12_利用していない"], inplace=True)
df_reasons_for_using_c

Unnamed: 0,Q12_価格が安いから,Q12_栄養バランスが良いから,Q12_時間の節約になるから,Q12_支払いが便利だから,Q12_人間関係のため,Q12_近いから,Q12_メニュー,Q12_生協しかないから,Q12_学食だと親が費用負担するから,Q12_量が多いから
0,1,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0
2,0,1,1,0,0,0,0,0,0,0
3,0,0,1,0,1,0,0,0,0,0
4,1,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...
91,0,0,1,0,0,0,0,0,0,0
92,1,0,1,1,0,0,0,0,0,0
93,0,0,1,0,0,0,0,0,0,0
94,1,0,0,0,0,0,0,1,0,0


In [106]:
df_reasons_for_using_c.sum()

Q12_価格が安いから           36
Q12_栄養バランスが良いから       19
Q12_時間の節約になるから        59
Q12_支払いが便利だから         10
Q12_人間関係のため            6
Q12_近いから               4
Q12_メニュー               1
Q12_生協しかないから           1
Q12_学食だと親が費用負担するから     1
Q12_量が多いから             1
dtype: int64

### 13. reasons_for_not_using_c（複数回答・回答必須）

In [107]:
tmp1 = list(df2["reasons_for_not_using_c"])
unique_values = set()
for values in tmp1:
    tmp3 = set(values.split(", "))
    unique_values = unique_values | tmp3
unique_values

{'下宿まで5分程度で家に帰って作り置きなどを食べる方がコストパフォーマンスが良いように感じる。学食(生協？)は値上げをしないようがんばっていることは伝わるものの、私が体育会ということもあり1メニューでは空腹を満たしきれないのであまり積極的に使おうとは思わない。',
 '人がたくさんいて、落ち着かない',
 '利用している',
 '利用しない理由はない',
 '利用する必要がない。',
 '外食やコンビニを好むから',
 '家に帰りたいから',
 '家のご飯の方が安くて美味しい',
 '家帰って食べた方が節約になる',
 '座席が確保しにくいから',
 '混雑していて、並ぶのが嫌',
 '清潔感がないから',
 '自炊や外食の方が、コストや質の点で妥当感がある。',
 '食堂の値段がたかいから',
 '高いしさほど美味しくない',
 '高価であるため'}

In [108]:
# コスパが良い = 味の割に価格が安い
# コスパが悪い = 味の割に価格が高い = おいしくない + 価格が高い
original = ['下宿まで5分程度で家に帰って作り置きなどを食べる方がコストパフォーマンスが良いように感じる。学食(生協？)は値上げをしないようがんばっていることは伝わるものの、私が体育会ということもあり1メニューでは空腹を満たしきれないのであまり積極的に使おうとは思わない。',
            '人がたくさんいて、落ち着かない',
            '利用している',
            '利用しない理由はない',
            '利用する必要がない。',
            '外食やコンビニを好むから',
            '家に帰りたいから',
            '家のご飯の方が安くて美味しい',
            '家帰って食べた方が節約になる',
            '座席が確保しにくいから',
            '混雑していて、並ぶのが嫌',
            '清潔感がないから',
            '自炊や外食の方が、コストや質の点で妥当感がある。',
            '食堂の値段がたかいから',
            '高いしさほど美味しくない',
            '高価であるため']
new = ["Q13_混雑していて落ち着かないから", 
       "Q13_混雑していて並ぶのが嫌", 
       "Q13_座席が確保しにくいから", 
       "Q13_清潔感がないから", 
       "Q13_外食やコンビニを好むから", 
       "Q13_量が少ないから", 
       "Q13_家に帰りたいから", 
       "Q13_値段が高いから", 
       "Q13_おいしくないから",  
       "Q13_利用する必要がないから", 
       "Q13_利用している"]
original_to_new_idxs = [[5, 7, 8], [0], [10], [10], [9], [4], [6], [7, 8], [7], [2], [1], [3], [7, 8], [7], [7, 8], [7]]
result = [[0] * len(new) for _ in range(r)]
for i in range(r):
    values = df2["reasons_for_not_using_c"][i].split(", ")
    for value in values:
        idx = original.index(value)
        new_idxs = original_to_new_idxs[idx]
        for j in new_idxs:
            result[i][j] = 1
df_reasons_for_not_using_c = pd.DataFrame(data=result, columns=new)
# 利用しない理由が知りたいので、「利用している」のcolumnは取り除く
df_reasons_for_not_using_c.drop(columns=["Q13_利用している"], inplace=True)
df_reasons_for_not_using_c

Unnamed: 0,Q13_混雑していて落ち着かないから,Q13_混雑していて並ぶのが嫌,Q13_座席が確保しにくいから,Q13_清潔感がないから,Q13_外食やコンビニを好むから,Q13_量が少ないから,Q13_家に帰りたいから,Q13_値段が高いから,Q13_おいしくないから,Q13_利用する必要がないから
0,0,0,0,0,1,0,0,0,0,0
1,1,0,0,0,0,0,0,0,0,0
2,0,0,0,0,1,0,0,0,0,0
3,0,0,1,0,0,0,0,0,0,0
4,1,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...
91,0,0,0,0,0,0,0,0,0,0
92,0,0,0,0,0,0,0,0,0,0
93,1,1,1,0,0,0,0,0,0,0
94,1,1,1,0,0,0,0,0,0,0


In [109]:
df_reasons_for_not_using_c.sum()

Q13_混雑していて落ち着かないから    21
Q13_混雑していて並ぶのが嫌       41
Q13_座席が確保しにくいから       28
Q13_清潔感がないから           3
Q13_外食やコンビニを好むから      11
Q13_量が少ないから            1
Q13_家に帰りたいから           1
Q13_値段が高いから            7
Q13_おいしくないから           4
Q13_利用する必要がないから        1
dtype: int64

### 14. frequently_chose_menu（複数回答・回答必須）

In [110]:
tmp1 = list(df2["frequently_chose_menu"])
unique_values = set()
for values in tmp1:
    tmp3 = set(values.split(", "))
    unique_values = unique_values | tmp3
unique_values

{'おかず', 'パン', '丼もの（カレー含む）', '利用しない', '小鉢', '麺類'}

In [111]:
original = ['おかず', 'パン', '丼もの（カレー含む）', '小鉢', '麺類', '利用しない']
new = ['Q14_おかず', 
       'Q14_パン', 
       'Q14_丼もの（カレー含む）', 
       'Q14_小鉢', 
       'Q14_麺類', 
       'Q14_利用しない']
df_frequently_chose_menu = modify_values_dummies(df2, "frequently_chose_menu", original, new)
df_frequently_chose_menu.drop(columns=["Q14_利用しない"], inplace=True)
df_frequently_chose_menu

Unnamed: 0,Q14_おかず,Q14_パン,Q14_丼もの（カレー含む）,Q14_小鉢,Q14_麺類
0,1,0,1,0,0
1,0,0,0,0,0
2,0,0,0,0,1
3,1,0,0,0,0
4,1,1,0,1,0
...,...,...,...,...,...
91,0,0,1,1,0
92,0,0,1,1,1
93,0,0,1,0,0
94,1,0,0,1,0


In [112]:
df_frequently_chose_menu.sum()

Q14_おかず           34
Q14_パン            27
Q14_丼もの（カレー含む）    43
Q14_小鉢            36
Q14_麺類            43
dtype: int64

### 15. good_points_of_c（複数回答・回答必須でない）

 - 「好きな点はない」という選択肢を加え、回答必須にすべき

In [113]:
tmp1 = list(df2["good_points_of_c"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

nan is included


{'パンが美味しい', 'メニューのバリエーションが豊富', '利用しない', '安い', '支払いが便利', '近い'}

In [114]:
original = ['パンが美味しい', 'メニューのバリエーションが豊富', '安い', '支払いが便利', '近い', '利用しない']
new = ['Q15_パンが美味しい', 
       'Q15_メニューのバリエーションが豊富', 
       'Q15_安い', 
       'Q15_支払いが便利', 
       'Q15_近い', 
       'Q15_利用しない']
result = [[0] * len(new) for _ in range(r)]
for i in range(r):
    values = df2["good_points_of_c"][i]
    if pd.isnull(values):
        pass
    else:
        values = values.split(", ")
        for value in values:
            idx = original.index(value)
            result[i][idx] = 1
df_good_points_of_c = pd.DataFrame(data=result, columns=new)
df_good_points_of_c.drop(columns=["Q15_利用しない"], inplace=True)
df_good_points_of_c

Unnamed: 0,Q15_パンが美味しい,Q15_メニューのバリエーションが豊富,Q15_安い,Q15_支払いが便利,Q15_近い
0,0,0,1,0,1
1,0,0,1,0,0
2,0,0,0,0,1
3,0,0,0,0,1
4,0,0,1,0,0
...,...,...,...,...,...
91,0,0,0,0,1
92,0,0,1,1,1
93,0,0,0,0,1
94,0,0,0,0,1


In [115]:
df_good_points_of_c.sum()

Q15_パンが美味しい             1
Q15_メニューのバリエーションが豊富    13
Q15_安い                 33
Q15_支払いが便利             10
Q15_近い                 69
dtype: int64

### 16. bad_points_of_c（複数回答・回答必須）

 - 「嫌いな点はない」という選択肢を加えた方が良いかも

In [116]:
tmp1 = list(df2["bad_points_of_c"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

{'インテリアがいまいち',
 'メニュー内容',
 '並ぶのが嫌、時間がかかる',
 '人がたくさんいて、落ち着かない',
 '価格が高い',
 '価格が高いというより、無理して値下げするなら普通の価格でお腹いっぱい食べたいです。',
 '利用しない',
 '動線が悪い',
 '座席が少ない'}

In [117]:
original = ['人がたくさんいて、落ち着かない', 
            '並ぶのが嫌、時間がかかる', 
            '価格が高い', 
            '動線が悪い', 
            '座席が少ない', 
            'インテリアがいまいち',
            '価格が高いというより、無理して値下げするなら普通の価格でお腹いっぱい食べたいです。', 
            'メニュー内容',
            '利用しない']
new = ["Q16_混雑していて落ち着かない", 
       "Q16_長時間並ぶのが嫌", 
       "Q16_価格が高い", 
       "Q16_動線が悪い", 
       "Q16_座席が少ない", 
       "Q16_内装がいまいち", 
       "Q16_量が少ない", 
       "Q16_メニューが良くない", 
       "Q16_利用しない"]
df_bad_points_of_c = modify_values_dummies(df2, "bad_points_of_c", original, new)
df_bad_points_of_c.drop(columns=["Q16_利用しない"], inplace=True)
df_bad_points_of_c

Unnamed: 0,Q16_混雑していて落ち着かない,Q16_長時間並ぶのが嫌,Q16_価格が高い,Q16_動線が悪い,Q16_座席が少ない,Q16_内装がいまいち,Q16_量が少ない,Q16_メニューが良くない
0,1,1,0,0,0,0,0,0
1,1,0,0,0,1,0,0,0
2,0,0,1,0,0,0,0,0
3,1,0,0,0,0,0,0,0
4,1,1,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...
91,1,1,1,1,1,0,0,0
92,1,0,0,1,1,0,0,0
93,0,1,0,0,0,0,0,0
94,1,1,0,1,0,0,0,0


In [118]:
df_bad_points_of_c.sum()

Q16_混雑していて落ち着かない    49
Q16_長時間並ぶのが嫌        70
Q16_価格が高い           32
Q16_動線が悪い           32
Q16_座席が少ない          41
Q16_内装がいまいち          1
Q16_量が少ない            1
Q16_メニューが良くない        1
dtype: int64

### 17_impression_of_c（自由回答・回答必須）

 - 麺関係
   - 麺レーンの回転率が悪すぎる
   - 並びが酷すぎる、特に麺類は改善しない理由がわからない
   - 人が多い、メニューのバリエーションが少ない、小皿をつけると意外と値段が高い、麺類並びがち
 - たくさん食べると高くつく
   - 食べる量が少ない人には便利。食べる量が多いと値段が張る。
   - たくさん食べようと思ったら高い
   - 多く食べようとするとコスパが悪い、混んでるからタイパも悪い、それなら外の定食屋さんに行く方がマシ
 - 2限と3限の間が混む
   - 2限と3限の間がかなり混んでいて、授業に間に合わない
   - 2限終わりに行くと超混雑してる
   - 昼休みの時間は混んでいる
   - 昼時には大分混雑している印象を受ける
   - 安くてある程度美味しいが、昼時には混雑していて何分も待たなければならない。
 - いつも混んでいる
   - 常に混雑している。メニューが少なく、2限が長引くと売り切れてしまっている🥺
   - いつも混んでいる
 - 価格関係
   - 他の大学よりはメニュー（味含む）、値段で劣るが一般の飲食店よりはコスパは良いか。
   - 安い。特に小鉢。期間限定のものは少し割高の印象。
 - その他
   - レジに並ぶ時間が長い。今年度になってさらに混雑している。
   - 混んでいるというイメージは強いので、時間に余裕があるとき以外は使わない。
   - 混んでいるのにばしPay専用レーンを作ったせいでよりレジが混むようになって不愉快
   - カレー大があんまり大きくない
   - スパゲティ系がない
   - 生活協同組合なのに生活に寄り添っていない印象。200円の小さいパンはなんのために存在するのか？
   - バンバンジー豆腐が美味しい。
   - 進化の方向が見当違いな学校の食堂

In [119]:
set(df2["impression_of_c"])

{'1年生',
 '2限と3限の間がかなり混んでいて、授業に間に合わない',
 '2限終わりに行くと超混雑してる',
 'あまり味が良くない',
 'いつも同じメニューしかない。',
 'いつも混んでいる',
 'いろんな人と会うため落ち着かない',
 'うるさい、さほどおいしくない',
 'ごみごみしている',
 'せまい',
 'たくさん食べようと思ったら高い',
 'たのしい',
 'ちょっとコスパ悪い',
 'ちょっと高い、美味しい',
 'なし',
 'なんだかんだお金がかかる',
 'やすい',
 'カス',
 'カレー大があんまり大きくない',
 'コスパが悪い',
 'スピーディーに提供される高くはない食事',
 'バンバンジー豆腐がおいしい。',
 'レジに並ぶ時間が長い。今年度になってさらに混雑している。',
 'ローコストローリターン',
 '並びが酷すぎる、特に麺類は改善しない理由がわからない',
 '人が多い',
 '人が多い、うるさい、落ち着かない、知り合いと会う、そこまで安くもない',
 '人が多い、わざわざ混んでるのにばしPay専用レーンを作ったせいでよりレジが混むようになって不愉快',
 '人が多い、メニューのバリエーションが少ない、小皿をつけると意外と値段が高い、麺類並びがち',
 '他の大学よりはメニュー（味含む）、値段で劣るが一般の飲食店よりはコスパは良いか。',
 '他の選択肢があまりないから、利用している人が多いイメージ。',
 '価格ほど美味しくない。パンショップやコンビニに行くか、もう少しお金を出して駅周辺のチェーン店を利用することが多い。',
 '便利',
 '友達と行きやすい',
 '味が濃いめ。',
 '商品のレパートリーが少ない',
 '営業時間が短い',
 '多く食べようとするとコスパが悪い、混んでるからタイパも悪い、それなら外の定食屋さんに行く方がマシ',
 '大人数のグループがうるさく牛耳っている',
 '大学にあるから使ってるイメージ',
 '大学らしい',
 '大衆食堂',
 '学校の食堂',
 '学生の集まる場所兼食堂',
 '学生向けの大盛りで安いご飯の提供',
 '安い',
 '安い。特に小鉢。期間限定のものは少し割高の印象。',
 '安い！',
 '安くてある程度美味しいが、昼時には混雑してい

In [120]:
df_tmp = df2["impression_of_c"].copy()
df_tmp.to_csv("impression_of_c.csv", index=False, header=False)

In [121]:
# 人力でラベル付け
df_impression_of_c_revised = pd.read_csv("impression_of_c_revised.csv")
df_impression_of_c_revised

Unnamed: 0,impression_of_c,positive,neutral,negative,1年生,混んでいる,授業に間に合わない,席が空いていない,味が良くない,メニューがいつも同じ,...,栄養バランスが良い,外部の人の利用が多い,学生が集まる場所,店員さんが少ない,味が濃い,時間節約のため利用,スパゲッティ系がない,親のお金で食べられる,進化の方向が見当違い,売り切れしている
0,安い,1.0,,,,,,,,,...,,,,,,,,,,
1,いろんな人と会うため落ち着かない,,,1.0,,1.0,,,,,...,,,,,,,,,,
2,美味しいけど、ちょっと高いなぁ,,1.0,,,,,,,,...,,,,,,,,,,
3,高い気がする,,,1.0,,,,,,,...,,,,,,,,,,
4,安い！,1.0,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91,食事のバリエーションが少ない,,,1.0,,,,,,1.0,...,,,,,,,,,,
92,昼時には大分混雑している印象を受ける,,,1.0,,1.0,,,,,...,,,,,,,,,,
93,営業時間が短い,,,1.0,,,,,,,...,,,,,,,,,,
94,常に混雑している。メニューが少なく、2限が長引くと売り切れてしまっている🥺,,,1.0,,1.0,,,,1.0,...,,,,,,,,,,1.0


In [122]:
df_right = df_impression_of_c_revised.iloc[:, 1:-1].fillna(0)
df_right = df_right.astype("int")
df_right

Unnamed: 0,positive,neutral,negative,1年生,混んでいる,授業に間に合わない,席が空いていない,味が良くない,メニューがいつも同じ,メニューが少ない,...,学校の食堂,栄養バランスが良い,外部の人の利用が多い,学生が集まる場所,店員さんが少ない,味が濃い,時間節約のため利用,スパゲッティ系がない,親のお金で食べられる,進化の方向が見当違い
0,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,1,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91,0,0,1,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
92,0,0,1,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
93,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
94,0,0,1,0,1,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0


In [123]:
df_impression_of_c = pd.concat([df_impression_of_c_revised.iloc[:, 0:1], df_right], axis=1)
df_impression_of_c

Unnamed: 0,impression_of_c,positive,neutral,negative,1年生,混んでいる,授業に間に合わない,席が空いていない,味が良くない,メニューがいつも同じ,...,学校の食堂,栄養バランスが良い,外部の人の利用が多い,学生が集まる場所,店員さんが少ない,味が濃い,時間節約のため利用,スパゲッティ系がない,親のお金で食べられる,進化の方向が見当違い
0,安い,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,いろんな人と会うため落ち着かない,0,0,1,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,美味しいけど、ちょっと高いなぁ,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,高い気がする,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,安い！,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91,食事のバリエーションが少ない,0,0,1,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
92,昼時には大分混雑している印象を受ける,0,0,1,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
93,営業時間が短い,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
94,常に混雑している。メニューが少なく、2限が長引くと売り切れてしまっている🥺,0,0,1,0,1,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0


In [124]:
columns = list(df_impression_of_c.columns)
for i in range(len(columns)):
    columns[i] = "Q17_" + columns[i]
df_impression_of_c = df_impression_of_c.set_axis(columns, axis="columns")
df_impression_of_c

Unnamed: 0,Q17_impression_of_c,Q17_positive,Q17_neutral,Q17_negative,Q17_1年生,Q17_混んでいる,Q17_授業に間に合わない,Q17_席が空いていない,Q17_味が良くない,Q17_メニューがいつも同じ,...,Q17_学校の食堂,Q17_栄養バランスが良い,Q17_外部の人の利用が多い,Q17_学生が集まる場所,Q17_店員さんが少ない,Q17_味が濃い,Q17_時間節約のため利用,Q17_スパゲッティ系がない,Q17_親のお金で食べられる,Q17_進化の方向が見当違い
0,安い,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,いろんな人と会うため落ち着かない,0,0,1,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,美味しいけど、ちょっと高いなぁ,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,高い気がする,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,安い！,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91,食事のバリエーションが少ない,0,0,1,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
92,昼時には大分混雑している印象を受ける,0,0,1,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
93,営業時間が短い,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
94,常に混雑している。メニューが少なく、2限が長引くと売り切れてしまっている🥺,0,0,1,0,1,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0


In [125]:
df_impression_of_c.iloc[:, 1:].sum()

Q17_positive      18
Q17_neutral       24
Q17_negative      54
Q17_1年生            1
Q17_混んでいる         28
Q17_授業に間に合わない      1
Q17_席が空いていない       1
Q17_味が良くない         7
Q17_メニューがいつも同じ     5
Q17_メニューが少ない       4
Q17_メニューが豊富        1
Q17_落ち着かない         2
Q17_うるさい           3
Q17_せまい            3
Q17_高い            20
Q17_楽しい            1
Q17_コスパ悪い          3
Q17_おいしい           6
Q17_安い            14
Q17_量が少ない          3
Q17_量が多い           3
Q17_スピーディー         1
Q17_レジの待ち時間が長い     2
Q17_並びが悪い          1
Q17_回転率が悪い         2
Q17_仕方なく使っている      2
Q17_便利             5
Q17_友人と利用          1
Q17_営業時間が短い        2
Q17_学校の食堂          5
Q17_栄養バランスが良い      2
Q17_外部の人の利用が多い     1
Q17_学生が集まる場所       1
Q17_店員さんが少ない       1
Q17_味が濃い           1
Q17_時間節約のため利用      1
Q17_スパゲッティ系がない     1
Q17_親のお金で食べられる     1
Q17_進化の方向が見当違い     1
dtype: int64

### 18_preference_e_vs_w（回答必須）

 - 「西学食」、「東学食」、「どちらも好き」、「どちらも嫌い」という選択肢にすべき

In [126]:
print(set(df2["preference_e_vs_w"]))

{'どちらも好きではない', '西学食', 'どちらも好き。', '東学食'}


In [127]:
original = ['西学食', 'どちらも好きではない', 'どちらも好き。', '東学食']
columns = ["Q18_prefer_east", 
           "Q18_prefer_west"]
result = [[0] * 2 for _ in range(r)]
for i in range(r):
    value = df2["preference_e_vs_w"][i]
    if value == '西学食':
        result[i][1] = 1
    elif value == '東学食':
        result[i][0] = 1
    elif value == 'どちらも好き。':
        result[i] = [1, 1]
df_preference_e_vs_w = pd.DataFrame(data=result, columns=columns)
df_preference_e_vs_w.head()

Unnamed: 0,Q18_prefer_east,Q18_prefer_west
0,0,1
1,0,0
2,1,0
3,1,0
4,1,0


In [128]:
df_preference_e_vs_w.sum()

Q18_prefer_east    47
Q18_prefer_west    43
dtype: int64

### 19_reasons_e_vs_w（複数回答・回答必須でない）

 - 「東学食が好きな理由は？」、「西学食が好きな理由は？」に質問を分けるべき
 - その際、「〇学食は好きではない」という選択肢を加え、回答必須にすべき

In [129]:
tmp1 = list(df2["reasons_e_vs_w"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

nan is included


{'パンが充実しているから。',
 'パンショップでしか学食(生協)を利用しないため。',
 'メニュー数が多い',
 '売店が充実している',
 '席数が多い',
 '東は片付けが楽',
 '混んでいない気がする',
 '片付けが楽',
 '生協があるから',
 '立地',
 '西生協はパンの種類が多いから。',
 '雰囲気'}

In [130]:
original = ['パンが充実しているから。',
            'パンショップでしか学食(生協)を利用しないため。',
            'メニュー数が多い',
            '売店が充実している',
            '席数が多い',
            '東は片付けが楽',
            '混んでいない気がする',
            '片付けが楽',
            '生協があるから',
            '立地',
            '西生協はパンの種類が多いから。',
            '雰囲気']
new = ["Q19_パン", 
       "Q19_メニュー数が多い", 
       "Q19_売店", 
       "Q19_席が多い", 
       "Q19_片付けが楽", 
       "Q19_混んでいない", 
       "Q19_場所", 
       "Q19_雰囲気"]
original_to_new_idxs = [0, 0, 1, 2, 3, 4, 5, 4, None, 6, 0, 7]
result = [[0] * len(new) for _ in range(r)]
for i in range(r):
    values = df2["reasons_e_vs_w"][i]
    if pd.isnull(values):
        pass
    else:
        values = values.split(", ")
        for value in values:
            idx = original_to_new_idxs[original.index(value)]
            if idx is not None:
                result[i][idx] = 1
df_reasons_e_vs_w = pd.DataFrame(data=result, columns=new)
df_reasons_e_vs_w.head()

Unnamed: 0,Q19_パン,Q19_メニュー数が多い,Q19_売店,Q19_席が多い,Q19_片付けが楽,Q19_混んでいない,Q19_場所,Q19_雰囲気
0,0,0,0,0,0,0,1,0
1,0,0,0,0,0,0,0,0
2,0,1,0,0,0,0,0,0
3,0,1,0,1,0,1,0,1
4,0,1,0,1,0,0,0,0


In [131]:
df_reasons_e_vs_w.sum()

Q19_パン           3
Q19_メニュー数が多い    22
Q19_売店           1
Q19_席が多い        28
Q19_片付けが楽        2
Q19_混んでいない      28
Q19_場所          29
Q19_雰囲気         19
dtype: int64

## パンショップ

### 20_frequency_b（回答必須）

 - もう少し細かく選択肢を用意したほうがいいかも
 - 1週間での平均的な利用回数
 - 「利用しない」、「利用しないわけではないが平均では週1回未満」、「週1回」、「週2回」、「週3回」、「週4回」、「週5回以上」

In [132]:
print(set(df2["frequency_b"]))

{'月2〜3回', '週４回以上', '週０回', '月1回程度。部活後にアイス食べたりはしちゃいます。', '週１回', '週２〜３回'}


In [133]:
original = ['週０回', 
            '月1回程度。部活後にアイス食べたりはしちゃいます。', 
            '月2〜3回', 
            '週１回', 
            '週２〜３回', 
            '週４回以上']
df_frequency_b = modify_values_ordinal_scale(df2, "frequency_b", original)
df_frequency_b = df_frequency_b.set_axis(["Q20_frequency_b"], axis="columns")
df_frequency_b.head()

Unnamed: 0,Q20_frequency_b
0,0
1,0
2,0
3,3
4,4


In [134]:
for i in range(6):
    print(f"{i}: {len(df_frequency_b.query(f'Q20_frequency_b == {i}'))}")

0: 37
1: 1
2: 1
3: 33
4: 23
5: 1


In [135]:
df_frequency_b.mean()

Q20_frequency_b    2.072917
dtype: float64

In [136]:
# 「月1回程度」と「月2～3回程度」は1人ずつしかいないのでまとめてしまう
# 0: 利用しない
# 1: 利用しないわけではないが平均では週1回未満
# 2: 週1回
# 3: 週2～3回
# 4: 週4回以上
r, _ = df_frequency_b.shape
result = [0] * r
for i in range(r):
    value = df_frequency_b["Q20_frequency_b"][i]
    if value == 0:
        result[i] = value
    elif value >= 3:
        result[i] = value - 1
    else:
        result[i] = 1
df_frequency_b = pd.DataFrame(data=result, columns=["Q20_frequency_b"])
df_frequency_b.head()

Unnamed: 0,Q20_frequency_b
0,0
1,0
2,0
3,2
4,3


In [137]:
for i in range(5):
    print(f"{i}: {len(df_frequency_b.query(f'Q20_frequency_b == {i}'))}")

0: 37
1: 2
2: 33
3: 23
4: 1


In [138]:
df_frequency_b.mean()

Q20_frequency_b    1.46875
dtype: float64

### 21. preference_b_vs_c（回答必須）

 - 「学食」、「パンショップ」、「どちらも好き」、「どちらも好きでない」という選択肢にすべき

In [139]:
print(set(df2["preference_b_vs_c"]))

{'どちらも好きではない', '好き嫌い無くどちらも利用する', 'パンショップ', '学食'}


In [140]:
original = ['パンショップ', '学食', 'どちらも好きではない', '好き嫌い無くどちらも利用する']
columns = ["Q21_prefer_coop", 
           "Q21_prefer_bakery"]
result = [[0] * 2 for _ in range(r)]
for i in range(r):
    value = df2["preference_b_vs_c"][i]
    if value == 'パンショップ':
        result[i][1] = 1
    elif value == '学食':
        result[i][0] = 1
    elif value == '好き嫌い無くどちらも利用する':
        result[i] = [1, 1]
df_preference_b_vs_c = pd.DataFrame(data=result, columns=columns)
df_preference_b_vs_c.head()

Unnamed: 0,Q21_prefer_coop,Q21_prefer_bakery
0,0,1
1,0,0
2,1,0
3,1,0
4,0,1


In [141]:
df_preference_b_vs_c.sum()

Q21_prefer_coop      46
Q21_prefer_bakery    40
dtype: int64

### 22. where_to_eat_b（回答必須でない）

 - 「利用しない」という選択肢を加え、回答必須にすべき

In [142]:
print(set(df2["where_to_eat_b"]))

{'利用しない', '学食内の席', 'その他教室', '次の授業の教室', '外のベンチ', '買わない', '研究室', '部室', '食べ歩き', nan}


In [143]:
df_tmp = pd.get_dummies(df2["where_to_eat_b"], dtype=int)
df_tmp.head()

Unnamed: 0,その他教室,利用しない,外のベンチ,学食内の席,次の授業の教室,研究室,買わない,部室,食べ歩き
0,0,0,0,0,1,0,0,0,0
1,0,0,0,1,0,0,0,0,0
2,0,0,0,1,0,0,0,0,0
3,1,0,0,0,0,0,0,0,0
4,0,0,0,0,1,0,0,0,0


In [144]:
df_tmp.sum()

その他教室      12
利用しない       1
外のベンチ       8
学食内の席      31
次の授業の教室    19
研究室         1
買わない        1
部室          8
食べ歩き        1
dtype: int64

In [145]:
# 「研究室」=「その他の教室」として扱う
# 「外のベンチ」=「食べ歩き」=「外」として扱う

original = ['次の授業の教室', 'その他教室', '買わない', '外のベンチ', '研究室', '学食内の席', '部室', '利用しない', '食べ歩き']
new = ["Q22_学食内", 
       "Q22_次の授業の教室", 
       "Q22_その他の教室", 
       "Q22_部室", 
       "Q22_外", 
       "Q22_利用しない"]
original_to_new_idxs = [1, 2, 5, 4, 2, 0, 3, 5, 4]
result = [[0] * len(new) for _ in range(r)]
for i in range(r):
    value = df2["where_to_eat_b"][i]
    if pd.isnull(value):
        pass
    else:
        idx = original.index(value)
        result[i][original_to_new_idxs[idx]] = 1
df_where_to_eat_b = pd.DataFrame(data=result, columns=new)
df_where_to_eat_b.drop(columns=["Q22_利用しない"], inplace=True)
df_where_to_eat_b.head()

Unnamed: 0,Q22_学食内,Q22_次の授業の教室,Q22_その他の教室,Q22_部室,Q22_外
0,0,1,0,0,0
1,1,0,0,0,0
2,1,0,0,0,0
3,0,0,1,0,0
4,0,1,0,0,0


In [146]:
df_where_to_eat_b.sum()

Q22_学食内        31
Q22_次の授業の教室    19
Q22_その他の教室     13
Q22_部室          8
Q22_外           9
dtype: int64

In [147]:
# 無回答者は基本「買わない」人たち
# ただし、「買わない」と回答している人もなぜか「パンショップで購入したものをどこで食べるか」に回答している
# 「購入したとするとどこで食べるか」という質問だと捉えた人がいる可能性がある
# 「利用しない」という選択肢を加えるべき
a = set(df_where_to_eat_b.query('Q22_学食内 == Q22_次の授業の教室 == Q22_その他の教室 == Q22_部室 == Q22_外 == 0').index)
b = set(df_frequency_b.query('Q20_frequency_b == 0').index)
print(a)
print(b)
print(a & b)

{32, 64, 39, 71, 73, 75, 18, 19, 84, 55, 86, 23, 87, 58, 59, 30}
{0, 1, 2, 5, 9, 10, 13, 14, 17, 18, 19, 22, 23, 24, 25, 29, 30, 31, 32, 34, 39, 40, 51, 53, 55, 58, 59, 62, 64, 71, 75, 83, 84, 86, 87, 92, 95}
{32, 64, 71, 39, 75, 18, 19, 84, 23, 86, 55, 87, 58, 59, 30}


## アプリ

### 23. using_app（回答必須）

 - 「学食アプリ」ではなく「生協アプリ」
 - 「生協アプリ」には「ばしPay」と「学食Pay」の2種類があるので、そこの区別をはっきりさせる必要がある
 - 生協アプリ自体を使っているかを聞きたいなら「生協アプリを使用していますか？」でよいと思う
 - さらに絞って、生協アプリの特に「学食Pay」を使っているかどうかを聞きたいなら、『生協アプリの「学食Pay」を利用していますか？』という質問にする方が良いと思う
 - 今回は、「生協アプリを使っているか」という方だと解釈している

In [148]:
print(set(df2["using_app"]))

{'いいえ', 'はい'}


In [149]:
df_using_app = modify_values_dummy(df2, "using_app", ['はい', 'いいえ'], ["using_app", "not_using_app"])
df_using_app = df_using_app.set_axis(["Q23_using_app", "Q23_not_using_app"], axis="columns")
df_using_app.head()

Unnamed: 0,Q23_using_app,Q23_not_using_app
0,0,1
1,1,0
2,0,1
3,0,1
4,0,1


In [150]:
df_using_app.drop(columns=["Q23_not_using_app"], inplace=True)
df_using_app.head()

Unnamed: 0,Q23_using_app
0,0
1,1
2,0
3,0
4,0


In [151]:
df_using_app.sum()

Q23_using_app    39
dtype: int64

### 24. reasons_for_using_app（複数回答・回答必須でない）

 - 「利用していない」という選択肢を加え、回答必須にすべき
 - 「学食Pay」ではなく「ばしPay」について言及している人がいる点に注意

In [152]:
tmp1 = list(df2["reasons_for_using_app"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

nan is included


{'ポイントが貯まる',
 '学食ペイの残金を他で使えないから。',
 '専用レジを利用し、迅速に会計を済ませたい',
 '支払いが便利',
 '教科書販売のときに利用することの方が多いです。'}

In [153]:
original = ['ポイントが貯まる',
            '学食ペイの残金を他で使えないから。',
            '専用レジを利用し、迅速に会計を済ませたい',
            '支払いが便利',
            '教科書販売のときに利用することの方が多いです。']
new = ["Q24_ポイントが貯まる", 
       "Q24_学食ペイの残金を消費するため", 
       "Q24_会計が早く済む", 
       "Q24_支払いが便利" , 
       "Q24_教科書販売に使う"]
result = [[0] * len(new) for _ in range(r)]
for i in range(r):
    values = df2["reasons_for_using_app"][i]
    if pd.isnull(values):
        pass
    else:
        values = values.split(", ")
        for value in values:
            idx = original.index(value)
            result[i][idx] = 1
df_reasons_for_using_app = pd.DataFrame(data=result, columns=new)
df_reasons_for_using_app.head()

Unnamed: 0,Q24_ポイントが貯まる,Q24_学食ペイの残金を消費するため,Q24_会計が早く済む,Q24_支払いが便利,Q24_教科書販売に使う
0,0,0,0,0,0
1,0,0,0,1,0
2,0,0,0,0,0
3,0,0,0,0,0
4,0,0,0,0,0


In [154]:
df_reasons_for_using_app.sum()

Q24_ポイントが貯まる           6
Q24_学食ペイの残金を消費するため     1
Q24_会計が早く済む           21
Q24_支払いが便利            30
Q24_教科書販売に使う           1
dtype: int64

### 25. how_to_deposit（回答必須でない）

 - 「利用していない」という選択肢を加え、回答必須にすべき
 - 「今後入金するつもりはない」という選択肢を加えるべき？
 - 「自分のお金」か「親のお金」かどうか区別する必要はある？

In [155]:
set(df2["how_to_deposit"])

{nan,
 'アプリ導入時に学食カード？の残金を移行したのが残っているため使っている。使い切ったら使用しないと思う。',
 'クレカ入金（自分のお金）',
 'クレカ入金（親のお金）',
 'コンビニ入金（自分のお金）',
 'コンビニ入金（親のお金）',
 '入学した時にチャージしただけ',
 '生協レジでチャージ（自分のお金）',
 '生協レジでチャージ（親のお金）'}

In [156]:
# 「アプリ導入時に学食カード？の残金を移行したのが残っているため使っている。使い切ったら使用しないと思う。」
# 「入学したときにチャージしただけ」
# 上記2つは「今後入金するつもりはない」ので、nanとする
df_tmp = df2["how_to_deposit"].copy()
for i in range(r):
    if df2["how_to_deposit"][i] == 'アプリ導入時に学食カード？の残金を移行したのが残っているため使っている。使い切ったら使用しないと思う。':
        df_tmp[i] = float("nan")
    elif df2["how_to_deposit"][i] == '入学した時にチャージしただけ':
        df_tmp[i] = float("nan")

In [157]:
# チャージ機・QRコードからのチャージは0人であることに注意
df_how_to_deposit = pd.get_dummies(df_tmp, dtype=int)
df_how_to_deposit = df_how_to_deposit.set_axis(["Q25_クレカ（自）", 
                                                "Q25_クレカ（親）", 
                                                "Q25_コンビニ（自）", 
                                                "Q25_コンビニ（親）", 
                                                "Q25_生協レジ（自）", 
                                                "Q25_生協レジ（親）"], axis="columns")
df_how_to_deposit.head()

Unnamed: 0,Q25_クレカ（自）,Q25_クレカ（親）,Q25_コンビニ（自）,Q25_コンビニ（親）,Q25_生協レジ（自）,Q25_生協レジ（親）
0,0,0,0,0,0,0
1,1,0,0,0,0,0
2,0,0,0,0,0,0
3,0,0,0,0,0,0
4,0,0,0,0,0,0


In [158]:
df_how_to_deposit.sum()

Q25_クレカ（自）     12
Q25_クレカ（親）     12
Q25_コンビニ（自）     2
Q25_コンビニ（親）     2
Q25_生協レジ（自）     3
Q25_生協レジ（親）     5
dtype: int64

### 26. reasons_for_not_using_app（複数回答・回答必須）

 - 「その他」の選択肢をわざわざ選んでおきながら何も記述しない輩がいる...

In [159]:
tmp1 = list(df2["reasons_for_not_using_app"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

{'',
 '使用が面倒だから',
 '使用方法を知らないから',
 '入金が面倒だから',
 '利用している',
 '利用価値を感じないから',
 '存在を知らないから',
 '学食を利用しないから'}

In [160]:
original = ['',
            '使用が面倒だから',
            '使用方法を知らないから',
            '入金が面倒だから',
            '利用している',
            '利用価値を感じないから',
            '存在を知らないから',
            '学食を利用しないから']
new = ["Q26_入金が面倒だから", 
       "Q26_使用が面倒だから", 
       "Q26_利用価値がないから", 
       "Q26_そもそも知らなかった", 
       "Q26_使い方がわからないから", 
       "Q26_学食を利用しないから", 
       "Q26_利用している"]
original_to_new_idxs = [None, 1, 4, 0, 6, 2, 3, 5]
result = [[0] * len(new) for _ in range(r)]
for i in range(r):
    values = df2["reasons_for_not_using_app"][i].split(", ")
    for value in values:
       idx = original_to_new_idxs[original.index(value)]
       if idx is not None:
           result[i][idx] = 1
df_reasons_for_not_using_app = pd.DataFrame(data=result, columns=new)
df_reasons_for_not_using_app.drop(columns=["Q26_利用している"], inplace=True)
df_reasons_for_not_using_app.head()

Unnamed: 0,Q26_入金が面倒だから,Q26_使用が面倒だから,Q26_利用価値がないから,Q26_そもそも知らなかった,Q26_使い方がわからないから,Q26_学食を利用しないから
0,1,1,1,0,0,0
1,0,0,0,0,0,0
2,0,0,1,0,0,0
3,0,0,0,0,1,0
4,1,0,0,0,0,0


In [161]:
df_reasons_for_not_using_app.sum()

Q26_入金が面倒だから       32
Q26_使用が面倒だから       18
Q26_利用価値がないから      28
Q26_そもそも知らなかった      4
Q26_使い方がわからないから    11
Q26_学食を利用しないから      1
dtype: int64

### 27. desirable_features（複数回答・回答必須でない）

 - 自由記述にすると、思いがけないニーズを見つけられるかもしれない
   - 処理は面倒だけど

In [162]:
tmp1 = list(df2["desirable_features"])
unique_values = set()
nan_flag = False
for values in tmp1:
    if pd.isnull(values):
        nan_flag = True
    else:
        tmp3 = set(values.split(", "))
        unique_values = unique_values | tmp3
if nan_flag:
    print("nan is included")
unique_values

nan is included


{'アプリの軽さ。',
 'クレカとの紐付け',
 'クーポンの配布',
 'ドーナツ情報。ミスドは1週間前にアプリでも通知してほしいです',
 '事前注文',
 '席から頼めたら便利。入金もっと簡単にして欲しいです🥺。(クレカ情報の記憶など)',
 '混雑状況の確認'}

In [163]:
# 「事前注文」 = 「モバイルオーダー」として扱う
# 「クレカとの紐づけ」は入金方法の簡略化という要望も意味する
original = ['アプリの軽さ。',
            'クレカとの紐付け',
            'クーポンの配布',
            'ドーナツ情報。ミスドは1週間前にアプリでも通知してほしいです',
            '事前注文',
            '席から頼めたら便利。入金もっと簡単にして欲しいです🥺。(クレカ情報の記憶など)',
            '混雑状況の確認']
new = ["Q27_アプリの軽さ", 
       "Q27_クレカとの紐づけ", 
       "Q27_クーポンの配布", 
       "Q27_ドーナツ情報" , 
       "Q27_モバイルオーダー", 
       "Q27_混雑状況の確認"]
original_to_new_idxs = [[0], [1], [2], [3], [4], [1, 4], [5]]
result = [[0] * len(new) for _ in range(r)]
for i in range(r):
    values = df2["desirable_features"][i]
    if pd.isnull(values):
        pass
    else:
        values = values.split(", ")
        for value in values:
            idxs = original_to_new_idxs[original.index(value)]
            for idx in idxs:
                result[i][idx] = 1
df_desirable_features = pd.DataFrame(data=result, columns=new)
df_desirable_features.head()

Unnamed: 0,Q27_アプリの軽さ,Q27_クレカとの紐づけ,Q27_クーポンの配布,Q27_ドーナツ情報,Q27_モバイルオーダー,Q27_混雑状況の確認
0,0,0,0,0,1,0
1,0,0,0,0,1,0
2,0,0,1,0,0,0
3,0,0,1,0,0,0
4,0,0,1,0,0,0


In [164]:
df_desirable_features.sum()

Q27_アプリの軽さ       1
Q27_クレカとの紐づけ     2
Q27_クーポンの配布     57
Q27_ドーナツ情報       1
Q27_モバイルオーダー    30
Q27_混雑状況の確認     29
dtype: int64

## データをまとめる

In [167]:
df_final = pd.concat([df_grade, 
                      df_faculty, 
                      df_sex, 
                      df_living, 
                      df_class, 
                      df_frequency_c, 
                      df_average_payment, 
                      df_when_to_use, 
                      df_n_of_people, 
                      df_reasons_for_using_c, 
                      df_reasons_for_not_using_c, 
                      df_frequently_chose_menu, 
                      df_good_points_of_c, 
                      df_bad_points_of_c, 
                      df_impression_of_c, 
                      df_preference_e_vs_w, 
                      df_reasons_e_vs_w, 
                      df_frequency_b, 
                      df_preference_b_vs_c, 
                      df_where_to_eat_b, 
                      df_using_app, 
                      df_reasons_for_using_app, 
                      df_how_to_deposit, 
                      df_reasons_for_not_using_app, 
                      df_desirable_features], axis=1)
df_final

Unnamed: 0,Q1_B1,Q1_B2,Q1_B3,Q1_B4,Q1_Master,Q2_Com,Q2_Econ,Q2_Law,Q2_Soc,Q2_SDS,...,Q26_利用価値がないから,Q26_そもそも知らなかった,Q26_使い方がわからないから,Q26_学食を利用しないから,Q27_アプリの軽さ,Q27_クレカとの紐づけ,Q27_クーポンの配布,Q27_ドーナツ情報,Q27_モバイルオーダー,Q27_混雑状況の確認
0,0,0,1,0,0,1,0,0,0,0,...,1,0,0,0,0,0,0,0,1,0
1,0,0,0,1,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
2,0,0,1,0,0,1,0,0,0,0,...,1,0,0,0,0,0,1,0,0,0
3,0,0,1,0,0,1,0,0,0,0,...,0,0,1,0,0,0,1,0,0,0
4,0,1,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91,0,0,1,0,0,1,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
92,0,0,1,0,0,1,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
93,0,0,0,1,0,1,0,0,0,0,...,0,0,1,0,0,0,0,0,0,1
94,0,0,1,0,0,1,0,0,0,0,...,0,0,0,0,0,1,1,0,1,0


In [166]:
df_final.to_csv("final.csv", index=False)