# 回答結果を数値に変換する
処理方法  
- 性別：0=男性，1=女性
- 年代：0=10代，1=20代，…
- 遊びのジャンル：0=アウトドア，1=エンタメ，2=スポーツ，3=観光，4=遊園地，5=飲み会，6=買い物，7=ショー，8=未回答
- その他の質問：回答の連番（「1: ～～」の「1」の部分）-1の値

# import・定数

In [1]:
import numpy as np
import pandas as pd

In [23]:
# 回答結果
input_path = '/home/csv/answers_2020-08-11-1656.csv'
output_path = '/home/csv/answers_int.csv'
question_list_path = '/home/csv/question_list.csv'
genre_list_path = '/home/csv/genre_list.csv'

# CSV読み込み

In [3]:
# 回答結果を読み込み
df_csv = pd.read_csv(input_path)

# カラムを数値に変換

In [4]:
# カラムを質問文から連番に変換
labels, questions = pd.factorize(df_csv.columns)
df_csv.columns = labels

# 性別を数値に変換

In [5]:
# 性別を数値に変換
labels, genders = pd.factorize(df_csv.iloc[:, 1])
df_csv.iloc[:, 1] = labels

# ジャンルを数値に変換

In [6]:
# 遊びのジャンルのリスト（未回答は"なし"に変換）
lst_genre = ['アウトドア（マリンスポーツ・釣り・BBQ・登山・ハイキングなど）', 
             'エンタメ（ボウリング場・カラオケ・ゲームセンターなど）', 
             'スポーツ（ボルダリング・ゴルフ・サイクリング・ジム・ヨガなど）',
             '観光（観光名所巡り・日帰り温泉・食べ歩きなど）',
             '遊園地・動物園・水族館・海水浴場',
             '友達との飲み会（外飲み・飲み歩きなど）',
             '外での買い物（アウトレットなど）',
             'ショー・展示・催し（映画館・ミュージカル・博物館・美術館など）',
             'なし']

In [7]:
# 遊びのジャンルを数値に変換
for i in [3, 4, 5, 18]:
    df_csv.iloc[:, i] = df_csv.iloc[:, i].fillna('なし').map(lambda x: lst_genre.index(x))

In [8]:
# 複数回答の列を抽出
s_mlans = df_csv.iloc[:, 6]

In [9]:
# nanを"なし"に変換
s_mlans = s_mlans.fillna('なし').map(lambda x: x.split(';'))

In [10]:
# 遊びのジャンルを数値に変換
def map_stoi(lst_ans):
    lst_ans_int = []
    for ans in lst_ans:
        lst_ans_int.append(lst_genre.index(ans))
    return lst_ans_int
    
df_csv.iloc[:, 6] = s_mlans.map(map_stoi)

# その他の質問を数値に変換

In [11]:
# この時点で未回答の質問があるのはアウトなので除外
df_csv = df_csv.dropna()

In [12]:
# 連番付きの質問の回答を数値に変換
for i in [2] + list(range(7, 18)) + list(range(19, len(df_csv.columns))):
    df_csv.iloc[:, i] = df_csv.iloc[:, i].map(lambda x: int(x[0]) - 1)

# CSV出力

In [27]:
df_csv

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
0,2020/08/10 3:36:39 午前 GMT+9,0,1,1,3,0,"[0, 1, 3, 5, 6]",3,3,2,...,3,3,4,1,1,2,4,2,3,3
1,2020/08/10 8:35:24 午前 GMT+9,1,1,7,3,6,[5],3,1,1,...,5,5,3,7,2,4,2,3,1,0
2,2020/08/10 9:12:24 午前 GMT+9,0,1,6,5,2,"[2, 5, 6]",5,3,3,...,4,4,3,6,3,4,3,0,3,3
3,2020/08/10 9:48:56 午前 GMT+9,1,1,3,6,4,"[1, 5, 7]",1,2,2,...,2,3,3,6,4,4,2,0,2,2
4,2020/08/10 10:19:01 午前 GMT+9,1,1,1,0,3,[8],1,4,2,...,4,4,2,6,4,2,5,0,0,3
5,2020/08/10 1:03:58 午後 GMT+9,0,1,6,5,3,[1],1,3,3,...,3,3,2,6,1,3,2,3,3,2
6,2020/08/10 2:24:29 午後 GMT+9,0,1,1,2,6,"[3, 5]",0,3,2,...,2,1,0,1,4,5,3,0,3,0
7,2020/08/10 3:51:34 午後 GMT+9,0,1,5,8,8,[8],0,3,1,...,5,5,0,7,2,1,4,1,1,0
8,2020/08/10 4:35:27 午後 GMT+9,0,1,7,5,5,[8],3,4,5,...,4,4,1,5,5,4,5,1,4,0
9,2020/08/10 4:46:50 午後 GMT+9,0,2,5,3,1,"[0, 6, 7]",5,3,3,...,4,4,3,5,2,4,3,1,3,4


In [28]:
# 数値情報に変換した回答結果を保存
df_csv.to_csv(output_path, index=False)

In [21]:
# 質問文一覧
df_questions = pd.DataFrame(questions, columns=['question'])
df_questions.to_csv(question_list_path, index=False)

df_questions

Unnamed: 0,question
0,タイムスタンプ
1,あなたの性別は？
2,あなたの年代は？
3,あなたは普段，どのような遊びをよくされていますか？次のジャンルのうち，最も当てはまるものを1...
4,あなたは普段，どのような遊びをよくされていますか？次のジャンルのうち，2番目に当てはまるもの...
5,あなたは普段，どのような遊びをよくされていますか？次のジャンルのうち，3番目に当てはまるもの...
6,その他，普段よく遊ばれるジャンルがあれば，当てはまるものを複数選択してください．
7,上記で選択した遊び(普段よくする遊び)を行うときは，1日でお金を平均で幾らほど使われますか？
8,上記で選択した遊び(普段よくする遊び)を行うときは，自然に囲まれた中で遊びたい気分のときが多...
9,上記で選択した遊び(普段よくする遊び)を行うときは，エキサイティングな遊びをしたい気分のとき...


In [26]:
# ジャンル一覧
df_genre = pd.DataFrame(lst_genre, columns=['genre'])
df_genre.to_csv(genre_list_path, index=False)

df_genre

Unnamed: 0,genre
0,アウトドア（マリンスポーツ・釣り・BBQ・登山・ハイキングなど）
1,エンタメ（ボウリング場・カラオケ・ゲームセンターなど）
2,スポーツ（ボルダリング・ゴルフ・サイクリング・ジム・ヨガなど）
3,観光（観光名所巡り・日帰り温泉・食べ歩きなど）
4,遊園地・動物園・水族館・海水浴場
5,友達との飲み会（外飲み・飲み歩きなど）
6,外での買い物（アウトレットなど）
7,ショー・展示・催し（映画館・ミュージカル・博物館・美術館など）
8,なし
