# データの整形

先ほどの学生実験用アンケート結果をダウンロードして Pandas に読み込んでみましょう。

* <a href="https://docs.google.com/spreadsheets/d/1u50kS8Ztmgjjs--S1AM4753quL3QEPRR7xIGjCxcSCw/edit#gid=941271295" target="_blank">学生実験用アンケート結果</a>

    * 左上の「File」→「Download as」→「Comma-separated values (.csv, current sheet)」で保存
    * 保存時の名前は「Questionary - Form Responses 1.csv」のままにしてください。

In [1]:
# 数値計算やデータフレーム操作に関するライブラリをインポートする
import numpy as np
import pandas as pd

In [2]:
# URL によるリソースへのアクセスを提供するライブラリをインポートする。
# import urllib # Python 2 の場合
import urllib.request # Python 3 の場合

In [3]:
# データの読み込み
df1 = pd.read_csv('./Questionary - Form Responses 1.csv', sep=',') 

In [4]:
df1

Unnamed: 0,Timestamp,Score,Pen name,Q1. Gender,Q2. 高校時代の英語の偏差値はどのくらい？,Q3. 高校時代の国語の偏差値はどのくらい？,Q4. 高校時代の数学の偏差値はどのくらい？,Q5. 高校時代の理科の偏差値はどのくらい？,Q6. 高校時代の社会の偏差値はどのくらい？,Q7. 高校時代の体育の成績を５段階評価で表すと？,...,Q10. 今の大学は第一希望でしたか？,Q11. 今、実家暮らし？一人暮らし？,Q12. 大学への通学時間は？（単位：分）,Q13. 朝ごはんは週何回くらい食べてる？,Q14. １日あたりの睡眠時間は平均何時間？,Q15. 大学の成績(GPA)は？,Q16. 今、バイトは週何時間くらい？,Q17. 部活（またはサークル活動）は週何時間？,Q18. 彼氏または彼女はいる？,Q19. あなたはリア充ですか？５段階評価で
0,,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,5/18/2017 13:28:25,,pp,男性 Male,50.0,50.0,55.0,60.0,60.0,4.0,...,第二希望,実家,60.0,7.0,6.0,2.8,4.0,20.0,いる（２次元）,2.0
6,5/18/2017 13:28:37,,chimp,男性 Male,70.0,60.0,70.0,70.0,60.0,4.0,...,第一希望,実家,90.0,7.0,5.0,3.2,6.5,6.0,いない,1.0
7,5/18/2017 13:37:00,,あんぱん,男性 Male,80.0,70.0,65.0,70.0,50.0,5.0,...,第二希望,実家,90.0,7.0,6.0,2.4,0.0,15.0,いない,3.0
8,5/18/2017 13:40:12,,あかさたな,男性 Male,40.0,50.0,55.0,55.0,50.0,3.0,...,第一希望,一人,30.0,5.0,6.0,2.0,10.0,8.0,いる（リアル）,2.0
9,5/18/2017 13:37:35,,rrr,男性 Male,65.0,60.0,70.0,65.0,50.0,5.0,...,第一希望,実家,120.0,7.0,6.0,2.8,12.0,2.0,いない,3.0


今回は、この書式のままだと非常に使いにくいので、使いやすい形に整形します。以下のコードを実行してください（このコードの詳細は、今は理解しなくても大丈夫です）。

In [5]:
import re
seen = []
output = open('./Responses.csv', 'w')
with open('./Questionary - Form Responses 1.csv') as f:
    for i, line in enumerate(f.readlines()):
        if i == 0:
            line = re.sub(r'\..*?\,', ',', line)
            line = re.sub(r'\..*?$', '', line)
            a = line.split(",")
            output.write(",".join([str(w) for w in a[2:]]))
        else:
            a = line.split(",")
            if a[0] == '':
                continue
            for j in range(len(a)):
                if len(seen) < j + 1:
                    seen.append([])
                if a[j] not in seen[j]:
                    seen[j].append(a[j])
                #print(j, a[j])
            for j in [3, 11, 12, 13, 20]:
                a[j] = seen[j].index(a[j])
            output.write(",".join([str(w) for w in a[2:]]))
output.close()

これで、整形後のデータ Responses.csv が得られて、以降の解析に使えるはずです。

In [6]:
# データの読み込み
df1 = pd.read_csv('Responses.csv', sep=',') 

In [7]:
df1

Unnamed: 0,Pen name,Q1,Q2,Q3,Q4,Q5,Q6,Q7,Q8,Q9,Q10,Q11,Q12,Q13,Q14,Q15,Q16,Q17,Q18,Q19
0,pp,0,50,50,55,60,60.0,4,3,0,0,0,60,7,6.0,2.8,4.0,20.0,0,2
1,chimp,0,70,60,70,70,60.0,4,3,0,1,0,90,7,5.0,3.2,6.5,6.0,1,1
2,あんぱん,0,80,70,65,70,50.0,5,3,0,0,0,90,7,6.0,2.4,0.0,15.0,1,3
3,あかさたな,0,40,50,55,55,50.0,3,3,0,1,1,30,5,6.0,2.0,10.0,8.0,2,2
4,rrr,0,65,60,70,65,50.0,5,3,1,1,0,120,7,6.0,2.8,12.0,2.0,1,3
5,com,0,58,50,60,60,50.0,4,3,0,1,0,90,7,7.0,2.6,2.0,10.0,2,3
6,kk,0,79,60,70,70,60.0,5,3,0,1,0,100,7,7.0,3.07,4.0,10.0,1,2
7,矢澤にこ,0,65,40,75,70,55.0,5,4,0,1,0,60,3,6.0,2.03,12.0,6.0,2,5
8,zxcv,0,65,60,70,70,55.0,4,3,2,0,1,6,7,6.0,3.3,0.0,3.0,1,2
9,あいう,0,65,68,69,65,57.0,5,3,1,1,0,60,7,5.0,2.8,15.0,10.0,2,3


これでうまく読み込めました。