# アンケート結果の集計をやってみる

[reference](https://blog.serverworks.co.jp/introducing-pyspark-4)

In [1]:
from pyspark import SparkConf, SparkContext

In [2]:
conf = SparkConf().setMaster('local').setAppName('test_1')

In [3]:
sc = SparkContext(conf=conf)

## データの読み込み

In [4]:
origin_rdd_1 = sc.textFile('data/questionnaire_data_1.txt')

In [5]:
origin_rdd_2 = sc.textFile('data/questionnaire_data_2.txt')

In [6]:
origin_rdd_3 = sc.textFile('data/questionnaire_data_3.txt')

In [25]:
origin_rdd_1.collect()

['長谷川 篤司,kaori07@yahoo.com,45,男,4,3',
 '山本 春香,manabusato@hotmail.com,40,男,4,3',
 '清水 翔太,asuka45@hotmail.com,29,男,2,4',
 '渡辺 知実,usuzuki@tanaka.com,66,男,1,5',
 '石川 舞,yuisaito@hotmail.com,28,女,4,5',
 '鈴木 聡太郎,miurahiroshi@okamoto.org,64,男,2,2',
 '佐藤 和也,tomoyayamamoto@kimura.jp,33,男,1,1',
 '小林 あすか,yasuhiro31@gmail.com,63,男,3,5',
 '斎藤 淳,manabuishii@kato.jp,68,男,3,2',
 '井上 くみ子,tomoyakobayashi@gmail.com,62,男,5,4',
 '山崎 七夏,sasakiyosuke@endo.com,26,女,5,1',
 '斉藤 零,ssato@hotmail.com,52,女,2,4',
 '高橋 修平,suzukisayuri@fujii.jp,46,女,5,4',
 '山下 学,momoko96@yamaguchi.net,65,男,5,1',
 '佐々木 里佳,okadamanabu@matsumoto.jp,49,男,1,2',
 '渡辺 七夏,sasakiyasuhiro@takahashi.net,41,男,4,2',
 '田中 晃,rika70@miura.jp,27,男,2,3',
 '加藤 桃子,aito@yoshida.com,28,女,3,5',
 '伊藤 健一,ltakahashi@hasegawa.net,57,男,3,4',
 '岡本 花子,mtakahashi@gmail.com,50,男,4,1',
 '加藤 舞,dinoue@hotmail.com,48,女,1,3',
 '山口 舞,yamamototomoya@ikeda.org,65,女,5,2',
 '中村 修平,eyamamoto@fujii.jp,31,男,4,5',
 '藤井 香織,manabumori@sato.com,63,女,1,1',
 '森 加奈,jun33@takahashi.org,4

# 満足度・会場評価が9点以上の来場者名・アドレス一覧

In [7]:
# 結合
union_rdd = origin_rdd_1.union(origin_rdd_2)

In [8]:
union_rdd = union_rdd.union(origin_rdd_3)

In [9]:
# レコードをカンマ区切りで分割
new_rdd = union_rdd.map(lambda x: x.split(','))

In [10]:
# (メールアドレス，[満足度，会場評価])に変換
new_rdd = new_rdd.map(lambda x: (x[1], [x[4], x[5]]))

In [11]:
# 総合評価値を計算
new_rdd = new_rdd.mapValues(lambda x: int(x[0]) + int(x[1]))

In [12]:
# 9点以上を選出
new_rdd = new_rdd.filter(lambda x: x[1] >= 9)

In [13]:
# 名前とメールアドレスを取得する
join_rdd = union_rdd.map(lambda x: (x.split(',')[1], x.split(',')[0]))

In [14]:
result_rdd = join_rdd.join(new_rdd).map(lambda x: (x[1][0], x[0]))

In [15]:
result = result_rdd.collect()

In [16]:
result

[('高橋 修平', 'suzukisayuri@fujii.jp'),
 ('山口 舞', 'satokyosuke@takahashi.org'),
 ('山崎 陽子', 'hiroshi86@yamaguchi.jp'),
 ('伊藤 くみ子', 'abeyoko@hotmail.com'),
 ('岡本 直樹', 'minoruabe@nishimura.com'),
 ('吉田 京助', 'rei95@yamazaki.com'),
 ('前田 英樹', 'akira52@hotmail.com'),
 ('斎藤 太郎', 'wmurakami@hotmail.com'),
 ('佐藤 太郎', 'yoko73@sato.net'),
 ('佐藤 幹', 'xmatsumoto@shimizu.net'),
 ('高橋 洋介', 'naoto70@yahoo.com'),
 ('山下 あすか', 'lkobayashi@gmail.com'),
 ('佐藤 里佳', 'taroyoshida@takahashi.jp'),
 ('佐藤 裕美子', 'satomiyamaguchi@suzuki.com'),
 ('伊藤 七夏', 'bfujii@hotmail.com'),
 ('橋本 結衣', 'inouekaori@yahoo.com'),
 ('山崎 あすか', 'yumiko77@gmail.com'),
 ('田中 結衣', 'hidekisakamoto@ikeda.jp'),
 ('小林 和也', 'owatanabe@ito.net'),
 ('阿部 洋介', 'manabusato@yahoo.com'),
 ('橋本 舞', 'yuta53@ogawa.com'),
 ('中島 花子', 'suzukitaichi@hotmail.com'),
 ('林 直樹', 'kenichi45@gmail.com'),
 ('石井 篤司', 'harukaito@hotmail.com'),
 ('中村 修平', 'eyamamoto@fujii.jp'),
 ('橋本 千代', 'jun11@okada.com'),
 ('長谷川 直人', 'satosayuri@yamazaki.org'),
 ('松田 明美', 'ryoheimurak

# 男性・女性のイベント満足度の平均点

In [17]:
def one_day_man_woman_eval(origin_rdd):
    new_rdd = origin_rdd.map(lambda x: x.split(','))
    man_rdd = new_rdd.filter(lambda x: x[3]=='男')
    woman_rdd = new_rdd.filter(lambda x: x[3]=='女')
    man_rdd = man_rdd.map(lambda x: int(x[4]))
    woman_rdd = woman_rdd.map(lambda x: int(x[4]))
    man_result = man_rdd.mean()
    woman_result = woman_rdd.mean()
    
    return man_result, woman_result

In [18]:
one_day_man_woman_eval(origin_rdd_1)

(3.053571428571427, 3.0909090909090904)

In [19]:
one_day_man_woman_eval(origin_rdd_2)

(3.111111111111111, 2.904761904761905)

In [20]:
one_day_man_woman_eval(origin_rdd_3)

(3.1319444444444446, 2.9807692307692313)

# 年代別のイベント満足度の平均点と評価が高い年代

In [64]:
union_rdd = origin_rdd_1.union(origin_rdd_2)

In [65]:
union_rdd = union_rdd.union(origin_rdd_3)

In [66]:
new_rdd = union_rdd.map(lambda x: x.split(','))

In [67]:
new_rdd = new_rdd.map(lambda x: (x[2][0] + '0', int(x[5])))

In [68]:
grouped_rdd = new_rdd.groupByKey().mapValues(list)

In [69]:
mean_rdd = grouped_rdd.map(lambda x: (x[0], sum(x[1])/len(x[1])))

In [70]:
mean_rdd.collect()

[('40', 2.92),
 ('20', 2.9567567567567568),
 ('30', 3.0),
 ('60', 2.9342105263157894),
 ('50', 3.183246073298429)]