# オプション実習2　データの加工

## 実習概要
Pandasライブラリを使用して、以下の操作を習得します。
- グループ化
- 結合
- 離散化

## 事前準備
Jupyter Notebookが起動していない場合、「C:\PyAna」フォルダで、Jupyter Notebookを起動します。コマンドは以下です。
> cd C:\PyAna

> jupyter notebook

## 実習の流れ

### 1. 下記フォルダに移動し、ノートブックを起動します（ノートブック名：「Option2.ipynb」）。
> 「exercise」フォルダ⇒「Option」フォルダ⇒「02_データ加工」

### 2. 以下のライブラリをインポートします。
- numPy
- pandas

In [1]:
import numpy as np
import pandas as pd

### 3. 以下のファイルをそれぞれ別のデータフレームとして読み込みます。データフレーム名は任意です。
- ファイル名：「01購入者アンケート.csv」（文字コード：「Shift-JIS」）
- ファイル名：「02購入者情報.csv」（文字コード：「Shift-JIS」）

In [2]:
df1 = pd.read_csv('01購入者アンケート.csv', encoding='shift-jis', engine='python') #01購入者アンケート.csvファイルを読み込み(Shift-JIS形式)
df2 = pd.read_csv('02購入者情報.csv', encoding='shift-jis', engine='python')     #02購入者情報.csvファイルを読み込み(Shift-JIS形式)

### 4. データの列構造を確認するために、それぞれ先頭行を抽出します。

In [3]:
df1.head() #データの確認

Unnamed: 0,購入番号,購入日,会員番号,商品番号,購入個数,商品満足度,Ｗｅｂの使いやすさ,サポート評価,配送評価
0,3227,2012/4/3,492,1,8,5,4,3,5
1,3228,2012/4/3,122,9,13,5,3,4,3
2,3229,2012/4/3,36,1,10,3,5,3,3
3,3230,2012/4/3,182,1,10,4,4,4,4
4,3231,2012/4/3,413,7,11,4,4,1,5


In [4]:
df2.head() #データの確認

Unnamed: 0,会員番号,年齢,性別
0,1,70,男性
1,2,33,男性
2,3,34,女性
3,4,62,女性
4,5,57,女性


### 5. 会員ごとにグループ化し、以下を確認します。

会員ごとの購入個数、評価（商品満足度、Ｗｅｂの使いやすさ、サポート評価、配送評価）の平均を、表で確認します。

In [5]:
#会員番号別の、購入個数、商品満足度、Ｗｅｂの使いやすさ、サポート評価、配送評価の平均を集計後、データを確認
df1.groupby('会員番号', as_index=False)['購入個数', '商品満足度', 'Ｗｅｂの使いやすさ', 'サポート評価', '配送評価'].mean().head()

Unnamed: 0,会員番号,購入個数,商品満足度,Ｗｅｂの使いやすさ,サポート評価,配送評価
0,1,8.0,4.7,4.1,3.9,4.0
1,2,9.0,1.333333,3.666667,4.666667,4.0
2,3,9.25,1.75,4.75,1.0,4.0
3,4,8.9,4.1,4.1,3.9,3.8
4,5,8.545455,4.818182,3.818182,5.0,4.272727


会員ごとの購入個数の合計、評価（商品満足度、Ｗｅｂの使いやすさ、サポート評価、配送評価）の平均を算出します。結果は、新たなデータフレームに代入します。

In [6]:
#会員番号別の、購入個数の合計及び、評価(商品満足度、Ｗｅｂの使いやすさ、サポート評価、配送評価)の平均を集計
df_group = df1.groupby('会員番号', as_index=False).agg({'購入個数':[np.sum], '商品満足度':[np.mean], 'Ｗｅｂの使いやすさ':[np.mean], 'サポート評価':[np.mean], '配送評価':[np.mean]})

グループ化の結果を確認します。

In [7]:
df_group.head() #データの確認

Unnamed: 0_level_0,会員番号,購入個数,商品満足度,Ｗｅｂの使いやすさ,サポート評価,配送評価
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,mean,mean,mean
0,1,80,4.7,4.1,3.9,4.0
1,2,27,1.333333,3.666667,4.666667,4.0
2,3,37,1.75,4.75,1.0,4.0
3,4,89,4.1,4.1,3.9,3.8
4,5,94,4.818182,3.818182,5.0,4.272727


列名を以下に変更します。　※会員番号は変更なし
- 「会員番号」　→　「会員番号」
- 「購入個数」　→　「累計購入個数」
- 「商品満足度」　→　「平均商品満足度」
- 「Ｗｅｂの使いやすさ」　→　「平均Ｗｅｂの使いやすさ」
- 「サポート評価」　→　「平均サポート評価」
- 「配送評価」　→　「平均配送評価」

In [8]:
#全ての列名を変更
df_group.columns = ['会員番号', '累計購入個数', '平均商品満足度','平均Ｗｅｂの使いやすさ', '平均サポート評価', '平均配送評価']

列名が変更されていることを確認します。

In [9]:
df_group.head()   #データの確認

Unnamed: 0,会員番号,累計購入個数,平均商品満足度,平均Ｗｅｂの使いやすさ,平均サポート評価,平均配送評価
0,1,80,4.7,4.1,3.9,4.0
1,2,27,1.333333,3.666667,4.666667,4.0
2,3,37,1.75,4.75,1.0,4.0
3,4,89,4.1,4.1,3.9,3.8
4,5,94,4.818182,3.818182,5.0,4.272727


### 6. 会員番号を基に、以下のデータフレームを結合し、新たなデータフレームに代入します。
- グループ化されたデータフレーム
- 「02購入者情報.csv」を読み込んだデータフレーム

In [10]:
df_merge = pd.merge(df_group, df2, on='会員番号', how='left')  #df_groupとdf2を、会員番号をキーとして、左外部結合

結合の結果を確認します。

In [11]:
df_merge.head() #データの確認

Unnamed: 0,会員番号,累計購入個数,平均商品満足度,平均Ｗｅｂの使いやすさ,平均サポート評価,平均配送評価,年齢,性別
0,1,80,4.7,4.1,3.9,4.0,70,男性
1,2,27,1.333333,3.666667,4.666667,4.0,33,男性
2,3,37,1.75,4.75,1.0,4.0,34,女性
3,4,89,4.1,4.1,3.9,3.8,62,女性
4,5,94,4.818182,3.818182,5.0,4.272727,57,女性


### 7. 年齢を10刻みの年齢層として離散化し、新たな列を作成します。

In [12]:
data_range = [10, 20, 30, 40, 50, 60, 70]                 #データ区間の配列を作成
df_merge['年齢層'] = pd.cut(df_merge['年齢'], data_range)  #新たに、年齢を10刻みで分割した「年齢層列」を作成

列作成の結果を確認します。

In [13]:
df_merge.head() #データの確認

Unnamed: 0,会員番号,累計購入個数,平均商品満足度,平均Ｗｅｂの使いやすさ,平均サポート評価,平均配送評価,年齢,性別,年齢層
0,1,80,4.7,4.1,3.9,4.0,70,男性,"(60, 70]"
1,2,27,1.333333,3.666667,4.666667,4.0,33,男性,"(30, 40]"
2,3,37,1.75,4.75,1.0,4.0,34,女性,"(30, 40]"
3,4,89,4.1,4.1,3.9,3.8,62,女性,"(60, 70]"
4,5,94,4.818182,3.818182,5.0,4.272727,57,女性,"(50, 60]"


### 8. 年齢層別、性別別の一人当たり累計商品購入個数（平均）を算出します。

In [14]:
df_merge.pivot_table('累計購入個数', index='性別', columns='年齢層') #性別、年齢層別の平均累計購入個数を集計

年齢層,"(10, 20]","(20, 30]","(30, 40]","(40, 50]","(50, 60]","(60, 70]"
性別,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
女性,31.8,27.225352,30.482353,55.363636,83.677419,84.5
男性,17.0,28.139785,30.0,26.285714,76.875,89.1
