# Data Visualization Workshop

# 第１部：Datactの紹介
# 第２部：イントロダクション

# 第3部 : Hands on ! ~ Pythonを用いたデータの可視化 ~

# 0. Introduction
## 0.0 WorkshopのGOAL
1. データ分析がビジネスでどのような場面で活用されているか理解できた！
2. データの可視化を通して、データドリブンに次のアクションを起こせるようになる！
3. Python・PowerBI ってなんだか面白い！！

## 0.1 データ分析の目的
### 課題解決の手段
現状やイシューを構成する要素，考えられる仮説を「比べる」ことであたりをつけること。

「比べる」ことで要素ごとの共通点や相違点，特徴や傾向を見つけることができ，仮説のサポートになる。

※ 全体像(目的とそれを構成する要素)を俯瞰しつつ，自分が今いる位置を把握しながらマクロからミクロに展開していくことが大切！

## 0.2 可視化の利点
1. 特徴の顕在化 ： 生の数字のデータでは見えなかった特徴や傾向をつかむことができること
2. わかりやすい ： 視覚的にわかりやすく，説得力がある

## 0.3 グラフの種類
1. 比較 : 棒グラフ，ヒストグラム
2. 構成 : 円グラフ，スタックバー
3. 推移 : 折れ線グラフ，棒グラフ
    
## 0.4 課題解決の流れとデータ分析方法
1. 現状分析 : 現状把握データ分析
2. 課題定義 : 仮説検証データ分析
3. 施策立案 : 仮説検証データ分析，モデル構築
4. 効果検証 : 効果測定分析

## 0.5 第3部のポイント
1. 可視化した各要因に対して、課題がどの要因にあるかを判断すること
2. 課題に対する仮説を考え、それを検証すること
3. グラフを作成する際に、正しくデータを集計，表現することが意識すること

# 1. 前準備

### 【背景】あなたは無印良品の代官山店の社員です。無印良品の代官山店の店長から最近売上が以前に比べて，よくないと感じる。
### 【目的】売上が本当に下がっているのか確認して，下がっているならその要因を突き止めること
### 【そのために】実際にデータを見て、どれくらい売上が減少しているのだろうか？グラフを作って確認したいが、、、
### 【その前に】分析の前準備として、まずは今持っているデータに対する理解を深めておこう。そしてアウトプットを出す上で分析するのに必要十分なデータなのか確認しよう！→現在保持しているのはPOSデータのみ
### 【まとめ】
     1. あなた : 無印良品の代官山店の社員
     2. クライアント ： 無印良品の代官山店の店長
     3. ヒアリングによると、売上が減少しているらしいので，2018年から顧客データを取り始めている。
     4. 目的：売上が本当に下がっているのか確認して，下がっているならその要因を突き止めること
     5. 持っているデータ : POSデータ（だれがいつ何を買ったのか）

## 1.1 データ理解：データを確認してみよう！

### 今回データは仮想無印良品のPOSデータです。

### 【Try】pandasを読み込んでください。pandasを使う時は、pdと略して (as) 使います。

In [None]:
import pandas as pd

In [None]:
#データ分析用のライブラリpandasをインポートする!
import pandas as pd

#ライブラリとは，プログラムの部品を集めたファイルのこと。ライブラリを利用することで一定の処理を省くことができる。
#ex) データ分析ライブラリ，数値計算ライブラリ，可視化ライブラリ，画像処理ライブラリ，機械学習ライブラリ，ディープラーニングライブラリ...

### 【Try】ファイルを読み込みましょう！

In [None]:
# ファイルを読み込んで、読みこんだデータに対して、dfという名前をつけます。

df = pd.read_csv('./transaction.csv')

# pd.read_csvはpandasのcsvファイルを読み込むためのメソッド。

## データを読み込んで最初に気をつけること！！
1. データにどんなカラム(=パラメータ) が含まれているのか？
2. データの欠損がないか？（データが少ないカラムがあったりしないか？）
3. ・各データの形式が何か？（文字列か？数字か？）

### 【Try】データを見てみよう！

In [None]:
df

In [None]:
df
#データフレームの行にはトランザクションごとのデータ，列にはトランザクションの特徴量(属性)が格納されている

### 【Try】上から5つだけ見てみよう！

In [None]:
df.head()

In [None]:
df.head()
#dfの中身(大枠)を確認，head→上から五行のみを表示

### POSデータ(トランザクションデータ)：どういう顧客がいつ何をいくらで購入したか？

### データの列の内容
* Date : 購入した年月
* ID : 購入者のID番号
* Frequency : 購入回数
* Age : 年齢
* Sex : 性別
* Sale : 売上
* Prefecture : 都道府県
* Area : 地区
* Category : 商品カテゴリ

In [None]:
df.info()
#データの形式と不足を確認

## データを読み込んで最初に気をつけること！！
1. データにどんなカラム(=パラメータ) が含まれているのか？　→　年月，　売上，　年齢
2. データの欠損がないか？（データが少ないカラムがあったりしないか？） → 欠損したデータはない！
3. 各データの形式が何か？（文字列か？数字か？） → 文字列と数字！！

## 1.2 データ加工

### 今回の目的は売上減少の原因を探り、来月の売上減少を阻止するためのヒントを得ること！
### Dateの部分が使いにくい → 日付の部分から月のみを取り出そう！
欲しいアウトプットに対して、何のデータが欲しいのか？どこまで掘り下げるのか？を常に考えることが大切！

In [None]:
df.head()

In [None]:
# 月ごとに集計をするため、日付から月を取り出す。

df['Date'] = pd.to_datetime(df['Date'],format='%Y-%m-%d')
# データの型をto_dataframeで時間の型に変換し， df['Data']に代入

In [None]:
df.info()
#確認

In [None]:
df['Month'] = df['Date'].dt.month
# 月のみを抽出
# df['Date']内の'month'という要素にアクセスし，df['Month']に代入

df.head()
#データ確認

#### 今回は年月だけ加工したが、どこまでセグメントを分け，加工していくのかは目的に応じて考える必要がある
#### ex) 年代+性別というひとまとまりのデータが得られたりする場合にそれぞれの属性に対して分析したい場合は加工が必要

# 2. データ可視化による現状分析

## 2.1 売上が本当に減少しているのか確認する！

### 月ごとに売上を集計⇒可視化

## 【Try】月ごとの売上を集計してみよう！

In [None]:
df.groupby('Month').sum()

In [None]:
df.groupby('Month').sum()
# 月ごとに売上の合計値を集計してみよう！
#月ごとにグループ分けし，足し合わせの操作(sum)をする

In [None]:
'''
groupby関数
→データフレームでグループごとに同じ操作を加えたい時は、groupby().操作名というコードを使います。

ex)
月ごとの売上の合計値が欲しい！
性別と年代それぞれの軸で、売上の合計値がほしい！
'''

In [None]:
df_month_sum = df.groupby('Month').sum()
#月ごとにグループ分けし，足し合わせの操作(sum)をする
#df_month_sumというデータフレームを作成し，代入する

In [None]:
df_month_sum
#データの確認！

## 集計したデータを可視化

### 縦軸：売上の合計値，横軸：月　の折れ線グラフを作成

In [None]:
df_month_sum['Sale']
#売上の合計値のデータを確認
#df_month_sum内のカラム名'Sale'の値を表示

In [None]:
df_month_sum.index
#df_month_sum内のindexを表示

In [None]:
'''
▼POINT①▼

▷dataframeの扱い方

dfに対して
df.index : dfのインデックスを取得
df.values : dfの値を取得
df['X'] : dfのX列の要素を取得
df.X : dfのX列の要素を取得
'''

## ここまで必要な可視化，分析するまでの「集計」をやってきました。
## いよいよ可視化に入っていきます！！！

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
#可視化ライブラリ matplotlibをimportし，pltとする

'''
▼POINT②▼

▷matplotlibの基本的な使い方

plt.plot(xの値, yの値, label='ラベル名', color='線の色')

plt.title('タイトル名')
plt.xlabel('xラベル名')
plt.ylabel('yラベル名')
plt.legend(loc='ラベルの位置')
'''

plt.plot(df_month_sum.index, df_month_sum['Sale'])

### 全体的な変化量がイメージしづらい。。軸のラベルもない。。
### グラフの体裁を整えよう！
### y軸の範囲，軸のラベル，グラフタイトルを足そう！

In [None]:
plt.plot(df_month_sum.index, df_month_sum['Sale'], label='Sales')
plt.title('Sales trand')
plt.xlabel('Month')
plt.ylabel('Sales')
plt.ylim(0, 1000000)
#y軸の範囲を指定

### グラフからわかること :  ヒアリング通り減少傾向にある。4月頃から、増減を繰り返しており、8月からは減少傾向は強まっている。

### どうして減少したのだろうか？
### 売上＝客数(購買回数)×客単価より、どちらの影響かを考えていく＊

※今回は1人1種類の商品しか買っていないことになっている。1レコード1ユーザー。

# その前に休憩！→10分

## 2.2 平均客単価から見ていく。客単価は売上の平均値となる。

### 2.1売上の減少を見ていった場合と同様に、集計⇒可視化の流れ。

### 平均客単価 = (売上の合計値) / (購買件数)　→　平均値を抽出

In [None]:
df.groupby('Month').mean()
#月ごとにグループ分けし，平均(mean)をとる

In [None]:
df_month_mean = df.groupby('Month').mean()
##df_month_meanというデータフレームを作成し，代入する

In [None]:
df_month_mean
#データ確認

### 【Try!】集計が終わったので，先ほどの月ごとの合計売上の可視化を参考に月ごとの平均客単価の推移を可視化してみよう！

In [None]:
df_month_mean['Sale']

In [None]:
plt.plot(df_month_mean.index, df_month_mean['Sale'])

In [None]:
'''
▼POINT①▼

▷dataframeの扱い方

dfに対して
df.index : dfのインデックスを取得
df.values : dfの値を取得
df.['X'] : dfのX列の要素を取得
df.X : dfのX列の要素を取得

▼POINT②▼

▷matplotlibの基本的な使い方

plt.plot(xの値, yの値, label='ラベル名', color='線の色')
plt.title('タイトル名')
plt.xlabel('xラベル名')
plt.ylabel('yラベル名')
plt.legend(loc='ラベルの位置')
'''

In [None]:
plt.plot(df_month_mean.index, df_month_mean['Sale'])
plt.title('Average cost per customer trend')
plt.xlabel('Month')
plt.ylabel('Average cost per customer')
plt.ylim(0, 17000)

### 8月に急激に伸びている。それ以外の時期では、12000円付近になっている。　→　平均客単価は大きく変化していない

## 2.3 客数＝購買回数はどうだろうか？

### 【Try!】平均客単価と同じ流れで客数の変化を可視化してみよう！！
### 【Hint】購買回数→グループの行の数，個数のカウント：count()という関数を使用

In [None]:
df.head()

In [None]:
df.groupby('Month').count()

### 月ごとの行の数をカウントして集計

In [None]:
df.head()
#データ確認

In [None]:
df.groupby('Month').count()
#月ごとにグループ分けし，各月の購買回数を数える（count）

In [None]:
df_month_trans = df.groupby('Month').count()
#月ごとにグループ分けし，各月の購買回数を数える（count）

#df_transというデータフレームを作成し，代入する

df_month_trans['ID']
#列'ID'を取得

In [None]:
'''
▼POINT①▼

▷dataframeの扱い方

dfに対して
df.index : dfのインデックスを取得
df.values : dfの値を取得
df.['X'] : dfのX列の要素を取得
df.X : dfのX列の要素を取得

▼POINT②▼

▷matplotlibの基本的な使い方

plt.plot(xの値, yの値, label='ラベル名', color='線の色')
plt.title('タイトル名')
plt.xlabel('xラベル名')
plt.ylabel('yラベル名')
plt.legend(loc='ラベルの位置')
'''

### 実際に可視化する

In [None]:
plt.plot(df_month_trans.index, df_month_trans['ID'])
plt.title('Number of customers trend')
plt.xlabel('Month')
plt.ylabel('Number of customers')
plt.ylim(0, 80)

### 売上の減少と購入者の減少の様子が似ている
### 【仮説】客単価よりも、客数の減少が売上減少の原因として大きいのではないか？（方向性を立てる。）＊

## 3 ボトルネック特定

### 購入者減少の要因を掴みたい。
### 仮説を立てるために、購入者はどんな人なのか？どういう属性がいるのか？

## 3.1 デモグラフィック(性別や年代)な観点から考える！＊

## 3.1.1 年齢構成を見てみる。

In [None]:
df.head()

In [None]:
df['Age']

### 年齢だと細かすぎるので，年代ごとのグループが欲しい。
### 年齢を年代に直す作業を行う。ex. 45→40

In [None]:
df['Ages'] = (df['Age']//10)*10
#a//b : aをbで割った時の商をとってくる
#ex) 15//6 == 2    15 ÷ 6 = 2 ・・・ 3


#10倍して，新しく'Ages'という列を作りデータフレームに代入する

In [None]:
df.head()

### 年代ごとの顧客数を数える

In [None]:
df.groupby('Ages').ID.count()
# これはユニークではない　→　同じ顧客が含まれている

### 客数を数えるときにユニークな顧客数を考えることに注意！

### ユニークな数とは，ダブり，かぶりがないこと
### 複数購入者を1人の購入者とカウントすること

### つまり、ユニークなID数をカウントすればよい！

In [None]:
#df.groupby('Ages').ID.nunique()としたいが，，，azure notebookではエラーが出る。

df.groupby('Ages').ID.apply(lambda x: x.nunique())
#df.groupby('Ages').ID.nunique()と一緒。
#年代ごとにグループ分けし，ユニークな要素の数を数える（nunique）

### 客数が減っているのがわかる。→同じ人が複数回購入している

In [None]:
uniqueID_age = df.groupby('Ages').ID.apply(lambda x: x.nunique())
#変数に代入する

### 横軸が年代，縦軸がユニーク顧客数として棒グラフを作成する

In [None]:
uniqueID_age.index

In [None]:
uniqueID_age

In [None]:
plt.bar(uniqueID_age.index, uniqueID_age, width = 5)

In [None]:
plt.bar(uniqueID_age.index, uniqueID_age, width = 5)
#plt.barは棒グラフを作成する関数でplotと使い方は似ている

plt.title('Age structure')
plt.xlabel('Ages')
plt.ylabel('Number')

## 0.3 グラフの種類
1. 比較 : 棒グラフ，ヒストグラム
2. 構成 : 円グラフ，スタックバー
3. 推移 : 折れ線グラフ，棒グラフ

### 構成を見る場合，円グラフの方がわかりやすい

In [None]:
label = uniqueID_age.index
# label : 属性，セグメント
value = uniqueID_age
# value : 値

plt.pie(value, labels=label, startangle=90, autopct="%.1f%%", pctdistance=0.6)
# startangle = 90 : 90度のところから円グラフ開始
# pctdistance=0.7 : 中心から円周の間の 70% の位置に出力

plt.axis('equal')
# 綺麗な円にするため

plt.title('Age structure')

## 3.1.2 性別を見てみる!

### 【Try!】年代構成と同じ流れで性別の構成を可視化してみよう！！

In [None]:
df.groupby('Sex').ID.apply(lambda x: x.nunique())

In [None]:
uniqueID_sex = df.groupby('Sex').ID.apply(lambda x: x.nunique())
#Sexという特徴量に対して，性別ごとにグループ分けし，グループごとの全ての特徴量に対してユニークな要素の数を数える（nunique）

In [None]:
uniqueID_sex
#データ確認

In [None]:
plt.bar(uniqueID_sex.index, uniqueID_sex)
#棒グラフ可視化

plt.title('Sex structure')
plt.xlabel('Sex')
plt.ylabel('Number')

In [None]:
label = uniqueID_sex.index
# label : 属性，セグメント
value = uniqueID_sex
# value : 値

plt.pie(value, labels=label, startangle=90, autopct="%.1f%%", pctdistance=0.7)
# startangle = 90 : 90度のところから円グラフ開始
# pctdistance=0.7 : 中心から円周の間の 70% の位置に出力

plt.axis('equal')
# 綺麗な円にするため

plt.title('Sex Structure')

### この段階では売上減少の直接的な原因がわからないため、時間という変数を追加してみる
### 性別の偏りがあるみたい→性別を男女に分けて月ごとに分析する＊

## 3.2 デモグラフィック変化

## 3.2.1 月ごとの男女での客数の変化

### 【Try!】これまで学習したことを意識して，月ごとの男女の客数の推移を可視化しましょう！

In [None]:
# AとBのグループごとの操作
# df.groupby(['A','B']).命令文

In [None]:
df.groupby(['Sex','Month']).ID.apply(lambda x: x.nunique())

In [None]:
df.groupby(['Sex','Month']).ID.apply(lambda x: x.nunique())
#性別と月ごとにグループ分けし，ユニークな要素の数を数える（nunique）

In [None]:
df_uniqueID_sex_month = df.groupby(['Sex','Month']).ID.apply(lambda x: x.nunique())

In [None]:
df_uniqueID_sex_month.Female.index

In [None]:
df_uniqueID_sex_month.Female.index
#index確認

In [None]:
df_uniqueID_sex_month.Female

In [None]:
plt.plot(df_uniqueID_sex_month.Male.index, df_uniqueID_sex_month.Male.values, label='Male')
plt.plot(df_uniqueID_sex_month.Female.index, df_uniqueID_sex_month.Female.values, label='Female')
plt.title('Male and Female Number trend')
plt.ylim(0, 70)
plt.legend(loc='upper right')
'''
▼POINT①▼

▷dataframeの扱い方

dfに対して
df.index : dfのインデックスを取得
df.values : dfの値を取得
df.['X'] : dfのX列の要素を取得
df.X : dfのX列の要素を取得

▼POINT②▼

▷matplotlibの基本的な使い方

plt.plot(xの値, yの値, label='ラベル名', color='線の色')
plt.title('タイトル名')
plt.xlabel('xラベル名')
plt.ylabel('yラベル名')
plt.legend(loc='ラベルの位置')
'''

### 男性の減少が顕著。売上減少の一因か？

## ボトルネック：男性のユーザーの減少＊

# お疲れ様でした！今回のハンズオンはここまでです！

## 時間があれば...男性ユーザーを購買回数ごとに分析していく

## 3.2.2 どうして男性が減少したのか仮説を立てる。新規ユーザーが減少したのではないか？＊

In [None]:
a = [1,2,3,4,5]

In [None]:
a

In [None]:
range(len(a))

In [None]:
a[3]

In [None]:
for i in range(len(a)):
    print(a[i])
    
'''
▼POINT③▼

▷for文 

for i in a:
    命令文

a内の要素をiとして命令文を行い，a内の要素がなくなるまで繰り返し行う。
ex)今回はaというリスト内の文字を取得し，iと設定し，printしていく作業をaのリスト全てなくなるまで繰り返す
'''

In [None]:
# 新規を示すダミー変数を作る。その月に初めて購買した人。
for i in range(len(df)):
    if df.loc[i, 'Frequency'] == 1:
        df.loc[i, 'New'] = 1
    else:
        df.loc[i, 'New'] = 0
        
'''
▼POINT①▼

▷dataframeの扱い方

dfに対して
df.index : dfのインデックスを取得
df.values : dfの値を取得
df.['X'] : dfのX列の要素を取得
df.X : dfのX列の要素を取得

▼POINT③▼

▷for文 

for i in a:
    命令文

a内の要素をiとして命令文を行い，a内の要素がなくなるまで繰り返し行う。

▼POINT④▼

▷if条件文

if 条件:
    条件が真の時，実行する操作
else:
    それ以外の時に行う操作
'''

In [None]:
# 新規を示すダミー変数の、月ごとの合計値が、新規ユーザー数になる。

df.groupby(['Sex','Month']).New.sum()
#'Sex'と'Month'という特徴量に対して，性別と月ごとにグループ分けし，グループごとの'New'に対して合計を求める(nunique)
#df.groupby(['Sex','Month']).New.sum()はデータフレームの型になっていることに注意！

In [None]:
plt.title('Male New Visitor trend')
plt.ylim(0, 70)
plt.plot(df.groupby(['Sex','Month']).New.sum().Male.index, df.groupby(['Sex','Month']).New.sum().Male.values)

'''
▼POINT①▼

▷dataframeの扱い方

dfに対して
df.index : dfのインデックスを取得
df.values : dfの値を取得
df.['X'] : dfのX列の要素を取得
df.X : dfのX列の要素を取得

▼POINT②▼

▷matplotlibの基本的な使い方

plt.plot(xの値, yの値, label='ラベル名', color='線の色')
plt.title('タイトル名')
plt.xlabel('xラベル名')
plt.ylabel('yラベル名')
plt.legend(loc='ラベルの位置')
'''

### 男性の新規ユーザーがかなり減少している。

### （1月に多いのは、1月からデータを取っているため、1月に購入したユーザーはほぼ新規扱いになるからである。）

## ボトルネック：男性の新規ユーザーの減少＊

## 時間があれば...月ごとの年代客数変化も見ていく。

## 3.2.3 月ごとの年代の客数変化

In [None]:
df.groupby(['Ages','Month']).ID.apply(lambda x: x.nunique())

In [None]:
df_uniqueID_age_month = df.groupby(['Ages','Month']).ID.apply(lambda x: x.nunique())

In [None]:
plt.title('Ages number trend')
plt.ylim(0, 70)
ages = [20,30,40,50,60]#ここ微妙
for i in ages:
    plt.plot(df_uniqueID_age_month[i].index, df_uniqueID_age_month[i].values,label=i)
    plt.ylim(0, 20)
    plt.xlabel('Month')
    plt.ylabel('Numbaer')
    plt.legend(loc = 'upper right')

### あまりこのデータからはわからない気する

## 3.3 購買頻度で顧客を見てみる

In [None]:
df.head()

In [None]:
# IDでグループかつ、最大値を考えることで、個人の購買頻度がデータに含まれる。→最初からfrequencyがデータとして残ってるってことか。。
df_Freq = df.groupby('ID').max()
df_Freq.head()

In [None]:
import seaborn as sns
# 圧倒的に1回で終わっている人が多い。
sns.countplot(df_Freq['Frequency'])
plt.title('Frequency')

In [None]:
# 新規を示すダミー変数を作る。その月に初めて購買した人。
for i in range (len(df)):
    if df.loc[i, 'Frequency'] == 1:
        df.loc[i, 'New'] = 1
    else:
        df.loc[i, 'New'] = 0

In [None]:
# １月に両者の値が一致しないのは、1月に2回以上購入した人がいるからである。
#割合表示の方がいい気する
df_new_visit = df.groupby('Month').sum()

plt.plot(df_month_trans.index, df_month_trans['ID'], label = 'All')
plt.plot(df_new_visit.index , df_new_visit['New'], label = 'New')
plt.title('Number of Transaction trend')
plt.ylim(0, 80)
plt.legend()

## 新規の流入は段々と減っているのは事実。どうして、新規の流入が減っているのだろうか？どうすれば、新規の流入を回復させることが出来るか？