# Data Visualization Workshop Tutorial

# 顧客データを分析してみよう！

## 分析する前にどんなデータかをチェックしてみましょう

### データを読み込む

In [2]:
import pandas as pd
df = pd.read_csv('./data_ws/DVWS_Customer_data_ver1.csv')
df.head()

Unnamed: 0,ID,Age,Sex,Address,Frequency
0,1900001,25,Male,Kyuusyuu,1
1,1900002,21,Female,Hokkaido,1
2,1900003,21,Female,Hokkaido,1
3,1900004,46,Female,Kyuusyuu,2
4,1900005,53,Male,Tyuugoku,4


### どんなデータなのか？

In [None]:
df.info()

In [None]:
df.describe()

### 各行にどんなデータが入っているのでしょうか？

In [None]:
df['Sex'].value_counts()

In [None]:
df['Address'].value_counts()

In [None]:
df['Frequency'].value_counts()

## ユーザーの男女比を可視化してみよう！

In [None]:
df['Sex'].value_counts()

In [None]:
#dfにはindexとvalueが格納されている
df['Sex'].value_counts().index,df['Sex'].value_counts().values

In [None]:
# 棒グラフ➀

import matplotlib.pyplot as plt
%matplotlib inline

df['Sex'].value_counts().plot.bar()
plt.title('Sex')
plt.ylabel('Sum')
plt.legend()

In [None]:
# 棒グラフ➁

import seaborn as sns
sns.set()

sns.countplot(df['Sex'], palette = 'Blues')

In [None]:
# 円グラフ（あんまりつかわないかも。）
x = [834, 387]
label = ['Female', 'Male']

'''
label = df['Sex'].value_counts().index
x = df['Sex'].value_counts().values
'''

plt.pie(x, labels = label, counterclock=False, startangle=90, autopct="%.1f%%" )
# 綺麗な円にならなかったら
plt.axis('equal')
plt.title('Sex')

## ワーク: どんな年齢層の人が多いだろう？

In [None]:
plt.hist(x = 'Age', data = df)

In [None]:
sns.distplot(df['Age'], bins = 10, kde = False)

## 年齢と性別の2軸で集計してみる。

In [None]:
# Ageを年代に直していく。
df['Ages'] = df['Age']//10*10

In [None]:
pd.pivot_table(df, index = 'Ages', columns = 'Sex', values = 'ID', aggfunc=len)

In [None]:
# 年代でいったん図を描いてみる
sns.countplot( x = 'Ages',data = df)

In [None]:
# 上のグラフを性別ごとにそれぞれ分けるイメージ。
sns.countplot( x = 'Ages',hue = 'Sex', data = df)

## ケース: リピートしている人としていない人とで、特徴はあるのだろうか？

In [None]:
# Frequencyどんなもんか見てみる。
sns.countplot(df['Frequency'])

In [None]:
# リピートしている人としていない人を区別する新しい変数を作成する。(時間的に事前に作成？)
#分かりやすいコードに変えた
for i in range(len(df)):
    if df.loc[i, 'Frequency'] > 1:
        df.loc[i,'Repeater'] = 1
    else:
        df.loc[i,'Repeater'] = 0

In [None]:
# うまく出来ているかCheck!
df.head()

In [None]:
df.Repeater.value_counts()

In [None]:
# 文字列でも作っていいかも
for i in range(len(df)):
    if df.loc[i, 'Frequency'] > 1:
        df.loc[i, 'Repeater Character'] = 'Repeater'
    else:
        df.loc[i, 'Repeater Character'] = 'New'

In [None]:
df.head()

In [None]:
# 年齢ごとに差があるのかをチェックしてみよう
sns.countplot(x = 'Ages', hue = 'Repeater Character', data = df)

In [None]:
# 性別ごとに差があるのかをチェックしてみよう
sns.countplot(x = 'Sex', hue = 'Repeater Character', data = df)

In [None]:
# ３軸で集計することも出来る。aggfuncを指定しないと、平均値になる。marginsを使うと、小計が出てくる。
pd.pivot_table(df, index = ['Ages', 'Sex'], columns = 'Repeater Character', values = 'ID', aggfunc=len, margins = True)

In [None]:
# 上の結果を新規、リピーターに分けて可視化してみる。
# まずはデータを抽出してみる。
df_New = df[df['Frequency'] == 1]
df_Repeat = df[df['Frequency'] > 1]

In [None]:
plt.figure(figsize=(10,6))
plt.subplot(1,2,1)
sns.countplot(x = 'Ages', hue = 'Sex', data = df_New)
plt.title('New')

plt.subplot(1,2,2)
sns.countplot(x = 'Ages', hue = 'Sex', data = df_Repeat)
plt.title('Repeater')

In [None]:
# これじゃあｙ軸がバラバラなので、上手く比較出来ない。また、Male とFeamaleといろが逆になっている。
plt.figure(figsize=(10,6))
plt.subplot(1,2,1)
sns.countplot(x = 'Ages', hue = 'Sex', hue_order=['Male', 'Female'] ,data = df_New)
plt.title('New')
plt.ylim(0, 200)

plt.subplot(1,2,2)
sns.countplot(x = 'Ages', hue = 'Sex', hue_order=['Male', 'Female'] , data = df_Repeat)
plt.title('Repeater')
plt.ylim(0, 200)

### コメント
1. 最終的に可視化して何がしたいのか？
2. なんの商品を扱ってるのか？
3. データの変数が少なすぎてつまらないくない？せっかく性別、年齢層、地域等のデータを取得するのなら、それらと何か関係性がある変数(購入額、購入数、チャネルは何か？店舗かECか？等)を置いて、データを加工したり可視化したりして初めて分かる関係性とか話せたら面白いと思う。