基本統計量、折れ線グラフ、散布図

# ライブラリのインポート

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# ファイル読み込み

In [None]:
df = pd.read_csv('demo2_sjis.csv', encoding='shift_jis') #demo2_sjis.csvファイルを読み込み(Shift-JIS形式)
df.head()                                                #データの確認

# 基本統計量

In [None]:
df.describe() #主要な基本統計量を算出

In [None]:
df['レシートNo']=df['レシートNo'].astype(np.object_) #「レシートNo」列をObject型に変換
df.describe() #主要な基本統計量を算出

# 基本統計量を個別に求める

In [None]:
grouped_df=df.groupby('レシートNo')['合計金額'].sum() #レシートNo別の合計金額を集計
grouped_df.head()                                  #データの確認

In [None]:
grouped_df.mean()                                 #平均だけ算出

In [None]:
grouped_df.std()                                  #標準偏差だけ算出

In [None]:
grouped_df.min()                                  #最小値だけ算出

In [None]:
grouped_df.median()                               #中央値だけ算出

In [None]:
grouped_df.quantile(0.25)                         #第1四分位数だけ算出

In [None]:
grouped_df.quantile(0.75)                         #第3四分位数だけ算出

In [None]:
grouped_df.max()                                  #最大値だけ算出

# 相関係数

In [None]:
df.head()    #データの確認

In [None]:
#レシートNo、商品大分類別の合計金額を集計(空白要素には0を代入)
sctdf=df.pivot_table('合計金額', fill_value=0, index='レシートNo', columns='商品大分類')       
sctdf.head()

In [None]:
sctdf.corr() #商品大分類の売上の相関行列を算出

In [None]:
sctdf.loc[:, ['肉類', '野菜・海藻']].corr() #肉類と野菜・海藻類の売上の相関係数を算出

# 折れ線グラフ

商品大分類ごとに、売り上げの推移をみる

In [None]:
df.head()                           #データの確認

In [None]:
#年月、商品大分類別の合計金額を集計
line_df = df.pivot_table('合計金額', aggfunc='sum', index='年月', columns='商品大分類') 

In [None]:
fig = plt.figure(figsize=(8, 4))    #グラフ描画用オブジェクトを生成(figsizeオプションにより、グラフサイズを指定)

In [None]:
ax = fig.add_subplot(1, 1, 1)       #グラフの描画位置を指定

In [None]:
line_df.plot(ax=ax)                 #グラフの描写方法(パラメータの設定)と利用データを指定

In [None]:
plt.show()                          #グラフ描写

# 散布図

### 野菜・海藻の売れ行きと、魚介類の売り上げには関係性がありそうかどうかを確認する

In [None]:
df.head() #データの確認

In [None]:
#レシートNo、商品大分類別の合計金額を集計(空白要素には0を代入)
sctdf = df.pivot_table('合計金額', aggfunc='sum', fill_value=0, index='レシートNo', columns='商品大分類')              
sctdf.head()

In [None]:
fig = plt.figure()                                         #グラフ描画用オブジェクトを生成
ax = fig.add_subplot(1, 1, 1)                              #グラフの描画位置を指定

In [None]:
sctdf.plot(x='野菜・海藻', y='魚介類', kind='scatter', ax=ax) #グラフの描写方法(パラメータの設定)と利用データを指定

In [None]:
plt.show()                                                #グラフ描写

同様のことを、週末（金、土、日）と、それ以外で傾向に違いがあるかを確認する

In [None]:
#「曜日」列が、「5_金曜日」,「6_土曜日」,「7_日曜日」か(週末)、それ以外か(週末以外)でデータを分割
df1 = df.loc[df['曜日'].isin(['5_金曜日', '6_土曜日', '7_日曜日']), :]   
df2 = df.loc[~df['曜日'].isin(['5_金曜日', '6_土曜日', '7_日曜日']), :]  

In [None]:
#週末のデータと週末以外のデータにおける、レシートNo、商品大分類別の合計金額を集計(空白要素には0を代入)
sctdf1 = df1.pivot_table('合計金額', aggfunc='sum', fill_value=0, index='レシートNo', columns='商品大分類')   
sctdf2 = df2.pivot_table('合計金額', aggfunc='sum', fill_value=0, index='レシートNo', columns='商品大分類')

In [None]:
fig = plt.figure()              #グラフ描画用オブジェクトを生成
ax = fig.add_subplot(1, 1, 1)   #グラフの描画位置を指定

In [None]:
#グラフの描写方法(パラメータの設定)と利用データを指定(週末のデータは赤色に、それ以外のデータは青色で表示)
sctdf1.plot(x='野菜・海藻', y='魚介類', kind='scatter', ax=ax, color='r')
sctdf2.plot(x='野菜・海藻', y='魚介類', kind='scatter', ax=ax, color='b', alpha=0.5) 

In [None]:
ax.legend(['週末', '週末以外'])　 #凡例表示

In [None]:
plt.show()                      #グラフ描写