# 第3章 必要なデータ数を検討しよう
ここでは、推測統計の基礎を学ぶうえで必要なプログラムを実行していく流れを学んでいきます。  

In [None]:
#Colaboratory環境の設定
from google.colab import drive
drive.mount('/content/drive')
%cd /content/drive/MyDrive/MathProgramming/Chapter3

In [None]:
#ライブラリの設定
!pip install -q -r ./requirements.txt

## 3-1 統計値をシミュレーションしてみよう  

### 正規分布を生成

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 母集合の大きさを設定
num = 365*2

# 乱数の平均・標準偏差を設定
ave = 0.0
std = 1.0

# 乱数を発生（シードを固定）
np.random.seed(seed=0)
x = np.random.normal(ave,std,num)
#x = np.random.exponential(0.5, num)

# 平均・標準偏差を計算
x_ave = np.average(x)
x_std = np.std(x)
print("平均:",x_ave)
print("標準偏差:",x_std)

# 描画
num_bin = 21
plt.hist(x, num_bin,color="k")
plt.xlim([-5,5])
plt.show()
%matplotlib inline

### ランダムサンプリングした標本の平均の分布を描画

In [None]:
import numpy as np
# サンプル数（サンプル集団の大きさ）を設定
num_sample = 30

# 試行回数を設定
num_trial = 10000
x_trial = np.zeros(num_trial)

# サンプル平均の算出を試行
for i in range(num_trial):
    # サンプルを抽出
    x_sample = np.random.choice(x,num_sample)
    # 平均を計算
    x_ave = np.average(x_sample)
    # 値を格納
    x_trial[i] = x_ave
    
# サンプル平均の平均・標準偏差を計算
x_trial_ave = np.average(x_trial)
x_trial_std = np.std(x_trial)
print("平均:",x_trial_ave)
print("標準偏差:",x_trial_std)

# 描画
num_bin = 21
plt.hist(x_trial, num_bin,color="k")
plt.xlim([-5,5])
plt.show()
%matplotlib inline

## 3-2 中心極限定理について知ろう  

In [None]:
import numpy as np
# 母集合の分散を設定
org_std = 1.0
# サンプル集合の大きさを設定
num_sample = 30
# サンプル集合の平均の標準偏差を計算
sample_std = org_std/np.sqrt(num_sample)
print("サンプル集合の平均の標準偏差:",sample_std)

## 3-3 一ヶ月のデータを正確に取ってみよう  

### データ読み込み（被害リスト）

In [None]:
import pandas as pd
df_theft_201811 = pd.read_csv("theft_list_201811.csv", index_col=0, parse_dates=[0])
df_theft_201811

### データ読み込み（アメニティ金額）

In [None]:
import pandas as pd
df_amenity_price = pd.read_csv("amenity_price.csv", index_col=0, parse_dates=[0])
df_amenity_price

### 一ヶ月の被害総額計算

In [None]:
total_amount = 0
total_theft = 0
for i_index in range(len(df_theft_201811.index)):
    for i_column in range(len(df_theft_201811.columns)):
        total_amount += df_theft_201811.iloc[i_index,i_column]*df_amenity_price["金額"].iloc[i_column]
        total_theft += df_theft_201811.iloc[i_index,i_column]
        if df_theft_201811.iloc[i_index,i_column]>0:
            print(df_theft_201811.index[i_index],df_theft_201811.columns[i_column],df_theft_201811.iloc[i_index,i_column],"点")
print("被害総額",total_amount,"円")
print("被害件数",total_theft,"件")

## 3-4 一ヶ月分のデータから二年分のデータの平均・標準偏差を推定しよう

### 一日ごとの被害額をリスト化

In [None]:
import numpy as np
import matplotlib.pyplot as plt
list_amount = np.zeros(len(df_theft_201811.index))
for i_index in range(len(df_theft_201811.index)):
    for i_column in range(len(df_theft_201811.columns)):
        list_amount[i_index] += df_theft_201811.iloc[i_index,i_column]*df_amenity_price["金額"].iloc[i_column]
plt.plot(list_amount,color="k")
plt.show()

### 10日間をランダムサンプリングして平均値の分布を算出

In [None]:
import numpy as np
# サンプル数（サンプル集団の大きさ）を設定
num_sample = 10

# 試行回数を設定
num_trial = 10000
x_trial = np.zeros(num_trial)

# サンプル平均の算出を試行
for i in range(num_trial):
    # サンプルを抽出
    x = list_amount
    x_sample = np.random.choice(x,num_sample)
    # 平均を計算
    x_ave = np.average(x_sample)
    # 値を格納
    x_trial[i] = x_ave
    
# サンプル平均の平均・標準偏差を計算
x_trial_ave = np.average(x_trial)
x_trial_std = np.std(x_trial)
print("平均:",x_trial_ave)
print("標準偏差:",x_trial_std)

# 描画
num_bin = 21
plt.hist(x_trial, num_bin,color="k")
plt.xlim([-50000,50000])
plt.show()
%matplotlib inline

### 中心極限定理から母集団の標準偏差を逆推定

In [None]:
import numpy as np
# サンプル集合の平均の標準偏差を推定
sample_std = 5649
# サンプル集合の大きさを設定
num_sample = 10
# 母集団の分散を計算
org_std = np.sqrt(num_sample)*sample_std
print("母集団の標準偏差:",org_std)

## 3-5 分散と信頼度の関係を知ろう  

### 正規分布を生成 (3-1と同一ソースコード)

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 母集合の大きさを設定
num = 365*2

# 乱数の平均・標準偏差を設定
ave = 0.0
std = 1.0

# 乱数を発生（シードを固定）
np.random.seed(seed=0)
x = np.random.normal(ave,std,num)
#x = np.random.exponential(0.5, num)

# 平均・標準偏差を計算
x_ave = np.average(x)
x_std = np.std(x)
print("平均:",x_ave)
print("標準偏差:",x_std)

# 描画
num_bin = 21
plt.hist(x, num_bin,color="k")
plt.xlim([-5,5])
plt.show()
%matplotlib inline

### ランダムサンプリングした標本の平均の分布を描画 (3-1と同一ソースコード)

In [None]:
import numpy as np
# サンプル数（サンプル集団の大きさ）を設定
num_sample = 30

# 試行回数を設定
num_trial = 10000
x_trial = np.zeros(num_trial)

# サンプル平均の算出を試行
for i in range(num_trial):
    # サンプルを抽出
    x_sample = np.random.choice(x,num_sample)
    # 平均を計算
    x_ave = np.average(x_sample)
    # 値を格納
    x_trial[i] = x_ave
    
# サンプル平均の平均・標準偏差を計算
x_trial_ave = np.average(x_trial)
x_trial_std = np.std(x_trial)
print("平均:",x_trial_ave)
print("標準偏差:",x_trial_std)

# 描画
num_bin = 21
plt.hist(x_trial, num_bin,color="k")
plt.xlim([-5,5])
plt.show()
%matplotlib inline

### 信頼度の計算

In [None]:
# 標準偏差の倍率の設定
ratio = 1.0
# 左側の領域外の割合の計算
x_trial_out1 = x_trial[x_trial>x_trial_ave+ratio*x_trial_std]
# 右側の領域外の割合の計算
x_trial_out2 = x_trial[x_trial<x_trial_ave-ratio*x_trial_std]
# 信頼度の計算
reliability = 1-(len(x_trial_out1)/len(x_trial)+len(x_trial_out2)/len(x_trial))
print("信頼度:",reliability)

## 3-6 宿泊者数との相関関係を仮定して被害額の推移を推測しよう  

### 宿泊者一人あたりの平均被害額の算出

In [None]:
import pandas as pd
import datetime as dt

# 一日あたりの被害額の平均値を設定
theft_per_day = 5880

# 宿泊データ読み込み
df_info = pd.read_csv("accomodation_info.csv", index_col=0, parse_dates=[0])

# 一日あたりの宿泊者数の抽出
x = df_info.resample('D').count()
df_num = x.iloc[:,0]

# 一ヶ月分の宿泊者数を抽出
target_date = dt.datetime(2018,11,30)
df_num_201811 = df_num[df_num.index <= target_date]
print("一ヶ月の宿泊者数:",sum(df_num_201811))

# 一ヶ月分の宿泊者数から一日あたりの平均宿泊者数を計算
num_per_day = sum(df_num_201811)/len(df_num_201811)
print("一日あたりの平均宿泊者数:",num_per_day)

# 宿泊者一人あたりの平均被害額
theft_per_person = theft_per_day/num_per_day
print("宿泊者一人あたりの平均被害額:",theft_per_person)

### 二年間の被害額の推移の推定

In [None]:
import numpy as np
estimated_theft = np.zeros(len(df_num))
for i in range(len(df_num)):
    estimated_theft[i] = df_num.iloc[i]*theft_per_person
df_estimated_theft = pd.DataFrame(estimated_theft,index=df_num.index,columns=["推定被害額"])
print("二年間の推定被害総額:",sum(df_estimated_theft["推定被害額"]))
plt.plot(df_estimated_theft,color="k")
plt.xticks(rotation=60)
plt.show()

## 3-7 年間の被害総額とその信頼区間を推定しよう  

In [None]:
import matplotlib.pyplot as plt
# 標準偏差の設定
theft_std_per_day = 17864
theft_std_per_person = theft_std_per_day/num_per_day
print("宿泊者一人あたりの平均被害額の標準偏差:",theft_std_per_person)

# 信頼区間の設定
list_estimated_theft = []
for i in range(len(df_num)):
    temp_ave = df_num.iloc[i]*theft_per_person
    temp_std = df_num.iloc[i]*theft_std_per_person
    temp = [temp_ave-temp_std,temp_ave,temp_ave+temp_std]
    list_estimated_theft.append(temp)

# 描画
plt.boxplot(list_estimated_theft)
plt.xticks(color="None")
plt.show()

## 3-8 安価なアメニティに絞り込んで、二年分のデータの平均・標準偏差を推定し直そう

### 安価なアメニティに関するデータの抽出

In [None]:
threshold_price = 10000
df_amenity_price_low = df_amenity_price[df_amenity_price["金額"]<threshold_price]
df_theft_201811_low = df_theft_201811[df_amenity_price[df_amenity_price["金額"]<threshold_price].index]
print(df_amenity_price_low)

### 一日ごとの被害額をリスト化

In [None]:
import numpy as np
import matplotlib.pyplot as plt
list_amount = np.zeros(len(df_theft_201811_low.index))
for i_index in range(len(df_theft_201811_low.index)):
    for i_column in range(len(df_theft_201811_low.columns)):
        list_amount[i_index] += df_theft_201811_low.iloc[i_index,i_column]*df_amenity_price_low["金額"].iloc[i_column] 
plt.plot(list_amount,color="k")
plt.show()

### 10日間をランダムサンプリングして平均値の分布を算出

In [None]:
import numpy as np
# サンプル数（サンプル集団の大きさ）を設定
num_sample = 10

# 試行回数を設定
num_trial = 10000
x_trial = np.zeros(num_trial)

# サンプル平均の算出を試行
for i in range(num_trial):
    # サンプルを抽出
    x = list_amount
    x_sample = np.random.choice(x,num_sample)
    # 平均を計算
    x_ave = np.average(x_sample)
    # 値を格納
    x_trial[i] = x_ave
    
# サンプル平均の平均・標準偏差を計算
x_trial_ave = np.average(x_trial)
x_trial_std = np.std(x_trial)
print("平均:",x_trial_ave)
print("標準偏差:",x_trial_std)

# 描画
num_bin = 21
plt.hist(x_trial, num_bin,color="k")
plt.xlim([-50000,50000])
plt.show()
%matplotlib inline

### 中心極限定理から母集団の標準偏差を逆推定

In [None]:
import numpy as np
# サンプル集合の平均の標準偏差を推定
sample_std = 553
# サンプル集合の大きさを設定
num_sample = 10
# 母集団の分散を計算
org_std = np.sqrt(num_sample)*sample_std
print("母集団の標準偏差:",org_std)

## 3-9 安価なアメニティに絞り込んだ結果の二年間の被害額の推移に信頼区間を設定しよう

### 宿泊者一人あたりの平均被害額の算出

In [None]:
import pandas as pd
import datetime as dt

# 一日あたりの被害額の平均値を設定
theft_per_day = 2595

# 宿泊データ読み込み
df_info = pd.read_csv("accomodation_info.csv", index_col=0, parse_dates=[0])

# 一日あたりの宿泊者数の抽出
x = df_info.resample('D').count()
df_num = x.iloc[:,0]

# 一ヶ月分の宿泊者数を抽出
target_date = dt.datetime(2018,11,30)
df_num_201811 = df_num[df_num.index <= target_date]
print("一ヶ月の宿泊者数:",sum(df_num_201811))

# 一ヶ月分の宿泊者数から一日あたりの平均宿泊者数を計算
num_per_day = sum(df_num_201811)/len(df_num_201811)
print("一日あたりの平均宿泊者数:",num_per_day)

# 宿泊者一人あたりの平均被害額
theft_per_person = theft_per_day/num_per_day
print("宿泊者一人あたりの平均被害額:",theft_per_person)

### 二年間の被害総額と被害額の推移の推定

In [None]:
import matplotlib.pyplot as plt
# 標準偏差の設定
theft_std_per_day = 1748
theft_std_per_person = theft_std_per_day/num_per_day
print("宿泊者一人あたりの平均被害額の標準偏差:",theft_std_per_person)

# 信頼区間の設定
list_estimated_theft = []
for i in range(len(df_num)):
    temp_ave = df_num.iloc[i]*theft_per_person
    temp_std = df_num.iloc[i]*theft_std_per_person
    temp = [temp_ave-temp_std,temp_ave,temp_ave+temp_std]
    list_estimated_theft.append(temp)

# 描画
plt.boxplot(list_estimated_theft)
plt.xticks(color="None")
plt.show()
%matplotlib inline

## 3-10 二年分のデータによる「答え合わせ」をしてみよう

### データ読み込み

In [None]:
import pandas as pd
df_theft_2y = pd.read_csv("theft_list_2y.csv", index_col=0, parse_dates=[0])
df_theft_2y

### 二年間の全アメニティの被害額の推移

In [None]:
import numpy as np
import matplotlib.pyplot as plt
list_amount = np.zeros(len(df_theft_2y.index))
threshold_price = 10000
for i_index in range(len(df_theft_2y.index)):
    for i_column in range(len(df_theft_2y.columns)):
        list_amount[i_index] += df_theft_2y.iloc[i_index,i_column]*df_amenity_price["金額"].iloc[i_column]
        if (df_theft_2y.iloc[i_index,i_column]>0)and(df_amenity_price["金額"].iloc[i_column]>threshold_price):
            print(df_theft_2y.index[i_index],df_theft_2y.columns[i_column],df_theft_2y.iloc[i_index,i_column],"点",df_theft_2y.iloc[i_index,i_column]*df_amenity_price["金額"].iloc[i_column],"円")
print("被害総額:",sum(list_amount))        
plt.plot(list_amount,color="k")
plt.show()

### 安価なアメニティ

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 安価なアメニティに関するデータの抽出
threshold_price = 10000
df_amenity_price_low = df_amenity_price[df_amenity_price["金額"]<threshold_price]
df_theft_2y_low = df_theft_2y[df_amenity_price[df_amenity_price["金額"]<threshold_price].index]

# 被害額の推移
list_amount = np.zeros(len(df_theft_2y_low.index))
for i_index in range(len(df_theft_2y_low.index)):
    for i_column in range(len(df_theft_2y_low.columns)):
        list_amount[i_index] += df_theft_2y_low.iloc[i_index,i_column]*df_amenity_price_low["金額"].iloc[i_column]
print("被害総額:",sum(list_amount))    
plt.plot(list_amount,color="k")
plt.show()