# Confidence interval visualization

The following script demonstrates a random selection of data from a population, drawing a single vertical line that represents a confidence interval with a black dot representing the mean for that selection. This is repeated 100 times, with a red line representing selections that did not include the population mean in within its confidence interval.

In [None]:
import matplotlib
import matplotlib.pyplot as plt

# 日本語フォントを指定
# matplotlib.rcParams['font.family'] = 'Hiragino Sans'
matplotlib.rcParams['font.family'] = 'MS Gothic'

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as stats

In [None]:
def tie(population_mean=50, population_size=100000, sample_size=10, num_samples=1, confidence_coefficient=0.95):
    # パラメータ
    # population_mean = 50  # 母集団の平均
    # population_size = 100000  # 母集団のサイズ
    # sample_size = 10  # サンプルのサイズ
    # num_samples = 100  # サンプルの数
    # confidence_coefficient = 0.95  # 信頼係数

    # 正規分布に従う母集団を生成
    population = np.random.normal(loc=population_mean, size=population_size,scale=10)

    # サンプル平均と信頼区間を格納するための配列を初期化
    sample_means = np.zeros(num_samples)
    confidence_intervals = np.zeros((2, num_samples))

    # グラフの幅を100%に設定
    plt.figure(figsize=(15, 6))

    # サンプルを生成し、サンプル平均と信頼区間を計算
    for i in range(num_samples):
        # 母集団からランダムにサンプルを選択
        sample = np.random.choice(population, size=sample_size)
        
        # サンプルの平均と標準偏差を計算
        sample_mean = np.mean(sample)
        sample_std_dev = np.std(sample)
        
        # サンプル平均を格納
        sample_means[i] = sample_mean
        
        # 平均の標準誤差を計算
        sem = sample_std_dev / np.sqrt(sample_size)
        
        # 自由度を計算
        degrees_of_freedom = sample_size - 1
        
        # 与えられた信頼係数と自由度に対するt値を計算
        t_value = stats.t.ppf((1 + confidence_coefficient) / 2, degrees_of_freedom)
        
        # 信頼区間を計算
        confidence_interval = [sample_mean - t_value * sem, sample_mean + t_value * sem]
        confidence_intervals[:, i] = confidence_interval
        
        # サンプルを垂直線としてプロットし、その中心に平均を表示
        if population_mean < confidence_interval[0] or population_mean > confidence_interval[1]:
            plt.plot([i, i], [confidence_interval[0], confidence_interval[1]], color='red')
        else:
            plt.plot([i, i], [confidence_interval[0], confidence_interval[1]], color='blue')
        plt.plot(i, sample_mean, 'ko')

    # 母集団の平均を水平線としてプロット
    plt.axhline(y=population_mean, color='green', linestyle='--', label='母集団の平均')

    # プロットのラベルとタイトルを設定
    plt.xlabel('サンプルインデックス')
    plt.ylabel('サンプル平均')
    plt.title('信頼区間付きのサンプル平均', fontsize=25,pad=20)

    #　凡例を表示
    plt.legend()

    # グラフを表示
    plt.show()

In [None]:
tie(num_samples=1,confidence_coefficient=0.95)