# 第3章 信頼区間

---
[Google Colaboratoryで開く](https://colab.research.google.com/github/202408pythonciot/Statistics/blob/main/_Textbook/Lesson_03/Colaboratory/Lesson_03.ipynb)

<a target="_blank" href="https://colab.research.google.com/github/202408pythonciot/Statistics/blob/main/_Textbook/Lesson_03/Colaboratory/Lesson_03.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

---
この章では，上海飯店と四川飯店の麻婆豆腐に入っている豆腐の個数を標本抽出から推定します。


## 事前準備
matplotlibの日本語化とサンプルデータのダウンロード，必要なライブラリのインポートを行います。

In [1]:
# matplotlibの日本語化
!pip install japanize-matplotlib

# math pandas matplotlibのライブラリのインポート
import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib
import math

# 標本データのダウンロード
!wget https://raw.githubusercontent.com/202408pythonciot/Statistics/refs/heads/main/_Textbook/Lesson_03/Sample_Data/shanghai_tofu.csv -O shanghai_tofu.csv
!wget https://raw.githubusercontent.com/202408pythonciot/Statistics/refs/heads/main/_Textbook/Lesson_03/Sample_Data/shisen_tofu.csv -O shisen_tofu.csv


Collecting japanize-matplotlib
  Downloading japanize-matplotlib-1.1.3.tar.gz (4.1 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/4.1 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/4.1 MB[0m [31m40.9 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m4.1/4.1 MB[0m [31m65.8 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.1/4.1 MB[0m [31m43.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: japanize-matplotlib
  Building wheel for japanize-matplotlib (setup.py) ... [?25l[?25hdone
  Created wheel for japanize-matplotlib: filename=japanize_matplotlib-1.1.3-py3-none-any.whl size=4120257 sha256=57965b1c86a8a9ef341de634ce7bbdf9694d4bfe983118cdb809c30ec4202c34
  Stored in directory: /root/.cache/pip/wheels

## 用語
- 母集団：本来知りたいと思っている数値や属性などを共有する集合全体
- 抽出：母集団からデータを取り出すこと
- 標本：母集団の情報を推測するため，母集団から取り出されたデータ群（母集団と共通の属性をもつ母集団の真部分集合）
- 標本抽出：母集団から標本を取り出すこと
- 無作為抽出（ランダムサンプリング）：標本抽出のとき，人為的な操作を加えずに選ぶこと
- 標本の大きさ（サンプルサイズ）：標本のデータ数

# 標本と母集団の関係


### データ読み込み
事前準備でダウンロードした上海飯店と四川飯店の標本データ(csvファイル)をpandasに読み込みます。


In [2]:
shanghai_tofu = pd.read_csv("./shanghai_tofu.csv")
shisen_tofu = pd.read_csv("./shisen_tofu.csv")

上海飯店の標本データ

In [3]:
shanghai_tofu.T # 行列を転置して表示

Unnamed: 0,0,1,2,3,4,5,6,7
No,1,2,3,4,5,6,7,8
個数,30,28,33,32,28,38,28,30


四川飯店の標本データ

In [4]:
shisen_tofu.T # 行列を転置して表示

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
No,1,2,3,4,5,6,7,8,9,10
個数,34,36,34,35,33,35,36,35,33,36


## 不偏分散を求める

### 不偏分散の定義通りに求める
上海飯店の標本データをもとに，標本平均，標準偏差，不偏分散を求めます。

In [5]:
# 標本平均を求める
counter = 0
for data in shanghai_tofu['個数']:
  counter = counter + data
mean = counter/len(shanghai_tofu['個数'])
print(f'上海飯店の豆腐の個数の標本平均：{mean}')

# 平均からの差，平均からの差の2乗を求める
diffs = []
for data in shanghai_tofu['個数']:
  diffs.append(data - mean)

shanghai_tofu['平均からの差'] = list(diffs)
shanghai_tofu['平均からの差の2乗'] = list(map(lambda x: x**2, diffs))

mean_pow_2 = sum(shanghai_tofu['平均からの差の2乗'])
varp = mean_pow_2/len(shanghai_tofu['平均からの差の2乗'])
stdp = math.sqrt(varp)
var =  mean_pow_2/(len(shanghai_tofu['平均からの差の2乗']) - 1)
print(f'2乗の平均：{mean_pow_2}')
print(f'分散：{varp}')
print(f'標準偏差：{stdp}')
print(f'不偏分散：{var}')


上海飯店の豆腐の個数の標本平均：30.875
2乗の平均：82.875
分散：10.359375
標準偏差：3.2185982973959333
不偏分散：11.839285714285714


### pandasで求める

In [6]:
print('上海飯店の不偏分散：', shanghai_tofu['個数'].var())
print('四川飯店の不偏分散：', shisen_tofu['個数'].std())

上海飯店の不偏分散： 11.839285714285714
四川飯店の不偏分散： 1.1595018087284057
