# Google Colab

- Googleの提供する機械学習プラットフォーム
- Pythonを使ってコードを実行できる
- 機械学習の様々なライブラリが用意されている

## Google Colabの使い方

- Ctrl - Enter キーでコードブロックを実行できる
- Ctrl - m, b キーで、後ろにコードブロックを追加できる
- Ctrl - m, a キーで、前にコードブロックを追加できる

> かじょうがき（箇条書き）で、短い文章を書けるようになると、仕事に役立ちます

## Makdown

- 簡易な表記でHTMLコードを生成できる
- たとえば `#` は `<h1>` タグに置き換わる
- `-` は箇条書き`<ul>, <li>`を作成する

> Google ColabはMarkdownフォーマットをサポートしています


In [None]:
# 平均を計算するコード : 70
scores = [70, 90, 50, 80, 60]

# 平均値を出力してください
total = 0
for score in scores:
  total += score

# mean: 平均という意味
mean = total / len(scores)
# print(mean)
# 最後の1行は変数を書くと、その値が出力される
mean

70.0

In [None]:
# 平均を求める関数 my_mean を定義してください
def my_mean(my_list):
  total = 0
  for score in scores:
    total += score
  mean = total / len(scores)
  return mean

# scores変数を再利用している
mean = my_mean(scores)
mean


70.0

## 平均

- データの中心（重心）を示す値

$$
Mean = \frac{1}{n}  \sum_{i = 1}^n x_i
$$

> LaTeX（ラテフ） という表記法で数式を記述しています

## 分散（Variance）

- データのばらつきを示す値
- 平均と各値の差（2乗した平均）を数値化したもの

$$
Variance = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2
$$

### 例：

- scores = [70, 90, 50, 80, 60]
- 平均：70
- ((70 - 70)^2 + (90 - 70)^2 + (50 - 70)^2 + (80 - 70)^2 + (60 - 70)^2) / 5
- 分散：200


### 分散を理解するポイント

- scores1 = [70, 90, 50, 80, 60]
  - 平均：70
  - 平均点から離れた人もいる
  - 分散：200

- scores2 = [70, 80, 60, 75, 65]
  - 平均：70
  - 平均点のまわりにみんな集まっている
  - 分散：200よりも小さい（仮説）

In [None]:
# 分散を計算するコード
scores = [70, 90, 50, 80, 60]
scores_mean = my_mean(scores) # 70

total = 0
for score in scores:
  total += (score - scores_mean) ** 2
variance = total / len(scores)
variance

200.0

In [None]:
# 分散を求める関数 my_variance を定義します
def my_variance(my_list):
  mean = my_mean(my_list)
  total = 0
  for elem in my_list:
    total += (elem - mean) ** 2
  variance = total / len(my_list)
  return variance

my_variance(scores)

200.0

In [None]:
scores2 = [70, 80, 60, 75, 65]
my_variance(scores2)

50.0

## 標準偏差（Standard Deviation）

- 分散と同じく、データのばらつきを示す値
- 分散は、計算過程で2乗しているので、数値の意味が理解しにくい（単位が変わってしまう）
- 標準偏差は、分散の平方根（√した値」）である

$$
STD = \sqrt{Variance}
$$

### 例：

- 分散：200
- 標準偏差：14.14

In [None]:
variance = my_variance(scores)
std = variance ** 0.5
std

14.142135623730951

In [None]:
variance2 = my_variance(scores2)
std2 = variance2 ** 0.5
std2

7.0710678118654755

## 平均・分散・標準偏差まとめ

- scores1, score2は平均だけ見ると同じである
- しかし、scores1, score2の分散は異なる（ばらつき具合は異なる）
- 分散は直感的な値でないので、標準偏差を見ると理解しやすい

|         | scores1 | scores2 |
| :--     | --:     | --:     |
|平均     |   70    | 70      |
|分散     |   200   | 50      |
|標準偏差 |   14    |  7      |

### 補足

- 直感的な理解としては、70 +- 14 と解釈してよい ※scores1の場合
- 厳密に説明する場合は、データが正規分布に従う場合、以下の説明ができる
  - 平均 +- 1STD の間にデータの約68%が集まる
  - 平均 +- 2STD の間にデータの約95%が集まる
  - 平均 +- 3STD の間にデータの約99%が集まる

- 例：正規分布している場合
  - 70 +- 14 の間にデータの約68%が集まる
  - 70 +- 28 の間にデータの約95%が集まる
  - 70 +- 42 の間にデータの約99%が集まる