<a href="https://colab.research.google.com/github/nemiko007/BirdWatching/blob/main/Station6_ipynb_%E3%81%AE%E3%82%B3%E3%83%94%E3%83%BC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

| Version | Published Date| Details |
| -- | -- | -- |
| ver.1.0.0 | 2023/3/29 | 初版リリース |
| ver.1.0.1 | 2023/8/1 | 誤記修正 |

# データ分析の基礎を学ぼう 2

前回までのStationではデータ分析のための強力なツールであるPandasを紹介しました。Station6では，前回紹介したPandasを使いながら基礎的な統計量についても学びます。

Pandasは実際の業務でもよく使う強力なツールです。Pandasの操作だけではなく，並び替えや集計，平均値や中央値といった概念をしっかり身につけていきましょう。



# Irisデータの読み込み

前回と同様に，Irisデータセットを読み込みます。

In [None]:
import pandas as pd

# Irisデータセットを読み込む
iris = pd.read_csv('https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/0e7a9b0a5d22642a06d3d5b9bcbad9890c8ee534/iris.csv')
iris

# データの統計量

データ分析をする際に，ひとつひとつのデータを見たり並び替えたりするだけではわからないことが多くあります。その際によく使うのが **統計量** です。統計量には基本的なものだけでも

- 平均
- 分散
- 標準偏差
- 中央値
- 最頻値
- 最大値
- 最小値
- 分位数

といったものがあり，データの特徴をとらえるのに役立ちます。

## 平均

**平均 (Mean)** はみなさんもよく聞いたことがあるでしょう。平均とは，すべてのデータの値を足してその個数で割ったものです。数式で書くと $n$ 個のデータ $x_1, x_2, …, x_n$ に対して平均 $\bar{x}$ は

$$
\bar{x} = \frac{x_1 + x_2 + … + x_n}{n} = \frac{1}{n} \sum_{i=1}^{n}x_i
$$

のようになります。いきなり $∑$ が出てきました。これは上の式での $x_1 + x_2 + … + x_n$ と同じで， $i$ を $1$ から $n$ まで動かして $x_i$ を足し合わせるよ，という意味です。

Pandasでは `mean()` メソッドを使って求めることができます。

In [None]:
# sepal_length の平均
iris["sepal_length"].mean()

## 分散

**分散 (Variance)** とは，データがどれくらい散らばっているかを表す統計量です。数式で書くと $n$ 個のデータ $x_1, x_2, …, x_n$ に対して分散 $s^2$ は

$$
s^2 = \frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^2
$$

と書けます。ここで $\bar{x}$ は $x$ の平均のことです。直感的には $x$ それぞれに対して平均とのずれを計算して2乗して足し合わせたものです。なぜ2乗しているかというと，2乗しないと平均より大きいものと小さいもので互いに打ち消し合ってしまい，データのばらつきをとらえられないためです。

Pandasでは `var()` メソッドを使って求めることができます。

In [None]:
# sepal_length の分散
iris["sepal_length"].var()

データ分析をする際にとても重要な概念として **平均を過信しない** というものがあります。平均は非常に便利な統計量ですが，それを見るだけではデータの真の特徴を捉えられません。

ここで仮想的に2つのデータを用意します。

In [None]:
list1 = pd.Series([11, 9, 12, 8])
list2 = pd.Series([1, 2, 3, 34])
print("list1: ", list1.mean())
print("list2: ", list2.mean())

どちらのデータも平均が `10.0` になるようにしています。しかしここでそれぞれの分散を調べると

In [None]:
print("list1: ", list1.var())
print("list2: ", list2.var())

このように `list2` の方が非常に大きい値になります。直感的にも `list2` の方がよりばらついていることがわかりますね。

## 標準偏差

このように分散は非常に便利な指標です。しかし2乗を足し合わせているために，どうしても値が大きくなりがちです。そのため実際には分散ではなく **標準偏差 (Standard Deviation)** を用います。

標準偏差は分散の平方根をとったもので，数式で表すと

$$
s = \sqrt{s^2}
$$

となります。

Pandasでは `std()` メソッドを使って求めることができます。

In [None]:
iris["sepal_length"].std()

In [None]:
print("list1: ", list1.std())
print("list2: ", list2.std())

## 中央値

平均や標準偏差と同様に， **中央値 (Median)** も大事な統計量です。中央値とはデータを昇順または降順に並べたとき，ちょうど真ん中に位置する値のことです。分布によっては平均値と中央値は一致する場合もありますが， **平均値と中央値は必ずしも一致しない** ということを覚えておきましょう。

年収や貯金額といったデータはかなりばらつきがあるため，平均ではなく中央値を見ることも非常に大事です。

Pandasでは `median()` メソッドを使って求めることができます。

In [None]:
iris["sepal_length"].median()

## 最頻値・最小値・最大値・分位数

**最頻値 (Mode)** はその名のとおり，最も多く登場する値のことです。**最小値 (Minimum)** ・ **最大値 (Maximum)** については説明は不要でしょう。

**分位数 (Quantile)** は中央値と似た概念で，四分位数がよく用いられます。データの上から25%, 50%, 75%に位置する値のことを示し，第1四分位数，第2四分位数，第3四分位数，第4四分位数と呼びます。第2四分位数は中央値，第4四分位数は最大値と同値です。

# Pandasライブラリ

前回と同様に，Irisデータセットを読み込みます。

## データの並び替え

`DataFrame` の `sort_index()` メソッドを使うと `DataFrame` のインデックスに基づくソートができます。また `sort_values()` メソッドで，任意の列の値に基づくソートができます。列は複数指定が可能です。

いずれのメソッドでも `inplace` 引数を使って，ソートにより新しい `DataFrame` を作成するかどうかを選ぶことができます。 `True` の場合は元の `DataFrame` が変更され `False` の場合は新しい `DataFrame` が作成されます。

In [None]:
# 2つの列に基づいて昇順にソート
sorted_iris = iris.sort_values(['sepal_length', 'sepal_width'])
sorted_iris

Pandas の `sort_values()` では，デフォルトではデータが **昇順 (Ascending)** にソートされます。昇順とは値が小→大となる順番のことです。

降順にソートする場合は `sort_values()` メソッドの `ascending` 引数を `False` にします。

In [None]:
sorted_iris = iris.sort_values(['sepal_length', 'sepal_width'], ascending=False)
sorted_iris

さっきとは逆の順番になりました。

## データの概観

`describe()` メソッドを使うと，統計量を用いて `DataFrame` の概観をつかむことができます。

In [None]:
iris.describe()

`count` はデータの数を数えています。先ほどまでに学んだ統計量が示されていますね。

## データのグループ化

`DataFrame` の `groupby()` メソッドを使うと，データフレームの任意の列の値に基づいて，同じ値を持つ行をグループにまとめることができます。列は複数指定もできます。

`groupby()` メソッドを使うとグループ化オブジェクト `DataFrameGroupBy` が生成され `DataFrame` と同じような操作を多く適用できます。

In [None]:
# species ごとでグループ化
iris.groupby('species')

In [None]:
# グループごと各列の平均
iris.groupby('species').mean()

# 確認テスト

Titanicデータセットを使って，以下の問題に答えてください。

(1) 最も運賃が高かった乗客は何人いましたか？
(2) 乗客に男性は何人いましたか？
(3) 生き残った人のうち，最も年齢が高かった人の乗客番号を教えてください。
(4) 年齢の中央値を答えてください。
(5) 年齢の標準偏差を答えてください。

In [15]:
import pandas as pd

titanic_dataset = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
#sorted_iris = titanic_dataset.sort_values(['Age'], ascending=False)
#sorted_iris[(sorted_iris['Survived'] == 1)]
titanic_dataset["Age"].std()

14.526497332334044