| Version | Published Date| Details | 
| -- | -- | -- |
| ver.1.0.0 | 2023/3/29 | 初版リリース |

# データ分析の基礎を学ぼう 2

前回までのStationではデータ分析のための強力なツールであるPandasを紹介しました。Station6では，前回紹介したPandasを使いながら基礎的な統計量についても学びます。

Pandasは実際の業務でもよく使う強力なツールです。Pandasの操作だけではなく，並び替えや集計，平均値や中央値といった概念をしっかり身につけていきましょう。



# Irisデータの読み込み

前回と同様に，Irisデータセットを読み込みます。

In [None]:
import pandas as pd

# Irisデータセットを読み込む
iris = pd.read_csv('https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/0e7a9b0a5d22642a06d3d5b9bcbad9890c8ee534/iris.csv')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


# データの統計量

データ分析をする際に，ひとつひとつのデータを見たり並び替えたりするだけではわからないことが多くあります。その際によく使うのが **統計量** です。統計量には基本的なものだけでも

- 平均
- 分散
- 標準偏差
- 中央値
- 最頻値
- 最大値
- 最小値
- 分位数

といったものがあり，データの特徴をとらえるのに役立ちます。

## 平均

**平均 (Mean)** はみなさんもよく聞いたことがあるでしょう。平均とは，すべてのデータの値を足してその個数で割ったものです。数式で書くと $n$ 個のデータ $x_1, x_2, …, x_n$ に対して平均 $\bar{x}$ は

$$
\bar{x} = \frac{x_1 + x_2 + … + x_n}{n} = \frac{1}{n} \sum_{i=1}^{n}x_i
$$

のようになります。いきなり $∑$ が出てきました。これは上の式での $x_1 + x_2 + … + x_n$ と同じで， $i$ を $1$ から $n$ まで動かして $x_i$ を足し合わせるよ，という意味です。

Pandasでは `mean()` メソッドを使って求めることができます。

In [None]:
# sepal_length の平均
iris["sepal_length"].mean()

5.843333333333334

## 分散

**分散 (Variance)** とは，データがどれくらい散らばっているかを表す統計量です。数式で書くと $n$ 個のデータ $x_1, x_2, …, x_n$ に対して分散 $s^2$ は

$$
s^2 = \frac{1}{n} \sum_{i=1}^{n}(x_i - \bar{x})^2
$$

と書けます。ここで $\bar{x}$ は $x$ の平均のことです。直感的には $x$ それぞれに対して平均とのずれを計算して2乗して足し合わせたものです。なぜ2乗しているかというと，2乗しないと平均より大きいものと小さいもので互いに打ち消し合ってしまい，データのばらつきをとらえられないためです。

Pandasでは `var()` メソッドを使って求めることができます。

In [None]:
# sepal_length の分散
iris["sepal_length"].var()

0.6856935123042507

データ分析をする際にとても重要な概念として **平均を過信しない** というものがあります。平均は非常に便利な統計量ですが，それを見るだけではデータの真の特徴を捉えられません。

ここで仮想的に2つのデータを用意します。

In [None]:
list1 = pd.Series([11, 9, 12, 8])
list2 = pd.Series([1, 2, 3, 34])
print("list1: ", list1.mean())
print("list2: ", list2.mean())

list1:  10.0
list2:  10.0


どちらのデータも平均が `10.0` になるようにしています。しかしここでそれぞれの分散を調べると

In [None]:
print("list1: ", list1.var())
print("list2: ", list2.var())

list1:  3.3333333333333335
list2:  256.6666666666667


このように `list2` の方が非常に大きい値になります。直感的にも `list2` の方がよりばらついていることがわかりますね。

## 標準偏差

このように分散は非常に便利な指標です。しかし2乗を足し合わせているために，どうしても値が大きくなりがちです。そのため実際には分散ではなく **標準偏差 (Standard Deviation)** を用います。

標準偏差は分散の平方根をとったもので，数式で表すと

$$
s = \sqrt{s^2}
$$

となります。

Pandasでは `std()` メソッドを使って求めることができます。

In [None]:
iris["sepal_length"].std()

0.828066127977863

In [None]:
print("list1: ", list1.std())
print("list2: ", list2.std())

list1:  1.8257418583505538
list2:  16.020819787597222


## 中央値

平均や標準偏差と同様に， **中央値 (Median)** も大事な統計量です。中央値とはデータを昇順または降順に並べたとき，ちょうど真ん中に位置する値のことです。分布によっては平均値と中央値は一致する場合もありますが， **平均値と中央値は必ずしも一致しない** ということを覚えておきましょう。

年収や貯金額といったデータはかなりばらつきがあるため，平均ではなく中央値を見ることも非常に大事です。

Pandasでは `median()` メソッドを使って求めることができます。

In [None]:
iris["sepal_length"].median()

5.8

## 最頻値・最小値・最大値・分位数

**最頻値 (Mode)** はその名のとおり，最も多く登場する値のことです。**最小値 (Minimum)** ・ **最大値 (Maximum)** については説明は不要でしょう。

**分位数 (Quantile)** は中央値と似た概念で，四分位数がよく用いられます。データの上から25%, 50%, 75%に位置する値のことを示し，第1四分位数，第2四分位数，第3四分位数，第4四分位数と呼びます。第2四分位数は中央値，第4四分位数は最大値と同値です。

# Pandasライブラリ

前回と同様に，Irisデータセットを読み込みます。

## データの並び替え

`DataFrame` の `sort_index()` メソッドを使うと `DataFrame` のインデックスに基づくソートができます。また `sort_values()` メソッドで，任意の列の値に基づくソートができます。列は複数指定が可能です。

いずれのメソッドでも `inplace` 引数を使って，ソートにより新しい `DataFrame` を作成するかどうかを選ぶことができます。 `True` の場合は元の `DataFrame` が変更され `False` の場合は新しい `DataFrame` が作成されます。

In [None]:
# 2つの列に基づいて昇順にソート
sorted_iris = iris.sort_values(['sepal_length', 'sepal_width'])
sorted_iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
13,4.3,3.0,1.1,0.1,setosa
8,4.4,2.9,1.4,0.2,setosa
38,4.4,3.0,1.3,0.2,setosa
42,4.4,3.2,1.3,0.2,setosa
41,4.5,2.3,1.3,0.3,setosa
...,...,...,...,...,...
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
135,7.7,3.0,6.1,2.3,virginica
117,7.7,3.8,6.7,2.2,virginica


Pandas の `sort_values()` では，デフォルトではデータが **昇順 (Ascending)** にソートされます。昇順とは値が大→小となる順番のことです。

降順にソートする場合は `sort_values()` メソッドの `ascending` 引数を `False` にします。

In [None]:
sorted_iris = iris.sort_values(['sepal_length', 'sepal_width'], ascending=False)
sorted_iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
131,7.9,3.8,6.4,2.0,virginica
117,7.7,3.8,6.7,2.2,virginica
135,7.7,3.0,6.1,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
118,7.7,2.6,6.9,2.3,virginica
...,...,...,...,...,...
41,4.5,2.3,1.3,0.3,setosa
42,4.4,3.2,1.3,0.2,setosa
38,4.4,3.0,1.3,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa


さっきとは逆の順番になりました。

## データの概観

`describe()` メソッドを使うと，統計量を用いて `DataFrame` の概観をつかむことができます。

In [None]:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


`count` はデータの数を数えています。先ほどまでに学んだ統計量が示されていますね。

## データのグループ化

`DataFrame` の `groupby()` メソッドを使うと，データフレームの任意の列の値に基づいて，同じ値を持つ行をグループにまとめることができます。列は複数指定もできます。

`groupby()` メソッドを使うとグループ化オブジェクト `DataFrameGroupBy` が生成され `DataFrame` と同じような操作を多く適用できます。

In [None]:
# species ごとでグループ化
iris.groupby('species')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fa49e94e430>

In [None]:
# グループごと各列の平均
iris.groupby('species').mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.418,1.464,0.244
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


# 確認テスト

Titanicデータセットを使って，以下の問題に答えてください。

(1) 最も運賃が高かった乗客は何人いましたか？

(2) 乗客に男性は何人いましたか？

(3) 生き残った人のうち，最も年齢が高かった人の乗客番号を教えてください。

(4) 年齢の中央値を答えてください。

(5) 年齢の標準偏差を答えてください。(小数第一位までを入力してください）

In [None]:
import pandas as pd

titanic_dataset = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")

In [None]:
print(titanic_dataset.describe())

       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842    0.486592    0.836071   14.526497    1.102743   
min       1.000000    0.000000    1.000000    0.420000    0.000000   
25%     223.500000    0.000000    2.000000   20.125000    0.000000   
50%     446.000000    0.000000    3.000000   28.000000    0.000000   
75%     668.500000    1.000000    3.000000   38.000000    1.000000   
max     891.000000    1.000000    3.000000   80.000000    8.000000   

            Parch        Fare  
count  891.000000  891.000000  
mean     0.381594   32.204208  
std      0.806057   49.693429  
min      0.000000    0.000000  
25%      0.000000    7.910400  
50%      0.000000   14.454200  
75%      0.000000   31.000000  
max      6.000000  512.329200  


In [None]:
print(titanic_dataset[titanic_dataset["Fare"]==512.3292])

     PassengerId  Survived  Pclass                                Name  \
258          259         1       1                    Ward, Miss. Anna   
679          680         1       1  Cardeza, Mr. Thomas Drake Martinez   
737          738         1       1              Lesurer, Mr. Gustave J   

        Sex   Age  SibSp  Parch    Ticket      Fare        Cabin Embarked  
258  female  35.0      0      0  PC 17755  512.3292          NaN        C  
679    male  36.0      0      1  PC 17755  512.3292  B51 B53 B55        C  
737    male  35.0      0      0  PC 17755  512.3292         B101        C  


In [None]:
print(titanic_dataset[titanic_dataset["Sex"]=="male"].shape)

(577, 12)


In [None]:
print(titanic_dataset[titanic_dataset["Survived"]==1].shape)

(342, 12)


In [None]:
Survived_df = titanic_dataset[titanic_dataset["Survived"]==1]

In [None]:
sort_survived = Survived_df.sort_values(["Age"],ascending=False)

In [None]:
sort_survived

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
483,484,1,3,"Turkula, Mrs. (Hedwig)",female,63.0,0,0,4134,9.5875,,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0000,B28,
570,571,1,2,"Harris, Mr. George",male,62.0,0,0,S.W./PP 752,10.5000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
727,728,1,3,"Mannion, Miss. Margareth",female,,0,0,36866,7.7375,,Q
740,741,1,1,"Hawksford, Mr. Walter James",male,,0,0,16988,30.0000,D45,S
828,829,1,3,"McCormack, Mr. Thomas Joseph",male,,0,0,367228,7.7500,,Q
839,840,1,1,"Marechal, Mr. Pierre",male,,0,0,11774,29.7000,C47,C
