<a href="https://colab.research.google.com/github/nemiko007/BirdWatching/blob/main/Station5_ipynb_%E3%81%AE%E3%82%B3%E3%83%94%E3%83%BC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

| Version | Published Date| Details |
| -- | -- | -- |
| ver.1.0.0 | 2023/3/29 | 初版リリース |
| ver.1.0.1 | 2023/8/1 | 誤記修正 |

# データ分析の基礎を学ぼう

ここまでのStationでは主に基本的なPythonの操作やプログラミングの概念について学んできました。Station5からは，ついに実際のデータ分析に入門します。今まで学んできたことをフル活用して，データ分析という新たな概念を着実に身に着けていきましょう。

Station5ではPythonでデータ分析をするための強力なツールであるPandasの操作を中心に学びます。ここからも新たな概念がたくさん登場しますが，前回までのStationを振り返ることも通してしっかり学習していきましょう。

# モジュール

Pythonには特別な関数や値をまとめた **モジュール (Module)** があります。Station4で学んだ関数や，今回のStationでは出てこないクラスを読み込むことができます。これを使うためには `import` という文を使います。モジュールを使うには

```
import モジュール名
```

という形で呼び出します。モジュール名に `'` や `"` は必要ありません。

たとえば，数学関係の機能をまとめた `math` モジュールがあります。これらの関数や値をプログラムの中で使いたいときは，以下のようにします。

In [None]:
import math                 # import文はセルの最上部に書くことが多い
math.sqrt(2)

このように `math` モジュールを `import` で **インポート** します。すると `math.関数名` という形で関数を用いることができます。
`math.sqrt` は2の平方根 $\sqrt{2}$ を計算する関数です。その他にも以下のような関数があります。

それぞれ $\pi$ , $\sin{\pi}$ , $\cos{0}$ , $\log_{10}100$ を計算します。一度セルで読み込んだモジュールは毎回読み込まなくても読み込むことができます。

In [None]:
print(math.pi)              # πの値
print(math.sin(math.pi))    # sin関数
print(math.cos(0))          # cos関数
print(math.log(100, 10))    # 10を底とする100の対数

ここで注意点として，モジュールの中の関数を使う場合は `モジュール名.モジュールの中の関数名` とする必要があることを覚えておきましょう。また複数の関数名をカンマ `,` で区切って並べ，同時にインポートすることもできます。

## `from` でのインポート

モジュール内で定義されている関数を「モジュールの中の関数名」のようにし `モジュール名.` をつけずに使いたい場合があります。その場合は `from` を使い，

```
from モジュール名 import モジュールの中の関数名
```

というように書きます。

In [None]:
from math import sqrt
sqrt(2)

In [None]:
from math import sin, cos, log
print(sin(math.pi))    # sin関数
print(cos(0))          # cos関数
print(log(100, 10))    # 10を底とする100の対数

関数の頭に `math` をつけなくても読み込めることが確認できましたか？

## `as` でのインポート

モジュール名が長すぎるなどの理由から別の名前で読み込みたい場合があります。そういった場合は `as` を利用して別の名前にする場合もあります。

PythonにはNumPyという数値計算のためのライブラリがあります。このライブラリは `numpy` モジュールとして提供されていますが，以下のように `np` と略称で使う場合が多いです。

In [None]:
import numpy
numpy.ones((3, 5))     # 3×5の行列を表示

今回は例示のために使用したため，NumPyの詳しい動作について覚える必要はありません。以下のようにより短い名称で同じ関数を利用できます。

In [None]:
import numpy as np
np.ones((3, 5))     # 同じことをより短いモジュール名で行う

それぞれの関数ごとに別の名前をつけることもできます。 `math.factorial` は階乗 $!$ を計算する関数です。

In [None]:
from math import factorial as fact
fact(6)

# Pandasライブラリ

[Pandas](https://pandas.pydata.org/) はPythonでのデータ分析を支援するためのライブラリです。Pandasの名前の由来は Pan(el)-Da(tas)だそうです。

pandasを使うには，まず `pandas` モジュールをインポートします。慣例的にはこれを `pd` と別名をつけて使用します。データの生成に用いるため，ここでは `numpy` もインポートしておきます。

In [None]:
import pandas as pd
import numpy as np

## `Series` と `DataFrame`

`pandas` はリスト，配列や辞書といったデータ構造を **シリーズ (Series)** または **データフレーム (DataFrame)** のオブジェクトとして保持します。`Series` は単一の列， `DataFrame` は複数の列で構成されます。

行は **インデックス (Index)** で管理され，インデックスには `0` からはじまる番号や任意のラベルが付けられています。

## `Series` の作成

`Series` のオブジェクトは，以下のようにリスト，NumPy配列，辞書から生成できます。`np.random.rand(3)` では0以上1以下のランダムな浮動小数点を3つ生成しています。

In [None]:
# リストからシリーズの作成
s1 = pd.Series([0, 1, 2])
s1

In [None]:
# 配列からシリーズの作成
s2 = pd.Series(np.random.rand(3))
s2

In [None]:
s3 = pd.Series({0: 'boo', 1: 'foo', 2: 'woo'})
s3

これ以降は， `Series` より一般的な `DataFrame` の操作と機能について説明していきます。しかし `DataFrame` に対する操作や機能の多くは `Series` にも適用できます。

## `DataFrame` の作成

`DataFrame` のオブジェクトも同じように，リスト，Numpy配列，辞書から生成できます。行のラベルは `DataFrame` を作るときに `index` の引数で指定できます。 `d2` と `d3` では同じインデックスを省略しているため， `0` から始めるインデックス番号がラベルとして行に自動的に付与されます。

列のラベルは `columns` 引数で指定します。辞書から `DataFrame` を作成するときは `columns` 引数で列の順番を指定します。`np.random.rand(12)` で要素数12のランダムな配列を作成し `reshape(4, 3)` で 4×3の行列に変換しています。ランダムな値は実行するたびに変わります。

In [None]:
# 多次元リストからデータフレームの作成
d1 = pd.DataFrame([[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]], index=[12, 13, 14 ,15], columns=['c1', 'c2', 'c3'])
d1

In [None]:
# 多次元のNumpy配列からのデータフレームの作成
d2 = pd.DataFrame(np.random.rand(12).reshape(4, 3), columns=['c1','c2','c3'])
d2

In [None]:
# 辞書からデータフレームの作成
d3 = pd.DataFrame({'Initial': ['B', 'F', 'W'], 'Name': ['boo', 'foo', 'woo']}, columns=['Name', 'Initial'])
d3

## CSVファイルからの `DataFrame` の作成

`DataFrame` の作成方法についていくつか紹介しましたが，実際には `read_csv` 関数を用いてCSVファイルを読み込んで分析をすることが多いです。CSVファイルとは Comma Separated Value の略で，カンマ `,` で区切られた表形式のファイルのことです。

### Iris データセット

Irisデータセットはアヤメの花の形状についてのデータセットです。インターネット上にはこういったデータセットが [無料で公開](https://code.datasciencedojo.com/datasciencedojo/datasets) されています。自分でデータを集めなくても実世界のデータを使ってデータ分析や機械学習を行うことができ，非常に便利です。

In [None]:
# Irisデータセットを読み込む
iris = pd.read_csv('https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/0e7a9b0a5d22642a06d3d5b9bcbad9890c8ee534/iris.csv')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


`read_csv` を使ってインターネット上のIrisデータセットを読み込めました。今回はURLを直接叩いてCSVファイルを読み込んでいますが，実際のファイルを読み込むこともできます。

Irisデータセットにはこのようにアヤメの種類 (species) と花弁 (petal)・がく片 (sepal) の長さ (length) と幅 (width) のデータが含まれています。`head()` メソッドを使うと以下のように先頭の複数行を表示させることができます。

In [None]:
iris.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


`DataFrame` の `index` 属性により、`DataFrame` のインデックスの情報が確認できます。 `len()` 関数を用いると、データフレームの行数が取得できます。

In [None]:
iris.index

RangeIndex(start=0, stop=150, step=1)

In [None]:
len(iris.index)

## データの参照

`Series` や `DataFrame` では，行の位置 (配列と同じように `0` から始まります) を **スライス** として指定することで，任意の行を抽出できます。スライスについては Station2 でも学びました。

In [None]:
# 先頭5件のデータ
iris[:5]

In [None]:
# 末尾5件のデータ
iris[-5:]

`DataFrame` から任意の列を抽出するには `DataFrame.列名` のように `DataFrame` に `.` で列名をつなげることで，その列を指定して `Series` として抽出することができます。列名を文字列として `DataFrame['列名']` のように添字指定することもできます。

In [None]:
iris.species.head(5)

In [None]:
iris['species'].head(5)

`DataFrame` の添字として列名のリストを指定し，複数の列を `DataFrame` として抽出することができます。

In [None]:
# DataFrame の 'sepal_length' と 'species' の列の先頭5行のデータ
iris[['sepal_length', 'species']].head(5)

## `iloc` と `loc`

`DataFrame` の `iloc` を用いると，行と列の位置を指定して，任意の行と列を取り出せます。

In [None]:
# DataFrameの2行目のデータ
iris.iloc[1]

In [None]:
# DataFrameの2行, 2列目のデータ
iris.iloc[1, 1]

In [None]:
# DataFrameの1から5行目と1から2列目のデータ
iris.iloc[0:5, 0:2]

`DataFrame` の `loc` を用いると，抽出したい行のインデックス・ラベルや列のラベルを指定して任意の行と列を抽出できます。複数のラベルはリストで指定します。行のインデックスは各行に割り当てられた番号で `iloc` で指定する行の位置とは必ずしも一致しないことに注意しましょう。

In [None]:
# DataFrameの行インデックス5のデータ
iris.loc[5]

In [None]:
# DataFrameの行インデックス5と'sepal_length'列のデータ
iris.loc[5, 'sepal_length']

In [None]:
# DataFrameの行インデックス1から5と'sepal_length'とspecies'の列のデータ
iris.loc[1:5, ['sepal_length','species']]

## データの条件取り出し

`DataFrame` の列の指定とあわせて条件を指定することで，条件にあった行からなる `DataFrame` を抽出できます。Pandasの条件式のブール演算では， `and` , `or` , `not` の代わりに `&` , `|` , `~` を用います。抽出された `DataFrame` のインデックスの値が飛び飛びになっているのを確認しましょう。

In [None]:
# 'sepal_length' 列の値が7より大きく、'sepal_width'列の値が3より小さいデータ
iris[(iris['sepal_length'] > 7.0) & (iris['sepal_width'] < 3.0)]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
107,7.3,2.9,6.3,1.8,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
130,7.4,2.8,6.1,1.9,virginica


## 列の追加と削除

`DataFrame` に列を追加する場合は，以下のように追加したい新たな列名を指定し，値を代入します。

In [None]:
# DataFrame に'mycolumn'という列を追加
iris['newcolumn'] = np.random.rand(len(iris))
iris.head(10)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,newcolumn
0,5.1,3.5,1.4,0.2,setosa,0.49169
1,4.9,3.0,1.4,0.2,setosa,0.399285
2,4.7,3.2,1.3,0.2,setosa,0.158761
3,4.6,3.1,1.5,0.2,setosa,0.771661
4,5.0,3.6,1.4,0.2,setosa,0.279945
5,5.4,3.9,1.7,0.4,setosa,0.923767
6,4.6,3.4,1.4,0.3,setosa,0.251754
7,5.0,3.4,1.5,0.2,setosa,0.924911
8,4.4,2.9,1.4,0.2,setosa,0.97439
9,4.9,3.1,1.5,0.1,setosa,0.106907


`del` 文を使うと `DataFrame` から任意の列を削除できます。

In [None]:
# DataFrameから `newcolumn` 列を削除
del iris['newcolumn']
iris.head(10)

`assign()` メソッドを用いると、追加したい列名とその値を指定することで、以下のように新たな列を追加したデータフレームを新たに作成できます。このとき、元のデータフレームは変更されません。

In [None]:
# DataFrame に 'supercolumn' という列を追加し新しい DataFrame を作成
myiris2 = iris.assign(supercolumn=np.random.rand(len(iris)))
myiris2.head(5)

`drop()` メソッドを用いて，削除したい列名を指定します。すると以下のように任意の列を削除した `DataFrame` を新たに作成できます。列を削除する場合は `axis` 引数に `columns` を指定します。この際、元のデータフレームは変更されないことに注意してください。

In [None]:
# DataFrameから 'supercolumn' という列を削除し，新しい DataFrame を作成
myiris3 = myiris2.drop('supercolumn', axis='columns')
myiris3.head(5)

## 行の追加と削除

`append()` メソッドを使うと，`DataFrame` に新たな行を追加できます。以下では `DataFrame` の最終行に新たな行を追加します。 `ignore_index` 引数を `True` に指定すると，追加した行に新たなインデックスが付与されます。

In [None]:
# 追加する行の DataFrame
new_row = pd.DataFrame([[1, 1 , 1, 1, 'setosa']], columns=iris.columns)

# DataFrame に行を追加し新しい DataFrame を作成
myiris4 = pd.concat([iris, new_row], ignore_index=True)
myiris4[-2:]

`drop()` メソッドを使うと，行のインデックスまたはラベルを指定することで行を削除できます。このときに `axis` 引数は省略できますが，可読性を高めるために `rows` を指定するとよいでしょう。

In [None]:
# データフレームから行インデックス150の行を削除し、新しいデータフレームを作成
myiris4 = myiris4.drop(150)
myiris4[-2:]

# 確認テスト

Irisデータと同じように公開されているデータセットとしてTitanicデータセットがあります。Titanicデータセットはタイタニック号の乗客名簿で，チケットの等級 (Pclass) や名前 (Name)，性別 (Sex)，年齢 (Age) が含まれています。

以下の問題に答えてください。

(1) 年齢が70歳以上の乗客は何人いましたか。
(2) 年齢が2歳未満の男の子は何人いましたか。
(3) 777列目の乗客の運賃 (Fare) はいくらでしたか。列の数は0からはじまっていることに注意しましょう。

In [10]:
import pandas as pd

titanic_dataset = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")
titanic_dataset.iloc[776]

Unnamed: 0,776
PassengerId,777
Survived,0
Pclass,3
Name,"Tobin, Mr. Roger"
Sex,male
Age,
SibSp,0
Parch,0
Ticket,383121
Fare,7.75
