## モジュールとは

たくさんの機能をたくさん集めたもの。

手に持てば魔法が使えるようになる魔導書のようなもの。魔法をPythonに置き換えるなら，

- 魔導書 = モジュール
- 魔導書を手に取る = インポート
- 魔法 = モジュール内の便利な機能たち

モジュールは再現なくあるので，その場その場で必要なものをインポートして使えるようにする。


## モジュールの例: math

数学的なことをしたいときに便利なモジュール

In [2]:
import math

In [3]:
# math. とタイプすると，math モジュール内にあるものがリストされる
# だいたいは関数です


math モジュールの関数をいくつか紹介する。

In [4]:
# 切り下げ
math.floor(3.14)

3

In [5]:
# 切り下げ
math.ceil(3.14)

4

In [6]:
# log 底を指定する
math.log(16, 4)

2.0

In [7]:
# log 低を指定しなければ自然対数
math.log(2.7183)

1.0000066849139877

In [8]:
# log 底2
math.log2(64)

6.0

In [9]:
# 累乗
math.pow(5, 3)

125.0

「log2 を何度も使用するから，毎回 math.log2 と入力するのも大変だしコードも長くなってしまうなあ」といったことを思うことは多々ある

そういうときは...

In [10]:
from math import log2
# math モジュールから log2 のみをインポートする

In [11]:
log2(2048)  # math. が要らなくなった！

11.0

# pandas 

行データ，行列データの操作全般を行うことができるモジュール

これを使い倒せるようになるのが，全3回の最終目標！！！

In [12]:
import pandas as pd  # as を使うと，短い名前でそのモジュールを使える

## 行データ: Series

pandas では，行データは Series という名前で扱う

行データは，並んだ一本のデータなので，リスト型に似ている。

In [13]:
from pandas import Series

In [14]:
# define
ser = Series([3, 9, 27, 81])

# show
ser

0     3
1     9
2    27
3    81
dtype: int64

データの左についている 0, 1, 2, 3 の列をインデックスという。データの識別子だと思えばOK。

インデックスは，何も指定しない場合，0から始まる順列が割り振られる。

インデックスは好きな値を設定することができる。

In [15]:
# WW2 casualities
ww2_casualities = Series(
    [2100000, 3000000, 4400000, 8700000, 400000],
    index= ['Japan', 'China', 'Germany', 'USSR', 'US']
)

ww2_casualities

Japan      2100000
China      3000000
Germany    4400000
USSR       8700000
US          400000
dtype: int64

In [16]:
# 参照
ww2_casualities['Japan']

2100000

In [17]:
# Python 的インデックス参照
ww2_casualities[0]

2100000

In [18]:
# インデックスがごちゃごちゃの場合
ser = Series([3, 9, 27, 81], index=[2,1,0,3])

ser

2     3
1     9
0    27
3    81
dtype: int64

In [19]:
# Python的インデックスと，pandas のインデックスの優先順位は？
ser[0]

27

In [20]:
# 条件で指定できる
ww2_casualities[ww2_casualities > 3000000]

Germany    4400000
USSR       8700000
dtype: int64

In [21]:
# インデックスの存在確認

'USSR' in ww2_casualities

True

### Series の定義方法

In [22]:
# さっきの(再掲)

ww2_casualities = Series(
    [2100000, 3000000, 4400000, 8700000, 400000],
    index= ['Japan', 'China', 'Germany', 'USSR', 'US']
)

ww2_casualities

Japan      2100000
China      3000000
Germany    4400000
USSR       8700000
US          400000
dtype: int64

In [23]:
# リスト型変数を用いる場合

casualities = [2100000, 3000000, 4400000, 8700000, 400000]
countries = ['Japan', 'China', 'Germany', 'USSR', 'US']

ww2_casualities = Series(casualities, countries)

ww2_casualities

Japan      2100000
China      3000000
Germany    4400000
USSR       8700000
US          400000
dtype: int64

定義にリストを用いるメリット

- データ型が単純なので実装が単純

デメリット

- データの順番の対応付けを間違えてはならないのが少し難しい
- データの数が合わなくてエラーとなってしまうことがしばしばある


In [24]:
# ディクショナリを使う場合

ww2_casualities = Series({
    'Japan': 2100000,
    'China': 3000000,
    'Germany': 4400000,
    'USSR': 8700000,
    'US': 400000}
)

ww2_casualities

Japan      2100000
China      3000000
Germany    4400000
USSR       8700000
US          400000
dtype: int64

定義にディクショナリを用いるメリット

- 少数のデータの場合，自分で定義しているときに分かりやすい

デメリット

- 手打ちはかなり面倒

### Series のメソッド

めちゃくちゃ多いのでほんの一部のみ

In [25]:
# iteritems()
# index, value のペアを全部取り出す
# ディクショナリの items() に該当する

for index, value in ww2_casualities.iteritems():
    print(index, value)

Japan 2100000
China 3000000
Germany 4400000
USSR 8700000
US 400000


In [26]:
# .sort_index()
# インデックスでソート

ww2_casualities.sort_index()

China      3000000
Germany    4400000
Japan      2100000
US          400000
USSR       8700000
dtype: int64

In [27]:
# .sort_values()
# 特定の列の値でソート

ww2_casualities.sort_values()

US          400000
Japan      2100000
China      3000000
Germany    4400000
USSR       8700000
dtype: int64

In [28]:
# .isnull()
# 空白データか否か

ww2_casualities.isnull()

Japan      False
China      False
Germany    False
USSR       False
US         False
dtype: bool

In [29]:
# .isnull().any()
# 空白データが1つでもあるかどうか
# ミス検出で使える

ww2_casualities.isnull().any()

False

### 以下は余力のある人向け

**Series の作成時に，末尾にデータをどんどん追加していくことは推奨されません。**

Series の末尾にデータを追加するメソッドに，.append()があります（リストの.append() と同じメソッド名です）。そのため，以下のコードは実行可能ではあります。

``` Python
s1 = pd.Series([1, 2, 3])
s1.append([4], index=[3])
```

実行可能なのになぜ基本的にやらないかを説明する前に，まず下のコードを実行してみてください。

In [31]:
s1 = Series([1, 2, 3])
s1.append(Series([4], index=[3]))

0    1
1    2
2    3
3    4
dtype: int64

.append() した結果が出力されます。Series の .append() は，append した結果のSeries をゼロから作り直すからです。

Series の .append() は，データの内部を変更せず，末尾に新たなデータを足した場合の結果を示します。

では，元の Series には変更がないことを確認しましょう。

In [32]:
s1

0    1
1    2
2    3
dtype: int64

これはリスト型の .append() とは全く異なる挙動です。

リスト型で同じコードを実行して，挙動の違いを確認してください。

In [33]:
lis = [1, 2, 3]
lis.append(4)

結果が表示されません。

リスト の .append() は，データの内部を変更します。そのため，ゼロからデータを作り替えることをしません。

ちゃんと内部が更新されていることを確認しておきましょう。

In [34]:
lis

[1, 2, 3, 4]

.append() の挙動の違いは：

- Series の .append() は，データの内部を変更せず，末尾に新たなデータを足した結果を新たにゼロから生成する
- リスト の .append() は，データの内部を変更する。末尾にデータをくっつけるだけ。

つまり，Series の場合，append() するたびにデータを作り直す点で，非常にコストが高いです。

1000個のデータから成る Series を作る場合

- リストを利用する：1000個のデータを1つのリストの末尾にどんどんくっつけて，最後に Series にして終わり。
  - データの処理：2000 回
- Series を利用する：1個のSeries を新たに生成，2個目をくっつけて，2個のデータから成るSeries を生成，3個目をくっつけて，3個のデータから成るSeries を生成...
  - データの処理: 500000 回

10000個のデータから成る Series を作る場合

- リスト：20000 回
- Series：50005000 回

**結論**

Series に append するのは奥の手で，基本的に リストで解決できないか考えよう