## Python標準ライブラリ

Pythonにはさまざまな用途に対応したモジュールが用意されています。このPythonに予め組み込まれているモジュールを「標準ライブラリ」と呼びます。

標準ライブラリは [公式ドキュメント](https://docs.python.org/ja/3/library/index.html) に記されているとおり、多くのモジュールが提供されています。本節ではデータサイエンスなどでよく使われる標準ライブラリの概要と使い方を紹介します。

### [datetime --- 基本的な日付型および時間型](https://docs.python.org/ja/3/library/datetime.html)

datetime モジュールは、日付や時刻を操作するためのクラスを提供しています。

日付や時刻に対する算術がサポートされている一方、実装では出力のフォーマットや操作のための効率的な属性の抽出に重点を置いています。

In [1]:
import datetime

#### datetime

日付と時刻を組み合わせたものです。 属性は `year` , `month` , `day` , `hour` , `minute` , `second` , `microsecond` , および `tzinfo` です。

In [2]:
dt = datetime.datetime(2020, 11, 18)
dt

datetime.datetime(2020, 11, 18, 0, 0)

In [3]:
dt.year

2020

datetime型を文字列に変換するには `strftime` メソッドまたはfリテラルを利用します。

In [4]:
"寺田さんの誕生日は" + dt.strftime("%Y年%m月%d日") + "です"

'寺田さんの誕生日は2020年11月18日です'

In [5]:
f"寺田さんの誕生日は{dt:%Y年%m月%d日です}"

'寺田さんの誕生日は2020年11月18日です'

#### timedelta

`date` , `time` , あるいは `datetime` クラスの二つのインスタンス間の時間差をマイクロ秒精度で表す経過時間値です。

In [6]:
dt + datetime.timedelta(days=1, hours=2)

datetime.datetime(2020, 11, 19, 2, 0)

### [math --- 数学関数](https://docs.python.org/ja/3/library/math.html)

`math` モジュールは、 C標準で提供された数学関数へのアクセスを提供します。

In [7]:
import math

#### math.log(x[, base])

引数が1つの場合、`x` の (e を底とする)自然対数を返します。

引数が2つの場合、log(x)/log(base) として求められる `base` を底とした `x` の対数を返します。

In [8]:
math.log(10)

2.302585092994046

#### math.pi

利用可能なだけの精度の数学定数 π = 3.141592... (円周率)。

In [9]:
math.pi

3.141592653589793

#### math.e

利用可能なだけの精度の数学定数 e = 2.718281... (自然対数の底)。

In [10]:
math.e

2.718281828459045

#### math.sin(x)

x ラジアンの正弦を返します。

In [11]:
math.sin(math.pi * 0.5)

1.0

### [itertools --- 効率的なループ実行のためのイテレータ生成関数](https://docs.python.org/ja/3/library/itertools.html)

このモジュールは イテレータ を構築する部品を実装しています。高速でメモリ効率に優れ、単独でも組合せても使用することのできるツールを標準化したものです。

In [12]:
import itertools

例として、次の文字の組み合わせをネストした `for` 文で作成してみます。

In [13]:
data1, data2, data3, data4 = "ab", "AB", "xy", "XY"

In [14]:
for d1 in data1:
    for d2 in data2:
        for d3 in data3:
            for d4 in data4:
                print((d1, d2, d3, d4))

('a', 'A', 'x', 'X')
('a', 'A', 'x', 'Y')
('a', 'A', 'y', 'X')
('a', 'A', 'y', 'Y')
('a', 'B', 'x', 'X')
('a', 'B', 'x', 'Y')
('a', 'B', 'y', 'X')
('a', 'B', 'y', 'Y')
('b', 'A', 'x', 'X')
('b', 'A', 'x', 'Y')
('b', 'A', 'y', 'X')
('b', 'A', 'y', 'Y')
('b', 'B', 'x', 'X')
('b', 'B', 'x', 'Y')
('b', 'B', 'y', 'X')
('b', 'B', 'y', 'Y')


`product` 関数では組み合わせ(デカルト積)を作成するオブジェクトを生成します。実際の実装ではメモリ中に中間結果を作りません。

In [15]:
for d in itertools.product(data1, data2, data3, data4):
    print(d)

('a', 'A', 'x', 'X')
('a', 'A', 'x', 'Y')
('a', 'A', 'y', 'X')
('a', 'A', 'y', 'Y')
('a', 'B', 'x', 'X')
('a', 'B', 'x', 'Y')
('a', 'B', 'y', 'X')
('a', 'B', 'y', 'Y')
('b', 'A', 'x', 'X')
('b', 'A', 'x', 'Y')
('b', 'A', 'y', 'X')
('b', 'A', 'y', 'Y')
('b', 'B', 'x', 'X')
('b', 'B', 'x', 'Y')
('b', 'B', 'y', 'X')
('b', 'B', 'y', 'Y')


### [pathlib --- オブジェクト指向のファイルシステムパス](https://docs.python.org/ja/3/library/pathlib.html)

このモジュールはファイルシステムのパスを表すクラスを提供していて、様々なオペレーティングシステムについての適切な意味論をそれらのクラスに持たせています。

In [16]:
import pathlib

#### Path

システムのパスフレーバーの具象パスを表します (このインスタンスの作成で PosixPath か WindowsPath のどちらかが作成されます)。

In [17]:
p = pathlib.Path()

`cwd` メソッドは現在のディレクトリを表す新しいパスオブジェクトを返します。

In [18]:
p.cwd()

PosixPath('/home/terapyon/tmp/hit-u-ds-course/source/04_libraries')

`home` メソッドはユーザーのホームディレクトリ (~) を表す新しいパスオブジェクトを返します。

In [19]:
p.home()

PosixPath('/home/terapyon')

演算子スラッシュ `/` はパスの追加を行います。

In [20]:
test_text = p.cwd() / "test.txt"
test_text

PosixPath('/home/terapyon/tmp/hit-u-ds-course/source/04_libraries/test.txt')

`write_text` メソッドは指定されたファイルをテキストモードで開き、引数に渡したデータを書き込み、ファイルを閉じます。

In [21]:
test_text.write_text("hello")

5

`read_text` メソッドは指定されたファイルの内容を文字列としてデコードして返します。

In [22]:
test_text.read_text()

'hello'

`exists` メソッドはパスが既存のファイルかディレクトリを指しているかどうかを返します。

In [23]:
test_text.exists()

True

`unlink` メソッドはこのファイルまたはシンボリックリンクを削除します。

In [24]:
test_text.unlink()

ファイルが削除されたため、 `exists` メソッドには `False` が返ります。

In [25]:
test_text.exists()

False

### [urllib.request --- URL を開くための拡張可能なライブラリ](https://docs.python.org/ja/3/library/urllib.request.html)

urllib.request モジュールは基本的な認証、暗号化認証、リダイレクション、Cookie、その他の介在する複雑なアクセス環境において (大抵は HTTP で) URL を開くための関数とクラスを定義します。

In [26]:
import urllib.request

`urlopen` メソッドでは引数に指定したURLを開きます。

In [27]:
response = urllib.request.urlopen('http://httpbin.org/headers')

`status` 属性はサーバから返される状態コードです。 `200` はリクエストが成功したことを意味します。

HTTP レスポンスステータスコード: https://developer.mozilla.org/ja/docs/Web/HTTP/Status

In [28]:
response.status

200

`read` メソッドはデータのバイトオブジェクトを返します。バイトオブジェクトを文字列に変換するには `decode` メソッドを実行します。

In [29]:
data = response.read().decode()

In [30]:
print(data)

{
  "headers": {
    "Accept-Encoding": "identity", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.8", 
    "X-Amzn-Trace-Id": "Root=1-60924bb4-38743f0f2fbf51bf1c218ab1"
  }
}



### [json --- JSON エンコーダおよびデコーダ](https://docs.python.org/ja/3/library/json.html)

[JSON (JavaScript Object Notation)](http://json.org/) は、 [RFC 7159](https://tools.ietf.org/html/rfc7159.html) ([RFC 4627](https://tools.ietf.org/html/rfc4627.html) を obsolete) と [ECMA-404](http://www.ecma-international.org/publications/standards/Ecma-404.htm) によって定義された軽量のデータ交換用のフォーマットです。

JSONは [Web API](https://developer.mozilla.org/ja/docs/Learn/JavaScript/Client-side_web_APIs/Introduction) などでもっとも使われるフォーマットです。Jupyterのノートブック(.ipynb)もこのフォーマットです。

In [31]:
import json

`loads` 関数はJSONフォーマットのデータをPythonのオブジェクト(辞書)に変換します。ファイルから読み込む場合は `load` 関数を利用します。

In [32]:
json_data = json.loads(data.replace("\n", ""))

In [33]:
json_data

{'headers': {'Accept-Encoding': 'identity',
  'Host': 'httpbin.org',
  'User-Agent': 'Python-urllib/3.8',
  'X-Amzn-Trace-Id': 'Root=1-60924bb4-38743f0f2fbf51bf1c218ab1'}}

In [34]:
type(json_data)

dict

辞書型のオブジェクトなので要素にアクセスできます。

In [35]:
json_data["headers"]["Host"]

'httpbin.org'

In [36]:
json_data["headers"]["Host"] = "abc.com"
json_data

{'headers': {'Accept-Encoding': 'identity',
  'Host': 'abc.com',
  'User-Agent': 'Python-urllib/3.8',
  'X-Amzn-Trace-Id': 'Root=1-60924bb4-38743f0f2fbf51bf1c218ab1'}}

### [pickle --- Python オブジェクトの直列化](https://docs.python.org/ja/3/library/pickle.html)

pickle モジュールは Python オブジェクトの直列化および直列化されたオブジェクトの復元のためのバイナリプロトコルを実装しています。"pickle化" は Python オブジェクト階層をバイトストリームに変換する処理、"非pickle化" は (バイナリファイル または バイトライクオブジェクト から) バイトストリームをオブジェクト階層に復元する処理を意味します。

In [37]:
import pickle

Pythonオブジェクトを直列化することで、作業を中断したり再開したりすることができるようになります。たとえば、Jupyter上で3時間かけて機械学習させたデータを作成したとします。Jupyterを終了すると、このデータは失われるため、続きの作業は再度同じ学習を3時間かけることになります。作業中のオブジェクトをpickle化して保存しておくことで、作業再開時には非pickle化してすぐに続きができます。

先程作成した `json_data` を直列化してみましょう。

In [38]:
pickle_file = pathlib.Path("json_data.pickle")

with pickle_file.open("wb") as f:
    pickle.dump(json_data, f)

カレントディレクトリに `json_data.pickle` ファイルが生成されていることがわかります。

In [39]:
%ls json_data.pickle

json_data.pickle


作業再開するために、非pickle化してみましょう。新しいPythonオブジェクト`new_json_data`を生成します。

In [40]:
with pickle_file.open("rb") as f:
    new_json_data = pickle.load(f)

In [41]:
new_json_data

{'headers': {'Accept-Encoding': 'identity',
  'Host': 'abc.com',
  'User-Agent': 'Python-urllib/3.8',
  'X-Amzn-Trace-Id': 'Root=1-60924bb4-38743f0f2fbf51bf1c218ab1'}}

無事にオブジェクトが復元できたため、 `json_data.pickle` ファイルを削除します。

In [42]:
pickle_file.unlink()