## 2.11.1 defaultdictクラス

- defaultdictは概ね通常のdictと同じようにふるまう
- （ただし）defaultdictは存在しないキーを指定した場合、defaultdict生成時に指定した関数の返り値を初期値にする
- defaultdictは初期値がリストや辞書、独自の関数を使う場合に（場合にこそ!）有効
- defaultdictでは辞書のキーが登録されているか都度確認することなく、収集や設定を処理できる


In [10]:
# 単語の出現数カウント法その１　辞書に登録されている単語・いない単語

word_counts = {}
for word in document:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1

{'When': 1,
 'I': 3,
 'glance': 1,
 'over': 1,
 'my': 2,
 'notes': 1,
 'and': 11,
 'records': 1,
 'of': 5,
 'the': 5,
 'Sherlock': 1,
 'Holmes': 1,
 'cases': 1,
 'between': 1,
 'years': 1,
 '‘82': 1,
 '‘90,': 1,
 'am': 2,
 'faced': 1,
 'by': 1,
 'so': 5,
 'many': 1,
 'which': 8,
 'present': 1,
 'strange': 1,
 'interesting': 1,
 'features': 1,
 'that': 4,
 'it': 4,
 'is': 2,
 'no': 1,
 'easy': 1,
 'matter': 1,
 'to': 6,
 'know': 1,
 'choose': 1,
 'leave.': 1,
 'Some,': 2,
 'however,': 2,
 'have': 6,
 'already': 1,
 'gained': 1,
 'publicity': 1,
 'through': 1,
 'papers,': 1,
 'others': 2,
 'not': 1,
 'offered': 1,
 'a': 2,
 'field': 1,
 'for': 1,
 'those': 1,
 'peculiar': 1,
 'qualities': 1,
 'friend': 1,
 'possessed': 1,
 'in': 5,
 'high': 1,
 'degree,': 1,
 'object': 1,
 'these': 2,
 'papers': 1,
 'illustrate.': 1,
 'too,': 1,
 'baffled': 1,
 'his': 1,
 'analytical': 1,
 'skill,': 1,
 'would': 1,
 'be,': 2,
 'as': 1,
 'narratives,': 1,
 'beginnings': 1,
 'without': 1,
 'an': 1,
 'endin

In [None]:
# 単語の出現数カウント法その2 登録されていないキーでアクセスしたら例外で処理する

word_counts = {}
for word in documents:
    try:
        word_counts[word] += 1
    except KeyError:
        word_counts[word] = 1

In [None]:
# 単語の出現数カウント法その3 登録されていないキーを使ってもエラーが発生しないgetメッソドを使う

word_counts = {}
for word in document:
    previous_count = word_counts.get(word, 0) # キーが登録されていない場合0を返す。要素が存在するなら値を取得する
    word_counts[word] = previous_count + 1

In [14]:
# 上３つの方法よりスマートなdefaultdictを使う方法

from collections import defaultdict

word_counts =defaultdict(int) # int() は0を返す
for word in document:
    word_counts[word] +=1

In [16]:
dd_list = defaultdict(list)
# dd_listの存在しなかったキー2を指定しappend()すると、リストが既に存在していたようにリストに1が追加される
dd_list[2].append(1)  
dd_list

defaultdict(list, {2: [1]})

In [20]:
dd_dict = defaultdict(dict)  # dict()はからの辞書を返す
dd_dict["Joel"]["City"] = "Seattle"  # 存在しない"Joel"要素に"City"要素を設定することができる

{}

In [21]:
dd_pair = defaultdict(lambda: [0,0])
dd_pair[2][1] = 1  # defaultdict のキー２の要素[0, 0]）のインデックス１に１を設定。だと思う。。。
dd_pair

defaultdict(<function __main__.<lambda>()>, {2: [0, 1]})

In [3]:
# 蛇足ですが本文で documentが定義されていないため、”単語の出現数カウント"が何をしているかイメージし難い人もいるかも
# そこで著作権フリーのデータベース（lit2go）にあったシャーロックホームズの一文から単純な単語リストを（document）を作ってみました
# このブロックを実行後に単語の出現数カウント"を実行すると少しだけdefaultdictで何をやっているのかわかりやすいかも

sample = "When I glance over my notes and records of the Sherlock Holmes cases between the years ‘82 and ‘90, I am faced by so many which present strange and interesting features that it is no easy matter to know which to choose and which to leave. Some, however, have already gained publicity through the papers, and others have not offered a field for those peculiar qualities which my friend possessed in so high a degree, and which it is the object of these papers to illustrate. Some, too, have baffled his analytical skill, and would be, as narratives, beginnings without an ending, while others have been but partially cleared up, and have their explanations founded rather upon conjecture and surmise than on that absolute logical proof which was so dear to him. There is, however, one of these last which was so remarkable in its details and so startling in its results that I am tempted to give some account of it in spite of the fact that there are points in connection with it which never have been, and probably never will be, entirely cleared up."
document = sample.split(" ")
document

['When',
 'I',
 'glance',
 'over',
 'my',
 'notes',
 'and',
 'records',
 'of',
 'the',
 'Sherlock',
 'Holmes',
 'cases',
 'between',
 'the',
 'years',
 '‘82',
 'and',
 '‘90,',
 'I',
 'am',
 'faced',
 'by',
 'so',
 'many',
 'which',
 'present',
 'strange',
 'and',
 'interesting',
 'features',
 'that',
 'it',
 'is',
 'no',
 'easy',
 'matter',
 'to',
 'know',
 'which',
 'to',
 'choose',
 'and',
 'which',
 'to',
 'leave.',
 'Some,',
 'however,',
 'have',
 'already',
 'gained',
 'publicity',
 'through',
 'the',
 'papers,',
 'and',
 'others',
 'have',
 'not',
 'offered',
 'a',
 'field',
 'for',
 'those',
 'peculiar',
 'qualities',
 'which',
 'my',
 'friend',
 'possessed',
 'in',
 'so',
 'high',
 'a',
 'degree,',
 'and',
 'which',
 'it',
 'is',
 'the',
 'object',
 'of',
 'these',
 'papers',
 'to',
 'illustrate.',
 'Some,',
 'too,',
 'have',
 'baffled',
 'his',
 'analytical',
 'skill,',
 'and',
 'would',
 'be,',
 'as',
 'narratives,',
 'beginnings',
 'without',
 'an',
 'ending,',
 'while',
 'o

## 2.12 Counterクラス

- Counterは一続きの値をキーとその出現数に展開する
- Counterオブジェクトには、出現数の多い順に要素を返すmost_commonメソッドが用意されている


In [4]:
from collections import Counter
c = Counter([0, 1, 2, 0])
c

Counter({0: 2, 1: 1, 2: 1})

In [6]:
# 上のdocumentでもdefaultdict(dict)を使ってカウントしたのと同じ結果を一行で得ることができる
word_counts = Counter(document)
word_counts

Counter({'When': 1,
         'I': 3,
         'glance': 1,
         'over': 1,
         'my': 2,
         'notes': 1,
         'and': 11,
         'records': 1,
         'of': 5,
         'the': 5,
         'Sherlock': 1,
         'Holmes': 1,
         'cases': 1,
         'between': 1,
         'years': 1,
         '‘82': 1,
         '‘90,': 1,
         'am': 2,
         'faced': 1,
         'by': 1,
         'so': 5,
         'many': 1,
         'which': 8,
         'present': 1,
         'strange': 1,
         'interesting': 1,
         'features': 1,
         'that': 4,
         'it': 4,
         'is': 2,
         'no': 1,
         'easy': 1,
         'matter': 1,
         'to': 6,
         'know': 1,
         'choose': 1,
         'leave.': 1,
         'Some,': 2,
         'however,': 2,
         'have': 6,
         'already': 1,
         'gained': 1,
         'publicity': 1,
         'through': 1,
         'papers,': 1,
         'others': 2,
         'not': 1,
         'offered':

In [7]:
for word, count in word_counts.most_common(10):  # most_commonの引数の値は取得する要素の順位の数っぽい
    print(word, count)

and 11
which 8
to 6
have 6
of 5
the 5
so 5
in 5
that 4
it 4


## 2.13 集合

- 集合(Set)は重複しない値のコレクションを表現する
- 集合の定義は波括弧で囲んだカンマ区切りの要素
- ただし空の集合はset()を使って表す（{}は空の辞書なので）
- in演算子が非常に高速に動作するため、大量のデータの中から要素が含まれるかチェックのに集合が適している
- 集合を利用すると重複のない集まりを得ることができる


In [30]:
s = set()
s.add(1)
s.add(2)
s.add(2)
x = len(s)
y = 2 in s
z = 3 in s
x, y, z

(2, True, False)

In [11]:
import time

start = time.time()
stopwords_list = ["a", "an", "at"] + document + ["yet", "you"]
"zip" in stopwords_list
end = time.time()
print(end-start)

6.985664367675781e-05


In [12]:
# Setはin演算子が高速に動作する！（らしい）
start = time.time()
stopwords_set = set(stopwords_list)
"zip" in stopwords_set
end = time.time()
print(end-start)

7.081031799316406e-05


In [18]:
item_list = [1,2,3,1,2,3]
num_items = len(item_list)  # 要素数6
print(num_items)

item_set = set(item_list)  # リストから集合を生成
num_distinct_items = len(item_set)
print(num_distinct_items)  #要素数3

distinct_item_list = list(item_set) #重複のないリストとなる
distinct_item_list

6
3


[1, 2, 3]

## 2.14 実行制御

- "if"を使った条件判定ができる。これは他の多くのプログラムと同様。
- ある条件下で同じ処理を繰り返し続ける方法としてwhileループがある
- しかしwhileよりfor ~ inの組み合わせのほうが頻繁に使われる


In [None]:
# if , elif, elseによる条件判定は多用される
if 1 > 2:
    message = "もし１が２よりおおきいとしたら"
elif 1 > 3:
    message = "elifは'else if'を表す" # 直前のif 文が当てはまらない場合に条件判定
else:
    message = "すべての条件があてはまらなければelseが該当する"   # elseは無くても良い

In [None]:
# if-then-elseを一行に書くと

parity = "even" if x %2 == 0 else "odd"

# この記述方法は三項演算子と言います。好きなら使ったらぐらいの立ち位置。簡潔にかけるので良いと思う。

In [19]:
# ブロック内の処理（ x~をprintし、xに1を追加）が条件が真の間繰り返される
x = 0
while x < 10:
    print(f"{x}は10より小さい")  # 本書f-stringを多用するとのこと
    x += 1  # 繰り返し処理でよく使う書き方(代入演算子)

0は10より小さい
1は10より小さい
2は10より小さい
3は10より小さい
4は10より小さい
5は10より小さい
6は10より小さい
7は10より小さい
8は10より小さい
9は10より小さい


In [20]:
# range()はfor文で繰り返すことのできる（iterable）なrangeオブジェクトを生成
# range(10)の場合、概ね[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]に近い挙動のオブジェクトが生成される

for x in range(10):
    if x == 3:
        continue
    if x == 5:
        break
    print(x)

0
1
2
4


## 2.15 真偽

- Python の真偽値は大文字からはじまる True(真)と False(偽)
- 変数に値が指定されていない状態で参照すると None
- 真偽値を表す値はたくさんある（False, None, [], {}, "", 0, 0.0）
- 上の例以外はTrue
- なので、辞書や文字列が空であるかifを使って調べることができる
- 変数の代入でand演算子が使われると、１つ目の値がTrueであればand演算子の結果は２つ目の値となり、１つ目がFalseならand演算子はそのままFalseを返す
- all()は要素全てがTrueであればTrueを返す
- any()は要素のどれかがTrueであればTrueを返す

In [1]:
one_is_less_than_two = 1< 2  # 1 < 2なので変数にTrueが代入される。この式は左側が代入演算子、右側が比較演算子
true_equals_false = True == False 

one_is_less_than_two, true_equals_false

(True, False)

In [12]:
# 極簡単に文字列を返す関数を設定

def some_function_that_returns_a_string():
    return sample

s = some_function_that_returns_a_string()
if s:
    first_char = s[0]
else:
    first_char = ""

In [14]:
first_char = s and s[0]

# Pythonの and, orはbool型のTrue, Falseを返すのでは無く真偽に応じて、左側または右側の値をそのまま返す
# １つ目の値がTrueとして解釈できるならand演算子の結果の２つ目の値となる。このあたりすっと入ってこない。ややこしい。。。。。
first_char

'W'

In [None]:
safe_x = x or 0

# xがTrueであればx、でなければ0を返す。

In [16]:
b1 = all([True, 1, {3}])
b2 = all([True, 1, {}])
b3 = any([True, 1, {}])
b4 = all([])
b5 = any([])

b1, b2, b3, b4, b5

(True, False, True, True, False)

## 2.16 ソート

- リストにはリスト自身をソートするsortメソッドが用意されている（リスト自身が変更されるため破壊的とかin-placeという）
- リスト自身を変更せず、新しいリストを返すのはsorted関数
- デフォルトではsort(およびsorted)は要素を単純に比較して昇順（ascending）に並べる
- 降順にしたいのであれば、reverse=Trueパラメータを指定する
- 要素ごとの比較でなく、key引数に指定した関数の結果を比較することもできる

In [18]:
x = [4, 1, 2, 3]
y = sorted(x)
print(x, y)

x.sort()
print(x)

[4, 1, 2, 3] [1, 2, 3, 4]
[1, 2, 3, 4]


In [20]:
x = sorted([-4, 1, -2, 3], key=abs, reverse=True) # keyはabs関数（絶対値を返す）、reverse=Trueなので降順でソートした結果がわたされる
x

[-4, 3, -2, 1]

In [27]:
# 単語とその出現順を降順にソート

wc = sorted(word_counts.items(), key=lambda word_and_count: word_and_count[1], reverse=True)
wc

[('and', 11),
 ('which', 8),
 ('to', 6),
 ('have', 6),
 ('of', 5),
 ('the', 5),
 ('so', 5),
 ('in', 5),
 ('that', 4),
 ('it', 4),
 ('I', 3),
 ('my', 2),
 ('am', 2),
 ('is', 2),
 ('Some,', 2),
 ('however,', 2),
 ('others', 2),
 ('a', 2),
 ('these', 2),
 ('be,', 2),
 ('cleared', 2),
 ('was', 2),
 ('its', 2),
 ('never', 2),
 ('When', 1),
 ('glance', 1),
 ('over', 1),
 ('notes', 1),
 ('records', 1),
 ('Sherlock', 1),
 ('Holmes', 1),
 ('cases', 1),
 ('between', 1),
 ('years', 1),
 ('‘82', 1),
 ('‘90,', 1),
 ('faced', 1),
 ('by', 1),
 ('many', 1),
 ('present', 1),
 ('strange', 1),
 ('interesting', 1),
 ('features', 1),
 ('no', 1),
 ('easy', 1),
 ('matter', 1),
 ('know', 1),
 ('choose', 1),
 ('leave.', 1),
 ('already', 1),
 ('gained', 1),
 ('publicity', 1),
 ('through', 1),
 ('papers,', 1),
 ('not', 1),
 ('offered', 1),
 ('field', 1),
 ('for', 1),
 ('those', 1),
 ('peculiar', 1),
 ('qualities', 1),
 ('friend', 1),
 ('possessed', 1),
 ('high', 1),
 ('degree,', 1),
 ('object', 1),
 ('papers', 1

## 2.17 リスト内包表記

- リストから一部の要素を取り出したり、値を変更しながら別のリストに再構成するのにリスト内包表記を使う
- リストと同様に辞書や集合を内包表記で作ることができる
- 複数のforを使ってリスト内包表記を構成することができる
- for を重ねた場合、後ろの方は前のforで使った結果を参照できる

In [28]:
even_number = [x for x in range(5) if x % 2 == 0]  # range(5)のそれぞれの要素がx/2の余りが0であればリストに含める
list(range(5)), even_number

([0, 1, 2, 3, 4], [0, 2, 4])

In [29]:
squares = [x * x for x in range(5)]
squares

[0, 1, 4, 9, 16]

In [31]:
even_squares = [x * x for x in even_number]
even_squares

[0, 4, 16]

# square_dict = {x: x * x for x in range(5)}
square_set = {x * x for x in [1, -1]}

square_dict, square_set

In [8]:
# 複数のforを使った際の繰り返すイテレーターの順序は
# 後方のforがより内側のイテレーションになることに留意する。 
# 内包表記でも、forで改行されていると forループのブロック風に見えなくも無いので、そう見ると少し直感的にわかりやすいかも

pairs = [(x, y)
        for x in range(10)
        for y in range(10)]

pairs

[(0, 0),
 (0, 1),
 (0, 2),
 (0, 3),
 (0, 4),
 (0, 5),
 (0, 6),
 (0, 7),
 (0, 8),
 (0, 9),
 (1, 0),
 (1, 1),
 (1, 2),
 (1, 3),
 (1, 4),
 (1, 5),
 (1, 6),
 (1, 7),
 (1, 8),
 (1, 9),
 (2, 0),
 (2, 1),
 (2, 2),
 (2, 3),
 (2, 4),
 (2, 5),
 (2, 6),
 (2, 7),
 (2, 8),
 (2, 9),
 (3, 0),
 (3, 1),
 (3, 2),
 (3, 3),
 (3, 4),
 (3, 5),
 (3, 6),
 (3, 7),
 (3, 8),
 (3, 9),
 (4, 0),
 (4, 1),
 (4, 2),
 (4, 3),
 (4, 4),
 (4, 5),
 (4, 6),
 (4, 7),
 (4, 8),
 (4, 9),
 (5, 0),
 (5, 1),
 (5, 2),
 (5, 3),
 (5, 4),
 (5, 5),
 (5, 6),
 (5, 7),
 (5, 8),
 (5, 9),
 (6, 0),
 (6, 1),
 (6, 2),
 (6, 3),
 (6, 4),
 (6, 5),
 (6, 6),
 (6, 7),
 (6, 8),
 (6, 9),
 (7, 0),
 (7, 1),
 (7, 2),
 (7, 3),
 (7, 4),
 (7, 5),
 (7, 6),
 (7, 7),
 (7, 8),
 (7, 9),
 (8, 0),
 (8, 1),
 (8, 2),
 (8, 3),
 (8, 4),
 (8, 5),
 (8, 6),
 (8, 7),
 (8, 8),
 (8, 9),
 (9, 0),
 (9, 1),
 (9, 2),
 (9, 3),
 (9, 4),
 (9, 5),
 (9, 6),
 (9, 7),
 (9, 8),
 (9, 9)]

In [37]:
increasing_pairs = [(x, y)
                                   for x in range(10)
                                    for y in range(x + 1, 10)]
increasing_pairs

[(0, 1),
 (0, 2),
 (0, 3),
 (0, 4),
 (0, 5),
 (0, 6),
 (0, 7),
 (0, 8),
 (0, 9),
 (1, 2),
 (1, 3),
 (1, 4),
 (1, 5),
 (1, 6),
 (1, 7),
 (1, 8),
 (1, 9),
 (2, 3),
 (2, 4),
 (2, 5),
 (2, 6),
 (2, 7),
 (2, 8),
 (2, 9),
 (3, 4),
 (3, 5),
 (3, 6),
 (3, 7),
 (3, 8),
 (3, 9),
 (4, 5),
 (4, 6),
 (4, 7),
 (4, 8),
 (4, 9),
 (5, 6),
 (5, 7),
 (5, 8),
 (5, 9),
 (6, 7),
 (6, 8),
 (6, 9),
 (7, 8),
 (7, 9),
 (8, 9)]

## 2.18 自動テストとアサート

- コードの正しさを確認するために自動テストを使うことができる
- テストを実行するフレームワークは色々ある（例えばunittest）
- assertステートメントでは指定した条件が真にならない場合、AssertionErrorが発生する
- assertのオプションとして、失敗時に表示するメッセージを追加できる
- 関数の入力に対してassertを実行することができる（一般的では無い）

In [10]:
assert 1 + 1 == 2  # 当然 True
assert 1 + 1 == 4, "1+1は２であるべきだが、そうなっていない"

# 2番目の例はオプションでアサーションが失敗したケースで出力されるメッセージを追加している

AssertionError: 1+1は２であるべきだが、そうなっていない

In [39]:
# リストの最小の要素を返す関数
def smallest_item(xs):
    return min(xs)

assert smallest_item([10, 20, 5, 40])  == 5
assert smallest_item([1, 0, -1, 2]) == -1

In [41]:
def smallest_item(xs):
    assert xs, "empty list has no smallest item"  # xsがFalseであった場合AssetionErrorが起きる
    return min(xs)

smallest_item([])

AssertionError: empty list has no smallest item

## 2.19 オブジェクト思考プログラミング

- Pythonは"**クラス**"を使ってデータと操作関数をカプセル化できる（これは多くのプログラミング言語と同様）
- 慣例としてクラスのそれぞれの関数は自分自身のクラスインスタンスを参照する「self」を最初のパラメータとして受け取る
- クラスは通常"\_\_init\_\_"という名前のコンストラクタを持つ（\_\_init\_\_(self)関数でパラメータの初期化などを行う）
- クラス名を使用し、コンストラクタのインスタンスを生成する
- \_\_init\_\_と同様のアンダースコアのついたメソッドに\_\_repr\_\_があり、これはクラスインスタンス（オブジェクト）を文字列で表して返す


In [47]:
# カウントをインクリメントする機能と、現在のカウントを返す機能と、カウントリセット機能を持つクラス
class CountingClicker:
    def __init__(self, count=0):
        self.count = count
    
    def __repr__(self):
        return f"CountingClicker(count={self.count})"
    
    def click(self, num_times = 1):
        """カウンターを指定された回数クリックする"""
        self.count += num_times
        
    def read(self):
        return self.count
    
    def reset(self):
        self.count =0

In [None]:
clicker1 = CountingClicker()  # 引数が無いためコンストラクターでデフォルト引数として設定したcount=0が採用される
clicker2 = CountingClicker(100) # カウントを１００から始める
clicker3 = CountingClicker(count=100) #上の例と同じだが、明示的に引数を指定することができる

In [48]:
clicker = CountingClicker()
assert clicker.read()  == 0, "カウントは0から始まらなくてはならない"
clicker.click()  # click()を呼ぶ
clicker.click()
assert clicker.read() == 2, "二度のクリックの後、カウントは２でなければならない"
clicker.reset()
assert clicker.read() == 0, "リセットした後は、カウントは0に戻らなければならない"

## 2.20 イテレータとジェネレータ

- 一度に１つの要素だけが必要な場合、巨大なリストをメモリに保持する必要は無い（コンピュータのメモリは有限で、何億という桁のリストをメモリーに展開すると簡単にリソースが食いつぶされてしまう）
- for ~ in を使用したコレクションの反復処理でジェネレータを活用すると、値は必要な分だけ取り出すことができる
- ジェネレータを作る方法の１つとして"**yield**"を持つ関数を使うこと
- for 内包表記を丸カッコで囲むことでもジェネレータを作成できる
- 「ジェネレータ内包表記」は（for またはnextによって）実行されるまで値が生成されない
- リストやジェネレータの繰り返し処理で値だけで無くインデックスが必要な場合、値を(インデックス, 値)に変換するenumerate関数を利用することができる


In [14]:
def generate_range(n):
    i = 0
    while i  < n:
        yield i
        i += 1
    
for i in generate_range(10):   # ジェネレータはイテレータの一種であるため反復して要素を取り出せる
    print(f"i: {i}")
    
    
# 閑話。ジェネレータを知らなかった場合多分上と同じ結果となるforループは下のように書くと思われる。
n = 10
for i in range(0, n):
    print(f"i: {i}")

# 同じ結果が表示されますが
# このような単純な記法で巨大なコレクションをイテレートすると、メモリが枯渇（OOM kill processが発生）する可能性があります
# 巨大なデータをPythonで扱うようになったらジェネレータを上手く使いたいですね。。。

i: 0
i: 1
i: 2
i: 3
i: 4
i: 5
i: 6
i: 7
i: 8
i: 9
i: 0
i: 1
i: 2
i: 3
i: 4
i: 5
i: 6
i: 7
i: 8
i: 9


In [11]:
# 本文のサンプル、ちょっとわかりにくいので、yieldを使ったシンプルな例を作
def simple_yield():
    yield 1
    yield 2
    yield 3
    
# for ループは関数内のyieldが全て処理されるまで繰り返される
# 上のyield 1~yield 3は本中のサンプルのようにwhileやforで記述することがdけいる
    
for x in simple_yield():
    print(x)

1
2
3


In [12]:
# 閑話。こちらは上の単純なジェネレータを__next__()メソッドで呼び出したらどうなるか
# __next__()の呼び出しと、関数内のyieldが対応している雰囲気がわかる
x = simple_yield()
x.__next__()

1

In [13]:
x.__next__()

2

In [14]:
x.__next__()

3

In [15]:
x.__next__()

StopIteration: 

In [20]:
# 「ジェネレータ内包表記」
evens_below_20 = (i for i in generate_range(20) if i % 2 == 0)
evens_below_20

<generator object <genexpr> at 0x7ff7e89ced68>

In [None]:
data = natural_numbers()
# これらの計算は実際に生成されたジェネレータがイテレーションされるまで計算されない
evens_ = (x for x in data if x % 2 == 0)
even_squares = (x ** 2 for x in evens)
even_squares_ending_in_six = (x for x in even_squares if x % 10 == 6)

In [25]:
names = ["Alice", "Bob", "Charlie", "Debbie"]

# 「python的では無い」とのこと。
for i in range(len(names)):
    print(f"name {i} is {names[i]}")
    
# 「これもPython的では無い」とのこと
i = 0
for name in names:
    print(f"name {i} is {names[i]}")
    i += 1
    
# Python的な例（でもenumerateがあるから、
# enumerateを使った下記のシンプルな記述はPython的と言える、と言える再帰的な言及な気がする）
for i, name in enumerate(names):
    print(f"name {i} is {name}")

name 0 is Alice
name 1 is Bob
name 2 is Charlie
name 3 is Debbie
name 0 is Alice
name 1 is Bob
name 2 is Charlie
name 3 is Debbie
name 0 is Alice
name 1 is Bob
name 2 is Charlie
name 3 is Debbie


## 2.21 乱数

- データサイエンスを学ぶ中で、randomモジュールの乱数生成機能を必要とする場面は多い
- random.random()は0から1までの一様乱数を生成する
- randomモジュールが生成するのは、random.seedで指定した初期値を元にした擬似乱数
- random.randrange()で１または2つの引数をあたえたrange()の値をランダムに使用する
- random.shuffle()はリストの要素をランダムに並べかえる
- random.choice()はリストの中からランダムに１つの要素を取り出す
- リストから一度取り出した値を戻さずに複数の要素をサンプリングするにはrandom.sampleを使う
- 取り出した値を元に戻してサンプリングするには、ただrandom.choice()を繰り返せばよい


In [20]:
import random
random.seed(10)

four_uniform_randoms = [random.random() for _ in range(4)]
four_uniform_randoms 
# 何度実行しても同じ結果になるはず

[0.5714025946899135,
 0.4288890546751146,
 0.5780913011344704,
 0.20609823213950174]

In [30]:
random_1 = random.randrange(10)
random_2 = random.randrange(3, 6)
random_1, random_2

(7, 4)

In [23]:
up_to_ten = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
random.shuffle(up_to_ten)
up_to_ten

[4, 7, 1, 9, 3, 6, 2, 8, 10, 5]

In [25]:
my_best_friend = random.choice(["Aclice", "Bob", "Charlie"])
my_best_friend

'Bob'

In [26]:
lottery_numbers = range(60)
winning_numbers = random.sample(lottery_numbers, 6)
winning_numbers

[39, 24, 2, 37, 0, 15]

In [36]:
# 閑話。リスト内包表記で４回random.choice()を繰り返しているがけど、
# random.choice()がrange(4)から引数を取らないので メモリに残らない　_を使っている
four_with_replacement = [random.choice(range(10)) for _ in range(4)]
four_with_replacement

[7, 9, 6, 0]

## 2.22 正規表現

- 正規表現はテキスト検索の手段
- 便利だが、この本で言及仕切れないほど複雑、とのこと
- re.match, re.search, re.split, re.subが用例としてしめされている
- re.matchは文字列の先頭から正規表現と一致するかチェックする
- re.searchは文字列の任意の部分が正規表現と一致するかチェック

## 2.23 関数型プログラミング

- 本書第一版では、Pythonの関数partial, map, reduce, filterが紹介されているが、これらの関数は避けてリスト内包表記やforループなどで置き換えるべきと判断したとのこと。

## 2.24 zipと引数展開

- zip関数は複数のリストをまとめて対応する要素ごとのタプルのリストに変換する
- リストの長さが異なる場合、一番短いリストに合わせた長さのリストに変換される
- zipの引数にアスタリスク（*）をつけると、**引数展開**が行われ個々のぺあがそれぞれ順にzip関数への引数となる（zipの挙動と逆？）
- 引数展開は他のあらゆる関数に使用できる

In [37]:
list1 = ['a', 'b', 'c']
list2 = [1, 2, 3]
[pair for pair in zip(list1, list2)]

[('a', 1), ('b', 2), ('c', 3)]

In [39]:
pairs = [('a', 1), ('b', 2), ('c', 3)]
letters, numbers = zip(*pairs)
letters, numbers

(('a', 'b', 'c'), (1, 2, 3))

In [41]:
def add(a, b): return a + b
add(1, 2)

3

In [42]:
try:
    add([1, 2])
except TypeError:
    print("add expects two inputs")
    
add(*[1, 2]) # リストが展開された形式でadd()の引数となる  

add expects two inputs


3

## 2.25 argsとkwargs

- 任意個数の引数を取れる関数の引数（可変長引数）として、\*args,\*\*kwargsを利用することができる
- アスタリスクの方が主でargs, kwargsは慣習的な可変長引数の名前
- argが名前の無い引数のタプル、kwargsがキーワード引数の辞書

In [28]:
# 関数fを引数として受け取り、fの戻り値を２倍する関数を返す関数（高階関数）を定義する
def doubler(f):
    def g(x):  
        return 2 * f(x)
    return g  # 関数doubleで定義した関数gを返している

In [29]:
def f1(x):
    return x + 1

g = doubler(f1)
assert g(3) == 8, "(3 + 1) *2は８であるべき"  # 引数の３はgの引数だが、f1で定義された処理が行われている
assert g(-1) == 0, "(-1 + 1) * 2は０であるべき"

In [30]:
def f2(x, y):
    return x + y

g = doubler(f2)
try:
    g(1, 2)
except TypeError:
    print("as defined, g only takes one argument")  
    #関数定義（この場合doubler内部のg(x), f(x)）よりgの引数は１つだけ

as defined, g only takes one argument


In [31]:
def magic(*args, **kwargs):
    print("名前なし引数:", args)
    print("キーワード引数", kwargs)

magic(1, 2, key="word", key2="word2")

名前なし引数: (1, 2)
キーワード引数 {'key': 'word', 'key2': 'word2'}


In [51]:
def other_way_magic(x, y, z):
    return x + y + z

x_y_list = [1, 2]
z_dict = {"z": 3}
assert other_way_magic(*x_y_list, **z_dict)  == 6, "1 + 2 + 3 should be 6"
# x_y_listをx, yにあたる引数として展開。なのでx_y_list = [1, 2, 3]だとAssertionError

TypeError: other_way_magic() got multiple values for argument 'z'

In [55]:
def doubler_correct(f):
    def g(*args, **kwargs):
        return 2 * f(*args, **kwargs)
    return g

g = doubler_correct(f2)
assert g(1, 2) == 6, "doubler should work now"

## 2.26 型アノテーション

- Pythonは動的型付け言語で利用するオブジェクトの型の定義を行う必要は無い（つまり型の宣言が必要な言語もある）
- Python3.6以降、型アノテーション付きの関数を実行できる
- しかし、Pythonの型アノテーションは実際には何もしていない
- でもPythonのコードで型アノテーションを資料するのは正当な理由があるよ、とのこと
- 型アノテーションを利用して型エラーを知らせてくれるような外部ツールがある

In [59]:
def add(a, b):
    return a + b

assert add(10, 5) == 15,  "+ は数値に対して有効"
assert add([1, 2], [3]) == [1, 2, 3], "+はリストに対して有効"
assert add("hi ", "there")  == "hi there", "+ は文字列に対して有効"

# この関数の場合add(a, b)の引数は数値でも、リストでも文字列でも有効

try:
    add(10, "five")
except TypeError:
    print("cannot add an int to a string")
    
# この関数の場合違う型を混ぜるとTypeError

cannot add an int to a string


In [62]:
def add(a: int, b:int) -> int:
    return a + b

# Python3.6以降は引数や返り値に型を指定する（型アノテーションをつける）ことができる

In [63]:
# しかし、型アノテーションは実際にはなにもしていない
add(10, 5), add("hi ", "there")

(15, 'hi there')

## 2.26.1 型アノテーションの書き方

- typingモジュールはパラメータ化された多くの型を提供している
- 変数自体の型は明らか。。？
- 型アノテーションはPythonオブジェクトなので変数に代入して参照できる

In [64]:
# リストの型アノテーションはlistだけだと十分な型の情報とは言えない
# listのここの要素は下のケースはあきらかにfloatだが、明示されていない
def total(xs: list) -> float:
    return sum(xs)

In [67]:
from typing import List
def total(xs: List[float]) -> float:
    return sum(xs)

In [68]:
x: int = 5  #これはあきらかにint
values = [] #型がわからない
best_so_far  = None #型がわからない

In [None]:
from typing import Optional

values: List[int] = []
best_sor_far: Optional[float] = None # float またはNoneのいずれかを許容する

In [69]:
from typing import Dict, Iterable, Tuple

counts: Dict[str, int] = {'data': 1, 'science': 2}

#リストとジェネレータはどちらもイテラブル
if lazy:
    evens: Iterable[int] = (x for x in range(10) if x % 2 ==0)
else:
    evens = [0, 2, 4, 6, 8]

NameError: name 'lazy' is not defined

In [70]:
# タプルは要素ごと型を指定する
triple: Tuple[int, float, int] = (10, 2,3, 5)

In [None]:
# ちょっと何をいっているのかわからないのだが、、

from typing import Callable

def twice(repeater: Callable[[str, in], str], s: str) -> str:
    return repeater(s, 2)

def comma_repeater(s: str, n: int) -> str:
    n_copies = [s for _ inrange(n)]
    return ',  '.join(n_copies)

assert twice(comma_repeater, "type hints") == "type hints, type hints"