## 6-1. 内包表記

## リスト内包表記

Pythonでは各種の**内包表記** (comprehension) が利用できます。 <br>
以下のような整数の自乗を要素に持つリストを作るプログラムでは、`squares1` として `[0, 1, 4, 9, 16, 25]` が得られます。<br>

これを内包表記を用いて書き換えると、以下のように一行で書け、プログラムが読みやすくなります。

In [None]:
squares1 = []
for x in range(6):
    squares1.append(x**2)
print('squares1', squares1)

squares2 = [x**2 for x in range(6)]
print('squares2', squares2)

関数 **`sum`** は与えられた数のリストの総和を求めます。<br>
（2-2の練習にあった `sum_list` と同じ機能を持つ組み込みの関数です。）<br>
内包表記に対して `sum` を適用すると以下のようになります。<br>

In [None]:
# 処理ブロックをループで回して合計を得る
list = range(6)
square_sum = 0
for x in list:
    square_sum += x**2
print('square_sum\t', square_sum)

# 内包表記で同等の値を得る
print('one_liner\t\t', sum([x**2 for x in range(6)]))


# 処理ブロックをループで回してASCIIコードのリストを得る
ascii = []
for i in range(26):
    ascii.append(chr(i + ord('a')))
print('ascii\t\t\t', ascii)

# 内包表記で同等のリストを得る
print('one_liner\t\t', [chr(i + ord('a')) for i in range(26)])


## 練習
文字列のリストが変数 `strings` に与えられたとき、
それぞれの文字列の長さからなるリストを返す内包表記を記述してください。

`strings = ['The', 'quick', 'brown']` のとき、結果は `[3, 5, 5]` となります。

In [None]:
strings = ['The', 'quick', 'brown']
[  len(word) for word in strings  ]

## 練習

コンマで区切られた10進数からなる文字列が変数 `str1` に与えられたとき、
それぞれの10進数を数に変換して得られるリストを返す内包表記を記述してください。

`str1 = '123,45,-3'` のとき、結果は `[123, 45, -3]` となります。

なお、コンマで区切られた10進数からなる文字列を、10進数の文字列のリストに変換するには、メソッド `split` を用いることができます。
また、10進数の文字列を数に変換するには、**`int`** を関数として用いることができます。

In [None]:
str1 = '123,45,-3'
[  int(dec) for dec in str1.split(',')  ]

## 練習

数のリストが与えらえたとき、リストの要素の分散を求める関数 `var` を
内包表記と関数 `sum` を用いて定義してください。<br>

In [None]:
# 関数の定義
def var(lst):
    average = sum(lst) / len(lst)
    return sum( [ ( elm  -  average )  **  2 for elm in lst ] ) / len(lst)

# 関数の検証
print(var([3,4,1,2]) == 1.25)

## 内包表記の入れ子
また内包表記を**入れ子**（**ネスト**）にすることも可能です:

In [None]:
#
# ２重の内包表記 → 外側から読む
#
[  [  x * y for y in range(x + 1)  ] for x in range(4)  ]

ネストした内包表記は、外側から読むとわかりやすいです。<br>
`x` を `0` から `3` まで動かしてリストが作られます。<br>
そのリストの要素1つ1つは内包表記によるリストになっていて、<br>
それぞれのリストは `y` を 0 から `x` まで動かして得られます。<br>
<br>
以下のリストは、上の2重のリストをフラットにしたものです。<br>
この内包表記では、`for` が2重になっていますが、自然に左から読んでください。<br>
`x` を `0` から `3` まで動かし、そのそれぞれに対して `y` を `0` から `x` まで動かします。<br>
その各ステップで得られた `x*y` の値をリストにします。<br>

In [None]:
# 内包表記
print('内包表記:', [  x * y for x in range(4) for y in range( x + 1 )  ] )

# ２重ループ
flat_list = []
for x in range(4):
    for y in range( x + 1 ):
        flat_list.append( x * y )
print('２重ループ:', flat_list)

以下の関数は、引数の文字列のスライスの全パターンで切り出した部分文字列のリストを返します。

In [None]:
#
# スライスは、インデックス：インデックス＋１で、インデックスの位置にある要素を指定
# ただし、リストの長さをインデックスとして指定すると、IndexError
# ２つ for があるが、フラットな１重の内包表記
#
def allsubstrings(s):
    return [ s[ i : j ] for i in range( len( s ) ) for j in range( i + 1,  len( s ) + 1 ) ]

allsubstrings('abc')

## 練習

次のような関数 `sum_lists` を作成してください。

- `sum_lists` はリスト `list1` を引数とします。
- `list1` の各要素はリストであり、そのリストの要素は数です。
- `sum_lists` は、`list1` の各要素であるリストの総和を求め、それらの総和を足し合せて返します。

ここでは、内包表記と関数 `sum` を用いて `sum_lists` を定義してください。
以下のセルの `...` のところを書き換えて `sum_lists` を作成してください。

In [None]:
#
# sum(list)でリストの全要素の和を返す
# sum([1, 2, 3, 4]) で10が返る
#
def sum_lists(list1):
    return sum(  [ sum(x) for x in list1 ]  )

sum([1, 2, 3, 4])

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認してください。

In [None]:
print(sum_lists([[20, 5], [6, 16, 14, 5], [16, 8, 16, 17, 14], [1], [5, 3, 5, 7]]) == 158)

## 練習

リスト `list1` と `list2` が引数として与えられたとき、次のようなリスト `list3` を返す関数 `sum_matrix` を作成してください。

- `list1`, `list2`, `list3` は、3つの要素を持ちます。
- 各要素は大きさ 3 のリストになっており、そのリストの要素は全て数です。
- `list3[i][j]` （ただし、`i` と `j` は共に、0 以上 2 以下の整数）は `list1[i][j]` と `list2[i][j]` の値の和になっています。

ここでは、内包表記を用いて`sum_matrix` を定義してください。以下のセルの `...` のところを書き換えて `sum_matrix` を作成してください。

In [None]:
# 関数の定義
#
# ２重の内包表記 → 外側から読む
#
def sum_matrix(list1, list2):
    return [  [ list1[ i ][ j ] + list2[ i ][ j ] for j in range(3) ] for i in range(3)  ]

# 関数の検証
print(sum_matrix([[1, 5, 3],[4, 5, 6],[7, 8, 9]], [[1, 4, 7 ],[2, 5, 8],[3, 6, 9]])==[[2, 9, 10], [6, 10, 14], [10, 14, 18]])

## **条件付き内包表記**

内包表記は `for` に加えて `if` を使うこともできます。<br>
この場合、length として要素が None の場合を除いた [3, 3, 8, 7] が得られます。

In [None]:
words = ['cat', 'dog', 'elephant', None, 'giraffe']
length = [len(w) for w in words if w != None]
print(length)

## **セット内包表記**

内包表記はセット（集合）に対しても使うことができます:

In [None]:
words = ['cat', 'dog', 'elephant', 'giraffe']
length_set = {len(w) for w in words}
print(length_set)

`length_set` として `{3, 7, 8}` が得られます。
セット型なので、リストと異なり重複する要素は除かれます。

## **辞書内包表記**
内包表記は辞書型でも使うことができます。

In [None]:
words = ['cat', 'dog', 'elephant', 'giraffe']
length_dic = {w:len(w) for w in words}
print(length_dic)

`length_dic` として `{'cat': 3, 'dog': 3, 'elephant': 8, 'giraffe': 7}` が得られます。

長さと文字列を逆にするとどうなるでしょうか。

In [None]:
length_rdic = {len(w): w for w in words}
print(length_rdic)

## **ジェネレータ式**

内包表記と似たものとして、ジェネレータ式というものがあります。<br>
リスト内包表記の `[]` を `()` に置き換えれば、ジェネレータ式になります。<br>
ジェネレータ式は、**イテレータ**を構築します。<br>
イテレータは、for文で走査（全要素を訪問）できます。

In [None]:
it = (x * 3 for x in 'abc')

for x in it:
    print(x)

イテレータを組み込み関数 `list()` や `tuple()` に渡すと、対応するリストやタプルが構築されます。<br>
なお、ジェネレータ式を直接引数とするときには、ジェネレータ式の外側の `()` は省略可能です。

In [None]:
# リストを作成
print(   list(    x ** 2 for x in range(5)    )   )

# タプルを作成
print(   tuple(    x ** 2 for x in range(5)    )   )

総和を計算する組み込み関数 `sum()` など、リストやタプルを引数に取れる大抵の関数には、イテレータも渡せます。

In [None]:
sum(    x ** 2 for x in range(5)    )    # sum(  list  )と同じ

### メモリの使い方
ジェネレータ式の代わりにリスト内包表記を用いても同じ結果になりますが、
計算の途中で実際にリストを構築するので、メモリ消費が大きいです。<br>
ジェネレータ式では、リストのように走査できるイテレータを構築するだけなので、リスト内包表記よりメモリ効率がよいです。<br>
したがって、関数の引数として使うだけのような一時オブジェクトには、リスト内包表記ではなくジェネレータ式を用いるのが有効です。