# 第7回 データの入れ物

___
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/tsuboshun/begin-python/blob/gh-pages/_sources/workbook/lecture07.ipynb)

___

## この授業で学ぶこと

第4回の授業で、複数のデータをまとめるためのデータ型としてリスト型を紹介した。
Pythonにはリスト型の他にも、データの入れ物の役割を果たすデータ型がいくつか存在する。
今回はそれらの使い方を学ぶ。

## データの入れ物

リスト型のようにデータの入れ物の役割を果たす組み込み型として、他にも**辞書型**（**dict**）、**タプル型**（**tuple**）、**セット型**（**set**）などがある。
はじめのうちはリスト型と辞書型を使いこなすことが重要なので、これらに重点を置きつつ一通り説明する。
リスト型は改めての説明になるが、第4回の内容より一歩踏み込んで学ぶ。

### リスト型

第4回で学んだ通り、リストはデータを `,` で区切り、両端を `[]` で囲うことで作成できる。

インデックスによる要素のアクセス方法を復習しておこう。上の例で `"four"` や `5` を取り出すには、以下のようにインデックスを指定する。

#### 要素の追加と変更

今回新たに要素の追加方法を学ぶ。
よく使われるのが要素を末尾に追加する方法で、`append()` メソッドを用いる。
`append()` は、引数に渡されたデータをリストの末尾に追加する。

要素を特定の位置に挿入するには `insert()` メソッドを用いる。`insert()` は、第一引数にインデックス、第二引数にデータを受け取る。

In [None]:
x.insert(0, "zero")
print(x)
x.insert(2, "1/2")
print(x)

末尾に他のリストを連結するには `extend()` メソッドを用いる。 `extend()`は、引数に渡されたリストを自身の末尾に連結する。

In [None]:
x.extend([7, 8])
x

リストの連結は `+` 演算子によっても実現できる。`extend()` メソッドと違って、新しいリストが作成されることに注意する。

In [None]:
y = x + [9, 10]
print(y)
print(x)  # x自身は変わらない

代入文により要素を変更することもできる。

#### 要素の削除

要素を削除するには**del文**、または `pop()` や `remove()` メソッドを用いる。del文は `del` の後ろに指定した要素を削除する。あとで説明するスライスと組み合わせると、複数の要素をまとめて削除することもできる。

In [None]:
del x[2]
print(x)
del x[6:]  #スライス
print(x)

`pop()` メソッドは引数で指定したインデックスの要素をリストから削除し、その値を戻り値として返す。

In [None]:
elem = x.pop(2)
print(elem)
print(x)

`remove()` メソッドは引数で指定した値と同じ値の要素を検索し、（複数ある場合は）そのうち一番左の要素を削除する。戻り値はない。

In [None]:
print(x)
x.append("four")
print(x)
x.remove("four")
print(x)

#### スライス

リストに入っている要素のうち、連続した複数の要素を取り出すために用いられるのが**スライス**である。
整数 `i`、`j` を用いてリストに対して `[i:j]` と要素を指定すると、インデックスについて `i` から `j-1` までの要素を切り出すことができる。

`i` または `j` を省略することもできる。
`[:j]` は、インデックスについて最初から `j-1` までの要素を切り出す。
`[i:]` は、インデックスについて`i` から最後までの要素を切り出す。

以下にサンプルコードと図を示す。

In [None]:
x = [1, 2, 3, "four", 5]


```{figure} ./pic/slice.png
---
width: 550px
name: index
---
スライスとインデックスの関係
```

**練習1**  
整数を要素とするリスト `x` が与えられるとき、そのうち値が偶数の要素のみを取り出して新たなリストを作成し、出力しなさい。

In [None]:
# xの一例 （この例では[2, 4]と出力するのが正しい）
x = [1, 2, 3, 4, 5]

y = []
for v in x:
    pass # 適切なコードを書く

print(y)

**練習2**  
リスト `x` と整数 `i` が与えられるとき、リストの要素を `i` 回だけ右に回転させたリスト `y` を作成し、出力しなさい。ただし、`i` は0以上 `len(x)` 以下とする。
例: リスト `[1, 2, 3, 4, 5]` を2回回転させると、`[4, 5, 1, 2, 3]` になる。

 <font color=cornflowerblue>ヒント: スライスを使ってリストを2つ作り、それらを連結する</font>

In [None]:
# xとiの一例 （この例では[4, 5, 1, 2, 3]と出力するのが正しい）
x = [1, 2, 3, 4, 5]
i = 2

**練習3**  
練習2のコードを、さらに任意の整数 `i` に対して正しく動くように修正しなさい。

In [None]:
# xとiの一例 （この例では[5, 1, 2, 3, 4]と出力するのが正しい）
x = [1, 2, 3, 4, 5]
i = 6

### 辞書型

リストでは0から始まる整数インデックスをもとに要素にアクセスした。
辞書型は、自由に設定した**キー**（**key**）をもとに要素にアクセスできるようにしたデータ型である。
辞書型では要素のことを**値**（**value**）と呼ぶ。

```{figure} ./pic/dict.png
---
width: 450px
name: index
---
辞書型
```

辞書は、`:` を使ってキーと値のペアを指定し、各ペアを `,` で区切って、両端を `{}` で囲うことで作成できる。

リストと同様、値には `[]` を使ってアクセスできる。

存在しないキーを指定するとエラーになる。
キーが存在するかは、in演算子により確かめることができる。
したがって、キーが存在するかわからない場合は、if文で確かめてからアクセスすること。

値にはどのようなデータ型も使用できる。
ただし、キーにはイミュータブル（変更不可能）なデータ型しか使用できない。
これはキーが途中で変わらないことを保証するためである。

```{admonition} 発展的な話題： ミュータブルとイミュータブル
:class: note
値を変更可能なデータ型を**ミュータブル**、変更不可能なデータ型を**イミュータブル**という。  
リストや辞書はミュータブルなデータ型である。実際、それぞれ `[]` を使った代入文により要素を変更することができる。  
一方で、整数、浮動小数点数、文字列、真偽値はイミュータブルなデータ型である。
例えば、次のようなコードを実行したとする。
<pre>
x = 1
x = 2</pre>
このとき `x = 2` は、新しいオブジェクト `2` を作成して変数 `x` に代入しているのであって、元のオブジェクト `1` の値を変更しているわけではない。

これらの区別は、次のような例で重要になる。`y = x` というコードを実行した時点では、どちらのケースでも `x` と `y` は同じオブジェクトを参照している（第3回に説明したように同じオブジェクトに付箋がついているイメージ）。
<pre>
# ケース1
x = 1
y = x
x = 2
print(y)  # 出力は1</pre>
上の例で `x = 2` は新しいオブジェクトを `x` に代入しているので、変数 `y` に影響はない。
<pre>
# ケース2
x = [1, 2]
y = x
x[0] = 3
print(y)  # 出力は[3, 2]</pre>
上の例で `x[0] = 3` はオブジェクトの要素を変更している。したがって、変数 `y` の参照する値も変更される！
```

#### 要素の追加と変更

辞書に要素を追加したり変更したりするには、代入文を用いる。

#### 要素の削除

辞書から要素を削除するには、del文を用いる。

In [None]:
del x["grape"]
print(x)

#### ループ処理

リストと同様、辞書の中身を一つずつ取り出して何らかの処理を行う機会は多い。
辞書型では、for文を使って次のようにループ処理を行う。

**練習4**  
`a`、`b`、`c` から成るリスト `data` が与えられる。辞書を使って `a`、`b`、`c` の出現回数をカウントし、結果を出力しなさい。

In [None]:
# dataの一例 （この例では{'a': 3, 'b': 2, 'c': 1}と出力するのが正しい）
data = ['a', 'b', 'a', 'a', 'c', 'b']
count = {'a': 0, 'b': 0, 'c': 0}

for c in data:
    pass # 適切なコードを書く

**練習5**  
小文字のアルファベットから成るリスト `data` が与えられる。辞書を使ってそれぞれの文字の出現回数をカウントし、結果を出力しなさい。
練習1とは違って、辞書の中身は与えていないので工夫すること。

In [None]:
# dataの一例 （この例では{'a': 3, 'e': 2, 'f': 1}と出力するのが正しい）
data = ['a', 'e', 'a', 'a', 'f', 'e']
count = {}

for c in data:
    pass # 適切なコードを書く

### タプル型

タプル型は、リスト型をイミュータブルにしたデータ型である。データを `,` で区切り、両端を `()` で囲うことで作成できる。
リストと異なる点として、要素数が１つの場合も `(2,)` のように `,` で終わる必要がある。

In [None]:
c = (2) #これは2と同じ
type(c) 

要素のアクセス方法は、リストと同じである。

イミュータブルなデータ型なので、値を変更しようとするとエラーになる。

In [None]:
a[2] = "two"

タプルのリストにない利点として、例えば辞書のキーとして使える点が挙げられる。

In [None]:
x = {(5,3): 15, (2,4): 8}

In [None]:
x = {[5,3]: 15, [2,4]: 8}  # リストはミュータブルなので、キーとして使用できない

### セット型

セット型は、要素の重複なしの集合を表すためのデータ型である。
データを `,` で区切り、両端を `{}` で囲うことで作成できる。

セットはリストから作成することが多い。`set()` 関数にリストを渡すと、リストの要素から成るセットを作成できる。

セット型には次のような特徴がある。
1. 要素の重複が除かれる
2. 順序がなく、インデックスでアクセスできない
3. 要素はイミュータブルである必要がある

2と3についてはそのままであるので、1のみ確認しておこう。
例えば、リストをもとにセットを作成すると、要素の重複が除かれることを確かめることができる。

In [None]:
x = set([3, 1, 2, 2, 2])
x

セット型には、集合演算を容易に行えるという利点がある。例えば、和集合や積集合、差集合を次のように求めることができる。
それぞれの集合演算の意味は、ベン図と見比べるとわかりやすい。例として積集合について、対応する要素に色をつけている。

In [None]:
set1 = {1, 2, 3, 4}
set2 = {3, 4, 5, 6}


```{figure} ./pic/set.png
---
width: 400px
name: index
---
集合演算（積集合）
```

**練習6**  
2つのリスト `x` と `y` が与えられるとき、どちらのリストにも存在する要素のセットを作り、出力しなさい。

In [None]:
# xとyの一例 （この例では{6, 12, 18}と出力するのが正しい）
x = [2, 4, 6, 8, 10, 12, 14, 16, 18]
y = [3, 6, 9, 12, 15, 18]

## 演習

『不思議の国のアリス』のテキストを使って、アルファベットの出現頻度を調べてみよう。
以下のコードを実行することで、文章を単語ごとに分割して作成されたリストが `alice` に代入される。

In [None]:
import nltk
nltk.download('gutenberg')
alice = nltk.text.Text(nltk.corpus.gutenberg.words('carroll-alice.txt'))

`alice` の最初の20個の要素は次の通りである。

In [None]:
alice[:20]

**課題1**  
`alice` のリストにおける `"Alice"` の出現回数を調べて出力するプログラムを作成しなさい。この課題では、大文字と小文字を区別すること。

In [None]:
count = 0
for word in alice:
    pass # 適切なコードを書く
    
print(count)

**課題2**  
小文字のアルファベット `char` が与えられるとき、`alice` の全単語における `char` の出現回数を調べて出力するプログラムを作成しなさい。ただし、大文字と小文字は区別せずに数えること。

In [None]:
# charの一例
char = "a"

### 以下を埋めて、ここの部分のみ提出する
count = 0
for word in alice:
    for c in word:
        c = c.lower() # 大文字は小文字に直しておく
        pass # 適切なコードを書く
    
print(count)
### 

**課題3**  
`alice` の全単語における各アルファベットの出現回数を調べて、出現回数の多い上位10個を出力するプログラムを作成しなさい。ただし、大文字と小文字は区別せずに数えること。以下のコード中に、アルファベットをキー、出現回数を値とする辞書 `dic` を作成するコードを追加することで、題意のプログラムが完成する。 

<font color=cornflowerblue>ヒント: 出現回数が最も多いのは "e"</font>

In [None]:
dic = {}
for word in alice:
    for c in word:
        c = c.lower() # 大文字は小文字に直しておく
        if not ('a' <= c and c <= 'z'):  # cがアルファベット以外の場合はスキップする
            continue
            
        # ここに適切なコードを書く        

# 辞書の値に基づいてキーを並び替え、上位10個を取得
sorted_keys = sorted(dic, key=dic.get, reverse=True)[:10]

# 上位10個のキーを表示
print(sorted_keys)