<a href="https://colab.research.google.com/github/takahiromiura/class_data_analysis_I/blob/main/notebooks/%E3%83%87%E3%83%BC%E3%82%BF%E6%A7%8B%E9%80%A0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 基本的なデータ構造: 辞書・リスト・タプル

データ分析では、例えば A さんの生年月日や身長などのデータ、B さんのデータなどをまとめて取り扱う必要があります。

データをまとめるための仕組みを **データ構造** といいます。

ここでは、Python での基本的なデータ構造、辞書・リスト・タプルについて説明します。

これらは、コンテナとも呼ばれます。

# 辞書

アンケートデータにおける A さんの年齢、年収、性別が次のようなものだとします。

- 年齢 (歳): 26
- 年収 (万): 450
- 性別: 男

別々に変数を定義するよりも、A さんに関する情報をまとめた方がすっきりしそうです。

**辞書** (dictionary) 型は、このような用途に使えます。

辞書では、`key` と `value` のペアを登録する必要があります。

`key` (キー) は呼び出し用の名前で、`value` (バリュー) はその値です。

例えば、辞書という日本語は、英語で dictionary です。

「辞書」という `key` に対して、「dictionary」という `value` が紐づいているイメージです。

キー (key) と値 (value) のペアを `key-value` とまとめて呼んだりします。

## 辞書の作成

Python では波括弧 `{}` によって辞書を作成します。

ある `key` に紐づく `value` のペアは、 `key: value` と表します。

コロン `:` の前後にスペースはあってもなくても構いません。

`key` や `value` には数値型や文字列型などが使用できます。

先ほどの和英辞書の例は次のように作れます。

In [None]:
{"辞書": "dictionary"}

{'辞書': 'dictionary'}

複数の `key-value` をセットするときは、`,` で区切ります。

In [None]:
{"辞書": "dictionary", "プログラミング": "programming"}

{'辞書': 'dictionary', 'プログラミング': 'programming'}

キーは辞書につき一つしか定義できないことに注意してください。

後に定義されたものに上書きされます。

In [None]:
{"辞書": "dictionary", "辞書": "lexicon"}

{'辞書': 'lexicon'}

定義した辞書から値を呼び出すのは `<dict_name>[key]` で行えます。

In [None]:
my_dict = {"辞書": "dictionary"}
my_dict["辞書"]

'dictionary'

登録されていないキーを辞書に与えるとエラーになります。

In [None]:
# my_dict["日本"]

`dict_name[key] = value` で新たに `key-value` を登録できます。
`key` がすでに存在している場合は上書きされます。

In [None]:
my_dict["言語"] = "language"
my_dict

{'辞書': 'dictionary', '言語': 'language'}

### やってみよう

上にある A さんの年齢 (age)、年収 (income)、性別 (gender) をまとめた辞書を作ってください。

作成した辞書から、各値を呼び出してください。

## 補足説明: 入れ子辞書・json

辞書の中に辞書を入れることも可能です。

例えば、日本語と英語・韓国語の辞書をまとめて作成することもできます。

In [None]:
multi_dict = {
  "辞書": {
    "en": "dictionary",
    "kr": "사전",
  },
}
multi_dict

{'辞書': {'en': 'dictionary', 'kr': '사전'}}

### やってみよう
上で定義した辞書から、「辞書」の英単語だけを呼び出してください。

### json

このようなデータの形式は `json` (JavaScript Object Notation) という、よく Web サイトで使用するファイル形式によく似ています。
実際、辞書型と `json` 形式には互換性があります。

例えば、Stack Overflow などの Q & A サイトをまとめている StackExchange からデータをダウンロードできます ([リンク](https://api.stackexchange.com/docs))。


逆に、1 回の推定に時間がかかるデータ分析の結果を以下のような辞書にまとめ、`json` ファイルとして保存しておくといった用途もあります。

#### やってみよう

下のリンクをクリックし、`Run` というボタンを押して、データ構造を確認してみましょう。

- [リンク](https://api.stackexchange.com/docs/answers)

# リスト

辞書型のように、キーと値のペアではなく、1, 2, 3 というような値をまとめるのに便利なデータ構造が **リスト** (list) 型です。

一般的なプログラミングの用語では、リストなどのデータ構造を **シーケンス** (sequence) といい、その中に含まれている各値を **要素** といいます。

## リストの作成


リストの定義には、鍵括弧 `[]` を用います。

例えば、次は 1, 2, 3 からなるリストを作成しています。

リスト内の要素は、カンマ `,` で区切ります。

In [None]:
[1, 2, 3]

[1, 2, 3]

リストに入る要素は数値と文字列など、異なる種類のリストなども作成可能です。

### やってみよう

次のリストを作成してみましょう。

- 100, 30.2, "japan"

## インデックスとスライス

シーケンス内の要素は左から番号 (**インデックス**: index) が振られています。

Python ではインデックスは 0 から始まることに注意してください (R では 1 から)。

先の例では、1, 2, 3 に対応するインデックスはそれぞれ 0, 1, 2 です。

インデックスを使って、対応する要素を参照することができます。

リストから `i` 番目の値を呼び出す場合、`<list_name>[i]` とします。

In [None]:
NUMS = [1, 2, 3]
NUMS[1]

2

振り分けられていないインデックスを用いるとエラーになります。

In [None]:
# NUMS[3]

また、各要素には負の値のインデックスも振られており、これは右から -1 で始まります。

1, 2, 3 に対応する負の値のインデックスはそれぞれ -3, -2, -1 です。

シーケンスの最後の要素などを参照したい場合に役立ちます。

### やってみよう

正の値・負の値のインデックスを用いて、先ほど作成したリストから "japan" だけを取り出してみましょう

シーケンスの一部を取り出すことをシーケンスの **スライス** (slice) といいます。

Python におけるスライスは、開始するインデックス `i` 番目から終了するインデックス `i + j` 番目の*直前* までを切り出します。

`i` から `i + j` までを、コロン `:` を用いて `i: i + j` と書くことでスライスができます。

この場合、`i + j` 番目はスライスされる対象に含まれないことに注意してください。

In [None]:
NUM_LONG = [1, 2, 3, 4, 5]
NUM_LONG[1: 3] # 1 番目から 2 番目までスライス

[2, 3]

もし `i + j` 番目も含めたい場合には、`i + j + 1` とする必要があります。

In [None]:
NUM_LONG[1: 4] # 1 番目から 3 番目までスライス

[2, 3, 4]

0 番目から `i + j - 1` 番目までを取り出したい場合は、`:` の左は空白にします。

逆に、`i` 番目からシーケンスの最後までを取り出したい場合は、`:` の右を空白にします。

### やってみよう

先ほど定義した `NUMS_LONG` を用いて、スライスを試してみてください。

- 0 番目から 4 番目までを取り出す
- 1 番目から最後までを取り出す

## 値の更新

辞書型と同様、リストの中身を更新することができます。

中身を更新するには、<list>[i] = value というように、リストオブジェクトの i 番目の要素に `=` で値を再定義します。

例えば、次は 1, 2, 3 を含むリストを作成した後に、0 番目の要素を 100 にするには次のようにします。

In [None]:
NUMS = [1, 2, 3]
NUMS

[1, 2, 3]

In [None]:
NUMS[0] = 100
NUMS

[100, 2, 3]

## ミュータブル・イミュータブル

データによって、値を変更できるものとできないものがあります。

リストや辞書型は値を変更することができます。

値を変更できるものを**ミュータブル** (mutable) であるといいます。

一方で、数値型や文字列型などは変更ができません。

こちらは、**イミュータブル** (immutable) であるといいます。

# タプル

**タプル** (tuple) はリストに似たシーケンスデータです。

リストとは異なる部分は、イミュータブルであるということです。

## タプルの作成

タプルの定義には括弧 `()` を用います。

要素の区切りはカンマ `,` で表します。

In [None]:
('taxi', 'bus')

('taxi', 'bus')

## タプルの操作

リストと同様、タプルもインデックスやスライスを用いて、一部を参照することが可能です。

In [None]:
CAR = ('taxi', 'bus', 'car')
CAR[1]

'bus'

In [None]:
CAR[:2]

('taxi', 'bus')

### やってみよう

- `'taxi', 'bus', 'car'` の *リスト* を作成し、0 番目の要素を `'train'` に *書き換えられる* ことをチェックしましょう。
- `'taxi', 'bus', 'car'` の *タプル* を作成し、0 番目の要素を `'train'` に *書き換えられない* ことをチェックしましょう。

要素の数が 1 つだけのタプルを作る場合は、区切り文字 `,` を最後に加える必要があることに注意してください。

In [None]:
("japan", "korea") # OK

('japan', 'korea')

In [None]:
("japan" "korea") # NG

'japankorea'

## 補足説明: シーケンスとしての文字列

実は文字列もシーケンスの一つです。

したがって、文字列の一部をスライスしたり、`i` 番目の文字を取り出したりすることができます。

In [None]:
LONG_STR = "wakayama prefecture"
LONG_STR[:8]

'wakayama'

### やってみよう

`和歌山 太郎` という氏名の文字列を作成して、名前だけを取り出してください。