# 付録: Python チュートリアル

このオプションのチュートリアルでは，教科書の例やチュートリアルで使用されているPython言語とJupyter Notebookの機能を紹介する．データ分析ワークフローで使用される最も重要なデータ型や，これらのユースケースで使用される一般的なイディオムやパターンに特に注目している．この付録は，Python以外のプログラミング言語の経験が豊富な読者に特に役立つかもしれない．

目次:

1. [Jupyter Notebook](#1.-Jupyter-Notebook)
2. [条件分岐](#2.-Conditionals) 
3. [リスト](#3.-Lists)
4. [ループ](#4.-Loops)
5. [タプル](#5.-Tuples) 
6. [辞書](#6.-Dictionaries)
7. [データ型の組み合わせ](#7.-Combining-Data-Types)

# 1. Jupyter Notebook

Pythonに精通していても，これまでJupyter Notebookを使ったことがないかもしれない．Jupyter Notebookの主な考え方は，テキストとコードを混在させることができ，コードが「セル」で実行されることである．セルをクリックしてShift + Enterを押すと，セルが実行され，次のセルに移動する．Ctrl + Enterを押すと，セルは実行されるが，次のセルに移動しない．「Cell」メニューの異なるオプションを使用すると，一度に多くのセルを実行できる．

次のセルのコードを実行し，セルの下に出力が印刷されることを確認されたい．

In [1]:
print('Hello from Jupyter')

Hello from Jupyter


## 1.1 変数の出力と検査

Jupyter notebookでは，変数を検査するために2つの異なる方法がある．Pythonの`print()`関数は，いつものように便利である:

In [2]:
my_str = 'Hello'
my_int = 16

print(my_str)
print(my_int)

Hello
16


変数名だけでセルを実行することもできる:

In [3]:
my_str

'Hello'

ここでの2つのアプローチの大きな違いは，`print()`文は1つのセルで複数のアイテムを出力できるのに対し，後者のアプローチでは名前が付けられた最後の変数しか表示されないことである．次のように観察されたい:

In [4]:
my_str
my_int

16

`print()`を使った最初の例とは対照的に，これは最後の値だけを出力する．

## Nota Bene
このノートブック形式で情報を提示する主な利点の1つは，コードセルを変更して再実行し，出力がどのように変化するかを確認できることである．実験を恐れないでいただきたい!

# 2. 条件分岐

"条件分岐"とは，if文のことである．これまでにプログラミングを行ったことがある人なら，if-then-else構文を知っているはずである．Pythonでは次のように行う:

In [5]:
number_of_apples = 5

if number_of_apples < 1:
    print('You have no apples')
elif number_of_apples == 1:
    print('You have one apple')
elif number_of_apples < 4:
    print('You have a few apples')
else:
    print('You have many apples!')

You have many apples!


`number_of_apples`を変更して前のセルを再実行すると，さまざまな出力を得ることができる．

# 3. リスト

Pythonで最も汎用性が高く，よく使われるデータ型の1つはリスト([Python documentation](https://docs.python.org/3/library/stdtypes.html#list))である．これは，**順序付けられた**，**ミュータブルな**，**非ユニークな**アイテムの**コレクション**である． 

## 3.1 順序付けられている

*順序付けられている*とは，アイテムがコレクション内の*インデックス*で参照されることを意味する:

In [6]:
student_names = ['Alice', 'Bob', 'Carol', 'Dave']
student_names[1]

'Bob'

Pythonのインデックスは0から始まるので，リストの先頭のインデックスは0である:

In [7]:
student_names[0]

'Alice'

マイナスのインデックスを使うと，リストの最後の要素を取得できる:

In [8]:
student_names[-1]

'Dave'

リストは*スライス*してリストアイテムのサブセットを取得することもできる:

In [9]:
student_names[0:2]

['Alice', 'Bob']

In [10]:
student_names[1:3]

['Bob', 'Carol']

リストの先頭からスライスする場合，またはリストの末尾までスライスする場合は，インデックスを省略できる:

In [11]:
student_names[:2]

['Alice', 'Bob']

In [12]:
student_names[2:]

['Carol', 'Dave']

## 3.2 ミュータブル

*ミュータブル*とは，リストにアイテムを追加したり削除したりすることで変更できることを意味する．アイテムを追加するには，リストの末尾に`.append()`を使うのが一般的である:

In [13]:
student_names.append('Esther')
student_names

['Alice', 'Bob', 'Carol', 'Dave', 'Esther']

しかし，`.insert()`を使って任意のインデックスにアイテムを追加することもできる:

In [14]:
student_names.insert(2, 'Xavier')
student_names

['Alice', 'Bob', 'Xavier', 'Carol', 'Dave', 'Esther']

アイテムを削除するには`del`キーワードを使う:

In [15]:
del student_names[2]
student_names

['Alice', 'Bob', 'Carol', 'Dave', 'Esther']

## 3.3 非ユニーク
同じ名前をリストに繰り返し追加することを止めるものは何もないことに注意されたい:

In [16]:
student_names.append('Esther')
student_names.append('Esther')
student_names

['Alice', 'Bob', 'Carol', 'Dave', 'Esther', 'Esther', 'Esther']

一意性が強制されたコレクションが必要な場合は，[sets](https://docs.python.org/3/library/stdtypes.html#set)または[dictionaries](https://docs.python.org/3/library/stdtypes.html#dict)を使うべきである．

## 3.4 コレクション

コレクションとは，複数の値で構成されるデータ型のことを指す．リストはコレクションの一種であるが，タプル，セット，辞書などもある．

リストを含む変数に名前を付けるときは，複数形の名詞を使用する必要がある．例えば，前の例の`student_names`である．対照的に，単一の値には単数形の名詞を使用する必要がある．例えば，最初のセクションの`my_str`などである．これにより，変数がコレクションであるか単一のアイテムであるかを，あなたやコードを読む他の人が簡単に判断でき，次のセクションに示すようにループを書くときにも役立つ．

# 4. ループ

他のプログラミング言語から来た人なら，1種類以上のループを知っているであろう．Pythonでは，特にfor-loopに焦点を当てている．for-loopは，アイテムのコレクションを反復処理し，各アイテムに対してそのコードを実行する:

In [17]:
student_names = ['Alice', 'Bob', 'Carol', 'Dave']

for student_name in student_names:
    print('Hello ' + student_name + '!')

Hello Alice!
Hello Bob!
Hello Carol!
Hello Dave!


## 4.1 命名規則

for-in構文で使用されている命名規則に注目されたい:

    for student_name in student_names:
    
コレクションに複数形の名詞`student_names`を使用することで，コレクション内の個々のアイテムに良い名前を自動的に付けることができる: `student_name`．本書のチュートリアルでは，可能な限りこの命名規則を使用しており，これにより読者にループ変数の値がループの反復ごとに変化することが明確になる．

## 4.2 ループ，リスト，条件分岐

データを扱う際に非常によくあるタスクの1つは，*フィルタリングタスク*である．抽象的には，このタスクには，あるコレクションをループ処理し，各アイテムがある基準を満たしているかどうかを確認し，基準を満たすアイテムを別のコレクションに追加することが含まれる．

次の例では，`student_names`リストから「長い」名前だけのリストを作成する．長い名前とは，4文字以上の名前である．本書のチュートリアルでは，次のようなコードをよく見かける:

In [18]:
# 空のリストを初期化し，4文字以上の
# 生徒の名前を追加する
long_names = []
for student_name in student_names:
    # これが基準
    if len(student_name) > 4:
        long_names.append(student_name)

long_names

['Alice', 'Carol']

## 4.3 ネストされたループ

ループは互いにの中に「ネスト」することができる．これは，あるコレクションのアイテムを同じまたは別のコレクションのアイテムと対応付けたい場合によく発生する．ここでは，考えられる生徒のペアのリストを作成してみよう:

In [19]:
student_names = ['Alice', 'Bob', 'Carol', 'Dave']

student_pairs = []
for student_name_0 in student_names:
    for student_name_1 in student_names:
        student_pairs.append(
            (student_name_0, student_name_1)
        )

student_pairs

[('Alice', 'Alice'),
 ('Alice', 'Bob'),
 ('Alice', 'Carol'),
 ('Alice', 'Dave'),
 ('Bob', 'Alice'),
 ('Bob', 'Bob'),
 ('Bob', 'Carol'),
 ('Bob', 'Dave'),
 ('Carol', 'Alice'),
 ('Carol', 'Bob'),
 ('Carol', 'Carol'),
 ('Carol', 'Dave'),
 ('Dave', 'Alice'),
 ('Dave', 'Bob'),
 ('Dave', 'Carol'),
 ('Dave', 'Dave')]

ここで注目すべきは，`student_pairs`リストに名前を追加するのではなく，*タプル* `(student_name_0, student_name_1)`を追加していることである．つまり，リストの各アイテムは2つのタプルである:

In [20]:
student_pairs[0]

('Alice', 'Alice')

次のセクションではタプルについてもっと詳しく説明する．2つ目に注目すべきは，同じ生徒のペアを含めていることである．それらを除外したい場合は，2番目のfor-loopにif文を追加して，それらの繰り返しを*フィルタリング*することができる:

In [21]:
student_names = ['Alice', 'Bob', 'Carol', 'Dave']

student_pairs = []
for student_name_0 in student_names:
    for student_name_1 in student_names:
        # これが追加した基準
        if student_name_0 != student_name_1:
            student_pairs.append(
                (student_name_0, student_name_1)
            )

student_pairs

[('Alice', 'Bob'),
 ('Alice', 'Carol'),
 ('Alice', 'Dave'),
 ('Bob', 'Alice'),
 ('Bob', 'Carol'),
 ('Bob', 'Dave'),
 ('Carol', 'Alice'),
 ('Carol', 'Bob'),
 ('Carol', 'Dave'),
 ('Dave', 'Alice'),
 ('Dave', 'Bob'),
 ('Dave', 'Carol')]

そして，リストには重複がない．

# 5. タプル

経験豊富なPythonユーザーでさえ，タプルとリストの違いに戸惑うことがよくあるので，この短いセクションは必ず読んでいただきたい．

タプル([documentation](https://docs.python.org/3/library/stdtypes.html#tuple))は，表面的にはリストと似ていて，順序付けられた非ユニークなアイテムのコレクションである:

In [22]:
student_grade = ('Alice', 'Spanish', 'A-')
student_grade

('Alice', 'Spanish', 'A-')

In [23]:
student_grade[0]

'Alice'

## 5.1 イミュータブル

リストとの大きな違いは，タプルは**イミュータブル**であることである．次の各セルは例外を発生させるはずである．

In [24]:
student_grade.append('IU Bloomington')

AttributeError: 'tuple' object has no attribute 'append'

In [25]:
del student_grade[2]

TypeError: 'tuple' object doesn't support item deletion

In [26]:
student_grade[2] = 'C'

TypeError: 'tuple' object does not support item assignment

このイミュータビリティにより，タプルはインデックスが重要な場合に便利である．この例では，インデックスはセマンティックに重要である: インデックス0は生徒の名前，インデックス1は科目名，インデックス2は科目の成績である．タプルにアイテムを挿入したり追加したりできないことは，例えば，科目名が別のインデックスに移動しないことを確信できることを意味する．

## 5.2 アンパック

タプルのイミュータビリティにより，アンパックに便利である．最も単純な形式では，タプルのアンパックにより，次のようなことができる:

In [27]:
student_grade = ('Alice', 'Spanish', 'A-')
student_name, subject, grade = student_grade

print(student_name)
print(subject)
print(grade)

Alice
Spanish
A-


それ自体では時々便利であるが，タプルのアンパックはループで使用すると最も便利である．良い成績を取った生徒を祝福するコードを考えてみよう:

In [28]:
student_grades = [
    ('Alice', 'Spanish', 'A'),
    ('Bob', 'French', 'C'),
    ('Carol', 'Italian', 'B+'),
    ('Dave', 'Italian', 'A-'),
]

for student_name, subject, grade in student_grades:
    if grade.startswith('A'):
        print('Congratulations', student_name,
              'on getting an', grade,
              'in', subject)

Congratulations Alice on getting an A in Spanish
Congratulations Dave on getting an A- in Italian


これをインデックスを使った同じコードと比較してみよう:

In [29]:
for student_grade in student_grades:
    if student_grade[2].startswith('A'):
        print('Congratulations', student_grade[0],
              'on getting an', student_grade[2],
              'in', student_grade[1])

Congratulations Alice on getting an A in Spanish
Congratulations Dave on getting an A- in Italian


タプルのアンパックを使用すると，インデックスを使うのではなく，セマンティックな名前で構造化されたデータを簡単に参照できる．2番目の例は，機能的には同じであるが，書くのが難しく，読むのはさらに難しい．

# 6. 辞書

次のタイプのコレクションは，前の2つとはかなり異なるが，Pythonで最も強力なツールの1つである: 辞書(documentation)．辞書は，順不同で，ミュータブルな，ユニークなアイテムのコレクションである．他の言語では，これらはマップ，マッピング，ハッシュマップ，ハッシュ，または連想配列と呼ばれている．

## 6.1 順不同

順不同とは，辞書のアイテムがコレクション内の位置やインデックスで参照されないことを意味する．代わりに，辞書のアイテムにはキーがあり，各キーには値が関連付けられている．これは非常に基本的な例である:

In [30]:
foreign_languages = {
    'Alice': 'Spanish',
    'Bob': 'French',
    'Carol': 'Italian',
    'Dave': 'Italian',
}

ここでは，生徒の名前がキーで，生徒の外国語の科目が値になっている．したがって，Carolの外国語を見るには，インデックスではなくキー（彼女の名前）を使う:

In [31]:
foreign_languages['Carol']

'Italian'

辞書に存在しないキーの値を取得しようとすると，KeyErrorになる:

In [32]:
foreign_languages['Zeke']

KeyError: 'Zeke'

inキーワードを使って，特定のキーが辞書にあるかどうかを確認できる:

In [33]:
'Zeke' in foreign_languages

False

In [34]:
'Alice' in foreign_languages

True

キーは大文字と小文字を区別することに注意されたい:

In [35]:
'alice' in foreign_languages

False

## 6.2 ミュータブル

辞書にはエントリを追加，削除，変更できる:

In [36]:
# 存在しないエントリを追加
foreign_languages['Esther'] = 'French'
foreign_languages

{'Alice': 'Spanish',
 'Bob': 'French',
 'Carol': 'Italian',
 'Dave': 'Italian',
 'Esther': 'French'}

In [37]:
# 存在するエントリを削除
del foreign_languages['Bob']
foreign_languages

{'Alice': 'Spanish', 'Carol': 'Italian', 'Dave': 'Italian', 'Esther': 'French'}

In [38]:
# 存在するエントリを変更
foreign_languages['Esther'] = 'Italian'
foreign_languages

{'Alice': 'Spanish',
 'Carol': 'Italian',
 'Dave': 'Italian',
 'Esther': 'Italian'}

## 6.3 ユニーク
存在しないエントリを追加する構文と，既存のエントリを変更する構文が同じであることに注意されたい．辞書のキーに値を割り当てるとき，キーが存在しなければ追加し，存在すれば値を更新する．その結果，キーは必然的に*ユニーク*でなければならない -- 同じキーを持つ要素を1つ以上辞書に入れることはできない．

## 6.4 辞書のループ処理

リストほど頻繁には行われないが，辞書のエントリをループ処理することは可能である．これを行うには2つの方法がある:

In [39]:
for key in foreign_languages:
    value = foreign_languages[key]
    print(key, 'is taking', value)

Alice is taking Spanish
Carol is taking Italian
Dave is taking Italian
Esther is taking Italian


In [40]:
for key, value in foreign_languages.items():
    print(key, 'is taking', value)

Alice is taking Spanish
Carol is taking Italian
Dave is taking Italian
Esther is taking Italian


ここでは，一般的な原則を示すために`key`と`value`という変数を使用している．自分のコードで辞書のループを書くときは，`key`や`value`ではなく，説明的な名前を使用する必要がある．

## 6.5 レコードとしての辞書

`foreign_languages`では，ペアになったデータがある -- すべての名前が科目と関連付けられている．辞書は，単一のエンティティに関するいくつかの異なるデータを含むためにも使用されることがよくある．この微妙な違いを説明するために，`student_grades`の1つのアイテムを見てみよう:

In [41]:
student_grade = ('Alice', 'Spanish', 'A')

ここでは，これらのタプルの各アイテムが名前，科目，成績であることがわかる:

In [42]:
student_name, subject, grade = student_grades[0]
print(student_name, 'got a grade of', grade, 'in', subject)

Alice got a grade of A in Spanish


代わりに，このデータを辞書として表現し，そのように使用することができる．単一のアイテムを記述する情報の辞書は，しばしば*レコード*と呼ばれる:

In [43]:
record = {
    'name': 'Alice',
    'subject': 'Spanish',
    'grade': 'A',
}
print(record['name'],
      'got a grade of', record['grade'],
      'in', record['subject'])

Alice got a grade of A in Spanish


コードは少し長くなるが，ここにはインデックスを合わせたり，各値が何を表しているかについてまったくあいまいさがない．これは，一部のフィールドがオプションである可能性があるコンテキストでも便利である．

# 7. データ型の組み合わせ

これらの単純な例のほとんどでは，文字列や数値などの単純な値のコレクションを使用しているが，データ分析では，関心のある各アイテムに複数のデータが関連付けられている複雑なデータを扱うことがよくある．これらの複雑なデータは，多くの場合，コレクションのコレクション（例えば，辞書のリスト）として表現される．

特定の問題に適切なデータ型を選択すると，バグのないコードを書きやすくなり，他の人がコードを読みやすくなるが，最適なデータ型を特定するのは経験によって得られるスキルである．よく使われる組み合わせのデータ型を以下に示すが，これは決して網羅的ではない．

## 7.1 タプルのリスト

これは以前に見たことがある．タプルのアンパックの前の例の`student_grades`データを考えてみよう:

In [44]:
student_grades = [
    ('Alice', 'Spanish', 'A'),
    ('Bob', 'French', 'C'),
    ('Carol', 'Italian', 'B+'),
    ('Dave', 'Italian', 'A-'),
]

これはタプルのリストである:

In [45]:
student_grades[1]

('Bob', 'French', 'C')

そして，個々のタプルを次のように処理できる:

In [46]:
student_grades[1][2]

'C'

## 7.2 辞書のリスト

辞書のセクションでは，辞書が単一のエンティティに関するいくつかのデータを含むためによく使用されることを検討した．そして，そのような各辞書は*レコード*と呼ばれることがある．タプルのリスト`student_grades`をレコードのリスト`student_grade_records`に変換してみよう:

In [47]:
student_grade_records = []
for student_name, subject, grade in student_grades:
    record = {
        'name': student_name,
        'subject': subject,
        'grade': grade,
    }
    student_grade_records.append(record)
    
student_grade_records

[{'name': 'Alice', 'subject': 'Spanish', 'grade': 'A'},
 {'name': 'Bob', 'subject': 'French', 'grade': 'C'},
 {'name': 'Carol', 'subject': 'Italian', 'grade': 'B+'},
 {'name': 'Dave', 'subject': 'Italian', 'grade': 'A-'}]

これで，リストの各アイテムが辞書になった:

In [48]:
student_grade_records[1]

{'name': 'Bob', 'subject': 'French', 'grade': 'C'}

そして，個々のレコードを次のように処理できる:

In [49]:
student_grade_records[1]['grade']

'C'

このリストの辞書は，データベースやAPIからのデータを表すためによく使用される．このデータを使用して，タプルのアンパックのセクションで行ったように，良い成績を取った生徒を祝福するコードを書いてみよう:

In [50]:
for record in student_grade_records:
    if record['grade'].startswith('A'):
        print('Congratulations', record['name'], 
              'on getting an', record['grade'], 
              'in', record['subject'])

Congratulations Alice on getting an A in Spanish
Congratulations Dave on getting an A- in Italian


## 7.3 辞書の辞書

リストの辞書は，非ユニークなデータを扱う場合に非常に便利である．前の例では，各生徒が異なるクラスの成績を複数持っている可能性がある．しかし，時には特定の名前やキーでデータを参照したいこともある．この場合，値がレコード（つまり他の辞書）である辞書を使用できる．

再び`student_grades`のデータを使用するが，生徒の名前をキーとして使用できるように，外国語の成績だけが必要だと仮定しよう:

In [51]:
foreign_language_grades = {}
for student_name, subject, grade in student_grades:
    record = {
        'subject': subject,
        'grade': grade,
    }
    foreign_language_grades[student_name] = record
    
foreign_language_grades

{'Alice': {'subject': 'Spanish', 'grade': 'A'},
 'Bob': {'subject': 'French', 'grade': 'C'},
 'Carol': {'subject': 'Italian', 'grade': 'B+'},
 'Dave': {'subject': 'Italian', 'grade': 'A-'}}

これで，生徒の名前で参照できるようになった:

In [52]:
foreign_language_grades['Alice']

{'subject': 'Spanish', 'grade': 'A'}

そして，気になる個々のデータを取得できる:

In [53]:
foreign_language_grades['Alice']['grade']

'A'

## 7.4 タプルのキーを持つ辞書

複数のデータで辞書をキーにすることが便利な場合がある．辞書は，タプルを含むイミュータブルなオブジェクトをキーとして使用できる．生徒の成績の例を続けると，キーを生徒の名前と科目にしたいかもしれない:

In [54]:
student_course_grades = {}
for student_name, subject, grade in student_grades:
    student_course_grades[student_name, subject] = grade
    
student_course_grades

{('Alice', 'Spanish'): 'A',
 ('Bob', 'French'): 'C',
 ('Carol', 'Italian'): 'B+',
 ('Dave', 'Italian'): 'A-'}

これで，生徒のすべての成績を表すことができる:

In [55]:
student_course_grades['Alice', 'Math'] = 'A'
student_course_grades['Alice', 'History'] = 'B'

In [56]:
student_course_grades

{('Alice', 'Spanish'): 'A',
 ('Bob', 'French'): 'C',
 ('Carol', 'Italian'): 'B+',
 ('Dave', 'Italian'): 'A-',
 ('Alice', 'Math'): 'A',
 ('Alice', 'History'): 'B'}

## 7.5 別の辞書の辞書

特定の生徒の場合，科目と成績のペアを取得することが多いという事実を利用しよう．つまり，成績表である．生徒の名前をキーとし，値を科目と成績のペアの辞書とする辞書を作成できる．この場合，少しチェックする必要がある．そのステップにコメントを付けている:

In [57]:
student_report_cards = {}
for student_name, subject, grade in student_grades:
    # 生徒の成績表がない場合は，
    # 空の成績表を作成する必要がある
    if student_name not in student_report_cards:
        student_report_cards[student_name] = {}
    student_report_cards[student_name][subject] = grade

In [58]:
student_report_cards

{'Alice': {'Spanish': 'A'},
 'Bob': {'French': 'C'},
 'Carol': {'Italian': 'B+'},
 'Dave': {'Italian': 'A-'}}

この追加の作業の利点は，生徒ごとに複数の成績を簡単に持てるようになったことである:

In [59]:
student_report_cards['Alice']['Math'] = 'A'
student_report_cards['Alice']['History'] = 'B'

In [60]:
student_report_cards

{'Alice': {'Spanish': 'A', 'Math': 'A', 'History': 'B'},
 'Bob': {'French': 'C'},
 'Carol': {'Italian': 'B+'},
 'Dave': {'Italian': 'A-'}}

そして，生徒の「成績表」を簡単に取得できる:

In [61]:
student_report_cards['Alice']

{'Spanish': 'A', 'Math': 'A', 'History': 'B'}