# 付録: Python チュートリアル

このオプションのチュートリアルでは、教科書の例題やチュートリアルで使用されているPython言語とJupyter Notebookの特徴について説明する。特に、データ分析のワークフローにおいて最も重要となるデータ型や、これらの使用事例で使用される一般的な慣例やパターンに注目する。この付録は、とりわけPython以外のプログラミング言語の経験が豊富な読者の役に立つだろう。

目次:

1. [Jupyter Notebook](#1.-Jupyter-Notebook)
2. [条件文](#2.-Conditionals) 
3. [リスト](#3.-Lists)
4. [ループ](#4.-Loops)
5. [タプル](#5.-Tuples) 
6. [辞書](#6.-Dictionaries)
7. [データ型の組み合わせ](#7.-Combining-Data-Types)

# 1. Jupyter Notebook

Pythonに詳しくても、Jupyter Notebookは使ったことがないという人がいるかもしれない。Jupyter Notebookの主な考え方は、同一環境内にテキストとコードを混在させることができ、そのコードが「セル」の中で実行されるというものである。セルをクリックしてShift + Enterを押すと、そのセルが実行され、次のセルに移動する。Ctrl + Enterの場合は、そのセルは実行されるが、次のセルには移動しない。「Cell」メニューにあるさまざまなオプションを使って、一度に多くのセルを実行できる。

次のセルのコードを実行し、セルの下に出力が表示されることを確認しよう。

In [1]:
print('Hello from Jupyter')

Hello from Jupyter


## 1.1 変数の出力と検査

Jupyter Notebookでは、変数を調べるために2通りの方法がある。このような場合にも、Pythonの`print()`関数が役に立つだろう。

In [2]:
my_str = 'Hello'
my_int = 16

print(my_str)
print(my_int)

Hello
16


変数の名前を指定してセルを実行することもできる:

In [3]:
my_str

'Hello'

この2つの方法の大きな違いは、`print()`文はセルごとに複数の要素を出力できるのに対し、後者の方法だと最後に指定された変数しか表示されない。実際に見てみよう。

In [4]:
my_str
my_int

16

`print()`を使った最初の例とは対照的に，これは最後の値だけを出力する．

## 注意事項
このノートブック形式で情報を提示する主な利点の1つは、コードセルを変更して再実行し、出力がどのように変化するかを確認できることである。恐れずに実験してもらいたい。

# 2. 条件文

"条件法"とは、if文のしゃれた言い回しである。プログラミングの経験があるなら、if-then-else構文をご存知だろう。Pythonでは次のようにする。

In [5]:
number_of_apples = 5

if number_of_apples < 1:
    print('You have no apples')
elif number_of_apples == 1:
    print('You have one apple')
elif number_of_apples < 4:
    print('You have a few apples')
else:
    print('You have many apples!')

You have many apples!


上記と異なる出力を得るには、`number_of_apples`を変更して、直前のセルを再実行する。

# 3. リスト

Pythonの最も汎用的でどこでも使うことができるデータ型の1つがリスト([Python documentation](https://docs.python.org/3/library/stdtypes.html#list))である。これは、**一意でない**要素の、**順序付き**、かつ**可変なコレクション**である。 

## 3.1 順序付き

*順序付き*とは、コレクション中の*インデックス*によって要素が指定されていることを意味する。

In [6]:
student_names = ['Alice', 'Bob', 'Carol', 'Dave']
student_names[1]

'Bob'

Pythonのインデックスは0から始まるので、リストの先頭のインデックスは0となる。

In [7]:
student_names[0]

'Alice'

負のインデックスを使うと、リストの最後の要素を取得することができる:

In [8]:
student_names[-1]

'Dave'

リスト要素の部分集合を取得するためにリストを*スライス*することもできる。

In [9]:
student_names[0:2]

['Alice', 'Bob']

In [10]:
student_names[1:3]

['Bob', 'Carol']

リストの先頭から、あるいはリストの末尾に向かってスライスする場合、インデックスを省くことができる。

In [11]:
student_names[:2]

['Alice', 'Bob']

In [12]:
student_names[2:]

['Carol', 'Dave']

## 3.2 可変

*可変*（mutable）とは、要素を追加したり削除したりすることで、リストを変更できることを意味している。通常、`.append()`を使ってリストの最後にアイテムを追加する。

In [13]:
student_names.append('Esther')
student_names

['Alice', 'Bob', 'Carol', 'Dave', 'Esther']

`.insert()`を使うと、任意のインデックスに要素を追加することもできる。

In [14]:
student_names.insert(2, 'Xavier')
student_names

['Alice', 'Bob', 'Xavier', 'Carol', 'Dave', 'Esther']

`del`キーワードを使うと要素を削除することができる。

In [15]:
del student_names[2]
student_names

['Alice', 'Bob', 'Carol', 'Dave', 'Esther']

## 3.3 一意でない
同じ名前をリストに繰り返し追加することができる。

In [16]:
student_names.append('Esther')
student_names.append('Esther')
student_names

['Alice', 'Bob', 'Carol', 'Dave', 'Esther', 'Esther', 'Esther']

もし一意性が保証されるようなコレクションが必要なら、集合（[sets](https://docs.python.org/3/library/stdtypes.html#set)）または辞書（[dictionaries](https://docs.python.org/3/library/stdtypes.html#dict)）の方が向いている。

## 3.4 コレクション

*コレクション*とは、複数の値から構成されるデータ型のことである。リストはコレクションの一種であるが、その他にもタプル、集合、辞書などがある。

リストを含む変数に名前を付ける場合、前の例にあった`student_names`のように、複数形の名詞を使用するという命名規則を使うとわかりやすくなる。これとは対照的に、単一の値をもつ変数には、最初の節の`my_str`のように単数系の名詞を使うべきである。これは、あなた自身やあなたのコードを読む人が、どの変数がコレクションで、どれが単一の要素であるかを区別するのに役に立ち、次節で示すように、ループを書くときにも役に立つ。

# 4. ループ

もし他のプログラミング言語を学んだ経験があれば、おそらく複数の種類のループをご存知だろう。Pythonでは、特にループの一種であるfor文に注目する。for文によるループは、コレクションに含まれる要素を繰り返して、それぞれの要素に対してコードを実行する。

In [17]:
student_names = ['Alice', 'Bob', 'Carol', 'Dave']

for student_name in student_names:
    print('Hello ' + student_name + '!')

Hello Alice!
Hello Bob!
Hello Carol!
Hello Dave!


## 4.1 命名規則

for文で使われている命名規則に注目しよう。

    for student_name in student_names:
    
`student_names`というコレクション名に複数形の名詞を使うことで、コレクションの中の個々の要素に対して`student_name`というふさわしい名前を自動的に付けることができる。本書のチュートリアルでは、どの変数がループ本体の繰り返しの間に値を変更する「ループ変数」であるかが、読者にわかりやすくなるように、可能な限りこの命名規則を使用している。

## 4.2 ループ，リスト，条件分岐

データを扱うときに最もよくあるのが*フィルタリングタスク*である。要するに、このタスクは、ループを使ってコレクション内の各要素を何らかの基準でチェックし、基準を満たした要素を別のコレクションに追加するというものである。

次の例では、`student_names`リストから「長い」名前だけのリストを作成する。ここでの長い名前の条件は、4文字より長い名前である。本書のチュートリアルでは、以下のようなコードをしばしば目にしたり、書いたりすることになる。

In [18]:
# 空のリストを初期化し、4文字以上の
# 学生名を追加
long_names = []
for student_name in student_names:
    # これが条件
    if len(student_name) > 4:
        long_names.append(student_name)

long_names

['Alice', 'Carol']

## 4.3 入れ子になったループ

ループは互いに「入れ子」にすることができる。これは、あるコレクションのアイテムを、同じコレクションまたは別のコレクションとマッチングさせたいときによく起こる。ここでは、考えられるすべての学生のペアのリストをつくってみよう。

In [19]:
student_names = ['Alice', 'Bob', 'Carol', 'Dave']

student_pairs = []
for student_name_0 in student_names:
    for student_name_1 in student_names:
        student_pairs.append(
            (student_name_0, student_name_1)
        )

student_pairs

[('Alice', 'Alice'),
 ('Alice', 'Bob'),
 ('Alice', 'Carol'),
 ('Alice', 'Dave'),
 ('Bob', 'Alice'),
 ('Bob', 'Bob'),
 ('Bob', 'Carol'),
 ('Bob', 'Dave'),
 ('Carol', 'Alice'),
 ('Carol', 'Bob'),
 ('Carol', 'Carol'),
 ('Carol', 'Dave'),
 ('Dave', 'Alice'),
 ('Dave', 'Bob'),
 ('Dave', 'Carol'),
 ('Dave', 'Dave')]

ここで、`student_pairs`というリストに単に名前を追加するのではなく、*タプル* `(student_name_0, student_name_1)`を追加していることに注意しよう。これはリストの各要素が2つの要素をもつタプルになっていることを意味する。

In [20]:
student_pairs[0]

('Alice', 'Alice')

タプルについては次の節で詳しく説明する。注意点の2つ目は、このリストには学生の名前が重複したペアも含まれていることである。仮に、それらを除外したいとする。2番目のfor文によるループにif文を追加することにより、このような重複した部分を*除外*することができる:

In [21]:
student_names = ['Alice', 'Bob', 'Carol', 'Dave']

student_pairs = []
for student_name_0 in student_names:
    for student_name_1 in student_names:
        # これが追加した条件
        if student_name_0 != student_name_1:
            student_pairs.append(
                (student_name_0, student_name_1)
            )

student_pairs

[('Alice', 'Bob'),
 ('Alice', 'Carol'),
 ('Alice', 'Dave'),
 ('Bob', 'Alice'),
 ('Bob', 'Carol'),
 ('Bob', 'Dave'),
 ('Carol', 'Alice'),
 ('Carol', 'Bob'),
 ('Carol', 'Dave'),
 ('Dave', 'Alice'),
 ('Dave', 'Bob'),
 ('Dave', 'Carol')]

これによりこのリストには同じ名前が重複しているペアがなくなる。

# 5. タプル

経験豊富なPythonのユーザーでさえ、タプルとリストの違いに戸惑うことが多いため、ある程度の経験があっても、この短い節は必ず読んでほしい。

タプル([documentation](https://docs.python.org/3/library/stdtypes.html#tuple))は、表面的にはリストと似ており、一意でない順序付けられた複数の要素で構成されるコレクションである、

In [22]:
student_grade = ('Alice', 'Spanish', 'A-')
student_grade

('Alice', 'Spanish', 'A-')

In [23]:
student_grade[0]

'Alice'

## 5.1 不変

リストとの大きな違いは、タプルは**不変**(immutable)であるという点ある。以下の各セルは例外を発生させるはずである。

In [24]:
student_grade.append('IU Bloomington')

AttributeError: 'tuple' object has no attribute 'append'

In [25]:
del student_grade[2]

TypeError: 'tuple' object doesn't support item deletion

In [26]:
student_grade[2] = 'C'

TypeError: 'tuple' object does not support item assignment

この不変であるという性質により、**インデックスが問題になる**ようなときには（リストよりも）タプルの方が役立つ。０番目のインデックスは学生の名前、１番目のインデックスは学生の選択科目名、２番目のインデックスはその科目の成績、といった例においては、インデックスの意味が問題になる。タプルに要素を挿入・追加できないということは、例えば科目名が不動であるということを意味している。

## 5.2 展開

タプルの不変であるという性質は、タプルに格納されている要素を**展開**する際に役立つ。最も単純な場合だと、タプルの展開により以下のような処理が可能になる。

In [27]:
student_grade = ('Alice', 'Spanish', 'A-')
student_name, subject, grade = student_grade

print(student_name)
print(subject)
print(grade)

Alice
Spanish
A-


単独でも有用であるが、タプルの展開はループと一緒に使うと最も効果的である。以下のように、成績が優秀な学生にをお祝いの言葉を述べるコードを考えてみよう。

In [28]:
student_grades = [
    ('Alice', 'Spanish', 'A'),
    ('Bob', 'French', 'C'),
    ('Carol', 'Italian', 'B+'),
    ('Dave', 'Italian', 'A-'),
]

for student_name, subject, grade in student_grades:
    if grade.startswith('A'):
        print('Congratulations', student_name,
              'on getting an', grade,
              'in', subject)

Congratulations Alice on getting an A in Spanish
Congratulations Dave on getting an A- in Italian


インデックスを使った同じコードと比較してみよう。

In [29]:
for student_grade in student_grades:
    if student_grade[2].startswith('A'):
        print('Congratulations', student_grade[0],
              'on getting an', student_grade[2],
              'in', student_grade[1])

Congratulations Alice on getting an A in Spanish
Congratulations Dave on getting an A- in Italian


タプルの展開は、インデックスで区別する代わりに、意味のある名前で構造化されたデータを簡単に参照することができる。2番目の例は、機能的には同じだが、書くのが難しく、さらに読みづらいものになっている。

# 6. 辞書

次のタイプのコレクションは、前の2つとはかなり異なるが、Pythonの最も強力なツールの1つである辞書([documentation](https://docs.python.org/3/library/stdtypes.html#dict))である。辞書は**一意な**要素の**順序無し**かつ**可変な**コレクションである。他のプロラミング言語では、辞書はマップ、マッピング、ハッシュマップ、ハッシュ、または連想配列とよばれている。

## 6.1 順序無し

順序無しということは、辞書の要素はコレクション中での位置、つまりインデックスによって参照されないことを意味している。その代わり、辞書の要素はキーをもっており、各キーは値と関連付けられている。以下は非常に基本的な例である。

In [30]:
foreign_languages = {
    'Alice': 'Spanish',
    'Bob': 'French',
    'Carol': 'Italian',
    'Dave': 'Italian',
}

ここでは、学生の名前がキーで、選択科目の言語名が値である。したがって、キャロルの言語を見るには、インデックスの代わりにキーである彼女の名前を使用する。

In [31]:
foreign_languages['Carol']

'Italian'

辞書の中に存在しないキーの値を取得しようとすると、`KeyError`が発生する。

In [32]:
foreign_languages['Zeke']

KeyError: 'Zeke'

特定のキーが辞書にあるかどうかは、inキーワードで調べることができる。

In [33]:
'Zeke' in foreign_languages

False

In [34]:
'Alice' in foreign_languages

True

キーは大文字と小文字が区別されることに注意しよう。

In [35]:
'alice' in foreign_languages

False

## 6.2 変更可能

辞書の要素を追加、削除、および変更することができる。

In [36]:
# 辞書にまだない要素を追加
foreign_languages['Esther'] = 'French'
foreign_languages

{'Alice': 'Spanish',
 'Bob': 'French',
 'Carol': 'Italian',
 'Dave': 'Italian',
 'Esther': 'French'}

In [37]:
# 辞書にある要素を削除
del foreign_languages['Bob']
foreign_languages

{'Alice': 'Spanish', 'Carol': 'Italian', 'Dave': 'Italian', 'Esther': 'French'}

In [38]:
# 辞書にある要素を変更
foreign_languages['Esther'] = 'Italian'
foreign_languages

{'Alice': 'Spanish',
 'Carol': 'Italian',
 'Dave': 'Italian',
 'Esther': 'Italian'}

## 6.3 一意性
要素を追加する構文はなく、既存の要素を変更する構文と同じであることに注意しよう。辞書のキーに値を割り当てると、そのキーが存在しない場合は追加し、存在する場合はそのキーの値を更新する。結果として、キーは必然的に*一意*になり、辞書に同じ名前のキーが複数存在することはない。

## 6.4 辞書のループ処理

リストほど頻繁には行われないが、辞書の要素をループさせることができる。これを行うには2つの方法がある。

In [39]:
for key in foreign_languages:
    value = foreign_languages[key]
    print(key, 'is taking', value)

Alice is taking Spanish
Carol is taking Italian
Dave is taking Italian
Esther is taking Italian


In [40]:
for key, value in foreign_languages.items():
    print(key, 'is taking', value)

Alice is taking Spanish
Carol is taking Italian
Dave is taking Italian
Esther is taking Italian


ここでは，一般的な原則を示すために`key`と`value`という変数を使用している．自分のコードで辞書のループを書くときは，`key`や`value`ではなく，説明的な名前を使用する必要がある．

## 6.5 レコードとしての辞書

`foreign_languages`では、ペアになったデータ、つまり、すべての名前が科目と関連付けられている。辞書はまた、１つのエンティティに関するいくつかの異なるデータを格納するためによく使用される。この微妙な違いを説明するために、`student_grades`の要素の１つを見てみよう。

In [41]:
student_grade = ('Alice', 'Spanish', 'A')

ここで、これらのタプルの各要素は、名前、科目、および成績であることがわかっている。

In [42]:
student_name, subject, grade = student_grades[0]
print(student_name, 'got a grade of', grade, 'in', subject)

Alice got a grade of A in Spanish


このデータを辞書として表現し、そのように使用することができる。単一の要素について説明する情報の辞書は、しばしば*レコード*と呼ばれる。

In [43]:
record = {
    'name': 'Alice',
    'subject': 'Spanish',
    'grade': 'A',
}
print(record['name'],
      'got a grade of', record['grade'],
      'in', record['subject'])

Alice got a grade of A in Spanish


コードは若干長くなるが、インデックスのマッチングや、それぞれの値が何を表しているのかについて、あいまいな点はまったくない。これは、いくつかのフィールドがオプションであるような場合にも有用である。

# 7. データ型の組み合わせ

これまでの単純な例では、文字列や数値などの単純な値を要素としてもつコレクションを扱うことが多かった。しかし、データ分析では、対象となるそれぞれの要素に複数のデータが関連付けられているような、複雑なデータをしばしば扱う。このような複雑なデータは、例えば辞書のリストのような、コレクションを要素にもつコレクションとして表現されることが多い。

与えられた問題に対して適切なデータ型を選択することで、バグのないコードを書くことが容易になり、他の人にとっても読みやすいコードを書くことができるようになる。しかし、最適なデータ型を見極めるスキルを習得するには経験が必要になる。以下に、よく使われる組み合わせのデータ型をいくつか例示するが、これは全てのパターンを網羅している訳ではない。

## 7.1 タプルのリスト

この用法は、既に一度取り上げているものである。前節のタプルの展開の例で出てきた`student_grades`のデータについて考えてみよう。

In [44]:
student_grades = [
    ('Alice', 'Spanish', 'A'),
    ('Bob', 'French', 'C'),
    ('Carol', 'Italian', 'B+'),
    ('Dave', 'Italian', 'A-'),
]

これはタプルのリストである。

In [45]:
student_grades[1]

('Bob', 'French', 'C')

また、個々のタプルを次のように扱うことができるようになっている。

In [46]:
student_grades[1][2]

'C'

## 7.2 辞書のリスト

辞書型に関する節では、辞書が１つのエンティティに関するいくつかのデータを格納するときによく使われる方法について探った。`student_grades`というタプルのリストを`student_grade_records`というレコードのリストに変換してみよう。

In [47]:
student_grade_records = []
for student_name, subject, grade in student_grades:
    record = {
        'name': student_name,
        'subject': subject,
        'grade': grade,
    }
    student_grade_records.append(record)
    
student_grade_records

[{'name': 'Alice', 'subject': 'Spanish', 'grade': 'A'},
 {'name': 'Bob', 'subject': 'French', 'grade': 'C'},
 {'name': 'Carol', 'subject': 'Italian', 'grade': 'B+'},
 {'name': 'Dave', 'subject': 'Italian', 'grade': 'A-'}]

これで、リストの各要素は辞書になった。

In [48]:
student_grade_records[1]

{'name': 'Bob', 'subject': 'French', 'grade': 'C'}

また、個々のレコードを次のように扱うことができる。

In [49]:
student_grade_records[1]['grade']

'C'

この辞書のリストは、データベースやAPIから取得したデータを表現する際によく使われる。タプルの展開に関する節で行ったように、このデータを使って、成績優秀な学生にお祝いの言葉を述べるコードを書いてみよう。

In [50]:
for record in student_grade_records:
    if record['grade'].startswith('A'):
        print('Congratulations', record['name'], 
              'on getting an', record['grade'], 
              'in', record['subject'])

Congratulations Alice on getting an A in Spanish
Congratulations Dave on getting an A- in Italian


## 7.3 辞書の辞書

辞書のリストは、一意でないデータを扱うときに非常に有用である。前術の例では、それぞれの学生が授業によって異なる成績をとっているかもしえない。しかし、時には特定の名前、またはキーによってデータを参照したいこともある。この場合、レコード、つまり他の辞書を値にもっている辞書を使うことができる。

語学の成績のみを必要としているという想定の元で、キーとして学生の名前を使って`student_grades`のデータを再度使用してみよう。

In [51]:
foreign_language_grades = {}
for student_name, subject, grade in student_grades:
    record = {
        'subject': subject,
        'grade': grade,
    }
    foreign_language_grades[student_name] = record
    
foreign_language_grades

{'Alice': {'subject': 'Spanish', 'grade': 'A'},
 'Bob': {'subject': 'French', 'grade': 'C'},
 'Carol': {'subject': 'Italian', 'grade': 'B+'},
 'Dave': {'subject': 'Italian', 'grade': 'A-'}}

これで、学生の名前で語学の成績を参照することができる。

In [52]:
foreign_language_grades['Alice']

{'subject': 'Spanish', 'grade': 'A'}

さらに、必要のある個々のデータを取得することができる。

In [53]:
foreign_language_grades['Alice']['grade']

'A'

## 7.4 タプルのキーを持つ辞書

複数のデータに対してキーを辞書にすると便利なことがある。タプルを含む任意の不変オブジェクトは、辞書のキーとして使用することができる。学生の成績の例にしながら、学生の名前と科目のペアを辞書のキーにしたいとする。

In [54]:
student_course_grades = {}
for student_name, subject, grade in student_grades:
    student_course_grades[student_name, subject] = grade
    
student_course_grades

{('Alice', 'Spanish'): 'A',
 ('Bob', 'French'): 'C',
 ('Carol', 'Italian'): 'B+',
 ('Dave', 'Italian'): 'A-'}

これで、すべての学生の成績を表示できる。

In [55]:
student_course_grades['Alice', 'Math'] = 'A'
student_course_grades['Alice', 'History'] = 'B'

In [56]:
student_course_grades

{('Alice', 'Spanish'): 'A',
 ('Bob', 'French'): 'C',
 ('Carol', 'Italian'): 'B+',
 ('Dave', 'Italian'): 'A-',
 ('Alice', 'Math'): 'A',
 ('Alice', 'History'): 'B'}

## 7.5 別の辞書の辞書

特定の学生について教科と成績をペアにしたもの、つまり成績表を取得したいということがよくある。学生の名前をキーとし、教科と成績のペア値にもった辞書を作成できる。この場合、ちょっとした確認をする必要があり、以下のようなステップでおこなう。

In [57]:
student_report_cards = {}
for student_name, subject, grade in student_grades:
    # もし学生の成績表がなければ、
    # 空のものを作る必要がある
    if student_name not in student_report_cards:
        student_report_cards[student_name] = {}
    student_report_cards[student_name][subject] = grade

In [58]:
student_report_cards

{'Alice': {'Spanish': 'A'},
 'Bob': {'French': 'C'},
 'Carol': {'Italian': 'B+'},
 'Dave': {'Italian': 'A-'}}

この手間をかけることの利点は、1人の学生に複数の成績を簡単につけられるようになるということである。

In [59]:
student_report_cards['Alice']['Math'] = 'A'
student_report_cards['Alice']['History'] = 'B'

In [60]:
student_report_cards

{'Alice': {'Spanish': 'A', 'Math': 'A', 'History': 'B'},
 'Bob': {'French': 'C'},
 'Carol': {'Italian': 'B+'},
 'Dave': {'Italian': 'A-'}}

また、学生の「成績表」を簡単に取り出すことができる。

In [61]:
student_report_cards['Alice']

{'Spanish': 'A', 'Math': 'A', 'History': 'B'}