- この章は、D社の新入社員むけPython速習コースとの体で書かれている
- 総合的なPythonのチュートリアルではないらしい
- データサイエンスにとって大切な部分に焦点をあわせている
- 「これまでにPythonを使ったことがない場合は、初心者向けのチュートリアルが別に必要」、かも

## 2.2 Pythonの入手

- Mac, Linuxでは最初からPythonがインストールされているはず
- しかしデータサイエンスで使われる大抵のライブラリを含んだ**「Anacondaディストリビューションのインストールを勧めます」**
- Anacondaディストリビューションは次のリンクの"Download"から自分の環境を選んでインストールする：　https://www.anaconda.com/download/
- "Graphical Installer"と"Command line Installer"があるが、どちらが良いかわからなければ"Graphical Installer"を選ぶのが無難？


## 2.3 仮想環境

- データサイエンスのプロジェクトは様々なバイルライブラリをインストールして利用する。例えばグラフ作成のために次章から"matplotlib"ライブラリを使用する。複数のライブラリをインストールするとライブラリの競合などの問題が発生することがある。
- 概ねだいたい全ての人が特定のPythonライブラリをインストールした仮想環境を利用しているのでは。
- この本はAnacondaのPythonディストリビューションを勧めているので、Anacondaで仮想環境を作ってみます。

#### Anacondaで"dsfs"というPython3.6の仮想環境を作る

1. Macの場合はターミナルで、次のコマンドを実行する

```
$ conda create -n dsfs python=3.6
```

2. インストールした仮想環境を確認

```
$ conda list
```

3. 次のコマンドで仮想環境"dsfs"を有効化する。

```
$ conda activate dsfs
```

4. 仮想環境にIpythonをインストールする、、**のだが、、**

```
$ python -m pip install ipyhton
```

- ＊ 仮想環境を作る方法は色々あって（conda,pyenv, venvなど）開発者であればvenvを使うことが現在は多いかもしれません。
- ＊ Anacondaの環境にライブラリをインストールする場合、自分であればパッケージマネージャとしてはcondaを使います。
- ＊ 仮想環境を使って多くのプロジェクトを端末内に作っているとcondaとpipを併用しないほうが良いかも、というケースが時々あります。

コメントをつけたりしながら notebookでPythonを利用する場合はIPythonを含むコンポーネントの**"Jupyter"**をインストールしてしまったほうが良いと思います。というかJupyterがないとnotebook使えません。Jupyterのインストールは下記のコマンドを実行します。



```
$ conda install jupyter
```

5. 以下のコマンドでNotebookを起動

```
$ cd ~/Documents  # どこでも好きなところ
$ jupyter notebook
```




## 2.4 空白によるフォーマット

多くのプログラミング言語では、ひとつのまとまった処理である"ブロック"の概念がある

- Pythonではブロックを**"インデント"**を使って表す
- コード内の**先頭のスペース**がインデント。スペースまたはタブを入力するのが、この２つは混在させるのはNG
- Jupyterだとブロック内では自動的にインデントされる＆tabを入力するとスペースが４つ入る。何も考えずtabキーを使うのが良いと思う。
- 丸カッコ、角カッコの内部では空白が無視される。かっこ無いが長い行は折り返して書くことができる
- バックスラッシュを使うと次の行への継続を示せる（括弧内で無いケースの記述で）
- 空行はforループブロックの終わりと認識される

In [28]:
# forループブロック。コードを書いていると頻出します。
# for x in y: のyの要素を繰り返し何かの処理をするブロックです。

for i in [1, 2, 3, 4]:
    print(i)  # print()は標準出力に文字列や変数の値を表示する関数。ちなみに行の"#"以降はコメントとみなされる。

1
2
3
4


In [23]:
for i in [1, 2, 3, 4, 5]:
    print(i)
    for j in [1, 2, 3, 4, 5]:
        print(j)
        print(i + j)
    print(i)
print("done")

1
1
2
2
3
3
4
4
5
5
6
1
2
1
3
2
4
3
5
4
6
5
7
2
3
1
4
2
5
3
6
4
7
5
8
3
4
1
5
2
6
3
7
4
8
5
9
4
5
1
6
2
7
3
8
4
9
5
10
5
done


In [25]:
# 括弧内では改行で生じる空白は無視される。
# ただ（いずれ理由はわかりますが）forループでこんな書き方はまずしない。

for i in [1, 2, 3, 4, 5, 6, 
          7, 8, 9, 10, 11, 12,
         13, 14, 15]:
    print(i)

1
2
3
4
5
6
7
8
8
10
11
12
13
14
15


In [27]:
two_plus_tree = 1 + \
                              3
two_plus_tree

4

## 2.5 モジュール

- デフォルトではロードされない機能はimportを使ってロードする必要がある
- reやmath, collections, json, csvなど利用頻度の高そうな機能でもimportする必要がある
- 不用意にモジュール全体をインポートすると自分で定義した変数を上書きしてしまうことがある（できれば特定の機能のみインポートしたほうが安全）

In [31]:
# "正規表現"モジュールをimportして使う例
# 閑話。[0-9]に当たる文字があれあば何文字でも""に置換するという処理
# 正規表現のルールは重要だけど忘れがち。"Python 正規表現"でネットを検索すると沢山でてくる。
# https://regexper.com をすすめられたりする

import re
my_regex = re.compile("[0-9]+", re.I)
my_regex.sub("", "a1b22c333d4444e55555f66666")

'abcdef'

In [33]:
# モジュール名は短縮した名前などに直して使うことができる（pandas をpd, numpyをnpなど）
#  re as regexみたいな使い方はあまりしない気がする

import re as regex
my_regex = re.compile("[0-9]+", re.I)

# 長い名前を入力しやすいように短く付け直して使うケースはしばしばある
import matplotlib.pyplot as plt

In [34]:
# モジュールの特定の機能だけを明示してインポートすることができる

from collections import defaultdict, Counter
lookup = defaultdict(int)
my_counter = Counter()

In [37]:
match  = 10
from re import *   #モジュール全体をインポートする場合ワイルドカードが使えるが、、
print(match)

<function match at 0x7f91201177b8>


## 2.6 関数

- 関数は値を受け取り、処理後の値を返す（あるいは処理したままで値を返さない場合もある）機能
- pythonでは"def"を使って関数を定義し、ブロックに処理を記述する
- 関数名で関数の処理を利用することができる
- Pythonの関数はオブジェクトであり、関数を変数に代入できる（何を言っているのか意味不明かもしれませんが）
- 名前を持たない関数（ラムダ：lambda）を定義できる
- 関数の引数にはデフォルト引数を使うことができる
- 引数には名前や型アノテーションをつけることができる

In [38]:
def double(x):
    """
    引数に2を掛けた値を返す、のように
    docstringに関数が何をするか記述する。無くても動く。
    """
    return x *2

double(10)

20

In [40]:
# double(x)と同じ処理をlambdaで書くことができる
y = lambda x: 2 * x
y(10)

20

## 2.7 文字列

- 文字列は単一引用符または二重引用符で囲む
- 特殊文字を表すのにバックスラッシュを使う
- 正規表現やWinのディレクトリ名でバックスラッシュを使いたいときはr""のようにRAW文字列として表現できる
- ３つ重ねた引用符で複数行の文字列を定義できる
- f文字列は値と文字列を置き換える

In [41]:
single_quoted_string = 'data science'
double_quoted_string = "data science"

single_quoted_string, double_quoted_string 

('data science', 'data science')

In [42]:
tab_string = "\t"
len(tab_string)

1

In [43]:
not_tab_string = r"\t"
len(not_tab_string)

2

In [48]:
first_name = "Joel"
last_name = "Grus"

# 上のような姓名を連結する方法はいくつかある

full_name1 = first_name + " " +  last_name
full_name2 = "{0} {1}".format(first_name, last_name)
full_name3 = f"{first_name} {last_name}"  # f文字列

full_name1, full_name2, full_name3

('Joel Grus', 'Joel Grus', 'Joel Grus')

## 2.8 例外

- プログラム実行中にエラーが発生するとPythonは例外（exception）を送出する
- 例外はプログラムを中断させる
- tryとexceptを使って、例外をキャッチして処理を続けることができる

In [6]:
# print(0/0)はZeroDivisionErrorでそのままだと処理が止まるが、try, exceptすることで処理を続けることができる

print(0/0)

try:
    print(0/0)
except ZeroDivisionError:
    print(str(ZeroDivisionError))

ZeroDivisionError: division by zero

## 2.9 リスト

- リストはおそらくPythonの最も基本的なデータ構造
- リストは単純な順序・コレクション
- 文字列と数値とbool値（True, False）とか異なったタイプのデータを１つのリストに格納できる
- n番目の要素の値を取り出したり、値を設定するには角カッコをつかう（インデックスによる指定などと言う）
- 角カッコでリストの一部を切り出したスライスをつくることができる
- スライス[i:j]はi番目（この要素を含む）からj番目（この要素を含まない）までの要素を意味する
- スライスの末尾を省略するとリストの末尾までのスライスができる
- スライスはリスト以外にもタプル、range,文字列などのシーケンス型で使うことができる
- スライスには"stride"（間隔）を表す3番目の引数がある。strideは負の値も指定できる
- in演算子でリストにある要素が含まれるか調べることができる（リストが比較的小さい場合使うとのこと）
- extendでリストを連結（元のリストが変更される）
- リスト同しを加算することができる（元のリストが変わらずextendと同様のリストを得ることができる）
- appendはリストに要素を１つづつ追加する。append操作は頻繁に使う
- 要素数がわかっている場合、リストを展開することができる
- 不要な値にアンダースコアを充てることがある（メモリを消費しないらしい）

In [7]:
integer_list = [1, 2, 3]
heterogeneous_list = ["string", 0.1, True]
list_of_lists = [integer_list, heterogeneous_list, []]
list_length = len(integer_list) # リストの長さは3
list_sum = sum(integer_list) # 合計値は6

In [10]:
x = [0, 1, 2, 3,4, 5, 6, 7, 8, 9]
zero = x[0] # インデックス0の要素、つまり0
one = x[1]
nine = x[-1] # 最後の要素を表すので、9
eight = x[-2] #最後の1つ前の要素を表すので、8
x[0] = -1 #インデックス0の要素が-1となるので、リストは[-1, 1, 2, 3, ..., 9]

zero, one, nine, eight, x

(0, 1, 9, 8, [-1, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
first_tree = x[:3]
three_to_end = x[3:]
one_to_for = x[1:5]
last_three = x[-3:]
without_first_and_last = x[1:-1]
copy_of_x = x[:]

first_tree,three_to_end,last_three,without_first_and_last,copy_of_x

([-1, 1, 2],
 [3, 4, 5, 6, 7, 8, 9],
 [7, 8, 9],
 [1, 2, 3, 4, 5, 6, 7, 8],
 [-1, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [16]:
every_third = x[::3]
five_to_three = x[5:2:-1]

every_third,five_to_three

([-1, 3, 6, 9], [5, 4, 3])

In [19]:
test_in_1 = 1 in [1,2,3]
test_in_2 = 0 in [1,2,3]

test_in_1, test_in_2

(True, False)

In [21]:
x = [1,2,3]
x.extend([4,5,6])

x

[1, 2, 3, 4, 5, 6]

In [20]:
x = [1,2,3]
y = x + [4,5,6]

y

[1, 2, 3, 4, 5, 6]

In [22]:
x = [1,2,3]
x.append(0)

x, x[-1],len(x)

([1, 2, 3, 0], 0, 4)

In [23]:
x, y = [1, 2]
x,y

(1, 2)

## 2.10 タプル

- リストに似ているデータ型
- 一度定義したタプルの要素は変更することができない（ここがリストと違う）
- タプルは丸カッコ(parentheses)またはカッコを使わない方法で作る
- 関数から複数の値を返すのにタプルは使われる
- タプル（およびリスト）は多重割り当てが可能（あまり使わない言葉な気がする）

In [24]:
my_list = [1,2]
my_tuple = (1, 2)
other_tuple = 3, 4

my_list,my_tuple,other_tuple

([1, 2], (1, 2), (3, 4))

In [25]:
my_list[1] = 3
my_list

[1, 3]

In [26]:
# TypeErrorが発生する
my_tuple[1] = 3

TypeError: 'tuple' object does not support item assignment

In [27]:
def sum_and_product(x, y):
    return (x + y), (x * y)

sum_and_product(2, 3)

(5, 6)

In [28]:
# 展開して取得
s, p = sum_and_product(5, 10)

print(s)
print(p)

15
50


In [29]:
x, y = 1, 2
x,y = y, x

## 2.11 辞書

- 辞書もリストと並んでPythonの基本的なデータ構造の１つ
- キーと値を関連づけて格納する。キーに対する値を即座に取り出すことができる
- 角カッコ（brackets）を使ってキーに対する値を取りだすことができる
- 辞書に無いキーを指定するとKeyError例外が生じる
- in演算子で辞書ないにキーが存在するか確認できる
- in演算子による要素チェックは大規模な辞書でも高速
- getメソッドでキーに対応する値を取り出すことができる
- getメソッドで存在しないキーを指定した場合設定したデフォルト値か"None"を返す
- キーと値の関連づけにも角カッコを使う
- 構造化データを表すのシンプルな手段として辞書は頻繁に使われる

ちなみに、JavaScriptの場合は存在しないオブジェクトのプロパティにアクセスすると、エラーは発生せずundefinedが返ります

In [2]:
# 初期化の方法はいろいろ
empty_dict = {}  # これがPython的とのこと
empty_dict2 = dict()
grades = {"Joel": 80, "Tim": 95}  # 辞書のリテラル表現

grades["Tim"]

95

In [3]:
kates_grade = grades["Kate"]

KeyError: 'Kate'

In [4]:
joel_has_grade = "Joel" in grades
kate_has_grade = "Kate" in grades

joel_has_grade, kate_has_grade

(True, False)

In [5]:
grades["Tim"] = 99
grades["Kate"] = 100
num_students = len(grades)

num_students

3