# プログラミングにおけるデータと処理

プログラムは2つの種類のコードから構成される。

1.   データ
2.   処理

すべてのプログラムは、

1.   データを生成･読み込み
2.   データを処理･変換
3.   データを出力･書き出し

する構成となっている。

機械学習はこの構成のうち、データを処理･変換する部分に該当する。実際には、データがどのように生成･読み込みされ、行われた処理や変換を経て、どこに出力･書き出しされているのかをよく確認するとプログラムの動作を理解しやすい。

なお、データとは何かを観測した値などはイメージしやすい。これらに加えて、プログラムでは処理の対象となるものすべてをデータとして扱う。例えば、`'おはようございます'`という1文でも、文字がいくつか集まった文字列というデータである。ほかにも`1`という数は、1という数値データである。

## データの生成･読み込み

次のプログラムはインターネット上にある iris データをPandasというライブラリを使って **読み込み** している。

In [None]:
import pandas as pd
import io, requests

s=requests.get("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data").content
pd.read_csv(io.StringIO(s.decode('utf-8')))

次のプログラムはnumpyというライブラリを使って、2x3の行列のデータを全要素0で **生成** している。

In [None]:
import numpy as np


np.zeros((2, 3))

## データの処理･変換

次のプログラムは、 numpyで全要素が1の4x4の行列データを **生成** し、3倍する **処理** を行っている。

In [None]:
import numpy as np


aaa = np.ones((4, 4))
aaa * 3

次のプログラムでは、`x`と`y`というデータを基に、決定木のモデルを **生成** し、生成したモデルを使って、`x` を **処理** している。

機械学習モデル自体は、データを使って作り出される処理の方法で、一種のデータとして捉えることができる。それを用いて未知のデータに対して処理を行う。

In [None]:
from sklearn.ensemble import RandomForestClassifier


clf = RandomForestClassifier(random_state=0)

X = [[ 1,  2,  3],
     [11, 12, 13]]
y = [0, 1]

clf.fit(X, y)
clf.predict(X)

## データを出力･書き出し

`print()`関数は、データを画面に **出力** する機能がある。次のプログラムは、文字列データの `'hello'` を画面に **出力･表示** している。

In [None]:
print('hello')

次のプログラムは、scikit-learnを使った学習したモデルを、1度 _model.joblib_ というファイルに保存･ **書き出し**、それを再度 **読み込み** 学習結果を利用している。

このように、行った処理の結果をファイルに書き出し、それを後から読み込むことで利用することができる。

機械学習の **学習** という作業は、集めたデータから、機械学習モデルという別のデータに変換する過程と捉えることができ、学習モデルはデータとして扱うことができることを意味する。出来上がった学習モデルは、未知のデータに対して変換処理を行うことができるため、データと処理は表裏一体である。(ノイマン型コンピュータ)

In [None]:
from sklearn.ensemble import RandomForestClassifier
from joblib import dump, load


clf = RandomForestClassifier(random_state=0)

X = [[ 1,  2,  3],
     [11, 12, 13]]
y = [0, 1]

clf.fit(X, y)

dump(clf, 'model.joblib') 
clf2 = load('model.joblib') 
clf2.predict(X)

# データ

## 型について

プログラムには、データがどのようなデータであるかを示すものとして、**型** というものがある。コンピュータは人間が指定したデータの型に基づいた処理を行う。

## はじめから使える型

Pythonにはいくつかのはじめから使える型が存在する。これらは **組み込み型** と呼ばれ、Pythonをインストールするだけで利用できる。

代表的なものとして、

1.   文字列
2.   数値
3.   ブーリアン
4.   配列
5.   None

などがある。



### 文字列

次は、文字列型のデータを表示している。

In [None]:
print('hello')

### 数値

数値型のデータでは、足し算や、引き算、掛け算ができる。

In [None]:
print(1 + 2)

In [None]:
print(2 * 3)

同じような処理の書き方を文字列型のデータで行うと、コンピュータは数値では無いものとして、期待とは異なる結果を返す。

In [None]:
print('1' + '2')

### ブーリアン

ブーリアンは、Yes or Noの2択を意味する。`True`か`False`で表現する。

In [None]:
print(True)

In [None]:
print(False)

実際のプログラムでは、"値が同じかどうか" や "以上"、"以下" かを判定したりするときにもちいられる。

次のプログラムでは、_13は10より大きいですか_ とコンピュータに尋ね、その結果コンピュータは`True`、Yesと答えている。

In [None]:
13 > 10

これを用いることで、プログラムに条件に応じた処理の切替(条件分岐)を行わせることができる。次のプログラムでは、aaaという変数が、100より大きいか小さいかで処理を分岐している。

aaaに代入する値を変えて試してみると良い。

In [None]:
aaa = 100

if aaa > 100:
    print('100より大きいです。')
else:
    print('100未満です')

### 配列

配列型は、いくつかのデータを順番に束ねたものである。次のプログラムでは、3つの数値データを1つの配列の中に入れている。

In [None]:
print([1, 2, 3])

配列型のデータは、特定の場所を指定して、中身を取り出すことができる。順番の指定は0番目から始まる。

In [None]:
aaa = [1, 2, 3]
aaa[0]

### None

`None`は **何もない** ことを意味する。数値の0は0であることを示している。また、ブーリアンのFalseはNoを意味している。一方のNoneは、0やFalseといったこと自体が無いことを意味する。データが無いことを意味する特別なデータと考えると分かりやすい。

In [None]:
print(None)

## いろいろな型

型は自分で作ったり、ライブラリを追加することで自由に追加できる。コンピュータに指示できる処理の内容は、データの種類である型によって決まっており、同じような処理ができるデータは同じ型にして、処理を記述する。

numpyには行列を扱う型がある。この行列の型では、様々な大きさや様々な値が入った行列に対し、足し算や掛け算などの計算処理を行うことができる。

In [None]:
import numpy as np


aaa = np.random.randint(0, 10, (4, 5))
print('aaa **********')
print(aaa)
print()

bbb = np.random.randint(0, 10, (4, 5))
print('bbb **********')
print(bbb)
print()

print('aaa + bbb **********')
print(aaa + bbb)

どのような型なのかは、`type()`関数に調べたいものを渡すと何型なのかを知ることができる。

In [None]:
import numpy as np


print(type(np.random.randint(0, 10, (4, 5))))

pandasでは、表形式のデータをうまく取り扱うための`Dataframe`という型が存在する。ここでは、irisデータセットを`Dataframe`として読み込んでいる。`type()`関数により、Dataframe型であることが分かる。また、`Dataframe`型には、`head()`という関数(処理)が内蔵されており、データの一部を取り出してくれる。

In [None]:
import pandas as pd
from sklearn import datasets

iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)

print('type **********')
print(type(df))
print('**********')

df.head()

# 処理

データに対する処理は、最も基本的な、**繰り返し** と **条件分岐** をたくさん組み合わせて作成する。

## 繰り返し

繰り返しは、同じような処理を何度も繰り返すときに用いる。繰り返しには、`for`文を用いる。

次のプログラムは、`'hello'`と10回`print()`している。

In [None]:
for _ in [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]:
  print('hello')

for文では、forとinの中に書いた変数に、inの右側に書いた配列の中身が出てくる。

In [None]:
for iii in [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]:
  print(iii)

数値で無くても良い

In [None]:
for iii in ['a', 'b', 'c', 'd']:
  print(iii)

`range()`関数を用いると、所定の範囲のfor文を自由に作り出すことができる。

In [None]:
for iii in range(0, 10):
  print(iii)

##  条件分岐

条件分岐を行うには、`if`文を用いる。次のプログラムでは、aaaという変数がTrueかそれ以外かで処理を分岐している。

In [None]:
aaa = True

if aaa == True:
  print('aaaはTrue')
else:
  print('aaaはFalse')

if文には`if`と`elif`、`else`の3つで条件を分岐できる。`elif`は何個でも置くことができる。

次のプログラムは、aaaという変数に入っている数値をもとに分岐している。aaaの値をいろいろ変えて試してみると分かりやすい。

In [None]:
aaa = 1

if aaa == 1:
  print('aaaは1')
elif aaa == 2:
  print('aaaは2')
elif aaa == 3:
  print('aaaは3')
else:
  print('aaaはそれ以外')

if文の条件として利用できるのは、TrueかFalseとして処理ができるものであればなんでもよい。条件として利用できるものは無数にあり、適切なものを都度調べ選ぶ。

例えば、次の物は、aaaという変数に入っている文字列にamericaという単語が入っているかを調べている。

In [None]:
aaa = 'hello canada!'

if 'america' in aaa:
  print('americaが入っている')
else:
  print('americaは入っていない')

## 関数

関数は頻繁に用いる一連の処理を束ねることができる。関数は、処理の束なりを表現するもので、 **データを入力** し、 **データを出力** するものである。

データの入力には **引数** を用いる。また、**データの出力** には返り値を用いる。

次の関数は、`eee`という引数を入力にとり、3を足して、結果を返り値として出力する。

関数には名前を付けられる。ここでは、`add3`という名前が関数についている。

In [None]:
def add3(eee):
  return eee + 3

print(add3(4))
print(add3(7))

関数の中には、様々な処理を書くことができる。次の関数は、引数として入力された数字を3回掛けて、その結果が100より大きいか小さいかを判定した結果を返す関数である。

In [None]:
def sample_func(eee):
  result = eee

  for iii in range(0, 3):
    result = eee * result
  

  if result > 100:
    return '3回掛けた結果は100より大きい'
  else:
    return '3回掛けた結果は100以下'

print(sample_func(2))
print(sample_func(5))

これまでに見てきた、様々なライブリの機能は関数を使って作られている。

次のプログラムでは、pandasの機能の1つとして、_データの一部を取り出す_ という処理が、`head()`という関数として準備されているので容易に用いることができる。

特に、データの型に関数を登録することができ、登録された関数のことを **メソッド** という。

データ型を自分で作るとき、**クラス** というPythonの機能を用いて作成するが、その時に、メソッドを自作できる。

In [None]:
import pandas as pd
from sklearn import datasets

iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)

df.head()

## 例外

作成したプログラムは、実行中に問題が発生すると **例外**、**Exception** を起こして、動作が停止する。

スマートフォンのアプリなどで、「アプリが落ちた」ときはこの例外が発生したときである。

例外は下記のような処理を行うときに発生しうる。

*   変数に入っているデータ以外のデータを読み込むとき
*   データをファイルに書き出し(出力)したり、ネットワークに送信するとき
*   変数にプログラムを書いたときに予定していた型とは別の型のデータが入っているとき

1つ目と2つ目は、どちらも動作中にパソコンに問題が発生した時を考ええると分かりやすい。例えば、インターネット上のデータを変数に読み込むとき、読み込みに時間がかかっている状態でWi-Fiが切れたらデータの受信は停止する。このとき、例外が発生する。

同様に、SDカードにデータを書き込むプログラムを作成し、書き込みが行われているタイミングで、SDカードが抜きだされると書き込みはできなくなり失敗する。このとき、途中まで書き込まれたデータは破損した状態となる。

3つ目は、例えば配列の中身に数値が入っていることを前提にしたプログラムを作成している中で、数値以外が入ってしまっていた時などである。


例外は確率的に発生する。例えば、1回の処理では遭遇しなくても、10回、100回、100回と階数を重ねると遭遇する可能性が高まる。
例えば、for文で何度もファイルにデータを書き込む処理を行うと、場合によって例外が発生する。

例外にかかわる処理はいくつかある。

*   `try-except`文: 例外が起きた時に、「落ちない」ようにコントロールするプログラムの書き方。
*   `raise`文: 例外を起こすプログラムの書き方。
*   `pass`文: 例外を無視するプログラムを書くときに用いるもの。


`raise`を用いるとエラーを起こすことができる。例外が起きた時は、プログラムはその旨を表示するエラーメッセージが表示され終了する。

In [None]:
raise Exception('エラーを起こす')

例外が発生したとき、プログラムは、例外が発生する直前まで実行される。

In [None]:
for iii in range(0, 10):
  print(iii)
  if iii == 8:
    raise Exception('8のときエラー')

例えば、関数の中の処理で、raiseが書かれている場所があると、例外が発生しうることになる。

実際には、Pythonではじめから用いることができる関数やライブラリの関数の中に、例外が発生する場所がある。

In [None]:
def raise_error():
  for iii in range(0, 10):
    print(iii)
    if iii == 8:
      raise Exception('8のときエラー')

raise_error()

`try-except`文で例外が発生する部分を囲むと、例外によってプログラム自体の実行が停止することを防止できる。

例外自体が起こらなくなるわけではなく、例外が起こった時にどのような対処(処理)を行うかを事前に決めておくことができる。

下記のプログラムでは、エラーが起きた時、その旨を表示して正常に終了する。

`try-except`文では、tryからexceptの中に、エラーが起こった時に対処が必要なプログラムを記述する。try-exceptの中で、エラーが起こった時、エラーが起こる直前の部分までが実行され、エラーが起きたタイミングで、except以降の部分に処理が移る。

In [None]:
def raise_error():
  for iii in range(0, 10):
    print(iii)
    if iii == 8:
      raise Exception('8のときエラー')


try:
  print('エラーが起こる部分の前')
  raise_error()
  print('エラーが起こった後の部分')
except:
  print('エラーが起きて終了しました。')

例外の処理は、プログラミングの中でも最も経験を要する部分である。