# 教師あり学習

p20  
教師あり学習の問題設定のうち  
予測対象が数値であるものを「回帰」  
カテゴリであるものを「分類」と呼ぶ

# 回帰

p23
# 損失関数 $l$ の導入
回帰問題では, 二乗誤差=(実際の値-予測値)$^{2}$ が損失関数としてよく用いられる.  
二乗誤差を用いると, 予測器 $f(x)=w_{0}+w_{1}x$ に対する損失関数は次のようになる.

$$ l(w_{0}, w_{1}, x, y)=(y-(w_{0}+w_{1}x))^{2}$$

1番目の都市: 予測器による犯罪率の予測値  
$f(x) = 0.1 + 0.5*0.1 = 0.15$

p27

正則化項の値は, パラメータの値の二乗が大きいほど大きくなる.  
つまり正則化項は, 大きすぎるパラメータ値に対するペナルティと捉えることができる.  
なお, $w_{0}^{2}$ は「特定の変数の重視」とは無関係のため, 正則化項では和に含まないことに注意.  

# リッジ回帰
パラメータの値の二乗の和を正則化項とする回帰手法

# 分類手法

# ロジスティック損失(logistic loss)
ロジスティック回帰では, 損失関数として「ロジスティック損失」を用いる.

# サポートベクターマシーン
変数間の非線形の関係を導入しやすい強力な手法.  
「余裕のある分類面」の獲得を目指す点がロジスティック回帰と異なる.  
サポートベクターマシーンはマージンが最大になるように分類面を学習する.

# ヒンジ損失(hinge loss)
サポートベクターマシーンでは, 損失関数として「ヒンジ損失」を用いる.

サポートベクターマシーンでは, 目的関数を最小化することでマージンを最大化し, 多くのサンプルがマージンの外側に来るようにパラメータを推定する.

# カーネル
カーネルは, サンプル間の類似度で, 2つのサンプルの特徴表現の内積で表される.  
サポートベクターマシーンは, カーネルを用いることで非線形モデルを組みやすいことが知られている.

 # 教師なし学習

p118

In [1]:
x=3*5
x

15

In [2]:
x=3*5
print(x)

15


In [5]:
import numpy as np
a = np.array([[1,2],[3,4]])
a

array([[1, 2],
       [3, 4]])

In [4]:
b = np.array(np.arange(10))
b

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
c = b.reshape(2,5)
c

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [5]:
a = np.arange(4).reshape(2,2)
a

array([[0, 1],
       [2, 3]])

In [5]:
b = np.arange(3,7).reshape(2,2)
b

array([[3, 4],
       [5, 6]])

In [6]:
a+b

array([[3, 5],
       [7, 9]])

In [7]:
a.T

array([[0, 2],
       [1, 3]])

In [8]:
a.T+b

array([[3, 6],
       [6, 9]])

In [9]:
a-b

array([[-3, -3],
       [-3, -3]])

In [10]:
np.dot(a,b)

array([[ 5,  6],
       [21, 26]])

In [7]:
v = np.array([10, 20])
np.dot(a,v)
np.dot(v,a)

array([40, 70])

In [30]:
# インデクシング
v = np.arange(10, 15)
v[:-1]
a = np.arange(1,5).reshape(2,2)
a
u = a[:,1]
u
ii = np.array([2,3])
v[ii]
w = np.array([False,False,False,True,True])
v[w]
# ブロードキャスティング
a*2
np.exp(a)
v<13
# インデクシングとブロードキャスティングを組み合わせた例
v[v<13]

array([10, 11, 12])

In [39]:
# 行列の結合の例
a = np.arange(6).reshape(2,3)
b = np.arange(6,12).reshape(2,3)
a
b
np.c_[a,b]
np.r_[a,b]
c = np.arange(3)
d = np.arange(3, 6)
c
d
np.c_[c, d]
np.r_[c, d]

array([0, 1, 2, 3, 4, 5])

In [52]:
# 疎行列の計算の例
from scipy import sparse
a = sparse.lil_matrix((5,5))
a[0,0]=1; a[1,2]=2; a[3,4]=3; a[4,4]=4
a.todense()
b = a.tocsr()
b.getrow(1).todense()
v = np.array([1,2,3,4,5])
a.dot(v)

array([  1.,   6.,   0.,  15.,  20.])

In [6]:
# matplotlib による可視化
# 折れ線グラフ
import matplotlib.pyplot as plt
x = [1,2,3,4]
y = [3,5,4,7]
plt.plot(x,y)
plt.show()

In [11]:
x = np.linspace(-5,5,100)
y = x**2
plt.plot(x,y)
plt.show()

In [13]:
# 例8
x = [1,2,3,4]
y = [3,5,4,7]
plt.scatter(x, y)
plt.show()

In [17]:
# 例9 & 10 remix
x = np.array([1,2,3])
y1 = np.array([2,3,4])
y2 = np.array([7,6,5])
plt.scatter(x, y1, marker="o", c ="b")
plt.scatter(x, y2, marker="+", c ="r")
plt.show()

In [21]:
# 例11
x = np.array([1,2,3])
y = np.array([4,5,6])
X, Y = np.meshgrid(x,y)
X
Y
X.ravel()
Y.ravel()

array([4, 4, 4, 5, 5, 5, 6, 6, 6])

In [31]:
# 例12~15

x = np.linspace(-5,5,200)
y = np.linspace(-5,5,200)
X, Y = np.meshgrid(x, y)
Z = X.ravel()**2 - Y.ravel()**2
#plt.contourf(X, Y, Z.reshape(X.shape))
#plt.contourf(X, Y, Z.reshape(X.shape), levels = [-20,-10,0,10,20],colors = ["r","g","b","y"])
plt.contour(X, Y, Z.reshape(X.shape), colors = "k")

plt.show()

# sckit-learn 入門

In [41]:
"""
p-128 リスト1 人工的データを使った線形回帰のプログラム
標準出力に,係数,切片,スコア(決定係数)を表示し,点群と回帰直線をグラフにして可視化する
"""
import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model, datasets

# 乱数によりデータを生成
np.random.seed(0)
regdata = datasets.make_regression(100, 1, noise=20.0)

# 学習を行いモデルのパラメータを表示
lin = linear_model.LinearRegression()
lin.fit(regdata[0], regdata[1])
print("coef and intercept :", lin.coef_, lin.intercept_)
print("score :", lin.score(regdata[0], regdata[1]))

# グラフを描画
xr = [-2.5, 2.5]
plt.plot(xr, lin.coef_ * xr + lin.intercept_)
plt.scatter(regdata[0], regdata[1])

plt.show()

coef and intercept : [ 42.85335573] -1.62836365406
score : 0.803335728656


In [1]:
"""
p-129 リスト2 糖尿病データを使った線形回帰のプログラム
"""
import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model, datasets

# データの読み込み
diabetes = datasets.load_diabetes()

# データを訓練用と評価用に分ける
data_train = diabetes.data[:-20]
target_train = diabetes.target[:-20]
data_test = diabetes.data[-20:]
target_test = diabetes.target[-20:]

# 学習させる
lin = linear_model.LinearRegression()
lin.fit(data_train, target_train)

# 当てはまり度合いを表示
print("Score :", lin.score(data_test, target_test))

# 最初の評価用データについて結果を予想して,実際の値と並べて表示
print("Prediction :", lin.predict(data_test[0])) #  予想
print("Actual value :", target_test[0]) # 実際の値

# plt でグラフ描画はどうするのかな?

Score : 0.585075302269
Prediction : [ 197.61846908]
Actual value : 233.0


  if 'order' in inspect.getargspec(np.copy)[0]:


In [5]:
"""
p-130 リスト3 ロジスティック回帰を使ってあやめデータを学習させるプログラム
"""
import sklearn.datasets as datasets
from sklearn.linear_model import LogisticRegression
from sklearn import cross_validation

# データの読み込み
iris = datasets.load_iris()

# 種類が2であるものを捨てる
data = iris.data[iris.target != 2]
target = iris.target[iris.target != 2]

# ロジスティック回帰による学習と交差検定による評価
logi = LogisticRegression()
scores = cross_validation.cross_val_score(logi, data, target, cv=5)

# 結果を表示する
print(scores)

[ 1.  1.  1.  1.  1.]


  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)


In [6]:
"""
p-131 リスト4  SVM を使ってあやめデータを学習させるプログラム
"""
from sklearn import datasets
from sklearn import svm
from sklearn import cross_validation

# データの読み込み
iris = datasets.load_iris()

# 学習
svc = svm.SVC()
scores = cross_validation.cross_val_score(svc, iris.data, iris.target, cv=5)

# 結果を表示する
print(scores)
print("Acuuracy:", scores.mean())

[ 0.96666667  1.          0.96666667  0.96666667  1.        ]
Acuuracy: 0.98


  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
  args, varargs, kw, default = inspect.getargspec(init)
