## Day2 ロジスティック回帰の紹介

### Step1 Irisデータセットを読み込む

In [21]:
# ライブラリを読み込む
import numpy as np
import pandas as pd

In [22]:
# アイリスデータを読み込む
from sklearn.datasets import load_iris

In [23]:
#データセットからDataFrameを作りましょう
iris = load_iris()
iris_data = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_target = pd.DataFrame(iris.target, columns=['Species'])

In [24]:
# データをまとめてみる
iris_df = pd.concat([iris_data,iris_target], axis=1)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


### Step 2: scikit-learnでロジスティック回帰をやってみよう

説明変数Xと目的変数Yを準備します。<br>
データを学習用とテストように分けておきましょう。全体の30％がテストデータになるようにします。

In [25]:
# 機械学習ライブラリを読み込む
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [26]:
# 説明変数データ作成
X = iris_df.drop(['Species'],axis=1)
X.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [27]:
# 目的変数データ作成
y = iris_df['Species']
y.tail()

145    2
146    2
147    2
148    2
149    2
Name: Species, dtype: int64

In [28]:
#学習用データとテスト用データを作る
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=5)

In [29]:
#学習させる
model = LogisticRegression()

model.fit(X_train, y_train)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

In [37]:
#モデルの精度を確認する
#評価指標ライブラリを読み込む

y_pred = model.predict(X_test)
#y_pred

# 精度を計算してみる
from sklearn import metrics

print(metrics.accuracy_score(y_test, y_pred))

0.9333333333333333


In [38]:
print(metrics.f1_score(y_test, y_pred))

ValueError: Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 'macro', 'weighted'].

In [31]:
y_pred

array([1, 2, 2, 0, 2, 1, 0, 2, 0, 2, 2, 2, 2, 2, 0, 0, 2, 2, 0, 0, 1, 2,
       0, 1, 1, 2, 1, 1, 1, 2, 0, 1, 1, 0, 1, 0, 0, 2, 0, 2, 2, 1, 0, 0,
       1])

In [32]:
y_test

82     1
134    2
114    2
42     0
109    2
57     1
1      0
70     1
25     0
84     1
66     1
133    2
102    2
107    2
26     0
23     0
123    2
130    2
21     0
12     0
71     1
128    2
48     0
72     1
88     1
148    2
74     1
96     1
63     1
132    2
39     0
53     1
79     1
10     0
50     1
49     0
43     0
135    2
40     0
115    2
142    2
69     1
17     0
46     0
54     1
Name: Species, dtype: int64

In [33]:
# 予測値を確認する
print(model.predict([[2.4, 4.4, 2.3, 2.2]]))

[2]


適当なデータで分類してみましょう

### 演習
- train_test_splitのtest_sizeやrandom_stateの値を変えてモデルの精度の変化を確認してみましょう。
- 適当なデータで分類した結果を確認しでみよう。

### END

In [34]:
a = np.array([1,2,3,4,5])
a.shape

1, 2, 3, 4, 5

(1, 2, 3, 4, 5)

In [35]:
a = np.array([[1,2,3,4,5],
                    [6,7,8,9,10]])
a.shape

1 2 3 4 5 
6 7 8 9 10

SyntaxError: invalid syntax (<ipython-input-35-ac36f6c5274c>, line 5)