# 分類問題の基礎

## 2. まずは機械学習の流れを体験

### 2-1. ハンズオン：きのこ派とたけのこ派に分類する

In [4]:
# pandasライブラリのインポート
import pandas as pd

In [6]:
# CSVファイルの読み込み（ファイル名：Ki_vs_Ta.csv）
df = pd.read_csv('Ki_vs_Ta.csv')

In [8]:
# dfの先頭5行を表示
print(df.head(5))

    身長  体重  年代    派閥
0  170  60  10   きのこ
1  172  65  20   きのこ
2  170  60  30  たけのこ
3  170  65  40   きのこ
4  177  65  10  たけのこ


In [12]:
# 特徴量（入力）とラベル（答え）に分ける
x = df[['身長', '体重', '年代']]
t = df['派閥'] # 「y =」 などにすることも多い
print(x)
print(t)

     身長  体重  年代
0   170  60  10
1   172  65  20
2   170  60  30
3   170  65  40
4   177  65  10
5   168  55  20
6   169  65  30
7   170  62  40
8   180  70  10
9   170  68  20
10  165  65  40
11  170  72  20
12  175  77  40
13  170  65  30
14  170  65  30
15  155  56  20
16  160  56  20
17  170  65  40
18  175  60  20
0      きのこ
1      きのこ
2     たけのこ
3      きのこ
4     たけのこ
5      きのこ
6     たけのこ
7     たけのこ
8     たけのこ
9      きのこ
10    たけのこ
11     きのこ
12    たけのこ
13    たけのこ
14    たけのこ
15     きのこ
16    たけのこ
17     きのこ
18    たけのこ
Name: 派閥, dtype: object


In [14]:
# モデルのインポートと作成
from sklearn.linear_model import LogisticRegression # モジュールのインポート

model = LogisticRegression()

In [16]:
# モデルの学習（本来はxとtを全部は使用しないが、ここではそのまま）
model.fit(x,t)

In [18]:
# 新しいデータで予測
# 新データ(2次元リスト)：身長170cm , 体重70kg , 年代20代
taro = [[170,70,20]]

# taroはどちらに分類されるか予想
pre = model.predict(taro)
print(f"予想は{pre}")

予想は['きのこ']




In [20]:
# モデルの評価
model.score(x,t)

0.7368421052631579

## 3. アヤメの花を分類

In [22]:
# CSVファイルの読み込み（読み込むcsvファイル：iris-dataset.csv）
df = pd.read_csv('iris-dataset.csv')

In [24]:
# 先頭の数行を表示して確認
print(df.head(5))

   がく片長さ  がく片幅  花弁長さ  花弁幅           種類
0    5.1   3.5   1.4  0.2  Iris-setosa
1    4.9   3.0   1.4  0.2  Iris-setosa
2    4.7   3.2   1.3  0.2  Iris-setosa
3    4.6   3.1   1.5  0.2  Iris-setosa
4    5.0   3.6   1.4  0.2  Iris-setosa


In [26]:
# 特徴量（入力）とアヤメの品種（出力）に分ける
x = df[['がく片長さ', 'がく片幅', '花弁長さ', '花弁幅']] #入力のデータ
t = df['種類'] #答えのデータ
print(x)
print(t)

     がく片長さ  がく片幅  花弁長さ  花弁幅
0      5.1   3.5   1.4  0.2
1      4.9   3.0   1.4  0.2
2      4.7   3.2   1.3  0.2
3      4.6   3.1   1.5  0.2
4      5.0   3.6   1.4  0.2
..     ...   ...   ...  ...
145    6.7   3.0   5.2  2.3
146    6.3   2.5   5.0  1.9
147    6.5   3.0   5.2  2.0
148    6.2   3.4   5.4  2.3
149    5.9   3.0   5.1  1.8

[150 rows x 4 columns]
0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: 種類, Length: 150, dtype: object


In [28]:
# LinearSVCを使ってモデル作成
from sklearn.svm import LinearSVC # モジュールのインポート

model = LinearSVC()

In [30]:
# fitメソッドで学習（本来は全部入れない）
model.fit(x,t)



In [34]:
# 予測（xの最初の行を入れて予測してみる）
pre = model.predict([x.iloc[0]])  # 学習済みのモデルを用いて、変数xの1行目に対して予測を行う
pre = model.predict(x[:3]) 
print(f"予想は{pre}")  # 予測結果を表示する

予想は['Iris-setosa' 'Iris-setosa' 'Iris-setosa']




In [36]:
# 正解率の計算
score = model.score(x,t)  # 学習済みのモデルを用いて、変数xに対する正解率を計算する
print(f"正解率は{score}")  # 正解率を表示する

正解率は0.9666666666666667


### 7-1. 訓練データとテストデータに分割

In [38]:

# 授業では、random_stateを学籍番号にすること
# 関数のインポート
from sklearn.model_selection import train_test_split

# データの分割
x_train, x_test, y_train, y_test = train_test_split(x , t , test_size=0.3, random_state=2230033)

In [42]:
# モデル作成、学習、評価
model.fit(x_train, y_train) #トレーニング用で学習
trainScore = model.score(x_train, y_train) #トレーニング用で正解率確認
testScore = model.score(x_test, y_test) #テスト用で正解率確認
print(trainScore)
print(testScore)

0.9523809523809523
0.9777777777777777




## モデルの読み込み・保存

In [44]:
# 作成したモデルの保存
import joblib

# 作製したモデルを、iris_model.pklファイルに保存する。
joblib.dump(model, "iris_model.pkl")

['iris_model.pkl']

In [46]:
# 保存したモデルの読み込み
# import joblib #上で実行済みであれば不要

# iris_model.pklというファイルを読み込んでmodelに代入
model = joblib.load("iris_model.pkl")
print(model.predict(x[:1]))

['Iris-setosa']


以下、課題に取り組む前にプログラムの動作を確認してもよい。