## 教師あり学習(分類)、教師なし学習等のアウトプット

In [62]:
# ライブラリ
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# hold-out
from sklearn.model_selection import train_test_split

# model
from sklearn.linear_model import LogisticRegression

# 標準化
from sklearn.preprocessing import StandardScaler

# 評価指標
from sklearn.metrics import log_loss
from sklearn.metrics import accuracy_score

### ロジスティック回帰\
問題:\
ある企業が候補者の採用プロセスを改善しようとしています。彼らは過去の応募者のデータセットを持っており、それには「経験年数」「テストスコア」「面接スコア」、そして応募者が最終的に「採用されたかどうか」が含まれています（「採用」は1、「不採用」は0として表されます）。企業は、これらのパラメーターを使用して、新しい応募者が採用されるかどうかを予測したいと考えています。  

タスク:

ロジスティック回帰を使用して、応募者が採用されるかどうかを予測するモデルを構築してください。
モデルの精度を評価してください。



In [47]:
# データ
data = {
    '経験年数':[0,1,3,2,4,5,7,8],
    'テストスコア':[87,45,47,89,76,44,90,34],
    '面接スコア':[75,56,23,45,98,67,45,90],
    '採用':[0,0,0,1,1,1,1,1],
}

# サンプルテストデータ


# データフレーム
df = pd.DataFrame(data)

# 説明変数と目的変数
y_col = '採用'
X = df.drop(y_col, axis=1)
y = df[y_col]

# hold-out
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

# 学習
model = LogisticRegression()
model.fit(X_train, y_train)

# 予測
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]

# 損失関数
log_loss_value = log_loss(y_test, y_pred_proba)
log_loss_value

20.69278310802137

### OvR（One-vs-Rest）とIrisデータセット　　
問題:  
あなたは、ある植物学研究所で働いており、アヤメの種類を分類するタスクに取り組んでいます。研究所はIrisデータセットを持っており、それにはアヤメの3種類（setosa、versicolor、virginica）の花弁とがくの長さと幅のデータが含まれています。研究所は、これらのパラメータを使用して、アヤメの種類を効果的に分類したいと考えています。

タスク:　　

scikit-learnのIrisデータセットを使用して、OvR戦略を用いたロジスティック回帰モデルを構築し、アヤメの種類を分類してください。  
モデルの精度を評価してください。  
以下のステップに従って、このタスクを実行してください：  

1. scikit-learnからIrisデータセットをロードします。  
2. データをトレーニングセットとテストセットに分割します（一般的には、トレーニングに70%、テストに30%の割合を使用します）。  
3. データの特徴量をスケーリングします（例えば、StandardScalerを使用）。  
4. One-vs-Rest戦略を使用してロジスティック回帰モデルをトレーニングします（multi_class='ovr'を設定）。  
5. テストセットを使用してモデルの精度を評価します。  
6. Pythonでこのタスクをコーディングし、結果の精度を提出してください。その後、コードのレビューとフィードバックを提供します。よろしくお願いします。  







In [81]:
# データの準備
df = sns.load_dataset('iris')
# df

# 目的変数と説明変数
y_col = 'species'
X = df.drop(y_col, axis=1)
y = df[y_col]

# hold-out
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

# 標準化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled  =scaler.transform(X_test)

# training
model = LogisticRegression(penalty=None, multi_class='ovr')
model.fit(X_train_scaled, y_train)

# prediction
y_pred = model.predict(X_test_scaled)
y_pred_proba = model.predict_proba(X_test_scaled)

# evaluate
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9777777777777777

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [69]:
y_test

114     virginica
62     versicolor
33         setosa
107     virginica
7          setosa
100     virginica
40         setosa
86     versicolor
76     versicolor
71     versicolor
134     virginica
51     versicolor
73     versicolor
54     versicolor
63     versicolor
37         setosa
78     versicolor
90     versicolor
45         setosa
16         setosa
121     virginica
66     versicolor
24         setosa
8          setosa
126     virginica
22         setosa
44         setosa
97     versicolor
93     versicolor
26         setosa
137     virginica
84     versicolor
27         setosa
127     virginica
132     virginica
59     versicolor
18         setosa
83     versicolor
61     versicolor
92     versicolor
112     virginica
2          setosa
141     virginica
43         setosa
10         setosa
Name: species, dtype: object

In [70]:
y_pred_proba

array([[2.52308411e-016, 8.82201826e-002, 9.11779817e-001],
       [1.28141183e-009, 9.99999999e-001, 5.98425003e-214],
       [9.85945513e-001, 1.40544866e-002, 0.00000000e+000],
       [2.82376791e-019, 3.87069863e-001, 6.12930137e-001],
       [8.87568928e-001, 1.12431072e-001, 0.00000000e+000],
       [7.38900210e-019, 6.30771165e-002, 9.36922884e-001],
       [9.44848969e-001, 5.51510306e-002, 0.00000000e+000],
       [3.42654652e-010, 1.00000000e+000, 2.70303569e-188],
       [1.45180559e-011, 1.00000000e+000, 1.29140515e-159],
       [4.98401002e-008, 9.99999950e-001, 2.86460670e-255],
       [4.56052030e-017, 4.67120364e-001, 5.32879636e-001],
       [4.60352890e-009, 9.99999995e-001, 7.09141884e-201],
       [2.23355855e-011, 1.00000000e+000, 1.05427477e-105],
       [5.62647468e-011, 1.00000000e+000, 3.81700659e-144],
       [2.32750531e-011, 1.00000000e+000, 3.66762440e-086],
       [9.10525473e-001, 8.94745268e-002, 0.00000000e+000],
       [1.41389131e-010, 1.00000000e+000