# プロジェクト

In [8]:
import pandas as pd
import numpy as  np
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix,  accuracy_score, precision_score, recall_score, f1_score
import matplotlib.pyplot  as plt
%matplotlib inline
# 必要なモジュールがあれば適宜追加してください

あなたは酒造会社のデータ分析部門の責任者です。ワインの理化学検査結果からワインの品質を予測するシステムの検討を行ってほしいとの依頼をCTO（最高技術責任者）から受けました。そのため、実データ（UCI Machine Learning Repositoryに公開されているワインの品質データセットを使います）を用いて、ワインの理化学検査結果に基づく特徴量からワインの品質予測を以下のように試行しました。

***白ワイン***のデータセットを使用する。（赤ワインのデータセットではないことに注意してください）

[Wine Quality Data Set ](https://archive.ics.uci.edu/ml/datasets/wine+quality)

各ワインのデータは以下の11種類の特徴量からなる。
- 1 - fixed acidity 
- 2 - volatile acidity 
- 3 - citric acid 
- 4 - residual sugar 
- 5 - chlorides 
- 6 - free sulfur dioxide 
- 7 - total sulfur dioxide 
- 8 - density 
- 9 - pH 
- 10 - sulphates 
- 11 - alcohol 

各ワインには0から10の品質スコアが付与されており、11種類の特徴量を元にワインの品質を高品質（ワインのqualityが6以上）、低品質（ワインのqualityが6未満）の2値にして予測する2クラス分類問題を考える。

In [9]:
# 白ワインデータセットの読み込み
wine = pd.read_csv("winequality-white.csv", sep=";")

In [10]:
# 特徴量
X=wine[ ['fixed acidity','volatile acidity','citric acid','residual sugar','chlorides','free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates','alcohol']].values

# 正解ラベルを1（高品質：ワインのqualityが6以上）か0（低品質：ワインのqualityが6未満）とする
y=wine['quality'].values
y = (y>=6).astype(np.int) 
print(np.sum(y==1, axis=0)) # 高品質ワインデータの数
print(np.sum(y==0, axis=0)) # 低品質ワインデータの数

3258
1640


部門の新人で最近データ分析を勉強した部下が次のような分析を行い、ワインの品質は（上記の2クラス分類として）7割ぐらいの精度で予測できそうです、と報告をしてきました。

**あなた自身でさらに分析に行い、ワインの理化学検査結果からの品質予測について、具体的な分析結果を元にCTOへ報告するレポートを1枚（A4サイズ）にまとめて作成して提出してください。なお、レポート本文の他1~2枚を図表用に追加してもよいものとします。レポートと合わせて分析に用いたコード（毎回の課題と同じくColabのリンク）も提出してください。**

授業で未習の内容（ランダムフォレスト、SVM、ニューラルネットワークなど）を取り入れてもらっても構いませんが、それを持って大きく加点することはありません。むしろ、授業で学んだ内容を元に適切に分析を行っているか、独自の創意工夫があるか、を主に評価します。

In [11]:
# 訓練データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0, stratify=y) 

# 標準化
sc = StandardScaler()
sc.fit(X_train)
X_train =  sc.transform(X_train)
X_test =  sc.transform(X_test)

# ロジスティック回帰モデル
lr=LogisticRegression(solver='liblinear',  multi_class='auto') 

lr.fit(X_train, y_train)    
y_pred = lr.predict(X_test)

print(confusion_matrix(y_test, y_pred)) # 混同行列
print(accuracy_score(y_test, y_pred)) # accuracy
print(precision_score(y_test, y_pred)) # precision
print(recall_score(y_test, y_pred)) # recall
print(f1_score(y_test, y_pred))  # f値

# 特徴量ごとのパラメータ重み
pd.DataFrame(lr.coef_, index=['weight'], columns=wine.drop("quality", axis=1).columns.values)

[[244 248]
 [129 849]]
0.7435374149659864
0.7739288969917958
0.8680981595092024
0.8183132530120483


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
weight,0.010844,-0.660754,-0.009396,0.726897,0.030989,0.105547,-0.026054,-0.588193,0.10847,0.203924,1.092625
