# Extra2 データ分析

In [None]:
# 演習に必要なライブラリのインストール
!pip install matplotlib
!pip install pandas
!pip install scikit-learn
!pip install seaborn

import pprint
from matplotlib import pyplot as plt
%matplotlib inline
import pandas as pd
import seaborn as sns
from sklearn import datasets

## 問題1 データ読み込み

今回の演習では UCI Machine Learning Repository が提供している Wine のデータセットを使用します。[Ref](https://archive.ics.uci.edu/dataset/109/wine)
このデータセットはイタリアの同じ地域で栽培され、3つの異なる品種に由来するワインの化学分析の結果です。

なおデータ定義は以下の通りです。

### target

| 変数名    | 定義     |
|--------|--------|
| target | ワインの種類 |

### feature_names

| 変数名                          | 定義                            |
|------------------------------|-------------------------------|
| alcohol                      | アルコール濃度                       |
| malic_acid                   | リンゴ酸濃度                        |
| ash                          | 灰分濃度                          |
| alcalinity_of_ash            | 灰のアルカリ性                       |
| magnesium                    | マグネシウム量                       |
| total_phenol                 | フェノール量                        |
| flavanoids                   | フラバノイド量                       |
| nonflavanoid_phenols         | 非フラバノイドフェノール類の量               |
| proanthocyanins              | プロアントシアニン                     |
| color_intensity              | 色の強度                          |
| hue                          | 色調                            |
| od280/OD315_of_diluted wines | 薄めたワインの280nmと315nmの波長の光に対する濁度 |
| proline                      | プロリン量                         |

ワインの味と成分についての[参考資料](https://www.jstage.jst.go.jp/article/jbrewsocjapan1915/75/8/75_8_631/_pdf/-char/ja)

### Wine データセットの読み込み

Wine データセットは上で `import` した `sklearn.datasets` に格納されています。
`sklearn.datasets` からデータセットを読み込むには次のコードを実行します。[Ref](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html)

In [None]:
wine_data = datasets.load_wine()

実際に読み込んだデータの中身を見ていきましょう。
`Python` の標準ライブラリである `pprint` モジュールを使うと、リスト型や辞書型などのオブジェクトを、整形してきれいに表示できます。[Ref](https://docs.python.org/3/library/pprint.html#module-pprint)

In [None]:
pprint.pprint(wine_data)

Wine データセットの詳細、data、特徴量名などが辞書型で格納されていることが分かります。

### 問題1-1

上で読み込んだデータセット `wine_data` から `data` のみを抽出して、出力して下さい。(※ヒントは[こちら](https://docs.python.org/3/tutorial/datastructures.html#dictionaries))

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_data.data

### 問題1-2

問題1-1 で読み込んだデータを pandas の dataframe に変換して下さい。その際変数名は `wine_df`、カラム名は `wine_data.feature_names` を使用して下さい。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html))

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df = pd.DataFrame(wine_data.data, columns=wine_data.feature_names)

### 問題1-3

問題1-2 で変換した `wine_df` について、上から10行を Notebook 上に表示してみましょう。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html))

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df.head(10)

### 問題1-4

`wine_df` の行数、列数を確認しましょう。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html))

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df.shape

### 問題1-5

`wine_df` の列名の一覧を確認しましょう。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html))

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df.columns

### 問題1-6

`wine_df` から、列 `alcohol` を取得してみましょう。

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df['alcohol']

### 問題1-7

`wine_df` から、列 `color_intensity`, `hue` を取得してみましょう。

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df[['color_intensity', 'hue']]

## 問題2 データ操作

dataframe に対する操作を実践してみましょう。

### 問題2-1

`wine_df` から `magnesium` の値が `100` 以上の行を抽出して、Notebook に表示してみましょう。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html))

また `magnesium` の値が `100` 以上のものはいくつありますか？

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df.loc[wine_df['magnesium'] >= 100].head(10)

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
print(wine_df.loc[wine_df['magnesium'] >= 100].shape[0])

### 問題2-2

`wine_df` から `ash` の値の降順で並べ替え、上から10行を Notebook に表示してみましょう。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html))

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df.sort_values('ash', ascending=False).head(10)

### 問題2-3

`wine_df` を `target` すなわちワインの種類によってグループに分け、`flavanoids` の平均値を計算しましょう。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html))

またその結果、平均値が一番小さい `target` はどれですか？

In [None]:
# wine_df に 新しい列 target を追加する
wine_df['target'] = pd.DataFrame(wine_data.target)

# ===== 以下に解答のコードを入力して下さい =====
wine_df.groupby('target')['flavanoids'].agg('mean')

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
print(2)

### 問題2-4

`wine_df` の列 `alcohol` に対して、

13%以上は `1`
13%未満は `0`

と出力する関数 `is_alcohol_high` を適用し、新しく `alcohol_high` という変数を作成してみましょう。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html))

作成したら、結果を下から10行出力して確認してみましょう。

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
def is_alcohol_high(alcohol):
    if alcohol < 13:
        return 0
    elif alcohol >= 13:
        return 1
    else:
        return None

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df['alcohol_high'] = wine_df['alcohol'].apply(is_alcohol_high)
wine_df.tail(10)

## 問題3 統計分析

作成したデータに対して統計分析をしてみましょう。

### 問題3-1

dataframe の `describe` メソッドを使用し、数値データの各種統計量を確認してみましょう。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html))

特徴量の中で一番標準偏差が大きいものはどれですか？

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df.describe()

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
print('proline')

### 問題3-2

dataframeの `plot.hist` メソッドを使用し、`proline` の分布を可視化しましょう。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.hist.html))

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df['proline'].plot.hist()

### 問題3-3

dataframeの `plot.scatter` メソッドを使用し、`total_phenols`, `flavanoids` の分布を可視化しましょう。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.scatter.html))

また可視化した結果、どんなことが言えそうですか？

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df.plot.scatter(x='total_phenols', y='flavanoids')

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
print('total_phenols と flavanoids は正の相関関係が強い、など')

### 問題3-4

dataframeの `corr` メソッドを使用し、`total_phenols`, `flavanoids` の相関係数を計算しましょう。(※ヒントは[こちら](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html))

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df[['total_phenols', 'flavanoids']].corr()

### 問題4 探索的データ解析（EDA）

EDAを行い、データの特徴や傾向を特定していきましょう。

### 問題4-1

ワインの種類 `target` ごとに特徴量の平均を算出してみましょう。
またその結果、ワインの種類 `target` ごとに差がある特徴量を2つ選択して下さい。

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
wine_df.groupby("target").mean()

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
print('proline')
print('color_intensity')

### 問題4-2

問題4-1 で選択した２つの特徴量で、上手くワインの種類が分類できそうかを散布図を用いて確認してみましょう。

ここでは `seaborn` の `scatterplot` を用いて描画してみましょう。(※ヒントは[こちら](https://seaborn.pydata.org/generated/seaborn.scatterplot.html))

In [None]:
# ===== 以下に解答のコードを入力して下さい =====
sns.scatterplot( x='proline', y='color_intensity', hue="target", data=wine_df, palette="Set1")