<a href="https://colab.research.google.com/github/yajima-yasutoshi/DataMinig/blob/main/20231024/%E5%8F%AF%E8%A6%96%E5%8C%96.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# データマイニング第5回（2023/10/25）

# 本日の講義の資料

以下のサイトに保存してある。

https://github.com/yajima-yasutoshi/DataMinig/tree/main/20231025

#準備
データ分析に必要なPythonライブラリー（モジュール）のインストールと読み込みを施します。


*   numpy：数値計算
*   pandas：主にデータ加工
*   matplotlib：グラフを作成
*   japanize_matplotlib：日本語を表示
*   seaborn：グラフ作成



In [None]:
# インストール
!pip install japanize-matplotlib

以下のコードでは、

import seaborn as sns

とすることで、sns. で始める命令でグラフ等を書くことができるようになる。

In [None]:
# モジュールの読み込み
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

# データをファイルから読み込む

前回使用したエクセルファイルを使います。

**file_path の部分を各自のディレクトリーに合わせて変更すること。
また、マウント操作も行うこと。**


In [None]:
# 読み込むファイルを指定する
file_path = '/content/drive/MyDrive/周南公立大学/講義/データマイニング/データ/customer_data.xlsx'

# 今回は、df という変数に読み込むことにする
df = pd.read_excel(file_path)

In [None]:
df.info()

データのクレンジングを行う。

以下のコードでは、
inplace=True を付けて drop を実行することで、dfの内容を変更している。


In [None]:
# 欠損値のあるレコードを削除
df.dropna(inplace=True)

# 外れ値の削除
indices_to_drop = df[(df['年齢'] >= 90)].index

# 指定したインデックスのレコードを削除
df.drop(indices_to_drop, inplace=True)

df.shape

欠損値を処理した結果、データ全体でレコード件数は488件、項目数は9個であることが分かる。

# レコード件数の可視化

countplot を使うことで、カテゴリ項目で分類した
レコード件数を可視化することが可能である。
分類したいカテゴリ項目を

x='項目名'

として指定する。

例えば、職業別のレコード数を可視化するのであれば、

In [None]:
# 職業別にレコード件数をグラフにする
sns.countplot(x='職業', data=df)

タイトルや縦軸、横軸に説明を加えることが可能。

In [None]:
# 職業別にレコード件数をグラフにする
sns.countplot(x='職業', data=df)
plt.title('職業別の人数')
plt.xlabel('職業')
plt.ylabel('人数')
plt.show()

In [None]:
# y='項目名'とすることで横長のグラフにもできる
sns.countplot(y='職業', data=df)
plt.title('職業別の人数')
plt.ylabel('職業')
plt.xlabel('人数')
plt.show()

In [None]:
# hue で指定した項目でカテゴリ分けして表示する
# hue にはカテゴリ型の変数を指定する
sns.countplot(x='職業', hue='性別', data=df)
plt.title('職業別の人数')
plt.xlabel('職業')
plt.ylabel('人数')
plt.show()

In [None]:
# palette で色を指定できる
sns.countplot(x='職業', hue='性別', data=df, palette={'男性': 'blue', '女性': 'red'})
plt.title('職業別の人数')
plt.xlabel('職業')
plt.ylabel('人数')
plt.show()

## 代表的な色
* blue
* green
* red
* cyan
* magenta
* yellow
* black
* white

詳しくは以下を参照  
https://matplotlib.org/stable/gallery/color/named_colors.html

### 表示順序の制御

グラフの表示順序を変更することができる。

In [None]:
# 何も指定しない場合
sns.countplot(data=df, x='性別')

order で順序を指定できる

In [None]:
sns.countplot(data=df, x='性別', order=['女性', '男性'])

In [None]:
# さらに、hue の表示順も変更できる
sns.countplot(data=df, x='性別', order=['女性', '男性'], hue='職業', hue_order=['学生', '会社員', '公務員', 'その他'])
plt.show()

# 棒グラフ

数値属性の項目に対して、合計や平均などの集計を行いその結果を表示するためには、

barplot

を用いる。

In [None]:
# 以下のコードを実行してデータフレームを作成する。
fruits = pd.DataFrame(
    data={'商品': ['リンゴ', 'みかん', 'スイカ', 'バナナ'],
          '金額': [100, 50, 700, 200]})

In [None]:
fruits

横軸にしたい項目を x 、縦軸にしたい項目を y に指定する。
項目名はクオーテーションする必要がある。

In [None]:
# 横軸を商品、縦軸を金額にする場合
sns.barplot(x='商品', y='金額', data = fruits)
plt.title('商品の金額')
plt.xlabel('商品')
plt.ylabel('金額（円）')
plt.show()

In [None]:
# 縦軸と横軸を入れ替えることもできる。
sns.barplot(y='商品', x='金額', data = fruits)
plt.title('商品の金額')
plt.ylabel('商品')
plt.xlabel('金額（円）')
plt.show()

データを以下のように変更する。「バナナ」のレコードが２つある場合。

In [None]:
fruits = pd.DataFrame(
    data={'商品': ['リンゴ', 'みかん', 'スイカ', 'バナナ', 'バナナ'],
          '金額': [100, 50, 700, 200, 250]})
fruits

In [None]:
# 自動的に平均が計算さる
# 縦の棒は95%信頼区間
sns.barplot(x = '商品', y='金額', data = fruits)
plt.show()



---



---



以降は、customer_data.xls のデータを使うため、再度読み込みを行いクレンジングも実行する。

In [None]:
# df という変数に読み込む。
df = pd.read_excel(file_path)

# 欠損値のあるレコードを削除
df.dropna(inplace=True)

# 外れ値の削除
indices_to_drop = df[(df['年齢'] >= 90)].index

# 指定したインデックスのレコードを削除
df.drop(indices_to_drop, inplace=True)

In [None]:
df.head()

### 例）調べたいこと

Aの利用回数は男女で異なるのか？男性の平均と女性の平均を可視化する。

In [None]:
# 男女別に、Aの利用回数を平均し可視化する
# 95%信頼区間が表示される。
sns.barplot(x='性別', y='Aの利用回数', data=df, estimator=np.mean)
plt.title('男女別のAの平均利用回数')
plt.xlabel('性別')
plt.ylabel('回数')
plt.show()

estimator=np.mean
の部分を省略すると平均値を意味する。

集計関数 | 意味
-- | --
np.mean | 平均
np.median | 中央値
np.sum  | 合計


In [None]:
# 棒グラフを描画
# estimator=np.mean の部分を省略しても自動的に平均が計算れる
sns.barplot(x='性別', y='年収', data=df)
plt.title('男女別の平均年収')
plt.xlabel('性別')
plt.ylabel('金額（万円）')
plt.show()

In [None]:
sns.barplot(x='職業', y='Aの利用回数', data = df)

In [None]:
grouped = df[['職業', 'Aの利用回数', 'Bの利用回数']].groupby(['職業']).mean().reset_index()
grouped

In [None]:
grouped = df[['職業', 'Aの利用回数', 'Bの利用回数']].groupby(['職業']).mean().reset_index()
sns.barplot(x='職業', y='Aの利用回数', order=['学生', '会社員','公務員','その他'], data = grouped)

plt.title('職業別のAの平均利用回数')
plt.xlabel('職業')
plt.ylabel('Aの利用回数')
plt.show()

#ヒストグラム

数値型の項目で、区間毎の件数を可視化したものを**ヒストグラム**と呼ぶ。

作成には、histplot を用いる。

In [None]:
sns.histplot( df['年齢'], binwidth=10)

 binwidth=10 としたことで、年齢を10歳毎に分けて（**階級**と呼ぶ）
 表示することができる。


In [None]:
sns.histplot( df['年齢'], bins=10)

bins=10 とすることで、年齢を10個に区分け（**階級**と呼ぶ）することを意味している。

In [None]:
# 年齢のデータを取得
# ages = df['年齢']
# ヒストグラムを描画
sns.histplot( df['年齢'], bins=10, kde=True)
plt.title('年齢の分布')
plt.xlabel('年齢')
plt.ylabel('人数')
plt.show()

In [None]:
# ヒストグラムを描画
sns.histplot( df['スマホ利用時間'])
plt.title('１日当たりのスマホ利用時間の分布')
plt.xlabel('時間/日')
plt.ylabel('人数')
plt.show()

hue を指定して分類もできる。2つのヒストグラムを重ねて表示する場合。

In [None]:
# ヒストグラムを描画
sns.histplot( data=df, x='スマホ利用時間', hue = '性別')
plt.title('１日当たりのスマホ利用時間の分布')
plt.xlabel('時間/日')
plt.ylabel('人数')
plt.show()

hue を指定して、multiple='stack' とすると分類で積み上げることになる。

In [None]:
# ヒストグラムを描画
sns.histplot( data=df, x='スマホ利用時間', hue = '性別', multiple="stack")
plt.title('１日当たりのスマホ利用時間の分布')
plt.xlabel('時間/日')
plt.ylabel('人数')
plt.show()

In [None]:
# KDE Plot
sns.kdeplot(data = df, x = 'スマホ利用時間')
plt.title('１日当たりのスマホ利用時間の分布')
plt.xlabel('時間/日')
plt.ylabel('密度')
plt.show()

In [None]:
sns.kdeplot(data = df, x = 'スマホ利用時間', hue = '性別')
plt.title('スマホ利用時間の分布')
plt.xlabel('時間/日')
plt.ylabel('密度')
plt.show()

# 箱ひげ図
boxplot

boxplot では、一つの図で
* 最大値
* 第三四分位
* 中央値
* 第一四分位
* 最小値

を可視化している。


In [None]:
#sns.catplotで箱ひげ図を描く
sns.boxplot(y='年収', data=df)
plt.show()

最大と最小が棒線、第三四分位から第一四分位の間で箱になっている。
また、以下の基準を超えるレコードを外れ値と判断して、黒いひし形で表示している

* 第三四分位＋「箱の長さ」×1.5 より大
* 第一四分位－「箱の長さ」×1.5 より小第三四分位から第一四分位の間で箱になっている。

向きを変えることも可能

In [None]:
#sns.catplotで箱ひげ図を描く
sns.boxplot(x='年収', data=df)
plt.show()

カテゴリ項目で分類して表示も可能

In [None]:
#sns.catplotで箱ひげ図を描く
sns.boxplot(x='性別', y='年収', data=df)
plt.show()


# 散布図の表示

2つの数値型の項目をx軸とy軸に設定して、各レコードをプロットしたものを**散布図**と呼ぶ。

In [None]:
# 年齢と収入の関係
sns.scatterplot(data=df, x='年齢', y='年収')

In [None]:
df.shape

データにはレコードが488あるので、上の図には点が488個プロットされていることになる。（点同士が重なっている部分もある）

In [None]:
# 性別で色分けする
sns.scatterplot(data=df, x='年齢', y='年収', hue='性別', palette={'男性': 'blue', '女性': 'red'})
plt.title('年齢と年収の関係')
plt.show()

# 同時分布図の表示

In [None]:
sns.jointplot(x='Aの利用回数', y='Bの利用回数', data=df)
plt.show()

In [None]:
sns.jointplot(x='Aの利用回数', y='Bの利用回数', data=df, hue='年齢')
plt.show()

In [None]:
sns.relplot(x='Aの利用回数', y='Bの利用回数', data=df, hue='職業', size='年収')

# 散布図行列表示

項目毎にヒストグラムと、2つの項目の組み合わせで散布図を一度の命令で作成することが可能である。作成する図を**散布図行列**と呼び、pairplot で作成できる。

In [None]:
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns
sns.pairplot( data=df.iloc[:,0:7], hue='性別', palette={'男性': 'blue', '女性': 'red'})
#plt.show()

# スタイルの設定

set_style を使って、表示のスタイルを変更できる。以下のスタイルが設定可能である。

スタイル | 説明
--       | --
darkgrid | 背景暗、グリッドあり
dark | 背景暗、グリッドなし
whitegrid | 背景白、グリッドあり
white | 背景白、グリッドなし
ticks | 背景白、軸にのみグリッドあり

In [None]:
# グリッド線を表示する場合は以下を行う
sns.set_style('whitegrid')

# 性別で色分けする
sns.scatterplot(data=df, x='年齢', y='年収', hue='性別', palette={'男性': 'blue', '女性': 'red'})
plt.title('年齢と年収の関係')
plt.show()



---



---



---



In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

tips = sns.load_dataset("tips")

In [None]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [None]:
tips.info()

In [None]:
sns.barplot(x="day", y="total_bill", data=tips)