<a href="https://colab.research.google.com/github/yajima-yasutoshi/DataMinig/blob/main/20231018/%E5%9F%BA%E7%A4%8E%E9%9B%86%E8%A8%882.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# データマイニング第4回（2023/10/18）

#データ分析の流れ

データ分析の基本的なステップ
1. 目的設定
1. データ収集
1. データの前処理
1. データ探索
1. モデル構築
1. レポート



## 本日の講義の資料

以下のサイトに保存してある。

https://github.com/yajima-yasutoshi/DataMinig/tree/main/20231018

#準備
データ分析に必要なPythonライブラリー（モジュール）のインストールと読み込みを施します。


*   numpy：数値計算
*   pandas：主にデータ加工
*   matplotlib：グラフを作成
*   japanize_matplotlib：日本語の表示用
*   seaborn：グラフ作成



In [None]:
!pip install japanize-matplotlib

In [None]:
import numpy as np
import pandas as pd
# from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

# 前回説明した部分

## データのダウンロード

以下のサイト  

https://github.com/yajima-yasutoshi/DataMinig/tree/main/20231018

にアクセスし、エクセルファイル（customer_data.xlsx）をPCにダウンロードする。

## ファイルのGoogle Drive へのアップロード
1. Google Drive で適当なフォルダーを作成
2. PCのファイルをドラッグ＆ドロップでアップロードする。  
あるいは、Google Driveで右クリックでメニューを開き、ファイルのアップロードを選択してもアップロードが可能である。

## ドライブのマウント
1. Colabにて、左端のフォルダーのアイコンをクリックし、ファイルメニューを開く。
1. マウントアイコンをクリックし Google Driveをマウントする。
1. drive の中の「MyDrive」が Google Drive のマイドライブとなる。

## Colabで操作
1. Driveメニューで目的のファイルにマウスを合わせ、ファイル名の右にある縦3つの「・」部分をクリックして「パスをコピー」を選択する。
1. 以下のPythonコードの 3行目を先ほどコピーしたパスに変更する。ctrl+v でペーストされる。

# データをファイルから読み込む

## ファイルを読み込むための Pythonプログラム

エクセルファイルをPython環境に読み込むためにPandasの
read_excel()というメソッドを使う。

以下の例では変数 data にエクセルファイルの表がセットされる

In [None]:
# 読み込むファイルを指定する
file_path = '/content/drive/MyDrive/周南公立大学/講義/データマイニング/データ/customer_data.xlsx'

# data という変数に読み込む。
data = pd.read_excel(file_path)

## データの説明

In [None]:
#データの全体概要を表示
data.info()

データの定義 (各列の説明)


列名 | 型 | 説明
--   | -- | --
顧客ID | 数値（整数） |
性別	 | カテゴリ型 |
年齢	 | 数値（整数）|
職業	 | カテゴリ型|
年収	 | 数値（整数）|
スマホの所有	| カテゴリ型 |
スマホ利用時間	| 数値（実数）| 1日の平均使用時間
Aの利用回数	|  数値（整数）|
Bの利用回数 |  数値（整数） |


## 行数と列数表示

データの行数と列数を調べるためには、shape を用いる

In [None]:
data.shape

# データを表示
データの内容を表示させる


In [None]:
# データの最初の10行を表示する
data.head(10)

NaNと表示されているのは数値が入力されいないという意味で,
 **欠損値**
 と呼ぶ。


In [None]:
# 最後の 5 行を表示する
data.tail()

### 基本的な統計量の表示

describe() を使うことで、数値型の項目に対しては、統計量として以下の数値を確認することができる。
* データ個数
* 平均（mean）
* 標準偏差
* 最小値
* 第一四分位数（25%）：小さい方から25％の値
* 第二四分位数（50%）：小さい方から50％の値
* 第三四分位数（75%）：小さい方から75％の値
* 最大値

また、カテゴリ型のデータに対しては、以下の数値が確認できる
* データ個数
* ユニーク数
* 最頻値
* 最頻値のデータ数

In [None]:
# describe() では、数値型の項目だけが表示される
data.describe()

### 四分位数

小さい方から25%（四分の一）のデータを第一四分位と呼ぶ。
特に、**第二四分位は中央値**とも呼ばれる。

* 例：以下の9個数字の中央値(median)は、小さい方から5番目であり、20である。

   1, 2, 5, 10, **20**, 49, 100, 200, 210

ちなみに、平均（mean）は約 66.3 となる。


In [None]:
# カテゴリ型の項目に対しては、以下のように describe を使う。異なる値の数と最頻値が算出される。
data.describe(include='object')

# データクレンジング
代表的なデータクレンジングとして、以下の3つを扱う


*   欠損値の処理
*   異常値の削除
*   重複レコードの削除



## 欠損値の処理

In [None]:
# 欠損値の個数を調べる
data.isnull().sum()

顧客ID       0
性別         3
年齢         4
職業         1
年収         0
スマホの所有     0
スマホ利用時間    0
Aの利用回数     1
Bの利用回数     0
dtype: int64

### 数値で置き換える場合

In [None]:
# data = pd.read_excel(file_path)
# スマホ利用時間の欠損値を平均値で補完
data['スマホ利用時間'].fillna(data['スマホ利用時間'].mean(), inplace=True)

# 年収の欠損値を0で補完
data['年収'].fillna(0, inplace=True)


## 異常値の削除

In [None]:
data = pd.read_excel(file_path)
# 年齢が90歳以上のレコードのインデックスを取得
indices_to_drop = data[data['年齢'] >= 90].index

# 指定したインデックスのレコードを削除し、別の変数にセットする。
# data は変更されない
data_dropped = data.drop(indices_to_drop)

In [None]:
data['年齢'].max()

130.0

In [None]:
# 確認する
data_dropped['年齢'].max()

65.0

In [None]:
# data を更新する場合には以下のように inplace=True と指定して実行する
data.drop(indices_to_drop, inplace=True)

In [None]:
# 確認する
data['年齢'].max()

65.0

## 重複レコードの削除

In [None]:
# 重複した行が存在している
data = pd.read_excel(file_path)
data.tail()

Unnamed: 0,顧客ID,性別,年齢,職業,年収,スマホの所有,スマホ利用時間,Aの利用回数,Bの利用回数
495,45099496,男性,45.0,公務員,411,はい,2.94,6.0,19
496,30507179,男性,18.0,学生,215,はい,2.01,12.0,8
497,30507179,男性,18.0,学生,215,はい,2.01,12.0,8
498,59997136,男性,65.0,公務員,556,いいえ,0.0,2.0,12
499,99854703,,26.0,会社員,290,はい,1.28,9.0,18


In [None]:
# 重複した行を削除する
data.drop_duplicates(inplace=True)
data.tail()

Unnamed: 0,顧客ID,性別,年齢,職業,年収,スマホの所有,スマホ利用時間,Aの利用回数,Bの利用回数
494,37706329,男性,25.0,公務員,259,はい,1.47,12.0,13
495,45099496,男性,45.0,公務員,411,はい,2.94,6.0,19
496,30507179,男性,18.0,学生,215,はい,2.01,12.0,8
498,59997136,男性,65.0,公務員,556,いいえ,0.0,2.0,12
499,99854703,,26.0,会社員,290,はい,1.28,9.0,18


# 基礎集計


## 基本的な統計量の算出

In [None]:
# 特定の列の平均
data['スマホ利用時間'].mean()

data['スマホ利用時間'].mean() の mean()の部分は以下の関数に変更ができる

関数 | 意味
--   | --
mean() | 平均
median() | 中央値
min() | 最小値
max()	| 最大値
nunique() | カテゴリ型の値の個数  
unique()  | カテゴリ型の値を表示する
quantile(0.25) | 第一四分位（25%）
quantile(0.75) | 第三四分位（75%）

In [None]:
data['職業'].nunique()

In [None]:
# カテゴリ型の項目に対して、値の種類を調べる
data['職業'].unique()

In [None]:
data['年収'].median()

In [None]:
data['年収'].quantile(0.25)

##カウント

In [None]:
# 再度データを変数 data に読み込む
data = pd.read_excel(file_path)

In [None]:
# 値毎のレコード件数を表示させる。
# 欠損値が含まれないので注意
data['職業'].value_counts()

# 他の列も確認する場合
# data['性別'].value_counts()
# data['スマホの所有'].value_counts()

In [None]:
# 欠損値も含める場合
data['職業'].value_counts(dropna=False)

In [None]:
data['職業'].value_counts(dropna=False).sort_values(ascending=False)
# data['職業'].value_counts().sort_values()
# data['職業'].value_counts().sort_values(ascending=False).head()

## 最頻値
カテゴリ型のデータでもっとも多く出現しているものを**最頻値**と呼ぶ。
職業であれば「その他」が最頻値となる。

In [None]:
data['職業'].mode()

0    その他
Name: 職業, dtype: object

In [None]:
result =  data['性別'].mode()
result[0]

# 以下のようにしても良い
# data['性別'].mode() [0]

'男性'

In [None]:
# 最頻値が複数ある場合の例
# サンプルデータを作成
df = pd.DataFrame({
    'A': ['a', 'b', 'b', 'c', 'd', 'c']
})
df.head(6)

Unnamed: 0,A
0,a
1,b
2,b
3,c
4,d
5,c


上のデータでは、最頻値が2つあり b, c 両方が最頻値である。
このような場合は、最頻値が２つ表示される

In [None]:
# mode を計算
result = df['A'].mode()
print(result)

# len(result)
# print( result[0] )
# print( result[1])

0    b
1    c
Name: A, dtype: object


# 並べ替え（ソート）

In [None]:
# 年齢の小さい順に並べる（昇順（ascending:アセンディング）とも呼ぶ）
# 並べ替えの対象となる列名を指定する。
# シングルクオーテーション(')が必要。
data.sort_values('年齢')

Unnamed: 0,顧客ID,性別,年齢,職業,年収,スマホの所有,スマホ利用時間,Aの利用回数,Bの利用回数
195,13596379,男性,10.0,学生,0,いいえ,0.00,12.0,11
482,15287384,男性,10.0,学生,0,いいえ,0.00,10.0,16
266,79332527,男性,10.0,学生,0,いいえ,0.00,5.0,20
308,48345111,女性,10.0,学生,0,いいえ,0.00,3.0,10
418,38473584,女性,10.0,学生,0,いいえ,0.00,5.0,10
...,...,...,...,...,...,...,...,...,...
178,52400051,男性,130.0,会社員,457,はい,1.76,2.0,8
0,81336944,男性,,会社員,393,はい,1.67,1.0,12
117,74096927,男性,,その他,402,はい,1.78,1.0,9
216,60197862,男性,,公務員,743,はい,2.31,2.0,17


In [None]:
# 大きい順に並べる（降順と呼ぶ）場合は、ascending=False を追加する。
data.sort_values('年齢', ascending=False)

Unnamed: 0,顧客ID,性別,年齢,職業,年収,スマホの所有,スマホ利用時間,Aの利用回数,Bの利用回数
260,31453537,男性,130.0,会社員,662,はい,3.22,5.0,20
178,52400051,男性,130.0,会社員,457,はい,1.76,2.0,8
98,28123070,男性,130.0,会社員,613,はい,2.05,3.0,15
489,70847018,男性,65.0,会社員,887,はい,1.56,1.0,15
220,24025262,男性,65.0,その他,978,はい,0.94,5.0,22
...,...,...,...,...,...,...,...,...,...
482,15287384,男性,10.0,学生,0,いいえ,0.00,10.0,16
0,81336944,男性,,会社員,393,はい,1.67,1.0,12
117,74096927,男性,,その他,402,はい,1.78,1.0,9
216,60197862,男性,,公務員,743,はい,2.31,2.0,17


In [None]:
# by = '列名' としてもよい
data.sort_values(by = '年齢', ascending=False)

Unnamed: 0,顧客ID,性別,年齢,職業,年収,スマホの所有,スマホ利用時間,Aの利用回数,Bの利用回数
260,31453537,男性,130.0,会社員,662,はい,3.22,5.0,20
178,52400051,男性,130.0,会社員,457,はい,1.76,2.0,8
98,28123070,男性,130.0,会社員,613,はい,2.05,3.0,15
489,70847018,男性,65.0,会社員,887,はい,1.56,1.0,15
220,24025262,男性,65.0,その他,978,はい,0.94,5.0,22
...,...,...,...,...,...,...,...,...,...
482,15287384,男性,10.0,学生,0,いいえ,0.00,10.0,16
0,81336944,男性,,会社員,393,はい,1.67,1.0,12
117,74096927,男性,,その他,402,はい,1.78,1.0,9
216,60197862,男性,,公務員,743,はい,2.31,2.0,17


In [None]:
# 並べ替え、先頭の10行を表示する場合
data.sort_values('年齢', ascending=False).head(10)

Unnamed: 0,顧客ID,性別,年齢,職業,年収,スマホの所有,スマホ利用時間,Aの利用回数,Bの利用回数
260,31453537,男性,130.0,会社員,662,はい,3.22,5.0,20
178,52400051,男性,130.0,会社員,457,はい,1.76,2.0,8
98,28123070,男性,130.0,会社員,613,はい,2.05,3.0,15
489,70847018,男性,65.0,会社員,887,はい,1.56,1.0,15
220,24025262,男性,65.0,その他,978,はい,0.94,5.0,22
317,40801597,女性,65.0,公務員,801,はい,0.72,3.0,23
485,59650536,男性,65.0,公務員,792,いいえ,0.0,2.0,15
41,42510662,男性,65.0,公務員,548,はい,1.39,2.0,11
217,81434544,男性,65.0,その他,620,はい,2.13,6.0,16
487,27325230,男性,65.0,公務員,694,はい,2.84,4.0,13


In [None]:
# 同じ大きさのデータの場合に、さらに別項目でソートを行うことができる
# まず、年齢で並べ、同じ年齢の場合は、顧客IDで並べる場合。
data.sort_values(['年齢','顧客ID'],).head(10)

Unnamed: 0,顧客ID,性別,年齢,職業,年収,スマホの所有,スマホ利用時間,Aの利用回数,Bの利用回数
195,13596379,男性,10.0,学生,0,いいえ,0.0,12.0,11
482,15287384,男性,10.0,学生,0,いいえ,0.0,10.0,16
418,38473584,女性,10.0,学生,0,いいえ,0.0,5.0,10
308,48345111,女性,10.0,学生,0,いいえ,0.0,3.0,10
266,79332527,男性,10.0,学生,0,いいえ,0.0,5.0,20
338,10180519,男性,11.0,学生,0,いいえ,0.0,10.0,14
177,23544817,女性,11.0,学生,0,いいえ,0.0,3.0,13
303,50985696,男性,11.0,学生,0,いいえ,0.0,8.0,11
110,91981647,男性,11.0,学生,0,いいえ,0.0,6.0,16
215,96586237,男性,11.0,学生,0,いいえ,0.0,7.0,22


In [None]:
# まず、年齢で並べ、同じ年齢の場合は、顧客IDで並べる場合。
# ただし、年齢は大きなものから並べ、年齢が同じ場合は顧客IDの小さなものから並べる場合は、以下のように行う
data.sort_values(['年齢','顧客ID'], ascending=[False, True]).head(10)

Unnamed: 0,顧客ID,性別,年齢,職業,年収,スマホの所有,スマホ利用時間,Aの利用回数,Bの利用回数
98,28123070,男性,130.0,会社員,613,はい,2.05,3.0,15
260,31453537,男性,130.0,会社員,662,はい,3.22,5.0,20
178,52400051,男性,130.0,会社員,457,はい,1.76,2.0,8
174,17196772,男性,65.0,その他,1238,はい,1.51,2.0,25
310,18733313,男性,65.0,その他,974,はい,1.81,1.0,10
220,24025262,男性,65.0,その他,978,はい,0.94,5.0,22
487,27325230,男性,65.0,公務員,694,はい,2.84,4.0,13
282,37981616,男性,65.0,その他,736,はい,1.52,1.0,16
317,40801597,女性,65.0,公務員,801,はい,0.72,3.0,23
41,42510662,男性,65.0,公務員,548,はい,1.39,2.0,11


# 複雑な集計

分類して集計することができる。

例えば、性別で分類して年齢の平均を求める、といったことが可能である。


以下の3項目を指定する必要がある。

*   分類項目：カテゴリ属性から選択する
*   集計項目：数値属性
*   集計方法：集計方法には、平均、中央値、最小、最大が使える。

例えば、性別で分類して年齢を平均する場合には、

*   分類項目 → 性別
*   集計項目 → 年齢
*   集計方法 → 平均

とする。

In [None]:
# 性別で分類して年齢の平均を求める。
data.groupby('性別')['年齢'].mean()

In [None]:
# 集計の結果を別のデータフレーム（変数名は new_data ）にする場合は、reset_index() を最後に着ける
new_data = data.groupby('性別')['年齢'].mean().reset_index()
new_data

In [None]:
# 列名を変更したいのであれば、以下のように行う
data.rename(columns={'年齢': '平均年齢'})

In [None]:
selected_data = data[['性別', '年齢', '年収', 'Aの利用回数', 'Bの利用回数']]

# 性別ごとに全ての項目の平均を計算することも可能
selected_data.groupby('性別').mean()


In [None]:
selected_data = data[['性別', '職業', '年齢', '年収', 'Aの利用回数', 'Bの利用回数']]
selected_data.groupby('性別').median()
# 職業の項目は数値型ではないので、メッセージが表示される。

2つ以上の属性を組み合わせて分類して、集計することもできる。

In [None]:
data.groupby(['性別','職業']).mean()

集計方法も複数指定が可能である。最小値、最大値、平均を計算する方法は以下の通り

In [None]:
df = data.groupby(['性別','職業'])['年齢'].agg(['min', 'max', 'mean']).reset_index()
df

列名を変更して分かり易いデータフレームとするこもとできる。

In [None]:
df = df.rename(columns={'min': '平均最小', 'max':'年齢最大', 'mean':'年齢平均'})
df

---
---
# 可視化

## ヒストグラムの表示

In [None]:
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

data = pd.read_excel(file_path)
# 年齢のデータを取得
ages = data['年齢']

# ヒストグラムを描画
sns.histplot(ages, bins=20, kde=False)
plt.title('年齢の分布')
plt.xlabel('年齢')
plt.ylabel('人数')
plt.show()

In [None]:
# 年齢が80歳以上のレコードのインデックスを取得
indices_to_drop = data[data['年齢'] >= 80].index

# 指定したインデックスのレコードを削除
data.drop(indices_to_drop, inplace=True)


In [None]:
# 年齢のデータを取得
ages = data['年齢']

# ヒストグラムを描画
sns.histplot(ages, bins=20, kde=False)
plt.title('年齢の分布')
plt.xlabel('年齢')
plt.ylabel('人数')
plt.show()

# 散布図の表示

In [None]:
# Plot scatter plot for Age vs Income using seaborn
sns.scatterplot(data=data, x='年齢', y='年収', hue='性別', palette={'男性': 'blue', '女性': 'red'})
plt.title('Scatter Plot of Age vs Income')
plt.show()

# 散布図行列表示

In [None]:

# Let's bring in the scripting interface
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns
# sns.set(font='IPAexGothic')

# sns.pairplot( data )
# sns.pairplot( data.iloc[:,0:7] )
sns.pairplot( data.iloc[:,0:7], hue='性別', palette={'男性': 'blue', '女性': 'red'})
plt.show()

# その他

In [None]:
# 癌のデータを読み込む
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()

breast_cancer_data = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
Y = pd.Series(breast_cancer.target)
breast_cancer_data['target'] = Y