<a href="https://colab.research.google.com/github/yajima-yasutoshi/DataMinig/blob/main/20231011/%E5%9F%BA%E7%A4%8E%E9%9B%86%E8%A8%881.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# データマイニング第3回（2023/10/11）

#本日の講義の目的


*   データ分析の流れの理解
*   データの前処理方法の理解
  * データのアップロード
  * データの理解
  * 前処理



# 本日の講義の資料

本日の資料の保管場所

https://github.com/yajima-yasutoshi/DataMinig/tree/main/20231011

#データ分析の流れ

データ分析の基本的なステップ
1. 目的設定
1. データ収集
1. データ前処理
1. データ探索
1. モデル構築
1. レポート



#準備
データ分析に必要なPythonライブラリー（モジュール）のインストールと読み込みを施します。


*   numpy：数値計算
*   pandas：主にデータ加工
*   matplotlib：グラフを作成
*   japanize_matplotlib：日本語を表示
*   seaborn：グラフ作成



In [None]:
!pip install japanize-matplotlib

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

# データをファイルから読み込む

## データのファイルからの読み込み
パソコン上に作成したエクセルファイルを Google Drive にアップロードして、Pythonプログラムで読み込んでみる。

### エクセルファイルの作成  
PCでエクセルを開き、適当な数値を入力しファイルを保存する。（例えば、「商品金額.xlsx」とする）

> 例えば、以下の表をエクセルで作成し、適当なファイル名を付けてPCに保存する。
> **注意点：金額の入力は半角で行う必要がある**。
>
> 商品|金額
>  -- | --
> りんご | 300
> みかん | 200
> スイカ | 1000

### ドライブのマウント
1. Colabにて、左端のフォルダーのアイコンをクリックし、ファイルメニューを開く。

1. マウントアイコンをクリックし Google Driveをマウントする。

1. drive の中の「MyDrive」が Google Drive のマイドライブとなる。

### ファイルのGoogle Drive へのアップロード
1. Google Drive で適当なフォルダーを作成
2. PCのファイルをドラッグ＆ドロップでアップロードする。  
あるいは、Google Driveで右クリックでメニューを開き、ファイルのアップロードを選択してもアップロードが可能である。

### Colabで操作
1. Driveメニューで目的のファイルにマウスを合わせ、ファイル名の右にある縦3つの「・」部分をクリックして「パスをコピー」を選択する。

1. 以下のPythonコードの 2行目を先ほどコピーしたパスに変更する。ctrl+v でペーストされる。

### ファイルを読み込むための Pythonプログラム

エクセルファイルをPython環境に読み込むためにPandasの
read_excel()というメソッドを使う

In [3]:
# 読み込むファイルを指定する
file_path = '/content/drive/MyDrive/データアップロード/商品金額.xlsx'
# data という変数に読み込む
data = pd.read_excel(file_path)

In [None]:
# 先頭部分のデータを表示
data.head()

## 【参考】CSVファイルの読み込み

> csvファイルはUTF-8で保存されている必要がある。うまく読み込めない場合は、エクセル[リンクテキスト](https://)で「CSV UTF-8」として保存すると良い。

In [None]:
import pandas

data= pandas.read_csv('/content/drive/MyDrive/データアップロード/商品金額.csv')
print( data.size )

In [6]:
# 先頭の数行を表示させる
data.head()

Unnamed: 0,商品,金額
0,リンゴ,300
1,みかん,200
2,スイカ,1000


In [None]:
# 先頭部分のデータを10行表示
data.head(10)

# 本日の講義で使うデータの説明

データの定義 (各列の説明)


列名 | 型 | 説明
--   | -- | --
顧客ID | 数値（整数） |
性別	 | カテゴリ型 |
年齢	 | 数値（整数）|
職業	 | カテゴリ型|
年収	 | 数値（整数）|
スマホの所有	| カテゴリ型 |
スマホ利用時間	| 数値（実数）| 1日の平均使用時間
Aの利用回数	|  数値（整数）|
Bの利用回数 |  数値（整数） |


## データのダウンロードとGoogle Driveへのアップロード

1. 以下のサイト  


> https://github.com/yajima-yasutoshi/DataMinig/tree/main/20231011
>
>にアクセスし、エクセルファイル（customer_data.xlsx）をPCにダウンロードする。

2. Google Drive の適当なフォルダーへアップロードする。

# データの読み込み

In [8]:
# 以下の行を変更する
file_path = '/content/drive/MyDrive/周南公立大学/講義/データマイニング/データ/customer_data.xlsx'
data= pd.read_excel(file_path)

# 行数と列数表示

In [None]:
data.shape

# データを表示
変数に読み込んデータの内容を表示させる


In [None]:
# データの最初の10行を表示する
data.head(10)

NaNと表示されているのは数値が入力されいないという意味で,
 **欠損値**
 と呼ぶ。


In [None]:
# 最後の 5 行を表示する
data.tail()

#データの概要を確認する


*   レコード数
*   カラム（項目）数
*   各カラムの属性



In [None]:
#データの全体概要を表示
data.info()

### 基本的な統計量の表示

数値型の列に対しては、統計量として以下の数値を確認することができる。
* データ個数
* 平均
* 標準偏差
* 最小値
* 第一四分位数
* 第二四分位数
* 第三四分位数
* 最大値

また、カテゴリ型のデータに対しては、
* データ個数
* ユニーク数
* 最頻値
* 最頻値のデータ数

In [None]:
# 数値型の変数だけが表示される
data.describe()

In [None]:
# カテゴリ型の変数に関する情報を表示させる場合
data.describe(include='object')

In [None]:
# 全てのカテゴリを確認する
category = data['職業'].unique()
print( category)
# print( category[2])

# データクレンジング

## 欠損値の処理

### 欠損値の確認

In [None]:
# 欠損値の個数を調べる
# data という変数に読み込む
# data = pd.read_excel(file_path)
data.isnull().sum()

### 欠損値のあるレコードを削除

In [None]:
data_dropped = data.dropna()

print(data_dropped.isnull().sum())
data_dropped.info()

元の変数 data は値が変化しない。レコードが削除した状態のデータが、data_dropped にコピーされる。

In [None]:
data.info()

以下のように inplace=True とすると
dataの内容が変更される。

In [None]:
# data という変数に読み込む
data = pd.read_excel(file_path)
# print( data.isnull().sum() )
data.dropna(inplace=True)
print( data.isnull().sum() )


In [None]:
data.info()

### 数値で置き換える場合

In [21]:
data = pd.read_excel(file_path)
# スマホ利用時間の欠損値を平均値で補完
data['スマホ利用時間'].fillna(data['スマホ利用時間'].mean(), inplace=True)

# 年収の欠損値を0で補完
data['年収'].fillna(0, inplace=True)


data['スマホ利用時間'].mean() の mean()の部分は以下の関数に変更ができる

関数  | 意味
--    |   --
mean()   | 平均
median() | 中央値
min()    | 最小値
max()    | 最大値


In [22]:
print( data['スマホ利用時間'].max() )

6.87


### 列を削除する場合


In [None]:
data = pd.read_excel(file_path)
# data.info()

# スマホ利用時間の列をすべて削除する場合
data.drop(columns=['スマホ利用時間'], inplace=True)
data.info()

## 異常値の削除

In [None]:
# 年齢が90歳以上のレコードのインデックスを取得
indices_to_drop = data[data['年齢'] >= 90].index

# 指定したインデックスのレコードを削除
# data.drop(indices_to_drop, inplace=True)
data_dropped = data.drop(indices_to_drop)
data_dropped.info()

## 重複レコードの削除

In [None]:
# data = pd.read_excel(file_path)
data.tail()

In [None]:
data.drop_duplicates(inplace=True)
data.tail()

# 主なDataFrame の操作

In [None]:
# 20行目から21行目までを表示
data[20:22]

In [None]:
data.iloc[[100,1,102]]

In [None]:
data.iloc[[100,1,102],[0,2,3]]

In [None]:
data[ data['年齢']>90]

In [None]:
data[ data['職業']=='会社員']

In [None]:
data[ data['職業']=='会社員'].head(3)

In [None]:
data_renamed = data.rename(columns={'Aの利用回数': 'A回数','Bの利用回数': 'B回数'})
data_renamed.info()

In [None]:
data = pd.read_excel(file_path)
# data.info()

data.sort_values(by = 'スマホ利用時間')

In [None]:
data.sort_values(by = '年収', ascending=False)

# 参考サイト
- Google Colaboratory のWebページ
 - https://colab.research.google.com/


- 授業の資料保管場所
 - https://github.com/yajima-yasutoshi/DataMinig/tree/main/20231011



---
---


# 基礎集計


##カウント

In [None]:
# data = pd.read_excel(file_path)
# print( data['職業'].unique() )
print( data['職業'].value_counts())
# print( data['性別'].value_counts())

#print( data['スマホの所有'].value_counts())

## 集計

In [None]:
selected_data = data[['性別', '年齢', '年収', 'Aの利用回数', 'Bの利用回数']]

# 性別ごとに平均を計算
# average_by_gender =
selected_data.groupby('性別').mean()


In [None]:
selected_data = data[['性別', '職業', '年齢', '年収', 'Aの利用回数', 'Bの利用回数']]
selected_data.groupby('性別').median()

In [None]:
selected_data = data[['性別', '職業','年齢']]
selected_data.groupby(['性別','職業']).agg(['min', 'max', 'mean'])

In [None]:
data.groupby(['性別','職業']).mean()

# ヒストグラムの表示

In [None]:
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

data = pd.read_excel(file_path)

# 年齢のデータを取得
ages = data['年齢']

# ヒストグラムを描画
sns.histplot(ages, bins=20, kde=False)
plt.title('年齢の分布')
plt.xlabel('年齢')
plt.ylabel('人数')
plt.show()

In [45]:
# 年齢が80歳以上のレコードのインデックスを取得
indices_to_drop = data[data['年齢'] >= 80].index

# 指定したインデックスのレコードを削除
data.drop(indices_to_drop, inplace=True)


In [None]:
# 年齢のデータを取得
ages = data['年齢']

# ヒストグラムを描画
sns.histplot(ages, bins=20, kde=False)
plt.title('年齢の分布')
plt.xlabel('年齢')
plt.ylabel('人数')
plt.show()