2025-10-01

# 学習内容
### 書籍/教材: スッキリわかるPythonによる機械学習入門
### 範囲: 第4章 機械学習の体験
### 目的: 簡単なデータを使って機械学習を体験してみる。またpandasの使い方を学ぶ。


 -----------------------------
## <内容まとめ>

・pandasのインポート  
```python
import pandas as pd
```

・データフレームの作成  
ディクショナリをDataFrame関数でデータフレームに変換  
```python
data = {
  '松田の労働時間' : [160, 160], # 松田の労働時間列の作成
  '浅木の労働時間' : [161, 175] # 浅木の労働時間列の作成
}

df = pd.DataFrame(data)
df # dfの表示
```

・type関数でデータフレームのデータ型を確認
```python
#セルの途中の場合、print関数を
#利用しないと表示できない
print(type(df))

df.shape
```

・インデックスをデフォルトの整数から月に変換する
```python
df.index = ['4月', '5月'] # dfのインデックスを変更
df # 表示
```

・列名を変更する
```python
df.columns = ['松田の労働(h)', '浅木の労働(h)'] # 列名の変更
df # 表示
```

・インデックスや列名だけを参照する
```python
print(df.index) # インデックスの参照
print(df.columns) # カラムの参照
```

・DataFrame関数の引数でインデックスや列名を指定する
```python
data = [
 [160, 161],
 [160, 175]
    ]

df2 = pd.DataFrame(data, index = ['4月', '5月'], columns =
    ['松田の労働', '浅木の労働'])
```

・reac_csv関数でCSVファイルからデータを読み込む
```python
# pandasは別名pdでインポート済み
# KvsT.csvファイルを読み込んで、データフレームに変換
df = pd.read_csv('KvsT.csv')
# 先頭3行だけ表示
df.head(3)
```

・指定した列だけを参照
```python
#身長列だけを参照
df['身長']
```

・複数の列を一度に参照する
```python
# 抜き出したい列名の文字列リストを作成
col = ['身長', '体重']
# 身長列と体重列のみを抜き出す
df[col]
```

・Series型
列と行がある表形式の二次元データを扱うときはDataFrame型を使うのが一般的。それに対し一次元データを扱うときにはSeries型が用意されている。シリーズには行（インデックス）はあるが列はない。

・データの前処理
1.特徴量を変数xに代入
```python
# 特徴量の列を参照して xに代入
xcol = ['身長', '体重', '年代']
x = df[xcol]
```
2.正解データを変数tに代入
```python
# 正解データ（派閥）を参照して、tに代入
t = df['派閥']
```

・scikit-learnのインポート
treeモジュールのインポート
```python
from sklearn import tree
```

・モデルの準備と学習の実行
```python
# モデルの準備（未学習）
model = tree.DecisionTreeClassifier(random_state = 0)
# 学習の実行（x、tは事前に定義済みの特徴量と正解ラベル）
model.fit(x,t)
```

・たけのこ派かきのこ派か予測する
特徴量が格納されたデータフレーム(二次元リスト)を引数としてpredictメソッドに与える。predictメソッドは特徴量を受け取ると予測結果をarray型で返す。
```python
# 身長170cm、体重70kg、年齢20代のデータ（新しいデータ）を
# 2次元リストで作成
taro = [[170, 70, 20]]
taro_df = pd.DataFrame(taro,columns = x.columns)
```
```python
 # taroがどちらに分類されるか予測
model.predict(taro_df)
```

・正解率
モデルの予測性能を評価するために正解率をもとめる。元の学習データにある特徴量と同じ特徴量をモデルに与えて、予測結果がその正解データと一致すればよい。
`正解率 = （実際の答えと予測結果が一致している件数）÷（全データ件数）`

・scoreメソッドによる正解率の計算
```python
model.score(x, t)
```

・モデルの保存
今回は簡単なデータであったためモデルの作成は一瞬で終わったが、実際数日かかることもある。そこで一度作成したモデルはPython標準ライブラリのpickleを使って保存する。
```python
import pickle
```
```python
with open('KinokoTakenoko.pkl', 'wb') as f:
    pickle.dump(model, f)
```

・モデルの読み込み
保存すると.pklファイルが作成される。以下のコードは作成したkinokoTakenoko.pklを読み込んでmodel2変数に代入している。
```python
import pickle

with open('KinokoTakenoko.pkl', 'rb') as f:
    model2 = pickle.load(f)
```
以下のようにすれば読み込んだモデルを使って予測することができる。
```python
suzuki = pd.DataFrame([[180,75,30]],columns = ['身長','体重','年代'])
model2.predict(suzuki)
```

 -----------------------------
## まとめ

・一連の流れ
データフレームを作成→特徴量と正解データをそれぞれ変数に代入→scikit-learnからモジュールをインポート→モデルの準備→fitで学習の実行→scoreで正解率を計算して評価→pickleなどでモデルを保存

・ライブラリの基本的な使い方を学ぶことが出来た

・簡単なモデルを作ることが出来た。

・今回作ったのと同様のやり方で自力で簡単なモデルを作ってみたい。

-----------------------------------


## 以下実装例

### 以下はCSVファイルを使った、たけのこ派きのこ派を予測するモデルの実装例

In [82]:
import pandas as pd

In [83]:
df = pd.read_csv('chap04/KvsT.csv')

In [84]:
df

Unnamed: 0,身長,体重,年代,派閥
0,170,60,10,きのこ
1,172,65,20,きのこ
2,170,60,30,たけのこ
3,170,65,40,きのこ
4,177,65,10,たけのこ
5,168,55,20,きのこ
6,169,65,30,たけのこ
7,170,62,40,たけのこ
8,180,70,10,たけのこ
9,170,68,20,きのこ


In [85]:
#特徴量を変数xへ代入
xcol = ['身長','体重','年代']
x = df[xcol]

In [86]:
#正解データを変数tへ代入
t = df['派閥']

In [87]:
#scikit-learnからtreeモジュールをインポート
from sklearn import tree

In [88]:
#モデルの準備
model = tree.DecisionTreeClassifier(random_state = 0)

In [89]:
#学習の実行
model.fit(x,t)

0,1,2
,criterion,'gini'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,0
,max_leaf_nodes,
,min_impurity_decrease,0.0


In [90]:
# 身長170cm、体重70kg、年齢20代のデータ（新しいデータ）を
# 2次元リストで作成
taro = [[170, 70, 20]]
taro_df = pd.DataFrame(taro,columns = x.columns)

 # taroがどちらに分類されるか予測
model.predict(taro_df)

array(['きのこ'], dtype=object)

In [91]:
# このモデルの正解率を計算
model.score(x, t)

1.0

1.0ということは正解率が100%ということ。したがってこのモデルは優れていると言える。　　


In [92]:
# 作ったモデルを保存する
import pickle

with open('chap04/KinokoTakenoko.pkl', 'wb') as f:
    pickle.dump(model, f)

In [93]:
# 作ったモデルを読み込む
with open('chap04/KinokoTakenoko.pkl', 'rb') as f:
    model2 = pickle.load(f)

In [94]:
# 読み込んだモデルを使って予測
suzuki = pd.DataFrame([[180,75,30]],columns = ['身長','体重','年代'])
model2.predict(suzuki)

array(['たけのこ'], dtype=object)

　　
### 以下は他の学習内容の実行例　　

  

In [95]:
data = [
 [160, 161],
 [160, 175]
    ]

df2 = pd.DataFrame(data, index = ['4月', '5月'], columns =
    ['松田の労働', '浅木の労働'])

In [96]:
df2

Unnamed: 0,松田の労働,浅木の労働
4月,160,161
5月,160,175


In [97]:
df2.head(1)

Unnamed: 0,松田の労働,浅木の労働
4月,160,161


In [98]:
df2.tail(1)

Unnamed: 0,松田の労働,浅木の労働
5月,160,175


In [99]:
df2['松田の労働']

4月    160
5月    160
Name: 松田の労働, dtype: int64

In [100]:
col = ['松田の労働','浅木の労働']

In [101]:
df2[col]

Unnamed: 0,松田の労働,浅木の労働
4月,160,161
5月,160,175


In [102]:
df2.index = ['6月','7月']

In [103]:
df2.columns = ['田口の労働','今村の労働']

In [104]:
df2 

Unnamed: 0,田口の労働,今村の労働
6月,160,161
7月,160,175
