Classification  
from Note   
1. 引入資料集  
2. 找出資料特徵 & 關聯係數
3. 將資料分組 (實驗組 & 對照組)  
4. 做成決策樹 & 訓練模型
5. 繪出決策樹
6. 帶入對照組資料，預測
7. 正確率 (accuracy_score)
8. 剖析正確率 (混淆矩陣)

In [None]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

# 引入資料集
iris = load_iris()

# 做成df
x = pd.DataFrame(iris["data"], columns=iris["feature_names"])
y = pd.DataFrame(iris["target"])

# 轉array
xarray = np.array(x)
yarray = np.array(y)
iris


In [None]:
from sklearn.model_selection import train_test_split

# 分割資料
x_train, x_test, y_train, y_test = train_test_split(xarray, yarray, test_size=0.1)

In [None]:
from sklearn.tree import DecisionTreeClassifier

# 做成決策樹
clf = DecisionTreeClassifier(max_depth=3)

# 導入訓練資料
clf.fit(x_train, y_train)

In [None]:
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

# 畫圖
plt.figure(figsize=(12,12))
# 特徵名稱, 分類類別, 圖框是否上色
plot_tree(clf, feature_names=iris["feature_names"], class_names=iris["target_names"], filled=True)

In [None]:
from sklearn.metrics import accuracy_score

# 帶入答案，檢視模型合理性
pre = clf.predict(x_test)

# 做出test檔案的df + 預測值 -> 進一步檢視
testsample = pd.DataFrame(x_test, columns=iris["feature_names"])
testans = pd.DataFrame(y_test, columns=["target"])
testpre = pd.DataFrame(pre, columns=["predicted_target"])
test_total = pd.concat([testsample, testans, testpre], axis=1)

score = accuracy_score(y_test, pre)
print(f"精準度: {score}")

test_total

Regression  
from note  
1. 引入資料集  
2. 將資料分組 (實驗組 & 對照組)  
3. 做成決策樹 & 訓練模型
4. 繪出決策樹
5. 帶入對照組資料，預測
6. 正確率 (R2_score)
7. 剖析正確率 (混淆矩陣)

In [None]:
from urllib.request import urlretrieve
import pandas as pd
import numpy as np

# 此為tsv檔案
df = pd.read_csv(r"D:\Learn\Machine_Learn\_sklearn_diabetes.csv", encoding="utf-8", sep="\t")

# 做成df
x = df.drop(["Y"], axis=1)
y = df["Y"]

# 轉array
xarray = np.array(x)
yarray = np.array(y)
x

In [None]:
from sklearn.model_selection import train_test_split

# 分割資料
x_train, x_test, y_train, y_test = train_test_split(xarray, yarray, test_size=0.1)

In [None]:
from sklearn.tree import DecisionTreeRegressor

# 做成決策樹
reg = DecisionTreeRegressor(max_depth=2)

# 導入訓練資料
reg.fit(x_train, y_train)

In [None]:
import matplotlib.pyplot as plt
from sklearn.tree import plot_tree

# 畫圖
plt.figure(figsize=(15,15))
plot_tree(reg, feature_names=x.columns, filled=True, fontsize=12)

In [None]:
from sklearn.metrics import r2_score

# 帶入答案，檢視模型合理性
pre = reg.predict(x_test)
score = r2_score(y_test, pre)

# 做出test檔案的df + 預測值 -> 進一步檢視
testsample1 = pd.DataFrame(x_test, columns=x.columns)
testans1 = pd.DataFrame(y_test, columns=["target_Y"])
testpre1 = pd.DataFrame(pre, columns=["predicted_target_Y"])

test_total1 = pd.concat([testsample1, testans1, testpre1], axis=1)

print(f"預測準確度: {score}")
test_total1

Cluster  
from note  
1. 引入資料集 & 整理資料
2. 將資料分組 (實驗組 & 對照組)  
3. 尋找K值 -> 畫分群圖 (K means)
4. 可畫圖找K值
5. 計算K值的正確率 (silhouette_score)

In [None]:
# 重新導入iris 假設不知道分類
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

iris = load_iris()

# 做成df
x = pd.DataFrame(iris["data"], columns=iris["feature_names"])
y = pd.DataFrame(iris["target"], columns=["target"])
df = pd.concat([x,y], axis=1)

# 轉array
xarray = np.array(x)
yarray = np.array(y)

In [None]:
# 分資料
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(xarray, yarray, test_size=0.1)

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 先自己假設分3群
clu = KMeans(n_clusters=3)

# 帶入訓練資料
clu.fit(x_train)

# 對train的資料貼標籤
clu.labels_

# 計算準確度分數
silhouette_score(x_train, clu.labels_)


Cluster  
1. 資料中並沒有答案
2. 所以計算出最適合的KMeans時，我們可以自己對labels分出來的資料命名 clusterA, clusterB ...
3. 所以沒有正確答案與否的問題
4. silhouette_score 也並非正確率分數 而是各個資料相聚程度的分數

In [None]:
for how_many_cluster in range(2,21):
    clu = KMeans(n_clusters=how_many_cluster, n_init="auto")
    clu.fit(x_train)
    gather_score = silhouette_score(x_train, clu.labels_)
    print(f"分成 {how_many_cluster} 群時，資料聚合分數為:{gather_score}")

檢測文字

In [None]:
# 常用函示庫
# opencc-python 簡繁轉換
# rake-nltk     處理英文片語
# TF-IDF        詞彙權重分數 (TF一份文件中出現次數 / IDF多份文件中出現次數)

In [None]:
# 簡繁轉換
from opencc import OpenCC
to_convert = """从前，有一只蜘蛛，在寺庙的廊庑下静静地结网。由于她经常听到讲经诵法，所以一千年过去了，她变得有些懂得佛理了。 
有一天，佛从这间寺庙路过，看到了这只有佛缘的蜘蛛，于是问她：“你说，什么是最珍贵的？”蜘蛛想了想说：“是得不到和已失去。”佛笑笑，然后走了。 
就这样，一千年过去了，蜘蛛一直被香火熏陶着，变得更深沉更知佛法。有一天，佛又路过这个寺庙，于是又问她：“现在你修行加深了，你认为什么是最珍贵的呢？”蜘蛛不假思索地说：“还是得不到和已失去。”佛又微笑着走了。
"""

cc = OpenCC("s2twp")
to_convert = to_convert.replace("\n","")
converted = cc.convert(to_convert)
converted

In [None]:
# 詩詞分析 - 讀取資料集
import pandas as pd


train = pd.read_csv("D:\Learn\Machine_Learn\_poem_train.csv", encoding="utf-8")
test = pd.read_csv("D:\Learn\Machine_Learn\_poem_test.csv", encoding="utf-8")

In [None]:
# 詩詞分析 - 統計: 作者數量, 詩數量
train["作者"].value_counts()  # -> 杜甫  1157 /  李白  969 / 白居易  605

# 取index
poets = train["作者"].value_counts().index  # -> ['杜甫', '李白', '白居易']

# enumerate 迭代 並給迭代的內容index
poets_2_index = {poet:index for index, poet in enumerate(poets)}
poets_2_index # -> {'杜甫': 0, '李白': 1, '白居易': 2}

index_2_poets = {index:poet for index, poet in enumerate(poets)}
index_2_poets # -> {0: '杜甫', 1: '李白', 2: '白居易'}

# 將答案轉變為數字 (ML 無法有文字)
y_train = train["作者"].replace(poets_2_index)
y_test = test["作者"].replace(poets_2_index)

In [27]:
# jieba 分詞
import jieba


# 定義流程 -> apply to DF
def jieba_cut(s):
    return " ".join(jieba.cut(s))

# 將訓練資料分詞
x_train = train["內容"].apply(jieba_cut)
x_test = test["內容"].apply(jieba_cut)

x_test

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\李重誼\AppData\Local\Temp\jieba.cache
Loading model cost 0.882 seconds.
Prefix dict has been built successfully.


0      日照 香爐生 紫煙 ， 遙看 瀑布 掛 前川 。 飛流 直下 三千尺 ， 疑是 銀河 落九天 。
1     朝辭 白帝 彩雲間 ， 千裡 江陵 一日 還 。 兩岸 猿聲 啼 不住 ， 輕舟 已過 萬 ...
2      李白 乘舟 將欲行 ， 忽聞 岸上 踏歌 聲 。 桃花潭水 深 千尺 ， 不及 汪倫送 我情 。
3       故人 西辭黃鶴樓 ， 煙花 三月 下揚州 。 孤帆 遠影 碧空 儘 ， 唯見長 江天 際流 。
4                 危樓 高 百尺 ， 手可摘 星辰 。 不敢 高聲語 ， 恐驚 天上 人 。
5                  床前 明月光 ， 疑是 地上 霜 。 舉頭 望明月 ， 低頭思 故鄉 。
6     天門 中斷 楚江 開 ， 碧水 東流 至此 回 。 兩岸 青山 相對 出 ， 孤帆 一片 日...
7               眾鳥 高 飛 儘 ， 孤雲獨 去 閒 。 相看 兩不厭 ， 隻 有 敬亭山 。
8     鳳凰 台上 鳳凰遊 ， 鳳去 台空江 自流 。 吳宮 花草 埋 幽徑 ， 晉代 衣冠 成古丘...
9     渡遠 荊門外 ， 來 從 楚國遊 。 山 隨 平野 儘 ， 江入 大荒 流 。 月 下 飛天...
10    百川 日東流 ， 客去 亦 不息 。 我 生苦 漂 蕩 ， 何時 有 終極 。 讚 公 釋 ...
11    細泉 兼 輕冰 ， 沮洳 棧道 濕 。 不辭 辛苦 行 ， 迫此 短景急 。 石門 雪雲隘 ...
12    首路 栗亭 西 ， 尚想 鳳凰村 。 季冬 攜 童稚 ， 辛苦 赴 蜀門 。 南登 木皮 嶺...
13    落日 在 簾 鉤 ， 溪邊 春事幽 。 芳菲 緣岸 圃 ， 樵 爨 倚灘 舟 。 啅 雀 爭...
14    竇侍 禦 ， 驥 之子 ， 鳳之雛 。 年 未 三十 忠義俱 ， 骨鯁 絕代 無 。 炯 如...
15    百草 競春華 ， 麗春應 最勝 。 少須 好 顏色 ， 多漫枝條 剩 。 紛紛 桃李 枝 ，...
16    何年 顧虎頭 ， 滿壁畫 瀛州 。 赤 日 石林 氣 ， 青天 江海 流 。 錫飛常 近鶴 ...
17    野寺 隱喬木 ， 山僧 高下 居 。 石門 日色異 ， 絳 氣橫 扶疏 。 窈窕 入

In [29]:
# fit_transform vs transform
# fit       找出分詞趨勢 創立欄位
# transform 依照分詞趨勢 將發現的詞填入欄位
# test的資料不用再次fit  
from sklearn.feature_extraction.text import CountVectorizer


vec = CountVectorizer()

# fit_transform, 列出找到的詞彙
x_train_vec = vec.fit_transform(x_train)
vec.vocabulary_

# transform
x_test_vec = vec.transform(x_test)

In [33]:
# 單純貝氏 - MultinomialNB
from sklearn.naive_bayes import MultinomialNB
import numpy as np


# test 轉 array
y_train = np.array(y_train)
y_test = np.array(y_test)

# clf, 平滑化係數 (有資料數值為0的情形)
clf = MultinomialNB(alpha=0.2)
clf.fit(x_train_vec, y_train)

In [34]:
# 正確率
from sklearn.metrics import accuracy_score


pre = clf.predict(x_test_vec)

accuracy_score(y_test, pre)

0.8666666666666667

In [39]:
# 混淆矩陣
from sklearn.metrics import confusion_matrix


mat = confusion_matrix(y_test, pre)
pd.DataFrame(mat, index=[f"{p}" for p in poets], columns=[f"{p}" for p in poets])

Unnamed: 0,杜甫,李白,白居易
杜甫,10,0,0
李白,1,8,1
白居易,1,1,8
