# Practice 1

In [1]:
import pandas as pd
import jieba
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# 讀取CSV文件
data = pd.read_csv('simplified_dataset/simplified_raw_data.csv')  # 替換成你的CSV文件路徑
data


Unnamed: 0,cat,Category_Index,label,review
0,书籍,1,1,﻿做父母一定要有刘墉这样的心态，不断地学习，不断地进步，不断地给自己补充新鲜血液，让自己保持...
1,书籍,2,1,作者真有英国人严谨的风格，提出观点、进行论述论证，尽管本人对物理学了解不深，但是仍然能感受到...
2,书籍,3,1,作者长篇大论借用详细报告数据处理工作和计算结果支持其新观点。为什么荷兰曾经县有欧洲最高的生产...
3,书籍,4,1,作者在战几时之前用了＂拥抱＂令人叫绝．日本如果没有战败，就有会有美军的占领，没胡官僚主义的延...
4,书籍,5,1,作者在少年时即喜阅读，能看出他精读了无数经典，因而他有一个庞大的内心世界。他的作品最难能可贵...
...,...,...,...,...
62769,酒店,9996,0,我们去盐城的时候那里的最低气温只有4度，晚上冷得要死，居然还不开空调，投诉到酒店客房部，得到...
62770,酒店,9997,0,房间很小，整体设施老化，和四星的差距很大。毛巾太破旧了。早餐很简陋。房间隔音很差，隔两间房间...
62771,酒店,9998,0,我感觉不行。。。性价比很差。不知道是银川都这样还是怎么的！
62772,酒店,9999,0,房间时间长，进去有点异味！服务员是不是不够用啊！我在一楼找了半个小时以上才找到自己房间，想找...


In [2]:
# 分詞函數
def segment_text(text):
    # 檢查是否是字串，如果不是，則返回一個空字串
    if isinstance(text, str):
        return " ".join(jieba.cut(text))
    else:
        return ""


# 對文字描述進行分詞
data['分詞描述'] = data['review'].apply(segment_text)
data


Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/32/17fwcjcd1kv9vkdd_3w2k4vw0000gn/T/jieba.cache
Loading model cost 0.317 seconds.
Prefix dict has been built successfully.


Unnamed: 0,cat,Category_Index,label,review,分詞描述
0,书籍,1,1,﻿做父母一定要有刘墉这样的心态，不断地学习，不断地进步，不断地给自己补充新鲜血液，让自己保持...,﻿ 做 父母 一定 要 有 刘墉 这样 的 心态 ， 不断 地 学习 ， 不断 地 进步 ，...
1,书籍,2,1,作者真有英国人严谨的风格，提出观点、进行论述论证，尽管本人对物理学了解不深，但是仍然能感受到...,作者 真有 英国人 严谨 的 风格 ， 提出 观点 、 进行 论述 论证 ， 尽管 本人 对...
2,书籍,3,1,作者长篇大论借用详细报告数据处理工作和计算结果支持其新观点。为什么荷兰曾经县有欧洲最高的生产...,作者 长篇大论 借用 详细 报告 数据处理 工作 和 计算结果 支持 其新 观点 。 为什么...
3,书籍,4,1,作者在战几时之前用了＂拥抱＂令人叫绝．日本如果没有战败，就有会有美军的占领，没胡官僚主义的延...,作者 在 战 几时 之前 用 了 ＂ 拥抱 ＂ 令人 叫绝 ． 日本 如果 没有 战败 ， ...
4,书籍,5,1,作者在少年时即喜阅读，能看出他精读了无数经典，因而他有一个庞大的内心世界。他的作品最难能可贵...,作者 在 少年 时即 喜 阅读 ， 能 看出 他 精读 了 无数 经典 ， 因而 他 有 一...
...,...,...,...,...,...
62769,酒店,9996,0,我们去盐城的时候那里的最低气温只有4度，晚上冷得要死，居然还不开空调，投诉到酒店客房部，得到...,我们 去 盐城 的 时候 那里 的 最低气温 只有 4 度 ， 晚上 冷得 要死 ， 居然 ...
62770,酒店,9997,0,房间很小，整体设施老化，和四星的差距很大。毛巾太破旧了。早餐很简陋。房间隔音很差，隔两间房间...,房间 很小 ， 整体 设施 老化 ， 和 四星 的 差距 很大 。 毛巾 太 破旧 了 。 ...
62771,酒店,9998,0,我感觉不行。。。性价比很差。不知道是银川都这样还是怎么的！,我 感觉 不行 。 。 。 性价比 很差 。 不 知道 是 银川 都 这样 还是 怎么 的 ！
62772,酒店,9999,0,房间时间长，进去有点异味！服务员是不是不够用啊！我在一楼找了半个小时以上才找到自己房间，想找...,房间 时间 长 ， 进去 有点 异味 ！ 服务员 是不是 不够 用 啊 ！ 我 在 一楼 找...


In [3]:
# 劃分數據集為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(data['分詞描述'], data['cat'], test_size=0.2, random_state=42)

# 特徵提取 - 使用詞袋模型
vectorizer = CountVectorizer()
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

print(X_train_vectorized[0])  # (i,j) f. -> 第i筆資料出現第j個詞的頻率次數f


  (0, 48437)	1
  (0, 50210)	1
  (0, 5951)	1
  (0, 14774)	1
  (0, 33575)	1
  (0, 26891)	1
  (0, 4061)	1
  (0, 55496)	1
  (0, 38364)	1
  (0, 50264)	1


In [4]:
# 訓練貝氏分類器
classifier = MultinomialNB()
classifier.fit(X_train_vectorized, y_train)

# 預測並評估模型
y_pred = classifier.predict(X_test_vectorized)
accuracy = accuracy_score(y_test, y_pred)
print(f"準確率：{accuracy:.2f}")
print(classification_report(y_test, y_pred))

準確率：0.87
              precision    recall  f1-score   support

          书籍       0.93      0.93      0.93       759
          平板       0.77      0.79      0.78      1998
          手机       0.95      0.73      0.83       482
          水果       0.89      0.88      0.88      1936
         洗发水       0.80      0.85      0.82      2008
         热水器       1.00      0.05      0.10       117
          蒙牛       0.99      0.92      0.96       409
          衣服       0.86      0.88      0.87      1999
         计算机       0.93      0.87      0.90       813
          酒店       0.95      0.99      0.97      2034

    accuracy                           0.87     12555
   macro avg       0.91      0.79      0.80     12555
weighted avg       0.87      0.87      0.87     12555



# Practice 2

In [12]:
import pandas as pd
import jieba
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# 讀取CSV文件
data = pd.read_csv('simplified_dataset/simplified_raw_data.csv')  # 替換成你的CSV文件路徑

# 將每個字都當作特徵，不進行分詞
data['字符描述'] = data['review'].apply(lambda text: " ".join(list(str(text))) if isinstance(text, str) else "")
#print(data)

# 劃分數據集為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(data['字符描述'], data['cat'], test_size=0.2, random_state=42)

# 特徵提取 - 使用詞袋模型 (字符级别)
vectorizer = CountVectorizer(analyzer='char')
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

# 訓練貝氏分類器
classifier = MultinomialNB()
classifier.fit(X_train_vectorized, y_train)

# 預測並評估模型
y_pred = classifier.predict(X_test_vectorized)
accuracy = accuracy_score(y_test, y_pred)
print(f"準確率：{accuracy:.2f}")
print(classification_report(y_test, y_pred))


準確率：0.85
              precision    recall  f1-score   support

          书籍       0.92      0.92      0.92       759
          平板       0.76      0.70      0.73      1998
          手机       0.78      0.77      0.78       482
          水果       0.90      0.87      0.88      1936
         洗发水       0.78      0.85      0.81      2008
         热水器       0.93      0.35      0.51       117
          蒙牛       0.94      0.99      0.97       409
          衣服       0.84      0.88      0.86      1999
         计算机       0.81      0.84      0.82       813
          酒店       0.97      0.96      0.97      2034

    accuracy                           0.85     12555
   macro avg       0.86      0.81      0.82     12555
weighted avg       0.85      0.85      0.85     12555



# 單詞

In [16]:
import pandas as pd
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import numpy as np
import warnings
warnings.filterwarnings('ignore')


# 讀取CSV文件
def load_data(file_path):
    data = pd.read_csv(file_path)
    return data


# 初始化不同的分類器
def initialize_classifiers():
    classifiers = {
        "MultinomialNB": MultinomialNB(),
        "DecisionTree": DecisionTreeClassifier(),
        "RandomForest": RandomForestClassifier(),
        "SVM": SVC(),
        "MLP": MLPClassifier()
    }
    return classifiers

# 訓練、評估
def train_and_evaluate_classifier(classifier, X_train, X_test, y_train, y_test):
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    classification_rep = classification_report(y_test, y_pred)
    conf_matrix = confusion_matrix(y_test, y_pred)  #計算混淆矩陣
    return {'accuracy': accuracy, 'classification_report': classification_rep, 'confusion_matrix': conf_matrix}



# 主程式
if __name__ == "__main__":
    file_path = 'simplified_dataset/simplified_raw_data.csv'
    data = load_data(file_path)
    
    # 將NaN值替換為空字串
    data['review'] = data['review'].fillna('')
    
    X = data['review']
    y = data['cat']
    
    classifiers = initialize_classifiers()
    
    results_dict = {}  #用於儲存结果
    
    for clf_name, classifier in classifiers.items():
        print(f"Classifier: {clf_name}, Feature Extraction: Character Level")
        
        
        # 將每個字都當作特徵，不進行分詞
        data['字符描述'] = data['review'].apply(lambda text: " ".join(list(str(text))) if isinstance(text, str) else "")
        #print(data)

        # 劃分數據集為訓練集和測試集
        X_train, X_test, y_train, y_test = train_test_split(data['字符描述'], data['cat'], test_size=0.2, random_state=42)

        # 特徵提取 - 使用詞袋模型 (字符级别)
        vectorizer = CountVectorizer(analyzer='char')
        X_train_vectorized = vectorizer.fit_transform(X_train)
        X_test_vectorized = vectorizer.transform(X_test)


        
        results = train_and_evaluate_classifier(classifier, X_train_vectorized, X_test_vectorized, y_train, y_test)
        # 儲存结果到字典
        results_dict[(clf_name, method_name)] = results

        print(f"Accuracy: {results['accuracy']:.2f}")
        print(f"Classification Report:\n{results['classification_report']}\n")
        print(f"Confusion Matrix:\n{results['confusion_matrix']}\n")
        
    
    # 統整結果
    print("RESULTS")
    for(clf_name, method_name), results in results_dict.items():
        print(f"Classifier: {clf_name}, Feature Extraction: {method_name},: {results['accuracy']:.2f}")

        
    print("\nClassification Finish")

Classifier: MultinomialNB, Feature Extraction: Character Level
Accuracy: 0.85
Classification Report:
              precision    recall  f1-score   support

          书籍       0.92      0.92      0.92       759
          平板       0.76      0.70      0.73      1998
          手机       0.78      0.77      0.78       482
          水果       0.90      0.87      0.88      1936
         洗发水       0.78      0.85      0.81      2008
         热水器       0.93      0.35      0.51       117
          蒙牛       0.94      0.99      0.97       409
          衣服       0.84      0.88      0.86      1999
         计算机       0.81      0.84      0.82       813
          酒店       0.97      0.96      0.97      2034

    accuracy                           0.85     12555
   macro avg       0.86      0.81      0.82     12555
weighted avg       0.85      0.85      0.85     12555


Confusion Matrix:
[[ 699   26    9    2   12    0    2    1    6    2]
 [  15 1400   50   53  231    0    7  155   78    9]
 [   6   63  37

# 斷詞及TD-IDF

In [15]:
import pandas as pd
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# 讀取CSV文件
def load_data(file_path):
    data = pd.read_csv(file_path)
    return data

# 特徵提取 - 使用CountVectorizer模型 
def count_vectorizer(X_train, X_test):
    vectorizer = CountVectorizer(analyzer='char')
    X_train_vectorized = vectorizer.fit_transform(X_train)
    X_test_vectorized = vectorizer.transform(X_test)
    return X_train_vectorized, X_test_vectorized

# 特徵提取 - TF-IDF模型
def tfidf_vectorizer(X_train, X_test):
    tfidf_vectorizer = TfidfVectorizer(analyzer='word')
    X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
    X_test_tfidf = tfidf_vectorizer.transform(X_test)
    return X_train_tfidf, X_test_tfidf

# 初始化不同的分類器
def initialize_classifiers():
    classifiers = {
        "MultinomialNB": MultinomialNB(),
        "DecisionTree": DecisionTreeClassifier(),
        "RandomForest": RandomForestClassifier(),
        "SVM": SVC(),
        "MLP": MLPClassifier()
    }
    return classifiers

# 訓練、評估
def train_and_evaluate_classifier(classifier, X_train, X_test, y_train, y_test):
    classifier.fit(X_train, y_train)
    y_pred = classifier.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    classification_rep = classification_report(y_test, y_pred)
    conf_matrix = confusion_matrix(y_test, y_pred)  #計算混淆矩陣
    return {'accuracy': accuracy, 'classification_report': classification_rep, 'confusion_matrix': conf_matrix}

# 主程式
if __name__ == "__main__":
    file_path = 'simplified_dataset/simplified_raw_data.csv'
    data = load_data(file_path)
    
    # 將NaN值替換為空字串
    data['review'] = data['review'].fillna('')
    
    X = data['review']
    y = data['cat']
    
    classifiers = initialize_classifiers()
    feature_extraction_methods = {
        "CountVectorizer": count_vectorizer,
        "TfidfVectorizer": tfidf_vectorizer,
        
    }
    
    # 初始化结果字典
    results_dict = {}

    for clf_name, classifier in classifiers.items():
        for method_name, feature_extractor in feature_extraction_methods.items():
            print(f"Classifier: {clf_name}, Feature Extraction: {method_name}")
            X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
            X_train_vectorized, X_test_vectorized = feature_extractor(X_train, X_test)
            results = train_and_evaluate_classifier(classifier, X_train_vectorized, X_test_vectorized, y_train, y_test)

            # 儲存结果到字典
            results_dict[(clf_name, method_name)] = results

            print(f"Accuracy: {results['accuracy']:.2f}")
            print(f"Classification Report:\n{results['classification_report']}\n")
            print(f"Confusion Matrix:\n{results['confusion_matrix']}\n")

    
    
    # 統整結果
    print("RESULTS")
    for(clf_name, method_name), results in results_dict.items():
        print(f"Classifier: {clf_name}, Feature Extraction: {method_name},: {results['accuracy']:.2f}")

        
    print("\nClassification Finish")


Classifier: MultinomialNB, Feature Extraction: CountVectorizer
Accuracy: 0.85
Classification Report:
              precision    recall  f1-score   support

          书籍       0.91      0.92      0.92       759
          平板       0.76      0.70      0.73      1998
          手机       0.80      0.77      0.78       482
          水果       0.90      0.87      0.88      1936
         洗发水       0.78      0.85      0.81      2008
         热水器       0.89      0.36      0.51       117
          蒙牛       0.94      0.99      0.97       409
          衣服       0.84      0.88      0.86      1999
         计算机       0.82      0.84      0.83       813
          酒店       0.97      0.97      0.97      2034

    accuracy                           0.85     12555
   macro avg       0.86      0.81      0.83     12555
weighted avg       0.85      0.85      0.85     12555


Confusion Matrix:
[[ 699   26    9    2   11    0    2    1    6    3]
 [  15 1394   48   53  240    0    7  154   79    8]
 [   6   64  37

Accuracy: 0.86
Classification Report:
              precision    recall  f1-score   support

          书籍       0.96      0.88      0.92       759
          平板       0.71      0.82      0.76      1998
          手机       0.94      0.65      0.77       482
          水果       0.94      0.85      0.89      1936
         洗发水       0.79      0.83      0.81      2008
         热水器       0.97      0.32      0.48       117
          蒙牛       1.00      0.99      0.99       409
          衣服       0.85      0.90      0.87      1999
         计算机       0.92      0.83      0.87       813
          酒店       0.92      0.95      0.94      2034

    accuracy                           0.86     12555
   macro avg       0.90      0.80      0.83     12555
weighted avg       0.87      0.86      0.86     12555


Confusion Matrix:
[[ 668   25    0    1   14    0    0   14    4   33]
 [   4 1629    7   24  165    0    1  119   28   21]
 [   4   97  313    3    2    0    0   13   13   37]
 [   2   82    0 1636  13