In [1]:
import os
import time
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import svm
from sklearn.metrics import classification_report


In [2]:
data_dir = 'C:/Users/123/Desktop/python/ml/txt_sentoken'#替换为实际未见路径
classes = ['pos', 'neg']
train_data = []
train_labels = []
test_data = []
test_labels = []

In [3]:
for curr_class in classes:
    dirname = os.path.join(data_dir, curr_class)
    for fname in os.listdir(dirname):
        with open(os.path.join(dirname, fname), 'r') as f:
                content = f.read()
                if fname.startswith('cv9'):#十分之一作为验证数据，十分之九作为训练数据
                    test_data.append(content)
                    test_labels.append(curr_class)
                else:
                    train_data.append(content)
                    train_labels.append(curr_class)
                    
        



让我们一步一步地分析这个代码段：

1. `for fname in os.listdir(dirname):`

这个循环是用于遍历目录 `dirname` 下的所有文件。`os.listdir(dirname)` 返回一个列表，其中包含目录下所有文件的文件名。

例如，如果目录 `dirname` 下有以下文件：

* `file1.txt`
* `file2.txt`
* `file3.txt`

那么 `os.listdir(dirname)` 会返回一个列表 `['file1.txt', 'file2.txt', 'file3.txt']`。

2. `with open(os.path.join(dirname, fname), 'r') as f:`

这个语句是用于打开文件并读取其内容。

* `os.path.join(dirname, fname)` 是用于构造文件路径的。它将目录路径 `dirname` 和文件名 `fname` 拼接起来，形成一个完整的文件路径。

例如，如果 `dirname` 是 `/path/to/directory`，而 `fname` 是 `file1.txt`，那么 `os.path.join(dirname, fname)` 会返回 `/path/to/directory/file1.txt`。

* `open()` 函数是用于打开文件的。它接受两个参数：文件路径和打开模式。打开模式 `r` 表示以读取模式打开文件。

例如，如果文件路径是 `/path/to/directory/file1.txt`，而打开模式是 `r`，那么 `open()` 函数会打开文件 `/path/to/directory/file1.txt` 并返回一个文件对象。

* `as f` 是用于将打开的文件对象赋值给变量 `f` 的。

例如，如果 `open()` 函数返回一个文件对象 `file_object`，那么 `as f` 会将 `file_object` 赋值给变量 `f`。

所以，整个语句 `with open(os.path.join(dirname, fname), 'r') as f:` 可以理解为：

* 打开文件 `/path/to/directory/file1.txt` 并返回一个文件对象。
* 将文件对象赋值给变量 `f`。

3. 读取文件内容

现在，我们可以使用变量 `f` 来读取文件内容。例如，我们可以使用 `f.read()` 方法来读取文件内容。

例如，如果文件内容是 `Hello World!`，那么 `f.read()` 会返回字符串 `Hello World!`。

所以，整个代码段可以理解为：

* 遍历目录下所有文件。
* 对于每个文件，打开文件并读取其内容。
* 将文件内容保存在变量 `f` 中。

例如，如果目录 `dirname` 下有以下文件：

* `file1.txt`，内容是 `Hello World!`
* `file2.txt`，内容是 ` Foo Bar!`
* `file3.txt`，内容是 `Baz Qux!`

那么这个代码段会输出：

* `Hello World!`
* ` Foo Bar!`
* `Baz Qux!`

In [4]:
vectorizer = TfidfVectorizer(min_df=5,
                                 max_df = 0.8,
                                 sublinear_tf=True,
                                 use_idf=True)
train_vectors = vectorizer.fit_transform(train_data)
test_vectors = vectorizer.transform(test_data)

In [5]:
from sklearn.metrics import accuracy_score# Perform classification with SVM, kernel=linear
classifier_linear = svm.SVC(kernel='linear')
t0 = time.time()
classifier_linear.fit(train_vectors, train_labels)
t1 = time.time()
prediction_linear = classifier_linear.predict(test_vectors)
t2 = time.time()
time_linear_train = t1-t0
time_linear_predict = t2-t1
accuracy = accuracy_score(test_labels, prediction_linear)
print(f"模型准确率: {accuracy}")


模型准确率: 0.915


In [9]:
classifier_rbf = svm.SVC()
t0 = time.time()
classifier_rbf.fit(train_vectors, train_labels)
t1 = time.time()
prediction_rbf = classifier_rbf.predict(test_vectors)
t2 = time.time()
time_rbf_train = t1-t0
time_rbf_predict = t2-t1
accuracy = accuracy_score(test_labels, prediction_rbf)
print(f"模型准确率: {accuracy}")

模型准确率: 0.89


In [7]:

print("Results for SVC(kernel=rbf)")
print("Training time: %fs; Prediction time: %fs" % (time_rbf_train, time_rbf_predict))
print(classification_report(test_labels, prediction_rbf))
print("Results for SVC(kernel=linear)")
print("Training time: %fs; Prediction time: %fs" % (time_linear_train, time_linear_predict))
print(classification_report(test_labels, prediction_linear))



Results for SVC(kernel=rbf)
Training time: 6.489891s; Prediction time: 0.777534s
              precision    recall  f1-score   support

         neg       0.88      0.90      0.89       100
         pos       0.90      0.88      0.89       100

    accuracy                           0.89       200
   macro avg       0.89      0.89      0.89       200
weighted avg       0.89      0.89      0.89       200

Results for SVC(kernel=linear)
Training time: 6.161003s; Prediction time: 0.575778s
              precision    recall  f1-score   support

         neg       0.91      0.92      0.92       100
         pos       0.92      0.91      0.91       100

    accuracy                           0.92       200
   macro avg       0.92      0.92      0.91       200
weighted avg       0.92      0.92      0.91       200

