In [None]:
import pandas as pd

In [11]:
data_dir = 'https://mirror.coggle.club/dataset/coggle-competition/'
train_data = pd.read_csv(data_dir + 'intent-classify/train.csv', sep='\t', header=None)
test_data = pd.read_csv(data_dir + 'intent-classify/test.csv', sep='\t', header=None)
cn_stopwords = pd.read_csv('https://mirror.coggle.club/stopwords/baidu_stopwords.txt', header=None)[0].values


# 任务4：词向量训练与使用

词向量是一种将单词转化为向量表示的技术，在自然语言处理中被广泛应用。通过将单词映射到一个低维向量空间中，词向量可以在一定程度上捕捉到单词的语义信息和关联关系，进而提高自然语言处理任务的性能。以下是使用词向量进行文本分类的一个简单示例：

- 步骤1：使用结巴对文本进行分词，结巴是一个基于Python的中文分词工具，并支持自定义字典和停用词。
- 步骤2：使用gensim训练词向量，也可以考虑加载已有的预训练词向量。gensim是一个基于Python的自然语言处理库，可以方便地训练或加载词向量，并进行相似度计算、最近邻查询等操作。
- 步骤3：使用词向量对单词进行编码，然后计算句子向量（可以直接求词向量均值）。将每个单词替换为其对应的词向量后，得到一个由多个向量组成的矩阵。为了简化计算和降低维度，可以对矩阵按行求均值，得到一个代表句子含义的句子向量。
- 步骤4：使用LR、SVM和决策树对句子向量进行训练，验证和预测。LR（逻辑回归）、SVM（支持向量机）和决策树都是常用的机器学习分类算法，可以使用sklearn库中提供的相关函数来实现。
- 步骤5：通过上述步骤，请回答下面问题
    - 词向量的维度会影响到模型精度吗？一般来说，词向量的维度越高，则表示单词语义信息和关联关系的能力越强；但同时也会增加计算复杂度和过拟合风险。
    - 词向量编码后使用树模型和LR，谁的精度高，为什么？这个问题没有确定性答案，可能取决于数据集特征、参数设置、随机因素等。

In [27]:
# !pip install gensim



### doc2vec

doc2vec，是一种用于将文档嵌入到向量空间中的算法。doc2vec是对word2vec的扩展，它可以将整个文档转换为一个向量，而不是仅仅将文档中的单词转换为向量。

doc2vec使用的是分布式记忆（distributed memory）和分布式袋子（distributed bag of words）两种方法之一来生成文档向量。在分布式记忆方法中，doc2vec通过在词向量和文档向量之间添加额外的文档特定权重向量，来将每个文档映射到一个向量。在分布式袋子方法中，doc2vec将整个文档视为一个“袋子”，并将其表示为单词的总体统计信息。

在gensim中使用doc2vec通常包括以下步骤：

1. 准备文本数据，包括分词和预处理。
2. 创建一个doc2vec模型对象，并设置一些参数，例如向量维度和训练次数等。
3. 使用模型对象对文档进行训练，以生成每个文档的向量表示。
4. 对生成的向量进行可视化或用于其他任务，例如分类或聚类。
使用doc2vec可以将文档转换为向量表示，这有助于在文档级别进行语义相似性计算、文档分类和聚类等任务。

In [37]:
from gensim.models import Word2Vec
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

In [38]:
sentences = [['this', 'is', 'the', 'first', 'sentence', 'for', 'word2vec'], 
             ['this', 'is', 'the', 'second', 'sentence'], 
             ['yet', 'another', 'sentence'], 
             ['one', 'more', 'sentence'], 
             ['and', 'the', 'final', 'sentence']]
model = Word2Vec(sentences, min_count=1)

## Prints the word vector for the word 'sentence'
print(model.wv['sentence']) 

[-0.00405157 -0.00423348  0.00235998 -0.00344383 -0.00189501  0.00232245
 -0.00333223  0.00183112  0.00229583 -0.00205365  0.00037681 -0.00244087
  0.00240427 -0.00298053 -0.00269047 -0.00231196  0.0047758   0.0005443
  0.003554   -0.00119127  0.00282145  0.00052725  0.00153015 -0.00364587
 -0.00353337 -0.00256159 -0.00280384 -0.00103318 -0.00239896 -0.00225912
  0.00170294  0.00261734 -0.00041167 -0.00377863  0.0046927  -0.00422551
  0.00103848  0.00270509  0.00318679  0.00183495  0.002868   -0.00467838
 -0.00354228  0.00439599  0.00277557  0.00077657 -0.00303043 -0.00089328
 -0.00070813  0.00174617 -0.00255878 -0.00401057  0.00357092 -0.00410191
  0.00122982  0.00182956 -0.00176973  0.00455286 -0.00067492  0.00324289
 -0.00400212 -0.00444271  0.00477241  0.00026583  0.00272923  0.00431652
  0.00459398  0.00253583  0.00392726 -0.00355168  0.00165042  0.0034133
  0.00436443 -0.00130036 -0.00138304  0.0025451  -0.00275112  0.00421641
 -0.00162318  0.00358855 -0.00115857  0.0032651   0.0



In [39]:
documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(sentences)]
model = Doc2Vec(documents, vector_size=5, window=2, min_count=1, workers=4)

## Print the inferred vector for the given sentence
print(model.infer_vector(['this', 'is', 'a', 'test'])) 

[-0.06074138  0.03846406  0.05704906  0.08301251 -0.03915465]


In [66]:
# jieba切词并去除停用词
content = train_data[0].tolist()

# 读取中文停用词
cn_stopwords = ' '.join(pd.read_csv('https://mirror.coggle.club/stopwords/baidu_stopwords.txt', header=None)[0])
corpus = []
for cont in content:
    words = []
    word = jieba.lcut(cont)
    for x in word:
        if x not in cn_stopwords:
            words.append(x)
    corpus.append(words)

print(corpus[:10])


docs = [TaggedDocument(doc, [label]) for doc, label in zip(corpus, train_data[1])]
print(len(docs))
print(docs[:10])


# 创建一个Doc2Vec模型实例
model = Doc2Vec(documents=docs, vector_size=100, window=5, min_count=2, epochs=100)

# 训练模型
model.train(docs, total_examples=len(docs), epochs=model.epochs)

# 获取文档向量
train_doc2vec = []
for doc in docs:
    # 注意：这里使用的是infer_vector()方法，因为它可以用于未知文档的向量表示
    train_doc2vec.append(list(model.infer_vector(doc.words)))
    
print(len(train_doc2vec))



[['双鸭山', '淮阴', '汽车票', '13', '号'], ['回家'], ['随便', '播放', '一首', '专辑', '阁楼', '佛里', '歌'], ['墓', '王之王'], ['想', '挑战', '两把', 's686', '突变', '团', '竞', '游戏', '视频'], ['想', '和平', '精英', '战神', '必备', '技巧', '游戏', '视频'], ['2019', '古装', '爱情', '电视剧', '小女', '花不弃', '花絮', '播放'], ['找', '一个', '2004', '推理', '剧给', '一会'], ['自驾游', '深圳', '都', '地方'], ['转播', '女子双打', '乒乓球', '比赛', '现场']]
12100
[TaggedDocument(words=['双鸭山', '淮阴', '汽车票', '13', '号'], tags=['Travel-Query']), TaggedDocument(words=['回家'], tags=['Travel-Query']), TaggedDocument(words=['随便', '播放', '一首', '专辑', '阁楼', '佛里', '歌'], tags=['Music-Play']), TaggedDocument(words=['墓', '王之王'], tags=['FilmTele-Play']), TaggedDocument(words=['想', '挑战', '两把', 's686', '突变', '团', '竞', '游戏', '视频'], tags=['Video-Play']), TaggedDocument(words=['想', '和平', '精英', '战神', '必备', '技巧', '游戏', '视频'], tags=['Video-Play']), TaggedDocument(words=['2019', '古装', '爱情', '电视剧', '小女', '花不弃', '花絮', '播放'], tags=['Video-Play']), TaggedDocument(words=['找', '一个', '2004', '推理', '剧给', '一会'], tags=['FilmT



12100


In [67]:
cv_pred = cross_val_predict(
    KNeighborsClassifier(),
    train_doc2vec,
    train_data[1]
)

print('------------- 交叉验证 ------------- ')
print('KNN')
print(classification_report(train_data[1], cv_pred))

cv_pred = cross_val_predict(
    LogisticRegression(),
    train_doc2vec,
    train_data[1]
)
print('LR')
print(classification_report(train_data[1], cv_pred))

cv_pred = cross_val_predict(
    LinearSVC(),
    train_doc2vec,
    train_data[1]
)

print("SVM")
print(classification_report(train_data[1], cv_pred))


from sklearn.tree import DecisionTreeClassifier
cv_pred = cross_val_predict(
    DecisionTreeClassifier(),
    train_doc2vec,
    train_data[1]
)

print("Tree")
print(classification_report(train_data[1], cv_pred))

------------- 交叉验证 ------------- 
KNN
                       precision    recall  f1-score   support

         Alarm-Update       0.92      0.73      0.82      1264
           Audio-Play       0.42      0.54      0.47       226
       Calendar-Query       0.88      0.92      0.90      1214
        FilmTele-Play       0.57      0.86      0.69      1355
HomeAppliance-Control       0.81      0.94      0.87      1215
           Music-Play       0.71      0.84      0.77      1304
                Other       0.63      0.40      0.49       214
         Radio-Listen       0.85      0.70      0.77      1285
       TVProgram-Play       0.71      0.13      0.22       240
         Travel-Query       0.90      0.82      0.86      1220
           Video-Play       0.87      0.70      0.77      1334
        Weather-Query       0.94      0.87      0.90      1229

             accuracy                           0.79     12100
            macro avg       0.77      0.70      0.71     12100
         weight

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

LR
                       precision    recall  f1-score   support

         Alarm-Update       0.91      0.88      0.89      1264
           Audio-Play       0.69      0.40      0.51       226
       Calendar-Query       0.88      0.93      0.90      1214
        FilmTele-Play       0.74      0.78      0.76      1355
HomeAppliance-Control       0.86      0.88      0.87      1215
           Music-Play       0.80      0.85      0.83      1304
                Other       0.72      0.49      0.58       214
         Radio-Listen       0.79      0.79      0.79      1285
       TVProgram-Play       0.68      0.45      0.54       240
         Travel-Query       0.85      0.86      0.86      1220
           Video-Play       0.79      0.79      0.79      1334
        Weather-Query       0.89      0.90      0.90      1229

             accuracy                           0.83     12100
            macro avg       0.80      0.75      0.77     12100
         weighted avg       0.83      0.83      0.



SVM
                       precision    recall  f1-score   support

         Alarm-Update       0.90      0.89      0.89      1264
           Audio-Play       0.75      0.37      0.49       226
       Calendar-Query       0.88      0.94      0.91      1214
        FilmTele-Play       0.75      0.77      0.76      1355
HomeAppliance-Control       0.87      0.90      0.88      1215
           Music-Play       0.80      0.85      0.82      1304
                Other       0.75      0.47      0.58       214
         Radio-Listen       0.80      0.78      0.79      1285
       TVProgram-Play       0.66      0.40      0.50       240
         Travel-Query       0.85      0.87      0.86      1220
           Video-Play       0.78      0.79      0.79      1334
        Weather-Query       0.89      0.91      0.90      1229

             accuracy                           0.83     12100
            macro avg       0.81      0.75      0.77     12100
         weighted avg       0.83      0.83      0

- 使用词向量的交叉验证效果 没有tfidf效果好，可能是和文本长度有关
- 树模型效果较差