本次实验以AAAI 2014会议论文数据为基础，要求实现或调用无监督聚类算法，了解聚类方法。

### 任务介绍
每年国际上召开的大大小小学术会议不计其数，发表了非常多的论文。在计算机领域的一些大型学术会议上，一次就可以发表涉及各个方向的几百篇论文。按论文的主题、内容进行聚类，有助于人们高效地查找和获得所需要的论文。本案例数据来源于AAAI 2014上发表的约400篇文章，由[UCI](https://archive.ics.uci.edu/ml/datasets/AAAI+2014+Accepted+Papers!)公开提供，提供包括标题、作者、关键词、摘要在内的信息，希望大家能根据这些信息，合理地构造特征向量来表示这些论文，并设计实现或调用聚类算法对论文进行聚类。最后也可以对聚类结果进行观察，看每一类都是什么样的论文，是否有一些主题。

基本要求：
1. 将文本转化为向量，实现或调用无监督聚类算法，对论文聚类，例如10类（可使用已有工具包例如sklearn）；
2. 观察每一类中的论文，调整算法使结果较为合理；
3. 无监督聚类没有标签，效果较难评价，因此没有硬性指标，跑通即可，主要让大家了解和感受聚类算法，比较简单。

扩展要求：
1. 对文本向量进行降维，并将聚类结果可视化成散点图。

注：group和topic也不能完全算是标签，因为
1. 有些文章作者投稿时可能会选择某个group/topic但实际和另外group/topic也相关甚至更相关；
2. 一篇文章可能有多个group和topic，作为标签会出现有的文章同属多个类别，这里暂不考虑这样的聚类；
3. group和topic的取值很多，但聚类常常希望指定聚合成出例如5/10/20类；
4. 感兴趣但同学可以思考利用group和topic信息来量化评价无监督聚类结果，不作要求。

提示：
1. 高维向量的降维旨在去除一些高相关性的特征维度，保留最有用的信息，用更低维的向量表示高维数据，常用的方法有PCA和t-SNE等；
2. 降维与聚类是两件不同的事情，聚类实际上在降维前的高维向量和降维后的低维向量上都可以进行，结果也可能截然不同；
3. 高维向量做聚类，降维可视化后若有同一类的点不在一起，是正常的。在高维空间中它们可能是在一起的，降维后损失了一些信息。

### 实验过程

#### 一、导入相关包

In [15]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.manifold import TSNE # 降维
from sklearn.decomposition import PCA #

import re
import nltk # 自然语言处理 英文处理
from scipy import sparse
import seaborn as sns
from collections import Counter

RANDOM_SEED = 20250720

nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')



[nltk_data] Downloading package punkt to
[nltk_data]     /Users/limingyuebj/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/limingyuebj/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/limingyuebj/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

#### 二、读取数据

In [16]:
data = pd.read_csv('data/data.csv', sep=',')
data.describe()

Unnamed: 0,title,authors,groups,keywords,topics,abstract
count,398,398,396,398,394,398
unique,398,391,125,398,350,398
top,Kernelized Bayesian Transfer Learning,"Deguang Kong, Chris Ding and Qihe Pan",Novel Machine Learning Algorithms (NMLA),cross-domain learning\ndomain adaptation\nkern...,GTEP: Social Choice / Voting,Transfer learning considers related but distin...
freq,1,3,50,1,7,1


#### 三、数据处理

In [19]:
# 数据索引为顺序下标
# 将除authors之外的所有特征进行向量化
vectorizer = TfidfVectorizer()
print(data['title'])
data['title'] = vectorizer.fit_transform(data['title'])
# data['content'] = vectorizer.fit_transform(data['content'])
# data['abstract'] = vectorizer.fit_transform(data['abstract'])
# data['keywords'] = vectorizer.fit_transform(data['keywords'])
# data['topics'] = vectorizer.fit_transform(data['topics'])
# data['authors'] = vectorizer.fit_transform(data['authors'])
# data['year'] = vectorizer.fit_transform(data['year'])
# data['venue'] = vectorizer.fit_transform(data['venue'])







# 使用TF-IDF向量化






0                  Kernelized Bayesian Transfer Learning
1      "Source Free" Transfer Learning for Text Class...
2      A Generalization of Probabilistic Serial to Ra...
3             Lifetime Lexical Variation in Social Media
4      Hybrid Singular Value Thresholding for Tensor ...
                             ...                        
393    Mapping Users Across Networks by Manifold Alig...
394    Compact Aspect Embedding For Diversified Query...
395         Contraction and Revision over DL-Lite TBoxes
396                   Zero Pronoun Resolution as Ranking
397                    Supervised Transfer Sparse Coding
Name: title, Length: 398, dtype: object


TypeError: sparse array length is ambiguous; use getnnz() or shape[0]

#### 四、模型构建

#### 五、降维展示

### 实验总结