# what's new

In [None]:
'''
    ① pd.dataframe的某一列series可以转换成list，用tolist()函数
    ② 转化成特征矩阵的文本做聚类时，聚类的具体信息在clustering_obj.cluster_centers_.argsort()[:, ::-1]里
    三 book_data[book_data['Cluster'] == cluster_num]['title'].tolist()
    ④ [feature_names[index] for index in ordered_centroids[cluster_num, :topn_features]]
'''
def get_cluster_data(clustering_obj, book_data,
                     feature_names, num_clusters,
                     topn_features=10):
    cluster_details = {}
    # 获取cluster的center
    ordered_centroids = clustering_obj.cluster_centers_.argsort()[:, ::-1]
    # 获取每个cluster的关键特征
    # 获取每个cluster的书
    for cluster_num in range(num_clusters):
        cluster_details[cluster_num] = {}
        cluster_details[cluster_num]['cluster_num'] = cluster_num
        
        key_features = [feature_names[index]
                        for index
                        in ordered_centroids[cluster_num, :topn_features]]
        cluster_details[cluster_num]['key_features'] = key_features

        books = book_data[book_data['Cluster'] == cluster_num]['title'].tolist()
        cluster_details[cluster_num]['books'] = books

    return cluster_details

### pd.csv读取数据，tolist()获取title,content

In [2]:
import pandas as pd
import numpy as np

In [12]:
'''
    用pd读取的文件，book_data类型就是dataframe格式
'''
book_data = pd.read_csv("./data/data.csv")
book_data.head()

Unnamed: 0,title,tag,info,comments,content
0,﻿解忧杂货店,豆瓣图书标签: 小说,[日] 东野圭吾 / 李盈春 / 南海出版公司 / 2014-5 / 39.50元,(225675人评价),现代人内心流失的东西，这家杂货店能帮你找回——\r\n僻静的街道旁有一家杂货店，只要写下烦恼...
1,巨人的陨落,豆瓣图书标签: 小说,[英] 肯·福莱特 / 于大卫 / 江苏凤凰文艺出版社 / 2016-5-1 / 129.80元,(22536人评价),在第一次世界大战的硝烟中，每一个迈向死亡的生命都在热烈地生长——威尔士的矿工少年、刚失恋的美...
2,我的前半生,豆瓣图书标签: 小说,亦舒 / 新世界出版社 / 2007-8 / 22.00元,(20641人评价),一个三十几岁的美丽女人子君，在家做全职家庭主妇。却被一个平凡女人夺走丈夫，一段婚姻的失败，让...
3,百年孤独,豆瓣图书标签: 小说,[哥伦比亚] 加西亚·马尔克斯 / 范晔 / 南海出版公司 / 2011-6 / 39.50元,(111883人评价),《百年孤独》是魔幻现实主义文学的代表作，描写了布恩迪亚家族七代人的传奇故事，以及加勒比海沿岸...
4,追风筝的人,豆瓣图书标签: 小说,[美] 卡勒德·胡赛尼 / 李继宏 / 上海人民出版社 / 2006-5 / 29.00元,(278905人评价),12岁的阿富汗富家少爷阿米尔与仆人哈桑情同手足。然而，在一场风筝比赛后，发生了一件悲惨不堪的...


In [13]:
'''
    dataframe格式的数据的某一列series可以转化成list，tolist()
'''
book_titles = book_data["title"].tolist()
book_content = book_data["content"].tolist()
print(len(book_titles))
print("书名:", book_titles[0])
print("内容:", book_content[0])

2822
书名: ﻿解忧杂货店
内容: 现代人内心流失的东西，这家杂货店能帮你找回——
僻静的街道旁有一家杂货店，只要写下烦恼投进卷帘门的投信口，第二天就会在店后的牛奶箱里得到回答。
因男友身患绝...


### content去换行符，分词

In [20]:
import jieba

def normalize_corpus(corpus):
    normalized_corpus = []
    for text in corpus:
        text =" ".join(jieba.lcut(text.strip().replace("\r\n", "")))
        normalized_corpus.append(text)
    return normalized_corpus

norm_book_content = normalize_corpus(book_content)

In [21]:
norm_book_content[0]

'现代人 内心 流失 的 东西 ， 这家 杂货店 能 帮 你 找回 — — 僻静 的 街道 旁有 一家 杂货店 ， 只要 写下 烦恼 投进 卷帘门 的 投 信口 ， 第二天 就 会 在 店 后 的 牛奶箱 里 得到 回答 。 因 男友 身患 绝 ...'

### 词频或tfidf提取文本特征

In [24]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

def build_feature_matrix(documents, feature_type='frequency', ngram_range=(1,1), min_df=0.0, max_df=1.0):
    feature_type = feature_type.lower().strip()
    
    if feature_type == "bianary":
        vectorizer = CountVectorizer(binary=True, max_df=max_df, ngram_range=ngram_range)
        
    elif feature_type == "frequency":
        vectorizer = CountVectorizer(binary=False, min_df=min_df, max_df=max_df, ngram_range=ngram_range)
    
    elif feature_type == "tfidf":
        vectorizer = TfidfVectorizer()
    else:
        raise Exception("Wrong feature type entered. Possible values: 'binary', 'frequency', 'tfidf'")
    
    feature_matrix = vectorizer.fit_transform(documents).astype(float)
    
    return vectorizer, feature_matrix

### content分词后的结果，用tfidf，控制最小/最大词频比例，使用一元/二元语言模型获取特征矩阵

In [25]:
# 提取tfidf特征
vectorizer, feature_matrix = build_feature_matrix(norm_book_content, feature_type="tfidf",
                                                 min_df=0.2, max_df=0.9, ngram_range=(1,2))
# 查看特征数
print(feature_matrix.shape)

(2822, 16284)


In [88]:
# 获取前十个特征名字
feature_names = vectorizer.get_feature_names()
print(len(feature_names))
print(feature_names[888])

16284
一条


### 定义kmeans模型，训练集已经是矩阵形式，文本数*特征数

In [27]:
from sklearn.cluster import KMeans

def k_means(feature_matrix, num_clusters=10): # 聚10个类，迭代10000次
    km = KMeans(n_clusters=num_clusters,
                max_iter=10000)
    km.fit(feature_matrix)
    clusters = km.labels_
    return km, clusters # 返回聚类模型 和 聚类的lables,即是属于10个类别中的哪一个

In [28]:
num_clusters = 10
km_obj, clusters = k_means(feature_matrix=feature_matrix,
                           num_clusters=num_clusters)
book_data['Cluster'] = clusters # 2822个文本，每个文本对应的10个分类中的哪一个

In [30]:
len(clusters)

2822

In [31]:
# 获取每个cluster的数量
from collections import Counter
c = Counter(clusters)
print(c.items())

dict_items([(0, 914), (2, 325), (3, 267), (9, 241), (6, 207), (5, 185), (8, 193), (1, 114), (4, 217), (7, 159)])


## tessssssssssssssssssst

In [37]:
print("Top terms per cluster:")
order_centroids = km_obj.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
for i in range(10):
    print("Cluster %d:" % i, end='')
    for ind in order_centroids[i, :15]:
        print(' %s' % terms[ind], end='')
    print()

Top terms per cluster:
Cluster 0: 本书 一本 the 不是 出版 读者 可以 作品 日本 如何 美国 世界 收录 自己 成为
Cluster 1: 设计 用户 体验 交互 产品 本书 web 心理学 系统 简单 应用 设计师 进行 有时 梅琼译
Cluster 2: 一个 我们 没有 自己 女人 就是 为什么 时代 不同 美国 一样 哈利 陌生 生命 美丽
Cluster 3: 历史 一部 小说 金庸 世界 研究 作品 本书 古龙 作者 之一 中国 美国 关于 系列
Cluster 4: 生活 人生 了解 自己 张爱玲 一个 本书 散文 日子 汪曾祺 重要 他们 唯一 马斯克 以及
Cluster 5: 数学 内容 介绍 包括 理论 本书 涉及 主要 通信 应用 神经网络 原理 技术 方法 广泛
Cluster 6: 艺术 编辑 推荐 漫画 畅销 小说 图像 法国 经典 哲学 欧洲 时代 水彩 艺术史 作品
Cluster 7: 作者 商业 企业 isbn 三十年 写作 本书 记述 年间 变革 管理 图书 力作 30 20
Cluster 8: 中国 著名 建筑 本书 公司 社会 出版 文化 先生 政治 作家 古代 学者 互联网 著作
Cluster 9: 故事 讲述 真实 一个 生活 本书 三毛 小说 那些 自己 人物 作者 这是 如果 一部


In [85]:
# 10 * 16284
km_obj.cluster_centers_.argsort()[:, ::-1]

array([[ 9455,   884,   665, ...,  6980,  6981,  5939],
       [14027, 11344,  2549, ..., 10732, 10731,     0],
       [  741,  7912, 10270, ..., 10293, 10292,     0],
       ...,
       [ 2617,  4886,  2391, ..., 10580, 10579,     0],
       [ 1560, 13529,  7107, ..., 10558, 10557,     0],
       [ 8610, 13996, 11718, ..., 10458, 10457,  8141]])

In [59]:
'''
    argsort()将函数中的数据进行大小排序，然后按照其索引进行从小到大排序
'''
from numpy import *
a = [-9,0,3,-4,8,10]
print(argsort(a))

[0 3 1 2 4 5]


In [96]:
data = pd.DataFrame([["嗯啊", "嗯啊嗯啊嗯啊"],
                   ["不好", "真的不好"],
                    ["你好", "你真的好吗"]],columns = ["title", "content"])
data

Unnamed: 0,title,content
0,嗯啊,嗯啊嗯啊嗯啊
1,不好,真的不好
2,你好,你真的好吗


In [98]:
data['title'].tolist()

['嗯啊', '不好', '你好']

In [99]:
data[data["content"]=="真的不好"]['title'].tolist()

['不好']

## tessssssssssssssssssst

### m模型的cluster_centers_属性，返回的是10×16284二维数组，簇数*特征数
### rgsort()将数按从小到大排序，输出索引
### [:,  ::-1] 二维数组的行全输出，列倒序输出，就是把上一步特征值最大的在最前输出

In [75]:
def get_cluster_data(clustering_obj, book_data,
                     feature_names, num_clusters,
                     topn_features=10):
    cluster_details = {}
    # 获取cluster的center
    ordered_centroids = clustering_obj.cluster_centers_.argsort()[:, ::-1]
    # 获取每个cluster的关键特征
    # 获取每个cluster的书
    for cluster_num in range(num_clusters):
        cluster_details[cluster_num] = {}
        cluster_details[cluster_num]['cluster_num'] = cluster_num
        
        key_features = [feature_names[index]
                        for index
                        in ordered_centroids[cluster_num, :topn_features]]
        cluster_details[cluster_num]['key_features'] = key_features

        books = book_data[book_data['Cluster'] == cluster_num]['title'].tolist()
        cluster_details[cluster_num]['books'] = books

    return cluster_details

In [76]:
cluster_data = get_cluster_data(clustering_obj=km_obj,
                                book_data=book_data,
                                feature_names=feature_names,
                                num_clusters=num_clusters,
                                topn_features=5
                               )
for i,j in cluster_data.items():
    print(i,j)
    print("*********************************")

0 {'cluster_num': 0, 'key_features': ['本书', '一本', 'the', '不是', '出版'], 'books': ['\ufeff解忧杂货店', '新名字的故事', '世界的凛冬', '活着', '新名字的故事', '世界的凛冬', '我的天才女友', '世界的凛冬', '活着', '时间的果', '下雨天一个人在家', '吃鲷鱼让我打嗝', '当我谈跑步时我谈些什么', '孤独六讲', '\ufeff活着', '爱你就像爱生命', '时间的果', '一只特立独行的猪', '世界的凛冬', '恋情的终结', '\ufeff解忧杂货店', '东京本屋', '人间失格', '百鬼夜行 阳', '金色梦乡', '下雨天一个人在家', '强风吹拂', '火花', '1Q84 BOOK 1', '时间的果', '我口袋里的星辰如沙砾', '悲伤与理智', '孩子你慢慢来', '一个人的村庄', '所谓好玩的事，我再也不做了', '1Q84 BOOK 1', '当我谈跑步时我谈些什么', '没有色彩的多崎作和他的巡礼之年', '1Q84 BOOK 2', '且听风吟', '大萝卜和难挑的鳄梨', '国境以南 太阳以西', '远方的鼓声', '舞！舞！舞！', '没有女人的男人们', '1Q84 BOOK 3', '奇鸟行状录', '东京奇谭集', '鲍勃·迪伦诗歌集 (1961-2012)', '万物静默如谜', '我的孤独是一座花园', '海子诗全集', '博尔赫斯诗选', '唯有孤独恒常如新', '飞鸟集', '二十首情诗与绝望的歌', '二十亿光年的孤独', '荒原', '王尔德童话', '夜莺与玫瑰', '猜猜我有多爱你', '七夜物语', '牧羊少年奇幻之旅', '失物之书', '银河铁道之夜', '小毛驴与我', '狐狸的窗户', '一只特立独行的猪', '爱你就像爱生命', '我的精神家园', '王小波全集', '理想国与哲人王', '假如你愿意你就恋爱吧', '似水流年', '黑铁时代', '寻找无双·东宫西宫', '一只特立独行的猪', '我的精神家园', '王小波全集', '常识', '退步集', '野火集', '门萨的娼妓', '理想国与哲人王', '这就是二十四节气', '猜猜我有多爱你', '七夜物语', '

In [77]:
def print_cluster_data(cluster_data):
    # print cluster details
    for cluster_num, cluster_details in cluster_data.items():
        print('Cluster {} details:'.format(cluster_num))
        print('-' * 20)
        print('Key features:', cluster_details['key_features'])
        print('book in this cluster:')
        print(', '.join(cluster_details['books']))
        print('=' * 40)

In [81]:
cluster_data = get_cluster_data(clustering_obj=km_obj,
                                book_data=book_data,
                                feature_names=feature_names,
                                num_clusters=num_clusters,
                                topn_features=5
                               )
print_cluster_data(cluster_data)

Cluster 0 details:
--------------------
Key features: ['本书', '一本', 'the', '不是', '出版']
book in this cluster:
﻿解忧杂货店, 新名字的故事, 世界的凛冬, 活着, 新名字的故事, 世界的凛冬, 我的天才女友, 世界的凛冬, 活着, 时间的果, 下雨天一个人在家, 吃鲷鱼让我打嗝, 当我谈跑步时我谈些什么, 孤独六讲, ﻿活着, 爱你就像爱生命, 时间的果, 一只特立独行的猪, 世界的凛冬, 恋情的终结, ﻿解忧杂货店, 东京本屋, 人间失格, 百鬼夜行 阳, 金色梦乡, 下雨天一个人在家, 强风吹拂, 火花, 1Q84 BOOK 1, 时间的果, 我口袋里的星辰如沙砾, 悲伤与理智, 孩子你慢慢来, 一个人的村庄, 所谓好玩的事，我再也不做了, 1Q84 BOOK 1, 当我谈跑步时我谈些什么, 没有色彩的多崎作和他的巡礼之年, 1Q84 BOOK 2, 且听风吟, 大萝卜和难挑的鳄梨, 国境以南 太阳以西, 远方的鼓声, 舞！舞！舞！, 没有女人的男人们, 1Q84 BOOK 3, 奇鸟行状录, 东京奇谭集, 鲍勃·迪伦诗歌集 (1961-2012), 万物静默如谜, 我的孤独是一座花园, 海子诗全集, 博尔赫斯诗选, 唯有孤独恒常如新, 飞鸟集, 二十首情诗与绝望的歌, 二十亿光年的孤独, 荒原, 王尔德童话, 夜莺与玫瑰, 猜猜我有多爱你, 七夜物语, 牧羊少年奇幻之旅, 失物之书, 银河铁道之夜, 小毛驴与我, 狐狸的窗户, 一只特立独行的猪, 爱你就像爱生命, 我的精神家园, 王小波全集, 理想国与哲人王, 假如你愿意你就恋爱吧, 似水流年, 黑铁时代, 寻找无双·东宫西宫, 一只特立独行的猪, 我的精神家园, 王小波全集, 常识, 退步集, 野火集, 门萨的娼妓, 理想国与哲人王, 这就是二十四节气, 猜猜我有多爱你, 七夜物语, 梦书之城, 《噼里啪啦系列》, 深夜小狗神秘事件, 诗经, 东京梦华录, 声律启蒙, 既见君子, ﻿活着, 现实一种, 兄弟（下）, 音乐影响了我的写作, 温暖和百感交集的旅程, 余华作品系列（共12册）, 我能否相信自己, 黄昏里的男孩, 我胆小如鼠, ﻿半生缘, 张爱玲文集, 雷峰塔, 传奇, 阿城精选集, 额尔古纳河