In [12]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import jieba


def datasets_demo():
    """
    sklearn数据使用
    ；return；
    """
    iris = load_iris()
    print("鸢尾花数据集\n", iris)
    print("查看数据集描述\n", iris["DESCR"])
    print("查看特征值的名字\n", iris.feature_names)
    print("查看特征值\n", iris.data, iris.data.shape)
    
    #数据集划分
    X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size = 0.2, random_state = 22)
    print("训练集的特征值",  X_train, X_train.shape)
    print("测试集的特征值",  X_test, X_test.shape)
    print("训练集的目标值", y_train)
    print("测试集的目标值", y_test,)
    
    return None


def dict_demo():
    """
    字典特征提取
    """
    data = [{'city': '北京', 'pemperature':100}, {'city': '上海', 'temperature':60}, {'city': '深圳', 'temperature':30}]
    #1，实例化一个转换器
    transfer = DictVectorizer(sparse = False)
    
    #2， 调用fit_transform()
    data_new = transfer.fit_transform(data)
    print("data_new\n", data_new)
    print("特征名字\n", transfer.get_feature_names())
    
    return None

def cut_word(text):
    return " ".join(list(jieba.cut(text)))


def count_chinese_demo():
    """
    文本特征抽取， 自动分词
    """
    #将文本进行分词
    data = ["一种还是一种今天很残酷，明天更残酷，后天更美好，但绝大部分是死在明天晚上， 所以每个人不要放弃今天。",
           "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去",
           "如果只用一种方式了解某事某物，你就不会正真了解它，了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    
    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
        
    #实例化一个转换器
    transfer = CountVectorizer()
    data_final = transfer.fit_transform(data_new)
    print("data_new：\n", data_final.toarray())
    print("特征名字:\n", transfer.get_feature_names())


def tfidf_demo():
    """
    文本特征抽取， 自动分词
    """
    #将文本进行分词
    data = ["一种还是一种今天很残酷，明天更残酷，后天更美好，但绝大部分是死在明天晚上， 所以每个人不要放弃今天。",
           "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去",
           "如果只用一种方式了解某事某物，你就不会正真了解它，了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    
    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
        
    #实例化一个转换器 重要程度
    
    transfer = TfidfVectorizer()
    data_final = transfer.fit_transform(data_new)
    print("data_new：\n", data_final.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    
if __name__ == "__main__":
    #代码1
    #datasets_demo()
    #代码2
    #dict_demo()
    #代码3
    #count_chinese_demo()
    tfidf_demo()

data_new：
 [[ 0.31502084  0.          0.20710727  0.          0.          0.
   0.41421455  0.          0.          0.          0.          0.
   0.20710727  0.          0.          0.          0.          0.
   0.20710727  0.20710727  0.          0.41421455  0.          0.20710727
   0.          0.          0.          0.41421455  0.20710727  0.          0.
   0.          0.20710727  0.20710727  0.          0.          0.20710727
   0.        ]
 [ 0.          0.          0.          0.2410822   0.          0.          0.
   0.2410822   0.2410822   0.2410822   0.          0.          0.          0.
   0.          0.          0.2410822   0.55004769  0.          0.          0.
   0.          0.2410822   0.          0.          0.          0.          0.
   0.          0.48216441  0.          0.          0.          0.          0.
   0.2410822   0.          0.2410822 ]
 [ 0.13012938  0.17110449  0.          0.          0.68441798  0.34220899
   0.          0.          0.          0.      

In [13]:
import thread

ModuleNotFoundError: No module named 'thread'