In [None]:
"""
DictVectorizer 是 scikit-learn 提供的一个特征提取工具
用于将特征字典（字典组成的列表）转换为机器学习算法可用的矩阵形式（通常是稀疏矩阵）。
它特别适用于处理类别特征和数值特征混合的情况。

稀疏矩阵：
      稀疏矩阵是指大部分元素为零（或空值）的矩阵，且非零元素的分布一般没有规律。与稠密矩阵（大多数元素非零）相对。
"""
from sklearn.feature_extraction import DictVectorizer 

# 字典列表向量化
data=[{'city':'北京','temperature':40},
      {'city':'上海','temperature':34},
      {'city':'深圳','temperature':29},
      {'city':'深圳','temperature':31}]

# 创建一个字典列表特征提取工具
tool=DictVectorizer(sparse=True)#sparse=True表示返回的是稀疏矩阵(三元组表)
# 字典列表特征提取
data=tool.fit_transform(data)
print(data)#三元组表
print(data.toarray())#三元组表转数组
print(tool.feature_names_)

  (0, 1)	1.0
  (0, 3)	40.0
  (1, 0)	1.0
  (1, 3)	34.0
  (2, 2)	1.0
  (2, 3)	29.0
  (3, 2)	1.0
  (3, 3)	31.0
[[ 0.  1.  0. 40.]
 [ 1.  0.  0. 34.]
 [ 0.  0.  1. 29.]
 [ 0.  0.  1. 31.]]
['city=上海', 'city=北京', 'city=深圳', 'temperature']


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
# 词频特征提取
data=["stu is well, stu is great", "You like stu"]
cv=CountVectorizer()#创建词频特征提取器
data=cv.fit_transform(data)#特征提取(转换)
print(data.toarray())#三元组表转数组
print(cv.get_feature_names_out())#查看每一个特征的特征名

[[1 2 0 2 1 0]
 [0 0 1 1 0 1]]
['great' 'is' 'like' 'stu' 'well' 'you']


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
# 中文词频特征提取(中文必须有空格来分词 否则会把一句话当做一个特征)
data=["教育学会会长期间坚定支持民办教育事业！","热忱关心扶持民办学校发展","事业做出重大贡献！"]
cv=CountVectorizer()#创建词频特征提取器
data=cv.fit_transform(data)#特征提取(转换)
print(data.toarray())#三元组表转数组
print(cv.get_feature_names_out())#查看每一个特征的特征名

[[0 1 1 1 1 1 0]
 [0 0 0 0 0 0 1]
 [1 0 0 0 0 0 0]]
['事业做出重大贡献' '会长' '坚定支持民办教育事业' '学会' '教育' '期间' '热忱关心扶持民办学校发展']


In [21]:
import jieba
str="教育学会会长期间坚定支持民办教育事业！"
data=jieba.cut(str)#分词,返回可迭代对象
# print(next(data))
# print(next(data))
# print(next(data))
# print(next(data))
data=list(data)
print(data)
str1=" ".join(data)
print(str1)

['教育', '学会', '会长', '期间', '坚定', '支持', '民办教育', '事业', '！']
教育 学会 会长 期间 坚定 支持 民办教育 事业 ！


In [29]:
from sklearn.feature_extraction.text import CountVectorizer
import jieba
def fenci(str1):
    return " ".join(list(jieba.cut(str1))) 
# print(fenci("教育学会会长期间坚定支持民办教育事业！"))


# 中文词频特征提取(中文必须有空格来分词 否则会把一句话当做一个特征)
data=["教育学会会长期间坚定支持民办教育事业事业！","热忱关心扶持民办学校发展","事业做出重大贡献！"]
data=[fenci(el) for el in data]
# print(data)
cv=CountVectorizer(stop_words=["做出","会长"])#创建词频特征提取器
data=cv.fit_transform(data)#特征提取(转换)
print(data.toarray())#三元组表转数组
print(cv.get_feature_names_out())#查看每一个特征的特征名

[[2 0 0 1 1 0 1 1 1 0 1 0 0]
 [0 1 1 0 0 1 0 0 0 1 0 1 0]
 [1 0 0 0 0 0 0 0 0 0 0 0 1]]
['事业' '关心' '发展' '坚定' '学会' '扶持' '支持' '教育' '期间' '民办学校' '民办教育' '热忱' '重大贡献']


In [32]:
# 稀有度(词语的重要程度)特征提取
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
def fenci(str1):
    return " ".join(list(jieba.cut(str1))) 
data=["教育学会会长期间坚定支持民办教育事业事业！","热忱关心扶持民办学校发展","事业做出重大贡献！"]
data=[fenci(el) for el in data]
# print(data)
tool=TfidfVectorizer()#创建工具
tf_idf=tool.fit_transform(data)#转换
print(tf_idf.toarray())
print(tool.get_feature_names_out())

[[0.49840822 0.32767345 0.         0.         0.         0.32767345
  0.32767345 0.         0.32767345 0.32767345 0.32767345 0.
  0.32767345 0.         0.        ]
 [0.         0.         0.         0.4472136  0.4472136  0.
  0.         0.4472136  0.         0.         0.         0.4472136
  0.         0.4472136  0.        ]
 [0.4736296  0.         0.62276601 0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.62276601]]
['事业' '会长' '做出' '关心' '发展' '坚定' '学会' '扶持' '支持' '教育' '期间' '民办学校' '民办教育' '热忱'
 '重大贡献']


In [1]:
# 手动实现tf-idf
from sklearn.feature_extraction.text import CountVectorizer
import jieba
import numpy as np
from sklearn.preprocessing import normalize
def fenci(str1):
    return " ".join(list(jieba.cut(str1))) 
data=["教育学会会长期间坚定支持民办教育事业事业！","热忱关心扶持民办学校发展","事业做出重大贡献！"]
data=[fenci(el) for el in data]
# print(data)

def if_idf(x):
    cv=CountVectorizer()
    tf=cv.fit_transform(x).toarray()
    print(tf)
    # print(tf!=0)
    fenzi=len(tf)+1
    fenmu=np.sum(tf!=0,axis=0)+1
    idf=np.log(fenzi/fenmu)+1
    print(idf)
    tf_idf=tf*idf
    
    tf_idf=normalize(tf_idf,norm="l2",axis=1)
    print(tf_idf)
if_idf(data)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\JYL\AppData\Local\Temp\jieba.cache
Loading model cost 0.372 seconds.
Prefix dict has been built successfully.


[[2 1 0 0 0 1 1 0 1 1 1 0 1 0 0]
 [0 0 0 1 1 0 0 1 0 0 0 1 0 1 0]
 [1 0 1 0 0 0 0 0 0 0 0 0 0 0 1]]
[1.28768207 1.69314718 1.69314718 1.69314718 1.69314718 1.69314718
 1.69314718 1.69314718 1.69314718 1.69314718 1.69314718 1.69314718
 1.69314718 1.69314718 1.69314718]
[[0.49840822 0.32767345 0.         0.         0.         0.32767345
  0.32767345 0.         0.32767345 0.32767345 0.32767345 0.
  0.32767345 0.         0.        ]
 [0.         0.         0.         0.4472136  0.4472136  0.
  0.         0.4472136  0.         0.         0.         0.4472136
  0.         0.4472136  0.        ]
 [0.4736296  0.         0.62276601 0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.62276601]]
