In [1]:
from sklearn.feature_extraction import DictVectorizer
import pandas as pd
data=[
    {"颜色":"红色","尺寸":"小号","价格":100},
    {"颜色":"绿色","尺寸":"大号","价格":200},
    {"颜色":"蓝色","尺寸":"小号","价格":150},
    {"颜色":"黄色","尺寸":"大号","价格":250},
    {"颜色":"黄色","尺寸":"大号","价格":300},
]

# 使用DictVectorizer将字典列表转换为特征矩阵
vec = DictVectorizer(sparse=False)
X = vec.fit_transform(data)

# 查看特征名称
feature_names = vec.get_feature_names_out()
print("特征名称:", feature_names)

# 转换为DataFrame以便查看
df = pd.DataFrame(X, columns=feature_names)
print("\n向量化后的数据:")
df


特征名称: ['价格' '尺寸=大号' '尺寸=小号' '颜色=红色' '颜色=绿色' '颜色=蓝色' '颜色=黄色']

向量化后的数据:


Unnamed: 0,价格,尺寸=大号,尺寸=小号,颜色=红色,颜色=绿色,颜色=蓝色,颜色=黄色
0,100.0,0.0,1.0,1.0,0.0,0.0,0.0
1,200.0,1.0,0.0,0.0,1.0,0.0,0.0
2,150.0,0.0,1.0,0.0,0.0,1.0,0.0
3,250.0,1.0,0.0,0.0,0.0,0.0,1.0
4,300.0,1.0,0.0,0.0,0.0,0.0,1.0


TfidfVectorizer可以将文本转换为TF-IDF向量化的特征矩阵, 忽略高频但无意义的词语.

热编码(one-hot):将类别型数据转换为数值型数据的常用方法，特别适用于机器学习算法处理非数值特征

In [3]:
from sklearn.feature_extraction.text import CountVectorizer
documents=[
    "I love machine learning. Machine learning is fun.",
    "Machine learning is a subset of AI.",
    "AI is the future of technology."
]

vectroizer=CountVectorizer()# 初始化向量化器
X=vectroizer.fit_transform(documents)# 拟合并转换文档
print("特征名称:", vectroizer.get_feature_names_out())# 查看特征名称
print("\n向量化后的数据:")
print(X.toarray())# 转换为数组查看

特征名称: ['ai' 'fun' 'future' 'is' 'learning' 'love' 'machine' 'of' 'subset'
 'technology' 'the']

向量化后的数据:
[[0 1 0 1 2 1 2 0 0 0 0]
 [1 0 0 1 1 0 1 1 1 0 0]
 [1 0 1 1 0 0 0 1 0 1 1]]


In [7]:
#使用jieba分词
import jieba

documents=[
    "我喜欢机器学习 。 机器学习 是 有趣 的。",
    "机器学习 是 人工智能 的 一个 子集 。",
    "人工智能 是 未来 技术 的 趋势 。"
]
documents_cut=[" ".join(jieba.cut(doc)) for doc in documents]
print(documents_cut)

vectorizer=CountVectorizer()
X=vectorizer.fit_transform(documents_cut)
print("特征名称:", vectorizer.get_feature_names_out())
print("\n向量化后的数据:")
print(X.toarray())


['我 喜欢 机器 学习   。   机器 学习   是   有趣   的 。', '机器 学习   是   人工智能   的   一个   子集   。', '人工智能   是   未来   技术   的   趋势   。']
特征名称: ['一个' '人工智能' '喜欢' '子集' '学习' '技术' '有趣' '未来' '机器' '趋势']

向量化后的数据:
[[0 0 1 0 2 0 1 0 2 0]
 [1 1 0 1 1 0 0 0 1 0]
 [0 1 0 0 0 1 0 1 0 1]]


In [8]:
documents=[
    "我喜欢机器学习 。 机器学习 是 有趣 的。",
    "机器学习 是 人工智能 的 一个 子集 。",
    "人工智能 是 未来 技术 的 趋势 。"
]
documents_cut=[" ".join(jieba.cut(doc)) for doc in documents]
print(documents_cut)
#用tf-idf向量化
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer=TfidfVectorizer()
X=vectorizer.fit_transform(documents_cut)
print("特征名称:", vectorizer.get_feature_names_out())
print("\n向量化后的数据:")
print(X.toarray())

['我 喜欢 机器 学习   。   机器 学习   是   有趣   的 。', '机器 学习   是   人工智能   的   一个   子集   。', '人工智能   是   未来   技术   的   趋势   。']
特征名称: ['一个' '人工智能' '喜欢' '子集' '学习' '技术' '有趣' '未来' '机器' '趋势']

向量化后的数据:
[[0.         0.         0.38844998 0.         0.59085245 0.
  0.38844998 0.         0.59085245 0.        ]
 [0.51741994 0.3935112  0.         0.51741994 0.3935112  0.
  0.         0.         0.3935112  0.        ]
 [0.         0.40204024 0.         0.         0.         0.52863461
  0.         0.52863461 0.         0.52863461]]
