## 特征工程--将数据处理为数值类型

In [9]:
# DictVectorizer
from sklearn.feature_extraction import DictVectorizer

# 创建示例数据
data = [
    {'city': '北京', 'temperature': 20},
    {'city': '上海', 'temperature': 25},
    {'city': '广州', 'temperature': 30}
]

# 创建DictVectorizer对象
dv = DictVectorizer()

# 将字典列表转换为特征矩阵
X3 = dv.fit_transform(data)

# 打印特征名称
print("特征名称:", dv.get_feature_names_out())

# 打印转换后的特征矩阵
print("\n转换后的特征矩阵:")
print(X3.toarray())

# 将特征矩阵转换回字典列表
print("\n转换回字典列表:")
print(dv.inverse_transform(X3))




特征名称: ['city=上海' 'city=北京' 'city=广州' 'temperature']

转换后的特征矩阵:
[[ 0.  1.  0. 20.]
 [ 1.  0.  0. 25.]
 [ 0.  0.  1. 30.]]

转换回字典列表:
[{'city=北京': np.float64(1.0), 'temperature': np.float64(20.0)}, {'city=上海': np.float64(1.0), 'temperature': np.float64(25.0)}, {'city=广州': np.float64(1.0), 'temperature': np.float64(30.0)}]


In [10]:
# CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

# 创建示例文本数据
text_data = [
    "I love machine learning",
    "Machine learning is amazing",
    "I want to learn machine learning"
]

# 创建CountVectorizer对象
cv = CountVectorizer()

# 将文本转换为词频矩阵
X2 = cv.fit_transform(text_data)

# 打印特征名称（词汇表）
print("词汇表:", cv.get_feature_names_out())

# 打印词频矩阵
print("\n词频矩阵:")
print(X2.toarray())

# 打印每个文档的词频统计
print("\n每个文档的词频统计:")
for i, doc in enumerate(text_data):
    print(f"\n文档 {i+1}: {doc}")
    print(cv.transform([doc]).toarray())


词汇表: ['amazing' 'is' 'learn' 'learning' 'love' 'machine' 'to' 'want']

词频矩阵:
[[0 0 0 1 1 1 0 0]
 [1 1 0 1 0 1 0 0]
 [0 0 1 1 0 1 1 1]]

每个文档的词频统计:

文档 1: I love machine learning
[[0 0 0 1 1 1 0 0]]

文档 2: Machine learning is amazing
[[1 1 0 1 0 1 0 0]]

文档 3: I want to learn machine learning
[[0 0 1 1 0 1 1 1]]


In [11]:
# jieba分词
import jieba
from sklearn.feature_extraction.text import CountVectorizer

# 创建示例中文文本数据
chinese_text = [
    "我喜欢机器学习",
    "机器学习很有趣",
    "我想学习机器学习"
]

# 使用jieba进行分词
segmented_text = []
for text in chinese_text:
    # 使用jieba.cut进行分词
    words = jieba.cut(text)
    # 将分词结果用空格连接成字符串
    segmented_text.append(" ".join(words))
print(segmented_text)

# 创建CountVectorizer对象
cv = CountVectorizer()

# 将分词后的文本转换为词频矩阵
X3 = cv.fit_transform(segmented_text)

# 打印特征名称（词汇表）
print("词汇表:", cv.get_feature_names_out())

# 打印词频矩阵
print("\n词频矩阵:")
print(X3.toarray())




Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/1f/d7sgbp1155l8kkgswvhg8frw0000gn/T/jieba.cache
Loading model cost 0.246 seconds.
Prefix dict has been built successfully.


['我 喜欢 机器 学习', '机器 学习 很 有趣', '我 想 学习 机器 学习']
词汇表: ['喜欢' '学习' '有趣' '机器']

词频矩阵:
[[1 1 0 1]
 [0 1 1 1]
 [0 2 0 1]]


In [12]:
# tf-idf(逆文档频率)
# 公式：tf-idf(i,j)=tf*idf，tf是词频，idf = log(总文本数/包含词i的文本数)
# 通常分母会加1，防止分母为0
from sklearn.feature_extraction.text import TfidfVectorizer

# 创建示例中文文本数据
chinese_text = [
    "我喜欢机器学习",
    "机器学习很有趣",
    "我想学习机器学习"
]

# 使用jieba进行分词
segmented_text = []
for text in chinese_text:
    words = jieba.cut(text)
    segmented_text.append(" ".join(words))

# 创建TfidfVectorizer对象
tfidf = TfidfVectorizer()

# 将分词后的文本转换为TF-IDF矩阵
X_tfidf = tfidf.fit_transform(segmented_text)

# 打印特征名称（词汇表）
print("词汇表:", tfidf.get_feature_names_out())

# 打印TF-IDF矩阵
print("\nTF-IDF矩阵:")
print(X_tfidf.toarray())



词汇表: ['喜欢' '学习' '有趣' '机器']

TF-IDF矩阵:
[[0.76749457 0.45329466 0.         0.45329466]
 [0.         0.45329466 0.76749457 0.45329466]
 [0.         0.89442719 0.         0.4472136 ]]


## 归一化、标准化、缺失值插补

In [13]:
# 使用MinMaxScaler进行归一化
# 公式：(x-min)/(max-min)
# 对不同样本的同一特征进行归一化，min和max是该特征的最小值和最大值
# 对异常值敏感，对异常值进行归一化时，会将其归一化到0或1，导致数据失真
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 创建示例数据
X = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

# 创建MinMaxScaler对象
scaler = MinMaxScaler()

# 对数据进行归一化
X_normalized = scaler.fit_transform(X)

# 打印原始数据和归一化后的数据
print("原始数据:")
print(X)
print("\n归一化后的数据:")
print(X_normalized)


原始数据:
[[1 2 3]
 [4 5 6]
 [7 8 9]]

归一化后的数据:
[[0.  0.  0. ]
 [0.5 0.5 0.5]
 [1.  1.  1. ]]


In [14]:
# 使用StandardScaler进行标准化
# 公式：(x-均值)/标准差
# 适合现代嘈杂，高维数据，对异常值不敏感
from sklearn.preprocessing import StandardScaler
import numpy as np

# 创建示例数据
X = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

# 创建StandardScaler对象
scaler = StandardScaler()

# 对数据进行标准化
X_standardized = scaler.fit_transform(X)

# 打印原始数据和标准化后的数据
print("原始数据:")
print(X)
print("\n标准化后的数据:")
print(X_standardized)


原始数据:
[[1 2 3]
 [4 5 6]
 [7 8 9]]

标准化后的数据:
[[-1.22474487 -1.22474487 -1.22474487]
 [ 0.          0.          0.        ]
 [ 1.22474487  1.22474487  1.22474487]]


In [15]:
# 使用SimpleImputer进行缺失值插补
from sklearn.impute import SimpleImputer
import numpy as np

# 创建包含缺失值的示例数据
X = np.array([[1, np.nan, 3],
              [4, 5, np.nan],
              [7, 8, 9]])

# 创建SimpleImputer对象，使用均值策略
imputer = SimpleImputer(strategy='mean')

# 对数据进行缺失值插补
X_imputed = imputer.fit_transform(X)

# 打印原始数据和插补后的数据
print("原始数据:")
print(X)
print("\n使用均值策略插补后的数据:")
print(X_imputed)

# 使用中位数策略的示例
imputer_median = SimpleImputer(strategy='median')
X_imputed_median = imputer_median.fit_transform(X)

print("\n使用中位数策略插补后的数据:")
print(X_imputed_median)


原始数据:
[[ 1. nan  3.]
 [ 4.  5. nan]
 [ 7.  8.  9.]]

使用均值策略插补后的数据:
[[1.  6.5 3. ]
 [4.  5.  6. ]
 [7.  8.  9. ]]

使用中位数策略插补后的数据:
[[1.  6.5 3. ]
 [4.  5.  6. ]
 [7.  8.  9. ]]


## 特征预处理中的VarianceThreshold和PCA

In [16]:
# 使用VarianceThreshold进行特征选择
# 删除所有低方差特征，即删除方差小于阈值的特征。
from sklearn.feature_selection import VarianceThreshold
import numpy as np

# 创建示例数据
X = np.array([[0, 2, 0, 3],
              [0, 1, 4, 3],
              [0, 1, 1, 3]])

# 创建VarianceThreshold对象，设置方差阈值为0.8
selector = VarianceThreshold(threshold=0.8)

# 对数据进行特征选择
X_selected = selector.fit_transform(X)

# 打印原始数据和选择后的数据
print("原始数据:")
print(X)
print("\n特征选择后的数据:")
print(X_selected)

原始数据:
[[0 2 0 3]
 [0 1 4 3]
 [0 1 1 3]]

特征选择后的数据:
[[0]
 [4]
 [1]]


In [17]:
# 使用PCA进行特征降维
from sklearn.decomposition import PCA
import numpy as np

# 创建示例数据
X = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12],
              [13, 14, 15, 16]])

# 创建PCA对象，设置降维后的维度为2
pca = PCA(n_components=2)

# 对数据进行降维
X_reduced = pca.fit_transform(X)

# 打印原始数据和降维后的数据
print("原始数据:")
print(X)
print("\n降维后的数据:")
print(X_reduced)

# 打印每个主成分解释的方差比例
print("\n每个主成分解释的方差比例:")
print(pca.explained_variance_ratio_)

# 打印累计方差比例
print("\n累计方差比例:")
print(np.sum(pca.explained_variance_ratio_))


原始数据:
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]

降维后的数据:
[[-1.20000000e+01 -4.32120803e-16]
 [-4.00000000e+00  1.17851128e-16]
 [ 4.00000000e+00 -1.17851128e-16]
 [ 1.20000000e+01 -3.53553384e-16]]

每个主成分解释的方差比例:
[1.00000000e+00 1.06095675e-33]

累计方差比例:
1.0


## 鸢尾花分类

In [18]:

# 导入必要的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载鸢尾花数据集
iris = load_iris()

# 获取特征和目标变量
X = iris.data
y = iris.target

# 打印数据集的基本信息
print("数据集形状:", X.shape)
print("特征名称:", iris.feature_names)
print("目标类别:", iris.target_names)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# 打印训练集和测试集的大小
print("\n训练集大小:", X_train.shape)
print("测试集大小:", X_test.shape)


数据集形状: (150, 4)
特征名称: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
目标类别: ['setosa' 'versicolor' 'virginica']

训练集大小: (105, 4)
测试集大小: (45, 4)
