## 【例4.1】发现缺失数据的常用方法。

In [None]:
import pandas as pd

df = pd.DataFrame({
       'A': [1, 2, None, 4],
       'B': [5, None, 7, 8],
       'C': [9, 10, 11, 12]
   })
print(df.isnull())

In [None]:
print(df.notnull())

In [None]:
 df.info()

In [None]:
df.describe()

In [None]:
df_interpolated = df.interpolate()

In [None]:
df_interpolated

【例4.2】以下是使用 pandas 和 scikit-learn 库进行数据清洗，包括处理缺失值、重复值和无效值：

In [None]:
import pandas as pd
from sklearn.impute import SimpleImputer

# 创建示例数据
data = {'姓名': ['张三', '李四', '王五', '赵六', '小明'],
        '年龄': [23, 26, None, 24, 25],
        '性别': ['男', '男', '女', '男', None],
        '成绩': [90, 80, 85, 92, None]}
df = pd.DataFrame(data)


In [None]:
df

In [None]:
df_cleaned = df.dropna()
df['年龄'].fillna(df['年龄'].mean(), inplace=True)
# 用性别列的众数填充性别缺失值
df['性别'].fillna(df['性别'].mode()[0], inplace=True)
# 用成绩列的中位数填充成绩缺失值
df['成绩'].fillna(df['成绩'].median(), inplace=True)


【例4.3】演示对数据的归一化处理。

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, MaxAbsScaler
import pandas as pd
import numpy as np

# 创建示例数据
data = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                     'B': [10, 20, 30, 40, 50],
                     'C': [100, 200, 300, 400, 500]})
# StandardScaler 将数据进行标准化处理，使得数据的均值为0，方差为1。
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
print("StandardScaler后的数据：\n", scaled_data)
# MinMaxScaler 将数据进行缩放处理，使得数据在指定的范围内。
minmax_scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = minmax_scaler.fit_transform(data)
print("MinMaxScaler后的数据：\n", scaled_data)

# RobustScaler 与StandardScaler类似，但是可以处理异常值。
robust_scaler = RobustScaler()
scaled_data = robust_scaler.fit_transform(data)
print("RobustScaler后的数据：\n", scaled_data)

# MaxAbsScaler 将数据缩放到[-1,1]的范围内，适用于稀疏数据。
maxabs_scaler = MaxAbsScaler()
scaled_data = maxabs_scaler.fit_transform(data)
print("MaxAbsScaler后的数据：\n", scaled_data)


In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, MaxAbsScaler
import pandas as pd
import numpy as np

# 创建示例数据
data = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                     'B': [10, 20, 30, 40, 50],
                     'C': [100, 200, 300, 400, 500]})
# StandardScaler 将数据进行标准化处理，使得数据的均值为0，方差为1。
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
print("StandardScaler后的数据：\n", scaled_data)
# MinMaxScaler 将数据进行缩放处理，使得数据在指定的范围内。
minmax_scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = minmax_scaler.fit_transform(data)
print("MinMaxScaler后的数据：\n", scaled_data)

# RobustScaler 与StandardScaler类似，但是可以处理异常值。
robust_scaler = RobustScaler()
scaled_data = robust_scaler.fit_transform(data)
print("RobustScaler后的数据：\n", scaled_data)

# MaxAbsScaler 将数据缩放到[-1,1]的范围内，适用于稀疏数据。
maxabs_scaler = MaxAbsScaler()
scaled_data = maxabs_scaler.fit_transform(data)
print("MaxAbsScaler后的数据：\n", scaled_data)


【例4.5】L1正则化：

In [None]:
from sklearn.preprocessing import Normalizer
import numpy as np

X = np.array([[1, 2, 3], [4000, 500, 600], [79, 877777, 97]])

transformer = Normalizer(norm='l1')
X_normalized = transformer.transform(X)

print(X_normalized)


【例4.6】L2正则化。

In [None]:
from sklearn.preprocessing import Normalizer
import numpy as np
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

transformer = Normalizer(norm='l2')
X_normalized = transformer.transform(X)

print(X_normalized)


【例4.7】将['apple', 'banana', 'pear']进行LabelEncoder。

In [None]:
from sklearn.preprocessing import LabelEncoder
# 创建 LabelEncoder 对象
le = LabelEncoder()

# 定义标签列表
labels = ['apple', 'banana', 'pear']

# 使用 LabelEncoder 对标签进行编码
encoded_labels = le.fit_transform(labels)
# 输出编码结果
print(encoded_labels)


【例4.8】使用scikit-learn将[“红色”，“蓝色”，“绿色”]进行OneHotEncoder编码。

In [None]:

from sklearn.preprocessing import OneHotEncoder
import numpy as np
# 创建 OneHotEncoder 对象
ohe = OneHotEncoder()
# 定义标签列表
labels = ['红色', '蓝色', '绿色']
# 使用 OneHotEncoder 对标签进行独热编码
encoded_labels = ohe.fit_transform(np.array(labels).reshape(-1, 1)).toarray()
# 输出独热编码结果
print(encoded_labels)


【例4.9】使用scikit-learn将文本分成单个单词（称为标记），并计算每个标记在文本中出现的频率。

In [None]:

from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]
# 创建 CountVectorizer 对象，并拟合文本数据
vectorizer = CountVectorizer()
vectorizer.fit(corpus)

# 转换文本数据
vectorized_corpus = vectorizer.transform(corpus)
# 将稀疏矩阵转换为密集矩阵并打印结果
print(vectorized_corpus.toarray())


【例4.10】使用TF-IDF对字符串进行编码。

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'That is also a book!!']
#创建 TfidfVectorizer 对象，并拟合文本数据
vectorizer = TfidfVectorizer()
vectorizer.fit(corpus)

#转换文本数据
vectorized_corpus = vectorizer.transform(corpus)
print(vectorized_corpus)
#将稀疏矩阵转换为密集矩阵并打印结果
print(vectorized_corpus.toarray())


【例4.11】下面是一个简单的示例代码，演示如何使用VarianceThreshold方法对数据集进行特征选择。

In [None]:

from sklearn.feature_selection import VarianceThreshold
from sklearn.datasets import load_iris

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 方差选择法，删除方差低于阈值的特征
selector = VarianceThreshold(threshold=0.2)
X_new = selector.fit_transform(X)

# 输出选择后的数据集大小
print(f"原始数据集大小：{X.shape}, 特征选择后的数据集大小：{X_new.shape}")



【例4.12】卡方检验对数据集属性选择。

In [None]:

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, chi2

# 加载鸢尾花数据集
iris = load_iris()
X, y = iris.data, iris.target

# 使用 SelectKBest 方法和卡方检验选择最重要的两个特征
selector = SelectKBest(chi2, k=2)
X_new = selector.fit_transform(X, y)

# 打印选择的特征
print(selector.get_support())
# 打印选择的特征的值
print(X_new[:5])


【例4.13】相关系数对数据集属性选择。

In [None]:

from sklearn.datasets import load_breast_cancer
from sklearn.feature_selection import SelectKBest, f_regression

# 加载乳腺癌数据集
cancer = load_breast_cancer()
X, y = cancer.data, cancer.target

# 使用 SelectKBest 方法和相关系数选择与分类目标相关性最高的两个特征
selector = SelectKBest(f_regression, k=3)
X_new = selector.fit_transform(X, y)

# 打印选择的特征
print(selector.get_support())
# 打印选择的特征的值
print(X_new[:5])


In [None]:
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, chi2

# 加载鸢尾花数据集
iris = load_iris()
X, y = iris.data, iris.target
# 使用 SelectKBest 方法和相关系数选择与分类目标相关性最高的两个特征
print(X[:5])
selector = SelectKBest(f_regression, k=3)
X_new = selector.fit_transform(X, y)

# 打印选择的特征
print(selector.get_support())
# 打印选择的特征的值
print(X_new[:5])

【例4.14】Wrapper方法对数据集属性选择。

In [None]:
from sklearn.datasets import load_iris
from sklearn.feature_selection import RFECV
from sklearn.linear_model import LinearRegression

# 加载鸢尾花数据集
iris = load_iris()
X, y = iris.data, iris.target
# 使用 SelectKBest 方法和相关系数选择与分类目标相关性最高的两个特征
print(X[:5])

# 定义线性回归模型
model = LinearRegression()

# 使用 RFECV 方法选择最佳特征子集
selector = RFECV(model, step=1, cv=5)
X_new = selector.fit_transform(X, y)

# 打印选择的特征的数量
print(selector.n_features_)
# 打印选择的特征的编号
print(selector.support_)
# 打印选择的特征的名称
# 打印选择的特征的名称
selected_feature_names = [name for name, selected in zip(iris.feature_names, selector.support_) if selected]
print(selected_feature_names)


【例4.15】使用 Lasso Regression 进行特征选择的示例代码。

In [None]:

from sklearn.datasets import load_boston
from sklearn.linear_model import Lasso

# 加载波士顿房价数据集
boston = load_boston()
X, y = boston.data, boston.target

# 定义 Lasso 回归模型
model = Lasso(alpha=0.1)

# 使用 Lasso 方法选择最佳特征子集
model.fit(X, y)
selector = model.coef_ != 0

# 打印选择的特征的数量
print(sum(selector))
# 打印选择的特征的名称
print(boston.feature_names[selector])


In [None]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import Lasso

# 加载糖尿病数据集
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target

# 定义 Lasso 回归模型
model = Lasso(alpha=0.1)

# 使用 Lasso 方法选择最佳特征子集
model.fit(X, y)
selector = model.coef_ != 0

# 打印选择的特征的数量

# 打印选择的特征的名称
print(diabetes.feature_names,f'共有{len(diabetes.feature_names)}')
print('从中选择:',sum(selector))
selected_feature_names = [name for name, selected in zip(diabetes.feature_names, selector) if selected]
print('结果:',selected_feature_names)


In [None]:
from sklearn.datasets import load_diabetes
from sklearn.tree import DecisionTreeRegressor

# Load the diabetes dataset as an alternative to load_boston
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target

# Define a decision tree regression model
model = DecisionTreeRegressor()

# Use the decision tree method to select the best feature subset
model.fit(X, y)
selector = model.feature_importances_ > 0.1

# Print the number of selected features
print(sum(selector))
# Print the names of the selected features
selected_feature_names = [name for name, selected in zip(diabetes.feature_names, selector) if selected]
print(selected_feature_names)


【例4.17】使用 PCA进行特征选择的示例代码。

In [None]:

from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

# 加载鸢尾花数据集
iris = load_iris()
X, y = iris.data, iris.target
print(X.shape)
# 使用PCA进行特征选择
pca = PCA(n_components=2)
X_new = pca.fit_transform(X)

# 打印新数据的形状
print(X_new.shape)


【例4.17】使用Kernel PCA进行特征选择的示例代码。

In [None]:

from sklearn.datasets import make_circles
from sklearn.decomposition import KernelPCA

# 生成随机数据集
X, y = make_circles(n_samples=1000, random_state=42, noise=0.1, factor=0.5)

# 使用 Kernel PCA 方法进行特征选择
kpca = KernelPCA(kernel='rbf', n_components=1)
X_new = kpca.fit_transform(X)

# 打印选择的特征
print(X_new[:5])


【例4.19】使用LDA进行特征选择的示例代码。

In [None]:

from sklearn.datasets import load_iris
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 加载 iris 数据集
iris = load_iris()
X, y = iris.data, iris.target

# 定义 LDA 模型
lda = LinearDiscriminantAnalysis(n_components=2)

# 使用 LDA 进行降维
X_lda = lda.fit_transform(X, y)

# 打印降维后的数据形状
print(X.shape,X_lda.shape)


【例4.19】使用t-SNE进行特征选择的示例代码。
下面是使用t-SNE进行特征选择的示例代码：

In [None]:


from sklearn.datasets import load_iris
from sklearn.manifold import TSNE

# 加载鸢尾花数据集
iris = load_iris()
X, y = iris.data, iris.target

# 使用TSNE进行特征选择
tsne = TSNE(n_components=2, random_state=42)
X_tsne = tsne.fit_transform(X)

# 打印降维后的数据
print(X_tsne[:5])


【例4.20】Isomap计算案例

In [None]:
from sklearn.datasets import load_digits
from sklearn.manifold import Isomap

# 加载 digits 数据集
digits = load_digits()
X, y = digits.data, digits.target

# 定义 Isomap 模型
isomap = Isomap(n_components=2, n_neighbors=10)

# 使用 Isomap 进行降维
X_isomap = isomap.fit_transform(X)

# 打印降维后的数据形状
print(X_isomap.shape)
