### 1.6 数据变换与特征工程

数据变换与特征工程是对数据进行处理和转换的过程，以便更好地进行分析和建模。以下是一些常见的数据变换和特征工程方法。

#### 1.6.1 数据标准化和归一化

标准化和归一化是常用的数据预处理方法，用于将数据转换到相同的尺度，以消除量纲差异的影响。

1. **标准化**：将数据转换为均值为0，标准差为1的正态分布。

In [2]:
from sklearn.preprocessing import StandardScaler
import pandas as pd

# 创建一个示例DataFrame
data = {
    'Feature1': [10, 20, 30, 40, 50],
    'Feature2': [5, 15, 25, 35, 45]
}
df = pd.DataFrame(data)

# 标准化
scaler = StandardScaler()
df_standardized = scaler.fit_transform(df)

print("标准化后的数据:")
print(df_standardized)

标准化后的数据:
[[-1.41421356 -1.41421356]
 [-0.70710678 -0.70710678]
 [ 0.          0.        ]
 [ 0.70710678  0.70710678]
 [ 1.41421356  1.41421356]]


2. **归一化**：将数据缩放到0到1的范围内。

In [3]:
from sklearn.preprocessing import MinMaxScaler

# 归一化
scaler = MinMaxScaler()
df_normalized = scaler.fit_transform(df)

print("归一化后的数据:")
print(df_normalized)

归一化后的数据:
[[0.   0.  ]
 [0.25 0.25]
 [0.5  0.5 ]
 [0.75 0.75]
 [1.   1.  ]]


#### 1.6.2 数据编码

对于分类变量，需要将其转换为数值形式。常见的编码方法包括独热编码和标签编码。

1. **独热编码**：

In [5]:
# 创建一个含有分类变量的DataFrame
data = {
    'City': ['New York', 'San Francisco', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# 独热编码
df_encoded = pd.get_dummies(df, columns=['City'])

print("独热编码后的数据:")
print(df_encoded)

独热编码后的数据:
   City_Chicago  City_Los Angeles  City_New York  City_San Francisco
0         False             False           True               False
1         False             False          False                True
2         False              True          False               False
3          True             False          False               False


2. **标签编码**：

In [6]:
from sklearn.preprocessing import LabelEncoder

# 标签编码
encoder = LabelEncoder()
df['City_Label'] = encoder.fit_transform(df['City'])

print("标签编码后的数据:")
print(df)

标签编码后的数据:
            City  City_Label
0       New York           2
1  San Francisco           3
2    Los Angeles           1
3        Chicago           0


#### 1.6.3 特征选择

特征选择用于选择对模型性能影响较大的特征。常见的方法有过滤法、包裹法和嵌入法。

1. **过滤法**：基于统计检验或相关性选择特征。

In [22]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
from sklearn.feature_selection import SelectKBest, f_classif, RFE
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import ExtraTreesClassifier

# 创建示例DataFrame
data = {
    'Age': [25, 35, 45, 55],
    'Salary': [50000, 60000, 70000, 80000],
    'City': ['New York', 'San Francisco', 'Los Angeles', 'Chicago'],
    'Purchased': [0, 1, 0, 1]
}
df = pd.DataFrame(data)

# 数据标准化
scaler = StandardScaler()
df[['Age', 'Salary']] = scaler.fit_transform(df[['Age', 'Salary']])

# 独热编码
df = pd.get_dummies(df, columns=['City'])

# 特征选择
X = df.drop(columns=['Purchased'])
y = df['Purchased']

# 确保X是正确的DataFrame或ndarray格式
print("特征矩阵X:")
print(X)

# 过滤法 - 选择K个最佳特征
selector = SelectKBest(score_func=f_classif, k=2)
X_new = selector.fit_transform(X, y)

print("过滤法选择的特征:")
print(X_new)

特征矩阵X:
        Age    Salary  City_Chicago  City_Los Angeles  City_New York  \
0 -1.341641 -1.341641         False             False           True   
1 -0.447214 -0.447214         False             False          False   
2  0.447214  0.447214         False              True          False   
3  1.341641  1.341641          True             False          False   

   City_San Francisco  
0               False  
1                True  
2               False  
3               False  
过滤法选择的特征:
[[True False]
 [False True]
 [False False]
 [False False]]


2. **包裹法**：使用特定模型选择特征。

In [18]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# 创建逻辑回归模型
model = LogisticRegression()

# 递归特征消除
rfe = RFE(model, n_features_to_select=1)
fit = rfe.fit(X, y)

print("特征排名:")
print(fit.ranking_)

特征排名:
[4 1 6 3 5 2]


3. **嵌入法**：基于模型自身的特征重要性选择特征。

In [19]:
from sklearn.ensemble import ExtraTreesClassifier

# 创建一个ExtraTrees分类器
model = ExtraTreesClassifier()
model.fit(X, y)

# 显示特征重要性
print("特征重要性:")
print(model.feature_importances_)

特征重要性:
[0.11166667 0.19666667 0.175      0.16666667 0.115      0.235     ]


#### 1.6.4 特征工程的具体应用示例

综合运用上述方法，对一个示例DataFrame进行特征工程。

In [21]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
from sklearn.feature_selection import SelectKBest, f_classif, RFE
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import ExtraTreesClassifier

# 创建示例DataFrame
data = {
    'Age': [25, 35, 45, 55],
    'Salary': [50000, 60000, 70000, 80000],
    'City': ['New York', 'San Francisco', 'Los Angeles', 'Chicago'],
    'Purchased': [0, 1, 0, 1]
}
df = pd.DataFrame(data)

# 数据标准化
scaler = StandardScaler()
df[['Age', 'Salary']] = scaler.fit_transform(df[['Age', 'Salary']])

print("标准化后的数据:")
print(df)

# 独热编码
df = pd.get_dummies(df, columns=['City'])

print("独热编码后的数据:")
print(df)

# 特征选择
X = df.drop(columns=['Purchased'])
y = df['Purchased']

# 过滤法
selector = SelectKBest(score_func=f_classif, k=3)
X_new = selector.fit_transform(X, y)

print("过滤法选择的特征:")
print(X_new)

# 包裹法
model = LogisticRegression()
rfe = RFE(model, n_features_to_select=1)
fit = rfe.fit(X, y)

print("包裹法特征排名:")
print(fit.ranking_)

# 嵌入法
model = ExtraTreesClassifier()
model.fit(X, y)

print("嵌入法特征重要性:")
print(model.feature_importances_)

标准化后的数据:
        Age    Salary           City  Purchased
0 -1.341641 -1.341641       New York          0
1 -0.447214 -0.447214  San Francisco          1
2  0.447214  0.447214    Los Angeles          0
3  1.341641  1.341641        Chicago          1
独热编码后的数据:
        Age    Salary  Purchased  City_Chicago  City_Los Angeles  \
0 -1.341641 -1.341641          0         False             False   
1 -0.447214 -0.447214          1         False             False   
2  0.447214  0.447214          0         False              True   
3  1.341641  1.341641          1          True             False   

   City_New York  City_San Francisco  
0           True               False  
1          False                True  
2          False               False  
3          False               False  
过滤法选择的特征:
[[False True False]
 [False False True]
 [True False False]
 [False False False]]
包裹法特征排名:
[4 1 6 3 5 2]
嵌入法特征重要性:
[0.13333333 0.15666667 0.15166667 0.205      0.15833333 0.195     ]


通过这些详细的步骤和示例，你可以对数据进行全面的变换和特征工程，以提高模型的性能和分析的准确性。。