## 【例4.1】发现缺失数据的常用方法。

In [1]:
import pandas as pd

df = pd.DataFrame({
       'A': [1, 2, None, 4],
       'B': [5, None, 7, 8],
       'C': [9, 10, 11, 12]
   })
print(df.isnull())

       A      B      C
0  False  False  False
1  False   True  False
2   True  False  False
3  False  False  False


In [2]:
print(df.notnull())

       A      B     C
0   True   True  True
1   True  False  True
2  False   True  True
3   True   True  True


In [3]:
 df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      float64
 1   B       3 non-null      float64
 2   C       4 non-null      int64  
dtypes: float64(2), int64(1)
memory usage: 224.0 bytes


In [4]:
df.describe()

Unnamed: 0,A,B,C
count,3.0,3.0,4.0
mean,2.333333,6.666667,10.5
std,1.527525,1.527525,1.290994
min,1.0,5.0,9.0
25%,1.5,6.0,9.75
50%,2.0,7.0,10.5
75%,3.0,7.5,11.25
max,4.0,8.0,12.0


In [7]:
df_interpolated = df.interpolate()

In [8]:
df_interpolated

Unnamed: 0,A,B,C
0,1.0,5.0,9
1,2.0,6.0,10
2,3.0,7.0,11
3,4.0,8.0,12


【例4.2】以下是使用 pandas 和 scikit-learn 库进行数据清洗，包括处理缺失值、重复值和无效值：

In [1]:
import pandas as pd
from sklearn.impute import SimpleImputer

# 创建示例数据
data = {'姓名': ['张三', '李四', '王五', '赵六', '小明'],
        '年龄': [23, 26, None, 24, 25],
        '性别': ['男', '男', '女', '男', None],
        '成绩': [90, 80, 85, 92, None]}
df = pd.DataFrame(data)


In [2]:
df

Unnamed: 0,姓名,年龄,性别,成绩
0,张三,23.0,男,90.0
1,李四,26.0,男,80.0
2,王五,,女,85.0
3,赵六,24.0,男,92.0
4,小明,25.0,,


In [None]:
df_cleaned = df.dropna()
df['年龄'].fillna(df['年龄'].mean(), inplace=True)
# 用性别列的众数填充性别缺失值
df['性别'].fillna(df['性别'].mode()[0], inplace=True)
# 用成绩列的中位数填充成绩缺失值
df['成绩'].fillna(df['成绩'].median(), inplace=True)


【例4.3】演示对数据的归一化处理。

In [9]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, MaxAbsScaler
import pandas as pd
import numpy as np

# 创建示例数据
data = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                     'B': [10, 20, 30, 40, 50],
                     'C': [100, 200, 300, 400, 500]})
# StandardScaler 将数据进行标准化处理，使得数据的均值为0，方差为1。
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
print("StandardScaler后的数据：\n", scaled_data)
# MinMaxScaler 将数据进行缩放处理，使得数据在指定的范围内。
minmax_scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = minmax_scaler.fit_transform(data)
print("MinMaxScaler后的数据：\n", scaled_data)

# RobustScaler 与StandardScaler类似，但是可以处理异常值。
robust_scaler = RobustScaler()
scaled_data = robust_scaler.fit_transform(data)
print("RobustScaler后的数据：\n", scaled_data)

# MaxAbsScaler 将数据缩放到[-1,1]的范围内，适用于稀疏数据。
maxabs_scaler = MaxAbsScaler()
scaled_data = maxabs_scaler.fit_transform(data)
print("MaxAbsScaler后的数据：\n", scaled_data)


StandardScaler后的数据：
 [[-1.41421356 -1.41421356 -1.41421356]
 [-0.70710678 -0.70710678 -0.70710678]
 [ 0.          0.          0.        ]
 [ 0.70710678  0.70710678  0.70710678]
 [ 1.41421356  1.41421356  1.41421356]]
MinMaxScaler后的数据：
 [[0.   0.   0.  ]
 [0.25 0.25 0.25]
 [0.5  0.5  0.5 ]
 [0.75 0.75 0.75]
 [1.   1.   1.  ]]
RobustScaler后的数据：
 [[-1.  -1.  -1. ]
 [-0.5 -0.5 -0.5]
 [ 0.   0.   0. ]
 [ 0.5  0.5  0.5]
 [ 1.   1.   1. ]]
MaxAbsScaler后的数据：
 [[0.2 0.2 0.2]
 [0.4 0.4 0.4]
 [0.6 0.6 0.6]
 [0.8 0.8 0.8]
 [1.  1.  1. ]]


In [3]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, MaxAbsScaler
import pandas as pd
import numpy as np

# 创建示例数据
data = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                     'B': [10, 20, 30, 40, 50],
                     'C': [100, 200, 300, 400, 500]})
# StandardScaler 将数据进行标准化处理，使得数据的均值为0，方差为1。
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
print("StandardScaler后的数据：\n", scaled_data)
# MinMaxScaler 将数据进行缩放处理，使得数据在指定的范围内。
minmax_scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = minmax_scaler.fit_transform(data)
print("MinMaxScaler后的数据：\n", scaled_data)

# RobustScaler 与StandardScaler类似，但是可以处理异常值。
robust_scaler = RobustScaler()
scaled_data = robust_scaler.fit_transform(data)
print("RobustScaler后的数据：\n", scaled_data)

# MaxAbsScaler 将数据缩放到[-1,1]的范围内，适用于稀疏数据。
maxabs_scaler = MaxAbsScaler()
scaled_data = maxabs_scaler.fit_transform(data)
print("MaxAbsScaler后的数据：\n", scaled_data)


StandardScaler后的数据：
 [[-1.41421356 -1.41421356 -1.41421356]
 [-0.70710678 -0.70710678 -0.70710678]
 [ 0.          0.          0.        ]
 [ 0.70710678  0.70710678  0.70710678]
 [ 1.41421356  1.41421356  1.41421356]]
MinMaxScaler后的数据：
 [[0.   0.   0.  ]
 [0.25 0.25 0.25]
 [0.5  0.5  0.5 ]
 [0.75 0.75 0.75]
 [1.   1.   1.  ]]
RobustScaler后的数据：
 [[-1.  -1.  -1. ]
 [-0.5 -0.5 -0.5]
 [ 0.   0.   0. ]
 [ 0.5  0.5  0.5]
 [ 1.   1.   1. ]]
MaxAbsScaler后的数据：
 [[0.2 0.2 0.2]
 [0.4 0.4 0.4]
 [0.6 0.6 0.6]
 [0.8 0.8 0.8]
 [1.  1.  1. ]]


【例4.5】L1正则化：

In [4]:
from sklearn.preprocessing import Normalizer
import numpy as np

X = np.array([[1, 2, 3], [4000, 500, 600], [79, 877777, 97]])

transformer = Normalizer(norm='l1')
X_normalized = transformer.transform(X)

print(X_normalized)


[[1.66666667e-01 3.33333333e-01 5.00000000e-01]
 [7.84313725e-01 9.80392157e-02 1.17647059e-01]
 [8.99820378e-05 9.99799534e-01 1.10484274e-04]]


【例4.6】L2正则化。

In [5]:
from sklearn.preprocessing import Normalizer
import numpy as np
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

transformer = Normalizer(norm='l2')
X_normalized = transformer.transform(X)

print(X_normalized)


[[0.26726124 0.53452248 0.80178373]
 [0.45584231 0.56980288 0.68376346]
 [0.50257071 0.57436653 0.64616234]]


【例4.7】将['apple', 'banana', 'pear']进行LabelEncoder。

In [6]:
from sklearn.preprocessing import LabelEncoder
# 创建 LabelEncoder 对象
le = LabelEncoder()

# 定义标签列表
labels = ['apple', 'banana', 'pear']

# 使用 LabelEncoder 对标签进行编码
encoded_labels = le.fit_transform(labels)
# 输出编码结果
print(encoded_labels)


[0 1 2]
